专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

解密!刷屏朋友圈的QQ小世界二次元生成器原理

  作者:yichaozhou,腾讯PCG应用研究员
  只需要上传一张照片,一键即可穿越二次元。火遍国内外的QQ小世界二次元生成器异次元的我背后原理解密。1项目介绍
  今年是人工智能领域成果井喷的一年,前有AI画画后有chatGPT,纷纷迅速走红网络。早在今年五月,QQ影像中心推出的国内第一款基于AI画画技术的AI恋爱专属画520活动就在小世界走红,最近新推出的异次元的我二次元形象生成器更是火遍国内外。
  你可以看到罗翔老师一键变身霸道总裁:
  甚至能看到KFC官推亲自打破次元壁:
  各类梗图更是层出不穷:
  在二次元滤镜下,就连这张经典的女人吼猫都透露出一丝温馨,竟然都有点可爱了呢。
  这一切都是怎么做到的呢,本文带你揭秘异次元的我背后的原理和技术细节。2原理简介2。1。图像生成模型
  近年来,扩散模型(DiffusionModel)在图像生成领域中蓬勃发展,例如OpenAI的GLIDE和Google的Imgen,都采用了基于扩散模型的pipeline来获得高质量的图像生成结果。
  扩散模型分为两个过程。如下图所示,右边是一张正常的图片。从右到左的ForwardDiffusion是一个逐步地将正态分布的噪声叠加到图片上的过程,最终得到一张看起来完全是噪声的图片。可以不严谨地想象成往一块牛排上不断撒椒盐,直到它看起来完全被椒盐覆盖,看不清原来的纹路。
  而从左到右的ReverseDiffusion则是一步步去除噪声,试图还原图片,这就是扩散的生成数据过程。而扩散模型的训练就是在学习预测叠加在xt上的噪声,从而得到去噪后xt1的图片,经过一轮又一轮的去噪,得到最终无噪声的输出图X0。
  而最新的StableDiffusion模型,则是在此基础上结合了一个训练好的VAE模型。VAE模型可以对任意图片进行压缩再解压,将图片使用VAE的编码器压缩后能得到比原图小很多的特征编码,再基于特征编码训练扩散模型,最终生成的特征编码再使用VAE的解码器还原回原始尺寸的大图,这就是StableDiffision的做法。这一改进大大减少了图像生成的时长和占用的GPU资源,使得落地成为可能。2。2。生成结果控制
  为了能够使用文字控制模型生成的内容,StableDiffusion模型使用了预训练的CLIP模型来引导生成结果。CLIP模型使用了大量的文字和图片对训练,能够衡量任意图片和文本之间的相关性,即CLIPscore。在前向生成图片的过程中,模型除了要去噪以外,还需要让去噪后的图片和引导词的CLIPscore尽量大。这样在不断生成过程中,输出结果就会越来越接近我们给定的文字描述。
  在上图中,左下角的小朋友的脸先被叠加了一定程度的噪声。之后在去噪过程中,会不断拉近生成结果图和awomanwearingglasses的距离,从而使得生成结果逐渐变成了戴眼镜的成年女性。生成图片依然能够保留原始图片的大致结构,但是细节却在文字的引导下发生了变化。3我们的技术方案
  StableDiffusion技术在AI画画尤其是二次元领域中展现出非常高的观赏性和娱乐性,各家纷纷推出基于StableDiffusion的AI画画平台,如draft。art、意间AI等。但当时现有的平台在使用上非常不便捷,如果直接生成,大概率生成的质量不会很高,还容易遇到翻车现场:
  如果用户想要生成比较好的结果,需要对图片内容进行详尽的描述,并增加很多提升效果和强化风格的词,才能得到一个比较理想的效果。而且界面可调的参数非常多,用户使用门槛很高。另一方面,对于资源的消耗导致这些平台通常需要排队非常久才能拿到一张结果。
  我们针对这些痛点进行了优化改造,用户只需要上传一张图片,即可得到好看稳定的生成效果,降低了使用门槛的同时也保证了生成质量。
  在技术上,我们主要进行了以下几点优化:准确的内容生成:通过自研diffusion模型对生成语义进行强化,并辅助图片内容分析提升生成内容对应性;更快的生成速度:利用超分模型减少difussion模型的生成分辨率,并针对图像inference过程进行加速,提升生成速度,节约GPU资源;多样的风格选择:针对不同的场景设计了丰富且美观的风格化效果。
  另外我们在设计玩法时简化了用户的使用流程,让用户使用门槛更低,体验更好,通过口碑积累达到了峰值1000的二次传播率。3。1。准确的内容生成
  之前的一些AI画画平台,如意间AI,draftart等,除了上传图片,还需要使用一系列的描述主体和风格的引导词(prompt),有时候还需要调整不同参数,来得到一个理想的结果。
  为了降低用户的使用门槛,我们对pipeline进行了改进:
  我们将输入模型的提示词分为两个部分图片主体内容描述和风格描述。
  内容描述:为了得到图片的内容描述,我们对输入图中的信息进行人物性别、年龄、姿势等属性的检测,得到最终尽可能准确详尽的内容描述词。
  风格描述:为了让结果更接近二次元,我们为各种不同场景设计了非常鲜明的二次元风格。根据第一步对图片内容进行分析后,进一步细分为单人男性、单人女性、多人等不同场景。
  结合内容描述和风格描述,我们通过对原图的分析得到最终完整的提示词输入网络,从而能够稳定生成画面精致、风格突出的结果。既保证了生成内容和原图的对应性,又增添了很多异次元要素,让用户更有穿越到二次元的感觉,同时也保证了较高的生成质量。
  另一方面,我们的自研diffusion模型针对语义理解进行了强化,能够更准确理解和生成图片的主体内容,在语义信息理解和图像生成质量上均有明显提升。
  和近期推出相似玩法的竞品对比,我们在内容准确度上会更好,风格也更加二次元化,更美观:
  3。2。更快的生成速度
  原始的StableDiffusion由于需要通过多次迭代生成图片,在默认配置A100机器上生成一张720p的图像耗时约12s。如果需要通过提升分辨率和增大迭代步数来提升效果,耗时更是需要多达一分钟。我们针对自研模型采取了一系列的模型压缩和工程加速的方案,最终一张图片的生成速度是1。6s,提升了7倍。3。3。多样的风格选择
  我们提供了各种丰富且贴近二次元的画风供不同场景使用:
  不同的风格对不同场景的适配度更高,添加的非日常元素给人带来的惊喜感也较强。从用户反馈来看我们的风格和图片生成质量都得到了较高的评价。
  今后还会有更多风格正在陆续推出,敬请期待!3。4。简易的使用流程
  当前的活动链路如下:
  可以在QQ搜索免费画画或点击链接体验:QQ小世界AI画匠。
  用户不需要输入复杂的风格和内容描述,只需要一张图片即可直接参与活动。一方面引导用户保存带有活动二维码的结果图片,帮助活动的二次传播;另一方面同时生成精美的展示视频,鼓励用户将其发布到小世界,带动小世界的发布量。
  本次活动受到用户的积极参与,小世界异次元的我话题内,投稿突破百万,浏览量上亿;同时在QQ外部的其他平台如微博、小红书、推特等,也有非常多用户参与。4结语
  总结这次活动爆火背后的核心原因:提供了稳定且美观的生成效果;简化AI画画的生成过程,降低用户使用门槛;玩法的趣味性强,用户参与性高,二次传播率高导致破圈
  根据目前用户反馈,用户对新兴玩法的参与度和兴趣都很高。因此,我们之后还会不断挖掘和探索更加有趣的新玩法,以帮助用户第一时间享受到新技术的乐趣,协助用户创作出有趣的内容。
  这次项目得以迅速落地,一方面归功于算法团队在算法研发上已有积累,能够提供足够美观稳定的效果,另一方面小世界早在五月开始,每个月都会推出AICG相关的活动,在这方面有丰富的经验,使得运营产品算法后台能快速联动。
  QQ影像中心一直在持续投入自研基础大模型的研发,目前的语义表达和美学效果明显优于StableDiffusion,例如对于一只戴着牛仔帽和黑色皮夹克的浣熊在后院的窗户后面,窗户上有雨滴这样复杂的语句,我们和StableDiffusion的生成结果对比:
  可以明显看出在语义信息理解和图像生成质量上均有提升。

香港发布新的资本投资者入境计划,投资范畴考虑包含以人民币计价的资产3月24日,香港财经事务及库务局发布有关香港发展家族办公室业务的政策宣言,并宣布多项政策措施,包括新的资本投资者入境计划提供税务宽减等。据悉,新的资本投资者入境计划以原有的资本投资香港艺人集体赴中山打高尔夫,任达华罕露脸,被曝有意在当地买房疫情之前,内地已经成为了很多港星发展的大本营,疫情之后,依然有很多艺人前往内地发展,当时为了方便工作,不少香港艺人干脆就在内地买房置业,把家搬到内地。如今疫情管控松绑,往返内地香港一位老党员的身后选择最后为国家做一次贡献2023年3月21日,97岁高龄的抗战老兵姬记宽老人走完了他的一生,家属子女遵照老人的生前遗愿最后为国家做一次贡献,将遗体通过大同市红十字会捐献给大同大学医学院校用于医学教学研究。上班摸鱼下班浪的5款性价比数码产品都有谁?春天来了,躁动内心已经势不可挡的想出去浪了!整理行李箱的时候才发现需要带的东西真不少,想要轻便那就删繁就简,最需要的就跟我走吧!一文石BOOXLeaf27英寸电子书阅读器什么?出去河南人喝酒必点的4道下酒菜,清爽可口又解腻,你都吃过这些菜吗提起河南人,第一为人熟知的就是悠久的历史和人文,而河南的酒文化更是全国有名,尤其是外地人,只要和河南人坐在酒桌上,就知道一是一场持久战。河南人对酒的热爱和尊崇,放眼全国也无可匹敌,10类人群可免门票菏泽曹州牡丹园公布2023年门票及演出价格表大众网海报新闻记者周琛菏泽报道3月22日,菏泽曹州牡丹园对外公布了2023年花期入园门票及观看演出价格表,其中包括2023年花期期间全价门票半价门票团购门票大型水上演出票。大众网海OPPO手机推荐全是高性能性价比机型,口碑很不错,低至1599元如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。今天分享OPPO手机推荐全是高性能性价比机型,口碑很不错,低至1599元第一款真我Q5pro参考价格1599元(ai学画画效果怎么样?AI能用来做配音吗?AI学画画效果近年来,人工智能在各行各业中的应用越来越广泛。其中,AI学画画的技术也引起了人们的关注。众所周知,绘画需要极高的技巧和灵感,但有了AI的帮助,画家们的创作将更加轻松和为了方便享乐,古代皇帝发明的三大方法,看看哪个最奇葩?古代皇帝往往可以分为三大类,一类昏君一类明君一类守成之君。昏君遭人唾弃明君受人敬仰,守成之君,则基本没什么人能记得住。可无论是哪一种君王,都必定会面临一件事情宠信后宫。接下来就不妨50岁以上的人想长寿,吃得好不如吃得对,这5点建议你收藏点击右上方红色关注,及时获取我们为您推送的健康资讯我们都知道运动和饮食是影响长寿的两个必不可少的因素,但对于身体状况逐渐恶化体力大不如前的中老年人来说,过分强调运动而忽视了每天的饮PNY推出RTX4070TiVerto白色版显卡哑光白色,无RGB灯,三槽厚度PNY宣布,推出GeForceRTX4070TiVerto白色版显卡(型号为VCG4070T12TFWXPB1)。与之前的黑色版本一样,都采用了三风扇散热设计,有着相同的散热模块,
斗罗大陆唐三硬抗四大封号斗罗攻击,海神再度降临,比比东战败星斗大森林大战即将落下帷幕,在鬼斗罗灵鸢斗罗战死之后,唐三一人面对五位强者。硬抗四位封号斗罗的攻击,还能活下来已经不容易。不过最为艰难的还是面对比比东,这位99级绝世斗罗,就算海神女子吃降压药7年,发生肾衰竭!医生她犯了2大错误,需反思湖南的蒋阿姨今年53岁了,平时爱好跳跳广场舞,除了自己7年前确诊得了高血压之外,身体一向没有别的问题。最近,蒋阿姨总是容易感觉到疲惫乏力。她休息了一阵子之后,也调整不过来。在家人的韩国30架F15大象漫步,炫耀军力目的明确,半岛对手导弹一发入魂韩国的防务领域对美国有着严重的依赖,目前在韩军部队中所使用的绝大部分战机都是由美国制造的,尽管韩国目前正在积极防务的自主化,并且拿出了多款国产战机,但是韩军部队中的这些国产战机是无托卡耶夫宪法改革的最终目的第二共和国2019年3月托卡耶夫从首任总统纳扎尔巴耶夫手中接过总统职务后,开始民主化和自由化改革。众多改革思想和措施集中体现在他发表的国情咨文和提出的宪法改革建议中。所有改革措施完胡锡进大陆一旦攻台,将倾泻成千上万枚炸弹,摧毁台湾整个防御拜登访日又摊上事了,想要军事介入台海,最终的结果还是口嗨。又是熟悉的剧本,又是熟悉的辟谣。近日,美国总统拜登在访问日本的过程中,对外表示,如果大陆方面武统台湾的话,美国不会袖手旁观专家不建议多用空气炸锅?专家回应没有接受采访,请删帖道歉5月24日,由某媒体发起的微博话题专家不建议多用空气炸锅冲上热搜,一度引发网民热议。截至发稿时,该话题阅读量已经超过6亿,讨论次数5。3万。5月25日,在报道中据称声音出镜的中国农央广网评人教社回应教材插图争议优化设计须重视大众意见近日,有网友发文吐槽人教版小学四年级数学下册课本封面设计,认为封面中的女生头发稀疏得就像秃了一样,总体形象太丑。该文引发网友关注与讨论,有人觉得确实不好看,有人怀念以前的课本封面。这十六种中成药,医生护士私下都在用,建议收藏,有备无患1肚子咕噜咕噜响,放屁不断味道还挺重有备无患保和颗粒(消食,导滞,和胃。用于食积停滞,脘腹胀满,嗳腐吞酸,不欲饮食)2嘴巴味道大,吃东西卡牙缝挑出来都是腐臭的味道有备无患藿香清胃胶建议中老年人少吃苦瓜和西瓜,多吃这5样,身体有劲精神好人一旦上了年纪,饮食就要格外注意。夏天温度高,身体内的水分及营养物质,会随着排汗而快速流失。这个时候除了要,补充水分外,还要多补充一些人体所需的钙蛋白质和维生素。建议中老年人夏天少经典案件2015年武汉一桩妻子外遇引发的家庭悲剧不知道从什么时候起,深夜加班提前回家的丈夫总能意外撞破被翻红浪的妻子,武汉的熊先生也没能避免这个魔咒。2015年7月的一个晚上,熊先生因为工作原因,不得不在公司加班,晚上他告知了妻大力培育专精特新企业近年来,我国不断加大专精特新企业培育力度,推动专精特新企业在产业基础领域补短板锻长板,取得明显成效。专精特新企业是增强经济韧性提升产业链供应链现代化水平的关键主体,也是激发创新活力
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网