专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

Transformer再胜Diffusion!谷歌文本图像生

  编辑:LRS【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer!
  最近谷歌又发布了全新的文本图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。
  论文链接:https:arxiv。orgpdf2301。00704。pdf
  项目链接:https:musemodel。github。io
  Muse以maskedmodeling任务在离散token空间上进行训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse的训练过程就是预测随机masked掉的图像token。
  与像素空间的扩散模型(如Imagen和DALLE2)相比,由于Muse使用了离散的token,只需要较少的采样迭代,所以效率得到了明显提高;
  与自回归模型(如Parti)相比,由于Muse使用了并行解码,所以效率更高。
  使用预训练好的LLM可以实现细粒度的语言理解,从而转化为高保真的图像生成和对视觉概念的理解,如物体、空间关系、姿态、cardinality等。
  在实验结果中,只有900M参数的Muse模型在CC3M上实现了新的SOTA性能,FID分数为6。06。
  Muse3B参数模型在zeroshotCOCO评估中实现了7。88的FID,同时还有0。32的CLIP得分。
  Muse还可以在不对模型进行微调或反转(invert)直接实现一些图像编辑应用:修复(inpainting)、扩展(outpainting)和无遮罩编辑(maskfreeediting)。
  Muse模型
  Muse模型的框架包含多个组件,训练pipeline由T5XXL预训练文本编码器,基础模型(basemodel)和超分辨率模型组成。
  1。预训练文本编码器
  与之前研究中得出的结论类似,研究人员发现利用预训练的大型语言模型(LLM)有利于提升高质量图像的生成结果。
  比如从语言模型T5XXL中提取的嵌入(embedding)带有关于物体(名词)、行动(动词)、视觉属性(形容词)、空间关系(介词)以及其他属性(如卡片性和组成)的丰富信息。
  所以研究人员提出假设(hypothesis):Muse模型学会将LLM嵌入中的这些丰富的视觉和语义概念映射到生成的图像上。
  最近也有一些工作已经证明了,由LLM学习到的概念表征与由视觉任务训练的模型学习的概念表征大致上是可以线性映射的。
  给定一个输入的文本标题,将其传递给冻结参数的T5XXL编码器,可以得到一个4096维的语言嵌入向量,然后将这些向量线性地投射到Transformer模型(base和超分辨率)的hiddensize维度上。
  2。使用VQGAN进行SemanticTokenization
  VQGAN模型由一个编码器和一个解码器组成,其中的量化层(quantizationlayer)将输入图像映射成来自一个学习过的codebook的token序列。
  然后完全用卷积层建立编码器和解码器,以支持对不同分辨率的图像进行编码。
  编码器中包括几个下采样块来减少输入的空间维度,而解码器中则是有相应数量的上采样块来将latents映射回原始图像大小。
  研究人员训练了两个VQGAN模型:一个是下采样率f16,模型在256256像素的图像上获得基本模型的标记,从而得到空间尺寸为1616的标记;另一个是下采样率f8,在512512的图像上获得超分辨率模型的token,相应的的空间尺寸为6464。
  编码后得到的离散token可以捕捉图像的高层次语义,同时也可以消除低层次的噪声,并且根据token的离散性可以在输出端使用交叉熵损失来预测下一阶段的maskedtoken
  3。BaseModel
  Muse的基础模型是一个maskedTransformer,其中输入是映射的T5嵌入和图像token。
  研究人员将所有的文本嵌入设置为unmasked,随机mask掉一部分不同的图像token后,用一个特殊的〔MASK〕标记来代替原token。
  然后将图像token线性地映射到所需的Transformer输入或hiddensize维度的图像输入embedding中,并同时学习2Dpositionembedding
  和原始的Transformer架构一样,包括几个transformer层,使用自注意块、交叉注意力块和MLP块来提取特征。
  在输出层,使用一个MLP将每个masked图像嵌入转换为一组logits(对应于VQGANcodebook的大小),并以groundtruth的token为目标使用交叉熵损失。
  在训练阶段,基础模型的训练目标为预测每一步的所有mskedtokens;但在推理阶段,mask预测是以迭代的方式进行的,这种方式可以极大提高质量。
  4。超分辨率模型
  研究人员发现,直接预测512512分辨率的图像会导致模型专注于低层次的细节而非高层次的语义。
  使用级联模型(cascadeofmodels)则可以改善这种情况:
  首先使用一个生成1616latentmap(对应256256的图像)的基础模型;然后是一个超分辨率模型,将基础latentmap上采样为6464(对应512512的图像)。其中超分辨率模型是在基础模型训练完成后再进行训练的。
  如前所述,研究人员总共训练了两个VQGAN模型,一个是1616潜分辨率和256256空间分辨率,另一个是6464潜伏分辨率和512512空间分辨率。
  由于基础模型输出对应于1616latentmap的token,所以超分辨率模块学会了将低分辨率的latentmap翻译成高分辨率的latentmap,然后通过高分辨率的VQGAN解码,得到最终的高分辨率图像;该翻译模型也是以类似于基础模型的方式进行textconditioning和交叉注意力的训练。
  5。解码器微调
  为了进一步提高模型生成细节的能力,研究人员选择通过增加VQGAN解码器的容量,添加更多的残差层(residuallayer)和通道的同时保持编码器的容量不变。
  然后对新的解码器进行微调,同时保持VQGAN编码器的权重、codebook和Transformers(即基础模型和超分辨率模型)不变。这种方式能够提高生成图像的视觉质量,而不需要重新训练任何其他的模型组件(因为视觉token保持固定)。
  可以看到,经过微调的解码器以重建更多更清晰的细节。
  6。可变掩码率(MaskingRate)
  研究人员使用基于Csoinescheduling的可变掩码率来训练模型:对于每个训练例子,从截断的arccos分布中抽出一个掩码率r〔0,1〕,其密度函数如下。
  掩码率的期望值为0。64,也就是说更偏向于选择更高的掩码率,使得预测问题更加困难。
  随机的掩码率不仅对并行采样方案至关重要,而且还能实现一些零散的、开箱即用的编辑功能。
  7。ClassifierFreeGuidance(CFG)
  研究人员采用无分类指导(CFG)来提高图像的生成质量和文本图像对齐。
  在训练时,在随机选择的10的样本上去除文本条件,注意力机制降为图像token本身的自注意力。
  在推理阶段,为每个被mask的token计算一个条件logitlc和一个无条件logitlu,然后通过从无条件logit中移出一个量t作为指导尺度,形成最终的logitlg:
  直观来看,CFG是以多样性换取保真度,但与以前方法不同的是,Muse通过采样过程线性地增加指导尺度t来减少多样性的损失,使得earlytoken可以在低引导或无引导的情况下更自由地被取样,不过也增加了对latertokens条件提示的影响。
  研究人员还利用这一机制,通过将无条件的logitlu替换为以negativeprompt为条件的logit,促进了生成图像具有与postiveprompt相关的特征。
  8。推理时迭代并行解码
  在提升模型推理时间效率的一个关键部分是使用并行解码来预测单个前向通道中的多个输出token,其中一个关键假设是马尔科夫属性,即许多token是有条件地独立于给定的其他token的。
  其中解码是根据cosineschedule进行的,选择固定比例中最高置信度的掩码进行预测,其中token在剩余的步中被设定为unmasked,并且适当减少maskedtokens。
  根据上述过程,就可以在基本模型中只用24个解码步(step)实现对256个token的推理,在超分辨率模型中用8个解码步对4096个token进行推理,相比之下,自回归模型需要256或4096步,扩散模型需要数百步。
  虽然最近的一些研究包括progressivedistillation、betterODEsolver大大减少了扩散模型的采样步骤,但这些方法还没有在大规模的文本到图像生成中得到广泛验证。
  实验结果
  研究人员以不同的参数量(从600M到3B),基于T5XXL训练了一系列基础Transformer模型。
  生成图像的质量
  实验中测试了Muse模型对于不同属性的文本提示的能力,包括对cardinality的基本理解,对于非单数的物体,Muse并没有多次生成相同的物体像素,而是增加了上下文的变化,使整个图像更加真实。
  例如,大象的大小和方向、酒瓶包装纸的颜色以及网球的旋转等等。
  定量比较
  研究人员在CC3M和COCO数据集上与其他研究方法进行了实验对比,指标包括衡量样本质量和多样性的FrechetInceptionDistance(FID),以及衡量图像文本对齐的CLIP得分。
  实验结果证明了632M的Muse模型在CC3M上取得了SOTA结果,在FID得分方面得到了改善,同时也取得了最先进的CLIP得分。
  在MSCOCO数据集上,3B模型取得了7。88分的FID得分,略好于相似参数量的Parti3B模型取得的8。1分。
  参考资料:
  https:arxiv。orgpdf2301。00704。pdf

故乡山川II夕阳下,漫步河边森林马西良几天的连续阴雨,时下时停,让人闷闷不悦,也许这正是初冬的天气特征。下午天气放晴,气温有些回暖,傍晚趁阳光灿烂到荆河边转转,散散步,感受秋日傍晚的风景。风,仿佛很轻了,树枝倔强1937年从西安前往平凉所见,骑驴的新娘,破败的古墓和高耸的宝塔1937年,在中国西北传道的美国牧师霍尔顿卡特(中文名海映光)乘坐汽车从西安出发,前往甘肃兰州。他一路走,一路拍摄,用相机记录下了沿途所见的景象。本组图片反映的是他从西安到平凉的一江苏盐城藏着一个安逸县城,为了吃都值得去一趟!知道的人太少舌尖上的射阳,来了不想走。江苏省盐城市射阳县,第一次去便发现,这是一座为了美食就可以来一次的城市。射阳的特色美食,是真的多。野生黄泥螺鮟鱇鱼梭子蟹蟹豆腐铁板八爪鱼推浪鱼等特色海鲜让新疆沙漠出现一张狐狸脸!网友不敢对视夕阳薰细草,江色映疏帘。新疆没有海,却处处有海,潮起潮灭,万物轮回,新的生活,拉开帷幕。巴楚的红海不仅有胡杨,更有堪比海边的落日盛宴。红海的落日,在岸边吹着晚风,欣赏晚霞,晚风吹拂又挖到一个包邮区小县城,很美很低调文丨九元里美浙江小县城系列其实早就写过不少,当我以为都已经被挖得差不多的时候,突然发现我们竟然漏了有一座人文和自然风光双优的小城。论人文,这座有着中国廊桥之乡美誉的小城里保存完好的18线小县城从确定怀孕到生产费用计算了老婆从确定怀孕到生下宝宝所有的费用,总花费6200多,对于月工资只有3200,并且每月还要还1800房贷的我来说,的确不是个小数目。以下是花费表格,记录了每一笔花销详细花费刚裁撤东南亚业务,京东断尾求生裁撤东南亚业务,京东国际开启大调整京东的大调整还是来了。近日,京东国际业务要大调整的消息在内部传开。消息表示,京东国际将裁撤东南亚业务线,主要是印尼和泰国,现在正处于业务收尾阶段。宁王亲自出手,资本围猎锂矿进行时来源鸿途FLY(IDhongtufly)作者李亦辉编辑深海天价锂矿争夺战再度升级,宁王亲自出手了。全国企业破产重整案件信息网显示,11月28日,雅江县斯诺威矿业发展有限公司(下称斯港股收评恒指涨2。1611月涨26。62创1998年10月以来最大单月涨幅餐饮旅游股尾盘大幅拉升11月30日港股大涨,截至收盘,港股恒生指数涨2。16,报18597。23点,恒生科技指数涨2。77,报3798。19点,国企指数涨2。21,报6374。44点,红筹指数涨1。73天元房地产新法速递与资讯案例观察(2022年第17期)法律法规及政策一央行银保监丨保持房地产融资合理适度,促进房地产市场平稳健康发展二银保监丨保函可置换预售监管资金中竣工交付所需的资金额度的30三发改委丨加大力度支持民间投资发展四住建国补退出或将加剧新能源车市竞争本报记者夏金彪延续了13年之久的国家新能源汽车财政补贴政策(以下简称国补),再过一个月,就将正式退出历史舞台。围绕国补退出这一节点,新能源车企的市场争夺战已经展开。近日,新能源龙头
这4款流行且实穿的裤子,秋季很值得入手嗨,各位小仙女们,大家好呀!你喜欢穿裙装,还是裤子呢?到了换季,又是避免不了买买买。如果你跟Lily一样,都是钟情于裤装的女性们,那么下面这4款流行且实穿的裤子,可不能少了,秋季很女人的美,靠美容能留住吗?今天,想聊聊女人的美,究竟靠什么能保住?网上很流行的一句话,美不是唯一成功的途径,但是丑可以毁掉你很多条路。爱美是人的天性,人人都想留住年轻美丽的容貌。前几天,好长时间不聚的几家朋讲真,这才是西装正确穿法,也太好看了嗨,各位小仙女们,大家好呀!进入到秋季,外套可是衣橱里不可缺少的,像这么一件既不失干练气质,又很好搭的单品,各个年龄段的女性都可以驾驭!关于西装的穿法,相信花样还是很多的,但是,想日本主妇告诉你女人上了年纪,衣要长发要短,美得优雅又端庄实在太佩服日本主妇们的修养了!她们的年龄永远是个迷,她们的生活方式也活成了所有大多数女性最理想的样子。看到日本主妇,才知道原来生活可以这么惬意,大龄岁月也能这么优雅迷人一女人优雅端王者荣耀干将专精装被削,冷门扁鹊被加强,钟无艳皮肤成绝版王者荣耀体验服版本更新之后,不少玩家感慨,之前因为专精装大火一把的干将被削弱了,而最近几个赛季比较冷门的扁鹊,却迎来了一波加强,看来这个版本还会有新的版本之神出现。这一次测试服一共有点帅!王者荣耀橘右京首款限定皮肤今日上线近日,王者荣耀官方正式爆料了橘右京新皮肤枫霜尽的游戏特效画面,帅气的人物造型也吸引了不少游戏玩家的关注。8月25日,王者荣耀宣布正式推出这款新皮肤。作为传说级别限定皮肤。该皮肤将于20岁过后,晚间认真护肤,是为了让皮肤回归水嫩20岁的时候,其实我的皮肤状态就很差了,一点也不像刚20出头的样子,长痘黑头甚至还有皱纹,一开始面对细纹我会非常在意纠结。这些年来我也一直体验过各种各种的产品,我的护肤理念也在慢慢空心菜下锅就发黑,正确做法你没弄懂,只需掌握1招,翠绿又脆嫩空心菜下锅就发黑,正确做法你没弄懂,只需掌握1招,翠绿又脆嫩空心菜,是一种很美味,很受欢迎的青菜,不过进入秋天之后,对于能不能吃空心菜的争议,就非常大了。有人说不能吃,因为这是寒性这4种父母最容易把孩子养成仇人,来看看你的教育方式正确吗我用尽全力,尽心尽力的,却把孩子养成了仇人。身为父母,最痛心的莫过于亲口说出这句话。可在养育孩子的路上,却有四类父母无形中亲手将孩子推到了对立面。他们虽然以爱为名,却将孩子越推越远精华液推荐这些精华液坚持使用,让你的皮肤会变得非常水润嫩滑精华液推荐这些精华液坚持使用,能让你的皮肤会变得非常水润嫩滑!雪花秀润燥精华雪花秀的明星款,主打去黄和深度调理。打开就能闻到一股很舒服的中药味,按出来是琥珀色的凝露状,看似醇厚,实腌萝卜,用盐杀水是外行做法,酒店大厨教你妙招,萝卜脆爽真开胃腌萝卜,用盐杀水是外行做法,酒店大厨教你妙招,萝卜脆爽真开胃前段时间刚入伏的时候,还没感觉出来啥,我还跟朋友说,今年感觉也没有那么难熬,不是特别热。结果这还没过几天,就打脸了,温度
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网