Transformer再胜Diffusion！谷歌文本图像生成模型效率提升十倍

　　编辑：LRS  【新智元导读】谷歌带着更强大的图像生成模型来了，依然Transformer！
　　最近谷歌又发布了全新的文本-图像生成Muse模型 ，没有采用当下大火的扩散（diffusion）模型，而是采用了经典的Transformer模型 就实现了最先进的图像生成性能，相比扩散或自回归（autoregressive）模型，Muse模型的效率也提升非常多。
　　论文链接：https://arxiv.org/pdf/2301.00704.pdf
　　项目链接：https://muse-model.github.io/
　　Muse以masked modeling任务在离散token空间上进行训练：给定从预训练的大型语言模型（LLM）中提取的文本嵌入，Muse的训练过程就是预测随机masked掉的图像token。
　　与像素空间的扩散模型（如Imagen和DALL-E 2）相比，由于Muse使用了离散的token，只需要较少的采样迭代，所以效率得到了明显提高；
　　与自回归模型（如Parti）相比，由于Muse使用了并行解码，所以效率更高。
　　使用预训练好的LLM可以实现细粒度的语言理解，从而转化为高保真的图像生成和对视觉概念的理解，如物体、空间关系、姿态、cardinality等。
　　在实验结果中，只有900M参数的Muse模型在CC3M上实现了新的SOTA性能，FID分数为6.06。
　　Muse 3B参数模型在zero-shot COCO评估中实现了7.88的FID，同时还有0.32的CLIP得分。
　　Muse还可以在不对模型进行微调或反转（invert）直接实现一些图像编辑应用：修复（inpainting）、扩展（outpainting）和无遮罩编辑（mask-free editing）。
　　Muse模型
　　Muse模型的框架包含多个组件，训练pipeline由T5-XXL预训练文本编码器，基础模型（base model）和超分辨率模型组成。
　　1. 预训练文本编码器
　　与之前研究中得出的结论类似，研究人员发现利用预训练的大型语言模型（LLM）有利于提升高质量图像的生成结果。
　　比如从语言模型T5-XXL中提取的嵌入（embedding）带有关于物体（名词）、行动（动词）、视觉属性（形容词）、空间关系（介词）以及其他属性（如卡片性和组成）的丰富信息。
　　所以研究人员提出假设（hypothesis）：Muse模型学会将LLM嵌入中的这些丰富的视觉和语义概念映射到生成的图像上。
　　最近也有一些工作已经证明了，由LLM学习到的概念表征与由视觉任务训练的模型学习的概念表征大致上是可以「线性映射」的。
　　给定一个输入的文本标题，将其传递给冻结参数的T5-XXL编码器，可以得到一个4096维的语言嵌入向量，然后将这些向量线性地投射到Transformer模型（base和超分辨率）的hidden size维度上。
　　2. 使用VQGAN进行Semantic Tokenization
　　VQGAN模型由一个编码器和一个解码器组成，其中的量化层（quantization layer）将输入图像映射成来自一个学习过的codebook的token序列。
　　然后完全用卷积层建立编码器和解码器，以支持对不同分辨率的图像进行编码。
　　编码器中包括几个下采样块来减少输入的空间维度，而解码器中则是有相应数量的上采样块来将latents映射回原始图像大小。
　　研究人员训练了两个VQGAN模型：一个是下采样率f=16，模型在256×256像素的图像上获得基本模型的标记，从而得到空间尺寸为16×16的标记；另一个是下采样率f=8，在512×512的图像上获得超分辨率模型的token，相应的的空间尺寸为64×64。
　　编码后得到的离散token可以捕捉图像的高层次语义，同时也可以消除低层次的噪声，并且根据token的离散性可以在输出端使用交叉熵损失来预测下一阶段的masked token
　　3. Base Model
　　Muse的基础模型是一个masked Transformer，其中输入是映射的T5嵌入和图像token.
　　研究人员将所有的文本嵌入设置为unmasked，随机mask掉一部分不同的图像token后，用一个特殊的[MASK]标记来代替原token.
　　然后将图像token线性地映射到所需的Transformer输入或hidden size维度的图像输入embedding中，并同时学习2D position embedding
　　和原始的Transformer架构一样，包括几个transformer层，使用自注意块、交叉注意力块和MLP块来提取特征。
　　在输出层，使用一个MLP将每个masked图像嵌入转换为一组logits（对应于VQGAN codebook的大小），并以ground truth的token为目标使用交叉熵损失。
　　在训练阶段，基础模型的训练目标为预测每一步的所有msked tokens；但在推理阶段，mask预测是以迭代的方式进行的，这种方式可以极大提高质量。
　　4. 超分辨率模型
　　研究人员发现，直接预测512×512分辨率的图像会导致模型专注于低层次的细节而非高层次的语义。
　　使用级联模型（cascade of models）则可以改善这种情况：
　　首先使用一个生成16×16 latent map（对应256×256的图像）的基础模型；然后是一个超分辨率模型，将基础latent map上采样为64×64（对应512×512的图像）。其中超分辨率模型是在基础模型训练完成后再进行训练的。
　　如前所述，研究人员总共训练了两个VQGAN模型，一个是16×16潜分辨率和256×256空间分辨率，另一个是64×64潜伏分辨率和512×512空间分辨率。
　　由于基础模型输出对应于16×16 latent map的token，所以超分辨率模块学会了将低分辨率的latent map 「翻译」成高分辨率的latent map，然后通过高分辨率的VQGAN解码，得到最终的高分辨率图像；该翻译模型也是以类似于基础模型的方式进行text conditioning和交叉注意力的训练。
　　5. 解码器微调
　　为了进一步提高模型生成细节的能力，研究人员选择通过增加VQGAN解码器的容量，添加更多的残差层（residual layer)和通道的同时保持编码器的容量不变。
　　然后对新的解码器进行微调，同时保持VQGAN编码器的权重、codebook和Transformers（即基础模型和超分辨率模型）不变。这种方式能够提高生成图像的视觉质量，而不需要重新训练任何其他的模型组件（因为视觉token保持固定）。
　　可以看到，经过微调的解码器以重建更多更清晰的细节。
　　6. 可变掩码率(Masking Rate)
　　研究人员使用基于Csoine scheduling的可变掩码率来训练模型：对于每个训练例子，从截断的arccos分布中抽出一个掩码率r∈[0，1]，其密度函数如下.
　　掩码率的期望值为0.64，也就是说更偏向于选择更高的掩码率，使得预测问题更加困难。
　　随机的掩码率不仅对并行采样方案至关重要，而且还能实现一些零散的、开箱即用的编辑功能。
　　7. Classifier Free Guidance（CFG）
　　研究人员采用无分类指导（CFG）来提高图像的生成质量和文本-图像对齐。
　　在训练时，在随机选择的10%的样本上去除文本条件，注意力机制降为图像token本身的自注意力。
　　在推理阶段，为每个被mask的token计算一个条件logit lc和一个无条件logit lu，然后通过从无条件logit中移出一个量t作为指导尺度，形成最终的logit lg：
　　直观来看，CFG是以多样性换取保真度，但与以前方法不同的是，Muse通过采样过程线性地增加指导尺度t来减少多样性的损失，使得early token可以在低引导或无引导的情况下更自由地被取样，不过也增加了对later tokens条件提示的影响。
　　研究人员还利用这一机制，通过将无条件的logit lu替换为以negative prompt为条件的logit，促进了生成图像具有与postive prompt相关的特征。
　　8. 推理时迭代并行解码
　　在提升模型推理时间效率的一个关键部分是使用并行解码来预测单个前向通道中的多个输出token，其中一个关键假设是马尔科夫属性，即许多token是有条件地独立于给定的其他token的。
　　其中解码是根据cosine schedule进行的，选择固定比例中最高置信度的掩码进行预测，其中token在剩余的步中被设定为unmasked，并且适当减少masked tokens。
　　根据上述过程，就可以在基本模型中只用24个解码步（step）实现对256个token的推理，在超分辨率模型中用8个解码步对4096个token进行推理，相比之下，自回归模型需要256或4096步，扩散模型需要数百步。
　　虽然最近的一些研究包括progressive distillation、better ODE solver大大减少了扩散模型的采样步骤，但这些方法还没有在大规模的文本到图像生成中得到广泛验证。
　　实验结果
　　研究人员以不同的参数量（从600M到3B），基于T5-XXL训练了一系列基础Transformer模型。
　　生成图像的质量
　　实验中测试了Muse模型对于不同属性的文本提示的能力，包括对cardinality的基本理解，对于非单数的物体，Muse并没有多次生成相同的物体像素，而是增加了上下文的变化，使整个图像更加真实。
　　例如，大象的大小和方向、酒瓶包装纸的颜色以及网球的旋转等等。
　　定量比较
　　研究人员在CC3M和COCO数据集上与其他研究方法进行了实验对比，指标包括衡量样本质量和多样性的Frechet Inception Distance（FID），以及衡量图像/文本对齐的CLIP得分。
　　实验结果证明了632M的Muse模型在CC3M上取得了SOTA结果，在FID得分方面得到了改善，同时也取得了最先进的CLIP得分。
　　在MS-COCO数据集上，3B模型取得了7.88分的FID得分，略好于相似参数量的Parti-3B模型取得的8.1分。
　　参考资料：
　　https://arxiv.org/pdf/2301.00704.pdf

工信部欧盟相继对苹果下达通牒，要被限制进入中国市场了？头条创作挑战赛工信部欧盟相继对苹果下达通牒，要被限制进入中国市场了？对苹果手机国人可谓既爱又恨，其系统的稳定性深受果粉的喜爱，相比于安卓系统的卡顿，很多在使用了iPhone之后，就诺贝尔大奖授予新发现好色是进化的原动力，杂交让人类更聪明？一些种族主义者总是宣扬自己族群血统如何如何纯正，以此贬低和歧视其他族群。殊不知物种进化中，杂交才具有更好的优势，人类在整个进化过程，就是在不断杂交中一路走来的，才越来越聪明。基因研iPhone14ProMax已惊艳亮相，iPhone13加速降至超冰点欢呼欢呼我们来聊聊iPhone14ProMax性能和续航，从iPhone13Pro换到iPhone14ProMax，并没有感觉到A16比A15强大多少，之前能流畅运行的游戏，换到iPhon数字人民币来了？谁是受益者？2020年初，数字人民币试点版的APP已经上架在安卓和苹果应用商店，试点地区一共有12个城市，深圳苏州雄安成都上海海南长沙西安青岛大连以及冬奥场景北京和张家口，这些城市的居民，已经安全期性行为要避孕吗？一次看懂安全期危险期计算安全期算法对想避孕的妇女来说不可不知。但你知道安全期怎么算吗？安全期就可不用避孕？有人在安全期怀孕？危险期3种计算方式由简至繁，带你一次看清楚。安全期是什么？安全期是指女性月经周期DNF最强蓝色武士刀出现，这附魔土豪都服了，十亿用出百亿价值DNF这游戏的装备非常的多，很多新装备刚出来的时候那是真的无敌的存在，不过一代版本一代神，其中真正能不被版本给淘汰掉的装备却是寥寥无几。大多数装备在新版本更新之后就沦为了过气分解货国产旗舰开始降价，目前这4款值得入手，都比入门版iPhone14便宜您在阅读前请点击上面的关注二字，后续会第一时间为您提供更多有价值的相关内容，感谢您的支持。谈到买旗舰手机，很多人第一反应是购买苹果iPhone14，其实现在的国产手机整体性能也非常国内最失败万达广场耗资230亿却成空城，成为王健林的败笔引言甚至连续三年出现在福布斯中国富豪榜之内，并且还是以首富的身份出现。而提及王健林，人们最熟悉的就是他旗下的万达广场。而王健林就算再成功，也难免出现马失前蹄的时候。因为有人认为他最一只眼做实验一把梳看论文，这届诺奖得主不一般文中国科学报记者李晨冯丽妃高雅丽北京时间10月5日下午5点47分许，2022年诺贝尔化学奖授予美国科学家CarolynR。Bertozzi丹麦科学家MortenMeldal和美国科iOS16。1太好用！实际体验续航更顶了，大部分场景满格信号，好香iOS16。1是昨天凌晨发布的beta4预览版系统更新，距离上次推送时隔7天时间，这次删除了上个版本中乌龙的自适应通透模式开关，但好在带来了正优化，不少果粉表示这个版本太好用了，那跨省通办扩面增效，进一步激发市场主体活力张德勇中国社会科学院财经战略研究院研究员9月26日，国务院总理李克强主持召开国务院常务会议，部署推进政务服务跨省通办扩面增效举措，激发市场活力，便利群众生活。跨省通办是深化放管服改

<<<<<<－>>>>>>

重庆千年古镇磁器口，充满浓浓烟火气，是山城的浓缩与象征重庆一直充满活力，是个常看常新的城市，不仅新的网红打卡景点不断推陈出新，即便是同一个景点，隔上一段时间不去就会有新变化，大名鼎鼎的千年古镇磁器口也是这样。说起磁器口的历史，就要追溯中国品牌七巨头2022销量排行榜比亚迪上位，长安不敌吉利！近日，乘联会发布2022年全国汽车市场信息。2022年112月累计，乘用车零售量为2054。3万辆，同比增长1。9。其中，新能源乘用车批发649。8万辆，同比增长96。3，市场渗透从谣言开始到长安被毁，唐朝经历的五个癸卯年村夫说唐，从过去的历史中，寻找今天的共鸣。每到岁末年初，就会涌出很多年运预测的说法，用古书上的几句话制造耸人听闻的氛围。咱们不说这些捕风捉影的事情，就说说唐朝历史上癸卯年发生的几件省内一家独大的城市！除了长沙成都之外，西安也能算一个？出门旅游除了观光之外，也可以了解祖国各地的风俗文化！我国有大大小小的城市几百个，不同地方有不同的特点，像上海深圳广州就是以经济发展快速闻名而洛阳南京开封等城市，就是以文化底蕴深厚让资金流向（1月10日）丨宁德时代长安汽车江淮汽车融资资金买入排名前三一证券市场回顾同花顺数据显示，1月10日，上证综指日内下跌0。21，收于3169。51点，最高3178。16点深证成指日内上涨0。49，收于11506。79点，最高11526。28光武中兴，成为继文景之治后又一个盛世我是读史评观，专注于历史研究。点击上方关注，了解更多历史知识，作者每天发布一篇历史文章。东汉是中国历史上继西汉之后，又一个大一统的中原王朝，传八世共十四帝，享国一百九十五年，与西汉春节自驾阿坝州，滑雪泡温泉必打卡景区，这篇攻略值得看头条创作挑战赛疫情三年，停止了三年的旅行计划，是时候该提上日程了，在即将来临的春节大长假，如果你还没有做好出游攻略，那不如带上家人，去阿坝州来一趟短暂的自驾之旅吧，在这个春节，冬天汤塘温泉被称为广东十大名泉之一，入住聚龙湾天然温泉度假村世界上仅有两处含氡苏打温泉，一个在瑞士达沃斯，另一个在这个小镇佛冈汤塘。氡（Radon）化学元素Rn，为无色无嗅无味的惰性气体，具有放射性。可溶于水，质量比空气重。氡有弊的一面，也世界上最可怕的一群人，就是你的亲戚你敢相信吗？世界上最可怕的一群人就是你的亲戚。千万不要太高估你的亲戚，也不要太相信你的亲戚。在我们大多数人的观念里，亲情是心里的一份牵挂，亲情是血浓于水的羁绊，亲情也是无助时最后的IFFHS年度最佳阵姆哈本锋线三叉戟，梅西丁丁魔笛三中场直播吧1月11日讯IFFHS（国际足球历史和统计联合会）评选2022年度足坛最佳阵容。门将库尔图瓦（比利时皇马）后卫阿什拉夫（摩洛哥巴黎圣日耳曼）格瓦迪奥尔（克罗地亚莱比锡）范迪克科8Protro亮相！ZK4Protro再复刻？23年球鞋大结局？2023有望再让科密狂欢？NikeKobe8Protro近日，科8Protro迎来了新色的谍照曝光，非元年配色复刻的洁白造型，纯白鞋身下是蓝色水晶底以及珠光swoosh的点缀，颜值