苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x102

1月5日壹世缘投稿

　　习惯了StableDiffusion，如今终于又迎来一个俄罗斯套娃式（Matryoshka）Diffusion模型，还是苹果做的。
　　在生成式AI时代，扩散模型已经成为图像、视频、3D、音频和文本生成等生成式AI应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战，这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构，这使得优化更困难，消耗的算力和内存也更多。
　　怎么办呢？最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超过512512分辨率的效果，并且生成质量落后于主流的级联或latent方法。
　　我们以OpenAIDALLE2、谷歌IMAGEN和英伟达eDiffI为例，它们通过学习一个低分辨率模型和多个超分辨率扩散模型来节省算力，其中每个组件都单独训练。另一方面，latent扩散模型（LDM）仅学习低分辨率扩散模型，并依赖单独训练的高分辨率自编码器。对于这两种方案，多阶段式pipeline使训练与推理复杂化，从而往往需要精心调整或进行超参。
　　本文中，研究者提出了俄罗斯套娃式扩散模型（MatryoshkaDiffusionModels，MDM）它是用于端到端高分辨率图像生成的全新扩散模型。代码很快将释出。
　　论文地址：https：arxiv。orgpdf2310。15111。pdf
　　该研究提出的主要观点是将低分辨率扩散过程作为高分辨率生成的一部分，通过使用嵌套UNet架构在多个分辨率上执行联合扩散过程。
　　该研究发现：MDM与嵌套UNet架构一起实现了1）多分辨率损失：大大提高了高分辨率输入去噪的收敛速度；2）高效的渐进式训练计划，从训练低分辨率扩散模型开始，按照计划逐步添加高分辨率输入和输出。实验结果表明，多分辨率损失与渐进式训练相结合可以让训练成本和模型质量获得更好的平衡。
　　该研究在类条件图像生成以及文本条件图像和视频生成方面评估了MDM。MDM让训练高分辨率模型无需使用级联或潜在扩散（latentdiffusion）。消融研究表明，多分辨率损失和渐进训练都极大地提高了训练效率和质量。
　　我们来欣赏以下MDM生成的图片和视频。
　　方法概览
　　研究者介绍称，MDM扩散模型在高分辨率中进行端到端训练，同时利用层级结构的数据形成。MDM首先在扩散空间中泛化了标准扩散模型，然后提出了专用的嵌套架构和训练流程。
　　首先来看如何在扩展空间对标准扩散模型进行泛化。
　　与级联或latent方法的不同之处在于，MDM通过在一个扩展空间中引入多分辨率扩散过程，学得了具有层级结构的单个扩散过程。具体如下图2所示。
　　具体来讲，给定一个数据点xRN，研究者定义了与时间相关的隐变量ztzt1，。。。，ztRRN1。。。NR。
　　研究者表示，在扩展空间中进行扩散建模有以下两点优点。其一，我们在推理期间通常关心全分辨率输出ztR，那么所有其他中等分辨率被看作是额外的隐变量ztr，增加了建模分布的复杂度。其二，多分辨率依赖性为跨ztr共享权重和计算提供了机会，从而以更高效的方式重新分配计算，并实现高效训练和推理。
　　接下来看嵌套架构（NestedUNet）如何工作。
　　与典型的扩散模型类似，研究者使用UNet网络结构来实现MDM，其中并行使用残差连接和计算块以保留细粒度的输入信息。这里的计算块包含多层卷积和自注意力层。NestedUNet与标准UNet的代码分别如下。
　　除了相较于其他层级方法的简单性，NestedUNet允许以最高效的方式对计算进行分配。如下图3所示，研究者早期探索发现，当以最低分辨率分配大部分参数和计算时，MDM实现了明显更好的扩展性。
　　最后是学习。
　　研究者使用常规去噪目标在多个分辨率下训练MDM，如下公式（3）所示。
　　这里用到了渐进式训练。研究者按照上述公式（3）直接对MDM进行端到端训练，并展示出了比原始基线方法更好的收敛性。他们发现，使用类似于GAN论文中提出的简单渐进式训练方法，极大地加速了高分辨率模型的训练。
　　这一训练方法从一开始就避免了高成本的高分辨率训练，加速了整体收敛。不仅如此，他们还合并了混合分辨率训练，该训练方法在单个batch中同时训练具有不同最终分辨率的样本。
　　实验及结果
　　MDM是一种通用技术，适用于可以逐步压缩输入维度的任何问题。MDM与基线方法的比较如下图4所示。
　　表1给出了在ImageNet（FID50K）和COCO（FID30K）上的比较结果。
　　下图5、6、7展示了MDM在图像生成（图5）、文本到图像（图6）和文本到视频（图7）方面的结果。尽管是在相对较小的数据集上进行训练的，但MDM仍显示出生成高分辨率图像和视频的强大零样本（zeroshot）能力。
　　感兴趣的读者可以阅读论文原文，了解更多研究内容。
　　（举报）

投诉评论

GPT4超豪华套餐上线，全新32K模型遭泄密！文件上传分析，【新智元导读】ChatGPT重磅级更新又来了！这次，直接可以读取PDF文件，而且不用选择模型，就能自动识别需要的功能。另外，有网友爆料称，GPT4正在训练全新32k模型copi……大模型浪潮澎湃，带给普通人哪些价值？新世纪的头个十年，朴树的《NEWBOY》在大街小巷回响，互联网在国内野蛮生长，枝繁叶茂出了以三大门户网站为首的互联网企业。彼时国际奥委会主席萨马兰奇宣布“BEIJING”成为2……超5亿人“上头”，“抖快号”和“爱优腾”再战微短剧“天，看了一下午土狗短剧太上头了”“只有我一个人在追这么土的小短剧吗？”“一口气狂追三部虐恋短剧，根本停不下来”几年间，人们对微短剧的态度悄然改变，曾被疯狂群……只需5分钟，教你自测小红书笔记是否限流大促节点了，整个小红书平台的笔记增速非常快，品牌营销预算投入的也非常大，对小红书的自然流量的挤占是比较明显的，所以最近这段时间小红书的流量竞争也自然非常大，很多博主反应自己的笔……ChatGPT、Llama2等大模型，能推算出你的隐私数据！ChatGPT等大语言模型的推理能力有多强大？通过你发过的帖子或部分隐私数据，就能推算出你的住址、年龄、性别、职业、收入等隐私数据。瑞士联邦理工学院通过搜集并手工标注了包……18亿潜在用户的“小众”交友App，到底有多赚根据皮尤研究中心统计数据，目前全球存在超过18亿穆斯林，约占全球总人口的23。而根据伊斯兰教法，跨宗教的婚姻不被鼓励，穆斯林男性可以与信仰基督教或犹太教的非穆斯林女性结婚……英伟达被曝开发ARM架构PC芯片，手握x86的英特尔坚称：A上周，在英特尔第三季度财报的电话会议上，CEOPatGelsinger谈到x86与ARM的竞争格局时，向投资者保证：“ARM和Windows客户端替代产品在PC业务中一直处于微……网易两款顶级IP联手王炸，续写万物皆可蛋仔的故事Z世代登上社会舞台以后，公共文化领域愈发充满了活力。尤其是在游戏这一满足年轻群体精神娱乐消费需求的品类带动下，公共泛文化场域开拓出了一幅崭新的文化图景。这种情况形成的背后是，游……苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x102习惯了StableDiffusion，如今终于又迎来一个俄罗斯套娃式（Matryoshka）Diffusion模型，还是苹果做的。在生成式AI时代，扩散模型已经成为图像、……独家GPT4、Midjourney之外，谭平创业团队要造一个前段时间，OpenAI发布了文生图模型DALLE3，生成效果非常惊艳。比如，你可以让它一次画出几十个物体，然后再要求它把这些物体全部放到一个冲浪者的背上：可以看到，DAL……全球首款3nm芯片塞进电脑，苹果M3炸翻全场！128GB巨量【新智元导读】史上最短苹果发布会上，M3芯片家族震撼亮相了！在它们的加持下，MacBookPro、iMac纷纷升级成性能猛兽。史上最短苹果发布会ScaryFast，刚刚结……日本乒乓球选手福原爱宣布将直播带货：28号陪大家过早年快科技1月27日消息，近日，日本乒乓球选手福原爱宣布将直播带货，她在社交账号发视频配文称28号我陪大家过个早年。”在预告视频中，她提到自己从小学开始就跟着中国教练在中国训……

<<<<<<－>>>>>>

摩托edgeX30价格公布：首发就把骁龙8Gen1干到299今晚摩托罗拉发布了edgeX30及edgeS30两款手机，其中前者首发了骁龙8Gen1处理器，现在价格也公布了，8128GB版只要3199元，首发优惠200元，只要2999元即……5G芯片天花板！摩托罗拉宣布全球首发商用骁龙8今天晚上19：30，摩托罗拉在北京举行新品发布会，正式推出摩托罗拉edgeX30。在详细介绍摩托罗拉edgeX30之前，联想中国区手机业务部总经理陈劲宣布，摩托罗拉edg……英国将于2033年关闭2G和3G网络并加速5G建设站长之家（ChinaZ。com）12月9日消息：英国政府于12月8日宣布，将在2033年前逐步淘汰2G和3G移动网络，将市场让位于5G和6G服务，这些网络将为无人驾驶汽车、无人……最便宜的屏下摄像手机！中兴Axon30最高直降400：20912月9日消息，今日晚间，中兴手机官微宣布，全新一代屏下摄像手机中兴Axon30至多直降400元，双十二优惠提前享。从官方晒出的海报来看，中兴Axon30系列都迎来了不同……微软愿意通过xCloud将Xbox独占游戏引入苹果平台站长之家（ChinaZ。com）12月10日消息：根据TheVerge曝光的微软和苹果高管之间的电子邮件，微软愿意同意苹果关于系统如何运作的许多要求，甚至同意将Xbox游戏带到……备战5G和未来的6G英国2023年将淘汰2G3G网络时至今日，很多人都用上了4G甚至5G网络，没人会对速度超慢的2G及3G网络感兴趣，哪怕是基础设施建设较慢的英国也要跟2G及3G网络再见了，2023年前淘汰。据报道，英国政……一口气发布4款芯片，全支持5G，高通展示“什么是真正的实力”近年来，芯片一直是科技领域众人热议的话题，不但没有降温，反而是愈演愈热。而在移动芯片领域，我们不得不提的就是行业“领头羊”的高通，因为高通不仅赋能了像小米、OPPO、vivo甚……5G扬帆，数智共赢，亚信科技深度参与中国联通合作伙伴大会日前，作为中国联通核心合作伙伴之一，亚信科技受邀出席2021中国联通合作伙伴大会主峰会、5G扬帆应用创新高峰论坛、科技创新高峰论坛等活动。亚信科技与中国联通在产业协同、研发创新……小米史上最薄5G手机！小米11青春活力版首销：1999元起在今年3月的小米春季新品发布会上，小米11青春版发布，凭借6。81mm，159克的纤薄外观与轻巧重量，小米11青春版成为史上最轻薄的小米手机。经过几个月的等待，小米11青……微软同意通过xCloud将Xbox独占游戏引入苹果【TechWeb】12月10日消息，据国外媒体报道，据微软和苹果高管之间的电子邮件显示，微软同意了苹果对于系统运作的诸多要求，并同意将Xbox游戏引入苹果平台。据悉，微软……客户抱怨软件拉胯百思买下架TCL新款GoogleTV智能电视今年夏末，TCL发布了高端6系智能电视新品。除了支持4K120Hz游戏体验的HDMI2。1端口，它还将预装系统从Roku换成了GoogleTV。此前，TCL已经面向国际市场推出……扫吸洗拖收，晓舞给用户提供了“偷懒”的解决方案根据达尔文的物种进化论，人类原本属于树栖生物，因为环境巨变，食物、栖息地受到了威胁，迫不得已下地生活。而在原始森林里，地下的生存竞争非常激烈，凶猛禽兽、剧毒生物，在不易察觉的地……

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界