范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Transformer也能生成图像,新型ViTGAN性能比肩基于CNN的GAN

  选自arXiv
  作者:Zhuowen Tu、Ce Liu等
  机器之心编译
  编辑:Panda
  Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角。近日,加州大学圣迭戈分校与 Google Research 的一项研究提出了使用视觉 Transformer 来训练 GAN。为了有效应用该方法,研究者还提出了多项改进技巧,使新方法在一些指标上可比肩前沿 CNN 模型。
  卷积神经网络(CNN)在卷积(权重共享和局部连接)和池化(平移等变)方面的强大能力,让其已经成为了现今计算机视觉领域的主导技术。但最近,Transformer 架构已经开始在图像和视频识别任务上与 CNN 比肩。其中尤其值得一提的是视觉 Transformer(ViT)。这种技术会将图像作为 token 序列(类似于自然语言中的词)来解读。Dosovitskiy et al. 的研究表明,ViT 在 ImageNet 基准上能以更低的计算成本取得相当的分类准确度。不同于 CNN 中的局部连接性,ViT 依赖于在全局背景中考虑的表征,其中每个 patch 都必须与同一图像的所有 patch 都关联处理。
  ViT 及其变体尽管还处于早期阶段,但已有研究展现了其在建模非局部上下文依赖方面的优秀前景,并且也让人看到了其出色的效率和可扩展性。自 ViT 在前段时间诞生以来,其已经被用在了目标检测、视频识别、多任务预训练等多种不同任务中。
  近日,加州大学圣迭戈分校与 Google Research 的一项研究提出了使用视觉 Transformer 来训练 GAN。这篇论文的研究议题是:不使用卷积或池化,能否使用视觉 Transformer 来完成图像生成任务?更具体而言:能否使用 ViT 来训练生成对抗网络(GAN)并使之达到与已被广泛研究过的基于 CNN 的 GAN 相媲美的质量?
  论文链接:https://arxiv.org/pdf/2107.04589.pdf
  为此,研究者遵照最本原的 ViT 设计,使用纯粹基本的 ViT(如图 2(A))训练了 GAN。其中的难点在于,GAN 的训练过程在与 ViT 耦合之后会变得非常不稳定,并且对抗训练常常会在判别器训练的后期受到高方差梯度(或尖峰梯度)的阻碍。此外,梯度惩罚、谱归一化等传统的正则化方法虽然能有效地用于基于 CNN 的 GAN 模型(如图 4),但这些正则化方法却无法解决上述不稳定问题。使用了适当的正则化方法后,基于 CNN 的 GAN 训练不稳定的情况并不常见,因此对基于 ViT 的 GAN 而言,这是一个独有的挑战。
  针对这些问题,为了实现训练动态的稳定以及促进基于 ViT 的 GAN 的收敛,这篇论文提出了多项必需的修改。
  在判别器中,研究者重新审视了自注意力的 Lipschitz 性质,在此基础上他们设计了一种加强了 Lipschitz 连续性的谱归一化。不同于难以应付不稳定情况的传统谱归一化方法,这些技术能非常有效地稳定基于 ViT 的判别器的训练动态。此外,为了验证新提出的技术的作用,研究者还执行了控制变量研究。对于基于 ViT 的生成器,研究者尝试了多种不同的架构设计并发现了对层归一化和输出映射层的两项关键性修改。实验表明,不管使用的判别器是基于 ViT 还是基于 CNN,基于修改版 ViT 的生成器都能更好地促进对抗训练。
  为了更具说服力,研究者在三个标准的图像合成基准上进行了实验。结果表明,新提出的模型 ViTGAN 极大优于之前的基于 Transformer 的 GAN 模型,并且在没有使用卷积和池化时也取得了与 StyleGAN2 等领先的基于 CNN 的 GAN 相媲美的表现。作者表示,新提出的 ViTGAN 算得上是在 GAN 中使用视觉 Transformer 的最早尝试之一,更重要的是,这项研究首次表明 Transformer 能在 CIFAR、CelebA 和 LSUN 卧室数据集等标准图像生成基准上超过当前最佳的卷积架构。
  方法
  图 1 展示了新提出的 ViTGAN 架构,其由一个 ViT 判别器和一个基于 ViT 的生成器构成。研究者发现,直接使用 ViT 作为判别器会让训练不稳定。为了稳定训练动态和促进收敛,研究者为生成器和判别器都引入了新技术:(1) ViT 判别器上的正则化和 (2) 新的生成器架构。
  图 1:新提出的 ViTGAN 框架示意图。生成器和判别器都是基于视觉 Transformer(ViT)设计的。判别器分数是从分类嵌入推导得到的(图中记为 *);生成器是基于 patch 嵌入逐个 patch 生成像素。
  增强 Transformer 判别器的 Lipschitz 性质。在 GAN 判别器中,Lipschitz 连续性发挥着重要的作用。人们最早注意到它的时候是将其用作近似 WGAN 中 Wasserstein 距离的一个条件,之后其又在使用 Wasserstein 损失之外的其它 GAN 设置中得到了确认。其中,尤其值得关注的是 ICML 2019 论文《Lipschitz generative adversarial nets》,该研究证明 Lipschitz 判别器能确保存在最优的判别函数以及唯一的纳什均衡。但是,ICML 2021 的一篇论文《The lipschitz constant of self-attention》表明标准点积自注意力层的 Lipschitz 常数可以是无界的,这就会破坏 ViT 中的 Lipschitz 连续性。为了加强 ViT 判别器的 Lipschitz 性质,研究者采用了上述论文中提出的 L2 注意力。如等式 7 所示,点积相似度被替换成了欧几里得距离,并且还关联了投影矩阵的权重,以用于自注意力中的查询和键(key)。这项改进能提升用于 GAN 判别器的 Transformer 的稳定性。
  经过改进的谱归一化。为了进一步强化 Lipschitz 连续性,研究者还在判别器训练中使用了谱归一化。标准谱归一化是使用幂迭代来估计每层神经网络的投影矩阵的谱范数,然后再使用估计得到的谱范数来除权重矩阵,这样所得到的投影矩阵的 Lipschitz 常量就等于 1。研究者发现,Transformer 模块对 Lipschitz 常数的大小很敏感,当使用了谱归一化时,训练速度会非常慢。类似地,研究者还发现当使用了基于 ViT 的判别器时,R1 梯度惩罚项会有损 GAN 训练。另有研究发现,如果 MLP 模块的 Lipschitz 常数较小,则可能导致 Transformer 的输出坍缩为秩为 1 的矩阵。为了解决这个问题,研究者提出增大投影矩阵的谱范数。
  他们发现,只需在初始化时将谱范数与每一层的归一化权重矩阵相乘,便足以解决这个问题。具体而言,谱归一化的更新规则如下,其中 σ 是计算权重矩阵的标准谱范:
  重叠图像块。由于 ViT 判别器具有过多的学习能力,因此容易过拟合。在这项研究中,判别器和生成器使用了同样的图像表征,其会根据一个预定义的网络 P×P 来将图像分割为由非重叠 patch 组成的序列。如果不经过精心设计,这些任意的网络划分可能会促使判别器记住局部线索,从而无法为生成器提供有意义的损失。为了解决这个问题,研究者采用了一种简单技巧,即让 patch 之间有所重叠。对于 patch 的每个边缘,都将其扩展 o 个像素,使有效 patch 尺寸变为 (P+2o)×(P+2o)。
  这样得到的序列长度与原来一样,但对预定义网格的敏感度更低。这也有可能让 Transformer 更好地了解当前 patch 的邻近 patch 是哪些,由此更好地理解局部特性。
  生成器设计
  基于 ViT 架构设计生成器并非易事,其中一大难题是将 ViT 的功能从预测一组类别标签转向在一个空间区域生成像素。
  图 2:生成器架构。左图是研究者研究过的三种生成器架构:(A) 为每个位置嵌入添加中间隐藏嵌入 w,(B) 将 w 预置到序列上,(C) 使用由 w 学习到的仿射变换(图中的 A)计算出的自调制型层范数(SLN/self-modulated layernorm)替换归一化。右图是用在 Transformer 模块中的自调制运算的细节。
  研究者先研究了多种生成器架构,发现它们都比不上基于 CNN 的生成器。于是他们遵循 ViT 的设计原理提出了一种全新的生成器。图 2(c) 展示了这种 ViTGAN 生成器,其包含两大组件:Transformer 模块和输出映射层。
  为了促进训练过程,研究者为新提出的生成器做出了两项改进:自调制型层范数(SLN)。新的做法不是将噪声向量 z 作为输入发送给 ViT,而是使用 z 来调制层范数运算。之所以称这样的操作为自调制,是因为该过程无需外部信息;用于图块生成的隐式神经表征。为了学习从 patch 嵌入到 patch 像素值的连续映射,研究者使用了隐式神经表征。当结合傅里叶特征或正弦激活函数一起使用时,隐式表征可将所生成的样本空间约束到平滑变化的自然信号空间。研究发现,在使用基于 ViT 的生成器训练 GAN 时,隐式表征的作用尤其大。
  需要指出,由于生成器和判别器的图像网格不同,因此序列长度也不一样。进一步的研究发现,当需要将模型扩展用于更高分辨率的图像时,只需增大判别器的序列长度或特征维度就足够了。
  实验结果
  表 1:几种代表性 GAN 架构在无条件图像生成基准的结果比较。Conv 和 Pool 各自代表卷积和池化。↓ 表示越低越好;↑ 表示越高越好。
  表 1 给出了在图像合成的三个标准基准上的主要结果。本论文提出的新方法能与以下基准架构比肩。TransGAN 是目前唯一完全不使用卷积的 GAN,其完全基于 Transformer 构建。这里比较的是其最佳的变体版本 TransGAN-XL。Vanilla-ViT 是一种基于 ViT 的 GAN,其使用了图 2(A) 的生成器和纯净版 ViT 判别器,但未使用本论文提出的改进技术。
  表 3a 中分别比较了图 2(B) 所示的生成器架构。此外,BigGAN 和 StyleGAN2 作为基于 CNN 的 GAN 的最佳模型也被纳入了比较。
  图 3:定性比较。在 CIFAR-10 32 × 32、CelebA 64 × 64 和 LSUN Bedroom 64 × 64 数据集上,ViTGAN 与 StyleGAN2、Transformer 最佳基准、纯净版生成器和判别器的 ViT 的结果比较。
  图 4:(a-c) ViT 判别器的梯度幅度(在所有参数上的 L2 范数),(d-f) FID 分数(越低越好)随训练迭代的变化情况。
  可以看到,新提出方法的表现与使用 R1 惩罚项和谱范数的两个纯净版 ViT 判别器基准相当。其余架构对所有方法来说都一样。可见新方法能克服梯度幅度的尖峰并实现显著更低的 FID(在 CIFAR 和 CelebA 上)或相近的 FID(在 LSUN 上)。
  表 3:在 CIFAR-10 数据集上对 ViTGAN 执行的控制变量研究。左图:对生成器架构的控制变量研究。右图:对判别器架构的控制变量研究。

你还在为素三彩的鉴定而发愁吗?素三彩是明代中期以后创制的以黄绿紫三色的低温釉,因不用红彩,故以素字称为素三彩。在素三彩中黄釉是最主要的色釉,它是以铁为着色剂的彩釉,其色调深浅与色剂含量有关,釉的光泽与釉层的厚薄谁说普通球粒陨石不值钱球粒陨石是具球粒构造的陨石,属于石陨石,普通球粒陨石是各类陨石中最为常见的球粒陨石,占地球所收集陨石品种的90左右。主要由橄榄石斜方辉石及铁镍金属陨硫铁组成。普通球粒陨石主要在太阳长条形,周边有郭上下两端呈直解或圆角这是什么钱中国古代钱币是东方钱币的代表,它有两个显著的特点一是自始至终采用浇铸工艺,直到19世纪末西式机制币技术的传入二是自始至终以铜钱为主要流通货币而不是金银或其它。这也构成了中国古代钱币古代记载了那么多次陨石坠落,为何没传承下一块陨石从地球形成开始,陨石就已经开始造访地球,我国有着上下五千年的历史文明,是世界上观测陨石陨落事件最早的国家,我国的史籍对陨石坠落记载就超过了300多次,最早的记载可追溯至公元前213宫廷御用瓷珐琅彩的用料与纹饰珐琅彩是指仿铜器珐琅用于彩绘瓷器的彩料,有时简指珐琅彩彩绘的瓷器。珐琅彩瓷创始于清代康熙,它是专为清宫廷烧制的御用瓷器。清代曾在宫内设立内务府造办处珐琅作,专门承担彩绘和彩烧珐琅瓷古代钱币开平通宝开平元宝的稀有性开平通宝开平元宝是五代十国后梁时期太祖朱温开平年间(907910年)所铸造,发行量极少,两钱均为圆形方孔,面背皆有轮郭,外郭较宽,四字钱文旋读。开平通宝为折五型大钱,开平元宝为折十一个仅存15年的篡位王朝,它所留下的珍贵钱币货币是一种所有者与市场交换权的契约,是人们的商品价值观的附属物。中国是世界上最早使用货币的国家之一,货币在长达五千年的使用过程,经历了从古代不同朝代不同试样金属货币向当今纸币的演变上位16个月就被掳,这个皇帝铸造了哪些稀少钱币中国古代钱币是东方钱币的代表,它有两个显著的特点一是自始至终采用浇铸工艺,直到19世纪末西式机制币技术的传入二是自始至终以铜钱为主要流通货币而不是金银或其它。这也构成了中国古代钱币去云南寻找陨石的几点建议,因为此可能你会找到最大那块6月1日云南西双版纳州勐遮镇曼伦村降了陨石雨,又一次轰动了整个陨石界,与去年不同的是,这次陨石真的发现了,大多散落以曼伦村为据点的地方,这一发现吸引了全国无数寻陨者。有人欢喜有人愁你还在为陨石的鉴定而纠结吗陨石是来自地外行星的碎片,陨石的形状,材质都是陨石在坠落地球期间天然形成,无人为加工,保存完好的陨石,它有明显的气印融壳,这很容易被收藏者识别。但这样的陨石极少,而地球有太多陨石降一面镜子成交百万以上,什么镜?从古至今每种物品的起源都是从珍贵稀有到普及,在这过程往往是先为经济地位较好者带来便利或享用,近代如最开始的私人汽车与手机,古代如一面当今再普通不过的镜子,古代镜子为何称为铜镜,这与
拥有67项专利的ampampquot大国文旅地标ampampquot!北京环球影城门票迎来正式运营14日零时起,北京环球影城门票正式开售。这个历时三年,备受关注与期待,包揽67项专利授权集各类热门ip于一身的主题乐园,终于要和大众见面了。在正式开园前的试运营阶段,已经有不少博主UP主AI换脸恶搞视频,遭林俊杰起诉,索赔27。5万元9月23日,林俊杰与B站up主肖某的纠纷被提起诉讼。林俊杰方面请求判令被告肖某向原告赔偿经济损失250000元,精神损害抚慰金20000元,维权成本合理开支5000元,以上共计27元宇宙时代来临!腾讯注册QQ元宇宙商标元宇宙常被称为移动互联网的次世代。在元宇宙中,物理世界和数字世界融合在一个互联的虚拟空间中在元宇宙中,技术不仅仅是像你口袋里的手机一样,而是一个包罗万象的现实。早在2020年底,马现行专利法未对植物新品种给予专利保护,但保护其生产方法最近,国家知识产权局就关于支持海南设立种业知识产权保护特区的提案进行答复,指出现行专利法未对植物新品种给予专利保护,但对植物品种的生产方法给予专利保护植物新品种可以依据反不正当竞争特斯拉获黑科技专利用激光代替汽车雨刷据外媒报道,当地时间周二,美国专利商标局宣布将利用激光充当挡风玻璃雨刷的专利正式授予电动汽车制造商特斯拉。2019年就已提交申请特斯拉于2019年5月提交了名为脉冲激光清洗车辆和光套上李子柒的商标后,100多的月饼被卖到了700多一身古朴的衣服,过着简单的生活,自带仙气的灵秀气质,作为拥有千万粉丝量的美食博主,李子柒这三个字,在互联网拥有的商业价值不可估量。而近期,网络上一条宜宾超市出现天价李子柒月饼的消息丁真商标抢注危机解除!部分成功注册,即将进入转让程序要说2020年底谁最大火,想必丁真是排名前列的,凭着一脸纯真朴素的笑容视频席卷网络,成为新晋顶流,后面更是引起了各个地方的抢人大战,可谓是引起了不小轰动。近日,丁真珍珠商标成功注册两部门发文,深化实验技术人才职称制度改革近日,人力资源社会保障部教育部印发关于深化实验技术人才职称制度改革的指导意见,明确举措,部署推进实验技术人才职称制度改革工作。指导意见的主要内容有哪些?通过健全制度体系完善评价标准在中国,科技的尽头一定是种菜今天是秋分,也是一年一度的中国农民丰收节。提起丰收,你会想到什么?是金黄的麦浪和翠绿的菜叶?还是喜笑颜开的农人和隆隆作响的收割机?(袁隆平雕像前满是鲜花)千百年来,中国农民在年复一太空出差三人组回家!引网友关注的返回舱,曾获科学技术发明奖时隔三个多月太空出差三人组回到地球北京时间9月17日神舟十二号载人飞船返回舱在东风着陆场顺利着陆每一次航天飞行任务中腾飞是胜利返回更是挑战当飞船返回地球,进入大气层时,大气摩擦产生孟晚舟顺利回国,梦晚舟商标已被抢注,多个相关商标被驳回经国家不懈努力,9月25日晚,孟晚舟在结束被加拿大方面近3年的非法拘押后,乘坐中国政府包机抵达深圳宝安国际机场,顺利回到祖国。自2018年12月1日被非法拘留,经历1028个日夜,