ACL2021字节跳动GlancingTransformer惊鸿一瞥的并行生成模型

　　机器之心专栏
　　作者：钱利华
　　本文提出了一种为单步并行生成进行词之间依赖关系建模的方法。基于该方法的模型GLAT在不久前的国际机器翻译大赛（WMT2021）上击败一众自回归翻译系统，夺得了德语到英语方向机器翻译自动评估第一。
　　目前机器翻译中常用的神经网络模型（例如 Transformer ，LSTM）基本上都是自回归模型（Autoregressive models）。自回归模型在输出句子时是逐词按顺序生成的，每一个输出的词都依赖于之前的输出词。
　　虽然自回归模型被广泛应用并取得了不错的效果，但是自回归模型要求每一步输出都需要按顺序等待前面位置的输出。因此，按顺序生成的方式会阻碍自回归模型充分利用并行计算，当输出文本较长或者模型比较复杂的时候导致机器翻译的速度很慢。
　　因此，为了充分利用并行计算资源来加速生成，学术界提出了非自回归（Non-autoregressive）的机器翻译模型[1]。非自回归模型去除了每一个输出依赖于前面部分输出的限制，假定不同位置之间的输出是条件独立的（即每一个输出的具体值与其他位置的输出具体取值无关），使得模型可以并行输出文本。得益于并行输出的方式，非自回归模型可以更充分地利用并行计算来加快生成的速度。
　　虽然在生成速度上存在优势，但是之前的非自回归模型的翻译质量和自回归模型还存在显著差距。翻译质量差距的存在主要是因为如果并行输出语句，任何词在输出之间都无法确定语句中其它的词，难以有效利用词之间的依赖关系组成连贯的语句。为了在并行生成中建模并利用词之间的依赖关系，一些工作提出进行多轮并行输出来迭代修改语句[2,3,4]。虽然多轮迭代提升了输出语句的质量，但同时也减慢了生成的速度。
　　那么是否有可能只进行一次并行的输出就得到质量不错的语句呢？
　　这里为大家介绍一篇 ACL2021 的研究非自回归机器翻译的工作《Glancing Transformer for Non-autoregressive neural machine translation》[5]， 作者来自字节跳动人工智能实验室，上海交通大学和南京大学。
　　该工作提出了一种为单步并行生成方式进行词之间依赖关系建模的方法。在不久前的国际机器翻译大赛（WMT2021）上， GLAT 击败一众自回归翻译系统，夺得了德语到英语方向机器翻译自动评估第一。
　　论文地址：https://arxiv.org/abs/2008.07905 代码地址：https://github.com/FLC777/GLAT
　　设计动机和方法
　　自回归模型中最为常用的训练方式是最大似然估计（MLE），不少非自回归模型也直接使用 MLE 进行训练。但是非自回归模型的输出方式是并行的，输出语句中的任何部分在输出之前都无法获得输出语句中其余词的确切值。所以直接使用 MLE 训练并行输出的非自回归模型无法有效地建模输出语句中词之间的依赖关系。值得注意的是，词之间依赖关系的建模对输出通顺的语句至关重要，拥有良好生成质量的自回归模型和多轮迭代解码的模型均对这种依赖关系进行了有效的建模。
　　直接训练完全并行生成来学习目标语句中词之间的依赖关系对模型并不友好。一种更为简单有效的依赖关系学习方式是根据部分输入词预测其余目标词。但是这种学习方式需要部分目标词作为输入，不符合非自回归模型并行生成的要求。作者观察到随着模型自身更好地学习到词之间的依赖关系，模型对于依赖关系的学习可以逐渐摆脱使用目标语句部分词作为输入的需求。基于以上观察，Glancing Transformer（GLAT）利用了一种 glancing language model 的方法，通过渐进学习的方式进行词之间依赖关系的建模。在渐进学习的过程中，模型会先学习并行输出一些较为简单的语句片段，然后逐渐学习整句话的单步并行生成。
　　GLAT 在输出时和常规的非自回归模型保持一致，均只使用一次并行解码来输出语句。而在训练时，GLAT 会进行两次解码：
　　(1)第一步解码 (Glancing Sampling) 主要根据模型的训练状况来估计模型需要看到的目标词的数量，然后采样相应数量的目标词并替换到解码器输入中。
　　(2)第二步解码时 GLAT 会基于用目标词替换过后的解码器输入来让模型学习剩余词的输出。模型只在第二步解码时进行参数更新(Optimization)，第一步解码仅输出语句。
　　具体地，在第一次解码的时候，和常规的非自回归模型一样，模型使用完全并行解码的方式输出语句。然后将第一次解码得到的输出和训练数据中的目标语句进行对比。如果输出和目标语句差距较大，说明模型在训练中难以拟合该训练样本，因此这时 GLAT 会选择提供更多目标词作为输入来帮助学习词之间依赖关系。反之，如果输出和目标语句比较接近，则模型自身已经较好地学习了如何并行生成该目标语句，所需要的目标词数量也相应减少。
　　在第二步解码之前，模型的解码器可以得到部分目标词作为输入，这些词的数量由第一步的解码结果所决定。这时，模型在并行输出之前可以获得部分目标词的确切值，所以在学习输出剩余目标词的过程中就可以对目标语句中词之间的依赖关系进行建模。
　　上图给出了模型训练中的两个例子（注意模型只有一个 decoder，在训练中进行了两次 decoding）。当模型还不能准确地生成目标语句时，GLAT 会在目标语句中随机采样目标词作为解码器输入。例如上图左边的例子中，模型的翻译结果是 ＂travel to to a world＂。GLAT 将该结果和目标语句＂travel all over the world＂ 进行对比，发现当前结果较差，仅有两个词和目标语句相同。因此 GLAT 随机采样了词 ＂over＂，并把＂over＂ 的词向量替换到相应位置的解码器输入中。
　　随着训练的进行，模型对数据拟合程度更高，因此能够更准确地生成目标语句。与此同时，需要作为解码器输入的目标语句中的词的数量会越来越少，在训练后期逐渐接近学习完全并行生成的训练场景（例如上图右边的例子）。具体的方法细节和实现方式可以参考论文。
　　效果分析
　　GLAT 在保持高效生成速度的同时显著提升了单步并行输出的翻译质量
　　在多个翻译语向上，GLAT 均取得了显著提升并超越了之前的单步并行生成模型。结合 reranking 和 CTC 等技术之后，GLAT 可以只使用单步并行生成就达到接近自回归 Transformer 的翻译质量。由于 GLAT 只修改训练过程，在翻译时只进行单步并行生成，因此保持了高效的生成速度。
　　GLAT 提升了非自回归模型在长句上的翻译质量
　　通过对比不同输入长度下的翻译质量，我们发现相比于常规的 NAT 模型（NAT-base），GLAT 显著提升了在长句上的表现。除此之外，我们还发现在输入长度较短时，GLAT 的效果甚至略优于自回归的 Transformer 模型（AT）。
　　案例分析
　　GLAT 和自回归的 Transformer 在翻译结果上各有优劣。通过案例分析，我们可以发现 Transformer 在翻译时可能会产生部分漏翻的情况，而 GLAT 在语序调整上不如 Transformer.
　　总结
　　该工作提出了 Glancing Language Model（GLM），一种为单步并行生成方式建模词之间依赖关系的方法。在多个数据集上的实验显示使用了 GLM 的模型——GLAT 可以大幅提升并行生成的质量，并且仅使用一次并行输出就可以达到接近自回归模型的效果。GLAT 已经在火山翻译的部分语向上线。此外，基于该技术的并行翻译模型在 WMT2021 比赛中的德英语向上取得了第一。
　　[1] Jiatao Gu, James Bradbury, Caiming Xiong, Vic- tor O.K. Li, and Richard Socher. Non- autoregressive neural machine translation. ICLR 2018
　　[2] Jason Lee, Elman Mansimov, and Kyunghyun Cho. Deterministic non-autoregressive neural sequence modeling by iterative refinement. EMNLP 2018
　　[3] Marjan Ghazvininejad, Omer Levy, Yinhan Liu, and Luke Zettlemoyer. Mask-predict: Parallel de- coding of conditional masked language models. EMNLP-IJCNLP 2019
　　[4] Jiatao Gu, Changhan Wang, and Junbo Zhao. Levenshtein transformer. NeurIPS 2019
　　[5]Lihua Qian, Hao Zhou, Yu Bao, Mingxuan Wang, Lin Qiu, Weinan Zhang, Yong Yu, and Lei Li. Glancing transformer for non-autoregressive neural machine translation. arXiv preprint arXiv:2008.07905 (2020).

管理心理学重点（2）1员工持股员工就是公司，每一个成功的企业必定有人做出过勇敢的决策2薪酬博弈个人公平内部公平外部公平3苛希纳定律在管理上并不是人多就好，有时管理人员越多，工作效率反而越差只有找到一个管理心理学重点（7）1强大气场以牙还牙当仁不让事实对抗坚持正义2先声夺人，抢占先机3尊重对手4不必绕弯子5找准互惠互利的点6合纵抗强7攻击策略（软硬兼施反向诱导最后期限），防御策略（先发制人避重就轻抑金融业变局一市场客户都变了。1市场竞争加剧（外部环境严峻外部竞争对手虎视眈眈新业态不断涌现）2客户需求变化（新一代网民）3线上渠道崛起（移动化线上化）二全方位挑战。1数字银行挑战银行零售业务塔利班接连攻占21个省会，美英紧急增兵为撤兵？始乱终弃不得人心美国强不强？显然非常强，而且是全世界唯一一个超级大国，强大的不是一点两点，而是一大截！想当年，还有个苏联能够与美国分庭抗礼，双方势均力敌互相牵制，虽然说两强对抗有爆发大战的危险，但Windows平台听播客，你还有这些选择下面这些软件，相信能勾起不少人的回忆。它们是本地音乐时代的佼佼者，如今却在大部分人的数字生活中缄默。它们在很早之前就支持了订阅和管理播客，虽然业余，但免费且轻快。一AIMP推荐指数曾被当作弃子的东北，到底经历了什么？90年前的黑夜，你还记得吗写在最后今天是九一八事变90周年纪念日，也是中国的国耻日。写这篇条漫的时候，我查找了许多史料，愤怒与悲痛在心里翻涌交杂。侵略者对于胜战并无十足的把握，其特今年十五的月亮十五圆图片来源网络，如有侵权请联系删除月亮通常是灰色或金色的微妙色调。由于大气的影响，有时会看起来很红，也有看起来很蓝。但是，上面的图像是用望远镜拍摄的满月，细微的颜色差异表现的更明显。吓退24个国家的孟加拉帕德玛大桥，成为中国的封神之作总共投入300多亿的项目，为何让前来招标的20几个国家施工团队望而却步？最终中国接手建成后，为何被称为我国基建事业的封神之作，走进今天的主题帕德玛大桥。引子大家好，我是小黎，中国在中国著名艺术家郑宏。2021。05。23。中国著名艺术家郑宏，2021。05。23。郑宏，字水平，号墨池居主人，室名九方斋云轩和半卷书屋等。1959年12月出生于南京，受家庭熏陶自幼喜爱美术。1981年考入中央工艺美术学院桑建国创作工作室，努力学习，努力专研，学有成果查仿明武汉记忆火神山之夜入选作品孙婉婷瑶山亲入选作品王中平万里长江又一桥入选作品徐苏洋蓝天之歌入选作品杨彩云气骨高洁入选作品张荣铸魂入选作品张云凤勇往直前入选作品刘峻岑滚滚向前入选在碳中和这个大命题里，我们普通人有哪些机会一场危及全人类的灾难逐渐逼近，全球多个国家正在合力打造一艘可以挽救局面的诺亚方舟，中国也是这个工程的建造者之一。六月份，加拿大哥伦比亚的小镇气温超过了历史的最高的45摄氏度，并且在

<<<<<<－>>>>>>

4月25日参考资讯今日题材1国家已批复探月工程四期任务，着手组建近地小行星防御系统。4月24日是中国航天日。国家航天局副局长吴艳华介绍，目前国家已批复探月工程四期任务，包括嫦娥六号嫦娥七号和嫦娥八号宇宙的奥妙天球宇宙中的天体，包括星系恒星行星和星云，都散布在三维空间和维时间之中。宇宙中相距很远的地方看到的天体相对位置完全不同。为了找到宇宙中的某个天体，研究其运动并绘制星图，天文学家需要网络谣言粉碎机水晶头颅是玛雅人的高科技产品？据传，1927年，探险家米切尔海吉斯在中美洲的鲁班埃顿古城发现了一个水晶头颅，这个水晶头颅相当精致洁净，长约18厘米，宽高各约13厘米，重约5公斤。在形状与构造上，几乎完全等同于人长大想要当航天员？这个要求把很多人拒之门外1970年4月24日，中国第1颗人造地球卫星东方红一号发射成功，拉开了中国人探索宇宙奥秘和平利用太空造福人类的序幕。自2016年起，获国务院批准，正式将每年的4月24日定为中国航天中国航天依旧繁忙本报北京4月24日电（中青报中青网记者邱晨辉）4月24日是第7个中国航天日，国家航天局公布的信息显示，2022年，中国航天依旧繁忙中国空间站将完成在轨建造任务探月工程四期小行星探测科学家展示无标记超分辨率显微技术科学家展示无标记超分辨率显微技术财联社4月25日电，来自奥地利格拉茨大学的研究人员近日开发了一种新的测量和成像方法，可在不需要任何染料或标签的情况下解析小于光衍射极限的纳米结构。这抬头！天琴座流星雨将开始照亮天空作者AlfredoCarpineti编译wuguanfy图片来源NICOLEREINDLCCBY4。0对于夜空爱好者来说，四月目前是一个美好的月份。我们遇到了一场地磁风暴，导致了低探索小行星灵神星NASA八月发射探测飞船美国宇航局（NASA）向媒体展示了位于加州喷气动力实验室（JPL）的灵神星（Psyche）飞船。这艘飞船将于8月从佛罗里达州升空，前去探索一颗价值连城的同名小行星。这颗小行星全名是危险的毁神星靠近地球静止卫星轨道，时间指向2029年4月14日前段时间，俄罗斯卫星通信社发表了一篇报道称，在2029年4月14日，将会有一颗直径约400米，重达30吨的危险小行星靠近地球的静止卫星轨道。这颗小行星有一个响亮的名字叫毁神星，听这英国发现1。8亿年前鱼龙化石巨大头骨重一吨（图）推特截图海外网1月10日电据英国镜报10日报道，英国古生物学家在英国中部地区发现了境内最大最完整的鱼龙化石，仅化石头骨就重达一吨，被物学家称为英国古生物学历史上最伟大的发现之一。报30亿年前的地球可能是一个水世界相信很多朋友都看过一个美国大片未来水世界，但是30亿年前的地球很有可能就是一个水世界。去年，哈佛大学发表了一份关于地球蓄水能力的研究报告。这项研究挑战了我们长期相信的假设，即地球表