范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

0语料下,如何通过贴标签获得更好的多语言翻译效果

  机器之心专栏
  作者:吴礼蔚、程善伯
  来自火山翻译团队的研究者通过研究发现,不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。
  现今的多语言翻译模型,大多是在一个以英语为中心的数据集上训练一个统一的模型,并通过添加语言标签的方式来告诉模型应该翻译到哪一种语言。这种模型在预测的时候能够直接在一个非英语的句子上添加另一个非英语的语言标签来直接翻译,从而达到即使在训练时没有见过源语言和目标语言的情况下,也能实现模型翻译,这就是所谓的 zero-shot 多语言翻译。
  添加语言标签的方式有很多种,来自火山翻译团队的研究者通过实验研究发现,虽然不同的语言标签对监督方向的效果几乎没有影响,但是对 zero-shot 的效果却有着非常大的影响。这个现象在多个数据集上得到了验证,其中 IWSLT17 上相差 14.02 个 BLEU,Euporal 上相差 24.24 个 BLEU,TED talks 上相差 8.78 个 BLEU。目前该研究已被 the findings of ACL 2021 接收。
  论文地址:https://arxiv.org/abs/2106.07930
  研究背景和动机
  在多语言翻译中,有许多添加语言标签的方法,并且一般都认为不同的语言标签的添加方法对模型的性能没有影响,然而之前没有研究者系统性地研究语言标签对翻译模型是否有影响。这篇文章比较了四种常见的语言标签的添加方法。
  表 1 四种不同的的语言标签
  如表 1 所示,这四种方法会将源语言标签和目标语言标签按照不同的方法加到源句首或者目标句首。
  表 2 数据集详情
  如表 2 所示,这篇文章选择了 IWSLT17,Euporal 和 TED talks 三个数据集,这三个数据集在语言数量和数据集大小上都有比较大的差异。这篇文章在这三个数据集上基于上述四种不同的语言标签训练了配置完全一样的多语言翻译模型。
  实验结果
  表 3 实验结果
  如表 3 所示,可以看到:
  1. 对于不同的语言标签,不同的数据集,在有监督的方向上,模型的表现基本一致。
  2. 在 Zero-shot 方向上:
  a. 不同的语言标签对模型的性能有着很大的影响,并且,T-ENC 的表现在三种数据集上一致地超过了其他三种标签:在 IWSLT17 上超过了 14.02 个 BLEU,在 Euporal 上超过了 24.24 个 BLEU,在 TED talks 上超过了 8.78 个 BLEU。
  b. 不同语言标签导致的 off-target 的比例也不相同(off-target 是指翻译到语言 X 时,却翻译成另一个语言的情况),基本上 T-ENC 的 off-target 的比例都要比别的小,这一点和模型在 zero-shot 上的性能基本一致。
  分析
  那么是什么原因导致了这种现象?这篇文章试图从三个方面解释这个现象并在 TED 数据集上做了实验:
  1. 在目标语言相同的情况下,语言标签的添加方式是否影响了不同语言的句子经过 Encoder 之后的表示的一致性?
  2. T-ENC 可以获得相对于其他方法更小的 off-target 比例,是不是由于在预测的时候,它的 attention 注意力机制能够更好地注意到语言标签?
  3. 意思相同的不同语言的句子,在翻译模型的每一层的相似性如何?
  Encoder 的表示的一致性
  上图是通过对 Encoder 的输出使用 t-SNE 降维,之后使用 kde 画出来的分布图,展示了不同语言的句子在目标语言相同的情况下的分布,可以发现 T-ENC 不同语言之间的 Encoder 表示分布更加一致。这表明,T-ENC 能够帮助模型学习到语言无关的 Encoder 表示。
  缓解 off-target 的问题
  上图通过一个 case study 展示了从一个俄语句子翻译到意大利语句子时,不同的语言标签下,模型的 attention 对意大利语标签的 "关注" 程度,显然使用 T-ENC 时,模型对意大利语标签的关注程度最高,这可以一定程度上解释为什么 T-ENC 拥有最小的 off-target 比例。
  不同层的相似性
  上图的子图 a 展示了,从除了英语和俄语外的 18 个语言翻译到俄语的时候,意思相同的句子在不同语言之间的表示的相似性,可以看到 T-ENC 的相似性曲线一直在其他的语言标签之上,这表明在目标语言相同的时候,T-ENC 各层的表示相比于其他的方法都有更好的一致性。
  上图的子图 b 展示了,从俄语翻译到除了英语和俄语外的 18 个语言翻译的时候,同一个俄语句子在不同目标语言下的相似性,可以看到 T-ENC 的相似性曲线几乎一直在其他的语言标签下方,这表明,当目标语言不同的时候,T-ENC 能够更好的生成目标语言相关的表示。
  总结
  该研究发现了不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。同时该研究还分析了不同语言标签对模型在预测时表示的影响,发现 T-ENC 能够更好地得到与目标语言相关而与源语言无关的表示:
  1. T-ENC 能使不同源语言句子经过 Encoder 的表示更一致。
  2. T-ENC 的注意力机制能够更好的注意到目标语言的语言标签。
  3. T-ENC 在不同层的表示相对于其他方法与目标语言的相关性更强。
  参考文献
  [1] Wu L, Cheng S, Wang M, et al. Language Tags Matter for Zero-Shot Neural Machine Translation[J]. arXiv preprint arXiv:2106.07930, 2021.
  [2] Johnson M, Schuster M, Le Q V, et al. Google’s multilingual neural machine translation system: Enabling zero-shot translation[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 339-351.

超出理论预期的粒子标准模型万物是由什么构成的?又是什么把它们束缚在一起?经历了两千多年的追寻,我们已经有了一副大致的图景上图包含了所有已知的基本粒子。所谓基本粒子,指的是那些不可再分割的粒子,例如构世界航天日中国航天的逆袭之路,宇宙那么大,我们去看看浩瀚的宇宙,一直以来都为人类所向往。2021年是人类航天史上极不平凡的一年,世界各国共计实现了145次火箭发射,是史上发射次数最多的一年。1961年4月12日,27岁的前苏联宇航员迄今发现的最远恒星也许开启了研究早期宇宙的新窗口至今为止,人类还没发现过第一代恒星,因为它们数量稀少,而且在宇宙演化早期,中性氢会吸收天体的光,导致恒星暗淡。如果第一代恒星被探测到,将为揭示星系化学和动力学演化提供重要线索。郑宪代辉中国古生物研究,论文为何频现洋作者?来源中国新闻网中新社重庆4月11日电题代辉中国古生物研究,论文为何频现洋作者?作者张旭中国近年古生物研究热闹非凡,不断有新属种恐龙古脊椎动物化石发现发表于核心期刊。不少由中国主导的毁灭恐龙的小行星,现在撞击地球,人类与恐龙相比是否有所不同?你还记得恐龙灭绝吗?恐龙这种生物在人类出现以前就已生存在地球上,遗憾的是如今恐龙已经灭绝了大约6500万年之久,对于恐龙为何会在6500万年前突然灭绝这一未解之谜,科学家界众说纷纭最新发现第一个穿过银河系的孤立恒星高质量流浪黑洞在可以称为另一项重大宇宙发现中,一组天文学家详细发现了第一个刚刚穿过银河系的孤立恒星质量黑洞,第一个大质量黑洞,一颗完全孤立的恒星。游荡天河,天河。根据科廷大学和国际射电天文学中心NASA我们没有技术去月球,再次登月已经不可能,但是中国来了登陆月球图片来自Thinkstock美国宇航局宇航员唐纳德佩蒂特说,载人登月不再可能。新闻网站Disclose。tv报道。佩蒂特是一位资深宇航员,曾三次在太空中,其中两人长期在IS牛顿的万有引力定律苹果为什么会落下?地球吸引苹果的力与太阳吸引地球的力是不是同一种力?牛顿因对这一问题思考发现了万有引力定律。引力因质量而存在,一切有质量的物体皆有引力,引力与质量和距离的平方成关系太阳在一个促进恒星形成的大气泡中?盖亚望远镜看到这一切最新的研究显示,我们的太阳系极有可能位于一个局部气泡之内。当然,这个气泡并不是狭义上理解的气泡,而是一个低密度,充斥着高温等离子体的空腔。在这个空腔周围环绕着一层气体和星际尘埃。虽快看,火星日食IT之家4月11日消息,根据NASA科学家AlainMir公布的图片,NASA的毅力号火星车于4月2日拍到了火星日食,这也是毅力号登陆火星397个火星日后首次拍到日食。图自Alai科学家首次在活人肺部深处发现微塑料继上个月荷兰科学家率先在人类血液中检测到微塑料后,英国科学家日前也首次在活人肺部深处发现微塑料。微塑料居然能进入人类肺部深处且颗粒如此之大,令科学家震惊不已。PhotoPexels
巧夺天工科技显微镜工作台物联网仪器台实验室,显微镜工作台,物联网仪器台,实验室仪器台,实验室仪器,实验室家具,实验室设备,显微镜,工作台,实验台,电子显微镜实验室,显微镜工作台,物联网仪器台,实验室仪器台,实验室仪器巧夺天工科技高科技实验室家具设备物联网多功能实验台,实验室家具,实验室边台,实验台,实验室设备,实验室仪器台,实验室工作台,实验室操作台物联网多功能实验台,实验室家具,实验室边台,实验台,实验室设备,实验室仪器台某海军航空工程学院案例(30)本案为某海军航空工程学院教学中心,为深抓学员的实操技能训练,强调课堂教学应该与实操相结合,该院校对教学中心的课桌和讲台进行全面升级。采用的课桌和讲台是由巧夺天工科技提供的多媒体翻转巧夺天工科技操控台太空科技风整装解决方案随着人们科技的快速发展,对水源的污染越来越严重。打造智能化水质监测与管控中心也随之变得越来越重要,通过智能化设备对水质实时监测记录预警管控等安全检测,从而保障水源地饮水安全。巧夺天巧夺天工科技控制台太空科技风整装解决方案人工智能的主要物质基础以及能够实现人工智能技术平台的机器就是计算机,人工智能的发展历史是和计算机科学技术的发展史联系在一起的。除了计算机科学以外,人工智能还涉及信息论控制论自动化仿某监察委中心巧夺天工科技交付实景案例(十六)本案为某监察委办公中心项目,采用的是简约的现代感与未来的科技感相结合,为当下流行的办公环境装修风格之一现代科技风格。金属控制台操作台展示办公室顶部与墙面装饰多条不规则的线条,流线型某局指挥中心巧夺天工科技交付实景案例(十四)本案为某局指挥中心项目,整体装修风格为现代风格,现代风格装修设计主要采用的是白色和灰色系作为主色调,而该指挥中心选用的是灰色系作为主色调,灰色给人带来稳重感,公安局指挥中心给人带来巧夺天工科技采用人机工程学打造科技感指挥中心控制台人机工程学主要是通过揭示人机环境之间的相互关系的规律,已达到确保人机环境系统总体性能的最优化。人机工程学包含1。人体特性的研究主要研究对象以人体形态特征参数人的感知特性人的反应特性巧夺天工科技促进传统产业转型升级当前,随着全球新一轮科技革命和产业革命加速发展,工业互联网作为第四次工业革命的重要基石,为各国传统产业转型升级,培育壮大新兴产业,促进全球产业融合发展提供了历史性机遇,中国是工业大巧夺天工科技打造高科技感企业办公中心如今,办公室装修风格越来越多样化,老板想要打造让自己倍有面子的办公室,员工想要一个工作愉悦身心放松的办公环境,一个好的办公环境,可加强内部的交流沟通,团队精神和文化凝聚力,不仅可以某公安局网安中心巧夺天工科技实景案例(十九)本案为某公安局网安办公中心,其装修风格为现代科技风,与金属科技风的工作站数据展示设备会议桌等办公设备相得益彰,使整体风格呈现出未来科技感。信息化前台金属工作站随着云计算大数据物联网