范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

机器翻译是如何炼成的?袁岚峰

  我经常阅读各个领域的外文信息,所以经常用到机器翻译。可以说就在这几年之内,我亲眼目睹了机器翻译的飞速进步,从一塌糊涂到像模像样,现在已经相当不错了。当然还是不时地有错误,但准确率之高、进步之快是更令人瞩目的。
  最近刚好有一个消息,字节跳动的人工智能实验室在计算语言学会议(ACL) 2021上获得了最佳论文奖。ACL是国际顶级的学术会议,而且最佳论文只有一篇,不是并列的,所以这个奖的分量是相当可观的。这是一篇什么样的工作呢?借这个机会,我们就来讲一下机器翻译的原理。
  其实我对人工智能是外行,但我的朋友、风云学会会员陈经就是搞人工智能研发的。他讲了很多深入的原理和有趣的故事。
  "每当我解雇一个语言学家,语音识别的性能就会上升。"这句名言出自捷克和美国人工智能专家弗雷德里克·杰利内克(Frederick Jelinek),是他在1988年说的。这其实反映了一场自动翻译的革命。
  弗雷德里克·杰利内克
  早期开发自动翻译程序,非常依赖语言学家。就像最初开发围棋程序的人,都是有一定水平的业余棋手,例如我的前辈同行、理论与计算化学专业的陈志行(1931 - 2008)教授,他是电脑围棋世界冠军"手谈"的作者。
  陈志行
  中国围棋队总教练俞斌九段说过,围棋算法想要突破,一定需要棋力与算法水平都很高的团队。现在大家知道,这种观点是错的。AlphaGo的团队中并没有围棋高手,他们只请了一位樊麾二段来沟通围棋知识。AlphaGo的成功来自算法的进步,机器翻译也走过了类似的历程。
  俞斌
  早期的自动翻译程序,是把单词与语法问题都用规则来概括,写程序来实现。这是个自然的想法,因为我们学外语也要学单词表和语法,也需要老师教。这些单词表和规则,程序员搞不清楚,就需要语言学家来总结。
  例如中文的"看"翻译成英文,是look?还是watch?还是see?还是read?这需要看上下文。例如"看"后面跟的是"书"或者"文章",就要用read。这类规律需要语言学家来归纳成有限的、可操作的规则,和程序员商量怎么写成计算机代码。
  还有更复杂的语序问题。中文和英文都是"主谓宾"结构,日语却是"主宾谓"结构,动词放在最后。电影中的日本鬼子经常说"什么的干活"、"花姑娘大大地有",其实就是这么来的!
  由于人类语言太灵活,这种基于人工规则的翻译经常得到可笑的结果。这到底是谁的锅呢?语言学家说怪程序员没有好好实现自己总结的语法规则,程序员却说怪语言学家的规则体系自相矛盾,充满例外,到处要打补丁。
  到八十年代,搞算法的人想出了新办法,于是他们终于可以愉快地"解雇语言学家"了。这个办法就是统计学。更具体地说,是贝叶斯统计(Bayesian statistics)。不久前我刚好介绍过这个主题(贝叶斯统计:概率思维的魔法 | 袁岚峰)。基本思想就是:不要规则了!换成统计概率!
  比如说,我们要把"看"翻译成英文,look / watch / see / read,语法规则会很繁琐,要分析很多上下文,用规则"逼"出一个正确的答案。但现在,我们让计算机把多种选择都尝试一下。比如I read a book / I watch a book / I watch a movie / I read a movie,这些都是候选的翻译。然后根据句子在真实世界出现的概率,给这些翻译打分,就会发现read book和watch movie分数很高,而read movie和watch book分数很低。不需要人为地加上read与book、watch与movie的关联规则,都在统计里了。
  其实我们学母语就是这么学的,并不是学规则,而是觉得大概率应该这么说,不这么说就怪了。我们学外语时经常说要培养"语感",也是这个意思。
  贝叶斯统计的核心,是计算条件概率,所以概率会随着上下文条件发生变化。如果没有任何信息,只有一个字"看",翻译成look的正确机会比read高。但是如果加上条件,"看这本书",翻译成read的正确概率就高了。
  这套思想的精华,就是把规则变成概率。为了计算概率,需要海量的真实世界文本,数量越多,概率越准确。语言学家只需要贡献翻译样本就行了,不需要折腾模糊的规则。
  其实有大量"开源"的平行文本,如各国政府的条文多语言版本以及各种译著与原文。罗塞塔石碑就是一个著名的平行文本,托马斯·杨(Thomas Young,1773 - 1829)和商博良(Jean-François Champollion,1790 - 1832)根据希腊文与古埃及文字的对应破译了古埃及文字。
  罗塞塔石碑
  (http://www.mingriqingbao.com/web/detail/forword/P/37382)
  机器翻译从基于专家规则的小众系统,到能够开放地放到网上公开测试使用,关键就是这个统计思想。在二十一世纪初,谷歌翻译就有了基本的形式,让人们知道了有"机翻"这回事。
  然而,早期的机器翻译还是毛病百出,像段誉的六脉神剑一样时灵时不灵。这是为什么呢?因为计算代码是程序员人工写的,经常碰到各种问题需要修改,改来改去顾此失彼。在这样的框架下,无论代码怎么改进,样本怎么堆积,总是没有本质性进步。
  段誉的六脉神剑(动图)
  对技术感兴趣的人知道,这一轮人工智能爆发的核心技术是"深度学习"(deep learning),它是从2013年开始获得业界普遍承认的。深度学习的三位创始人杰弗里·辛顿(Geoffrey Hinton)、杨立昆(Yann Le Cun)和约书亚·本吉奥(Yoshua Bengio),获得了2018年的图灵奖。
  AlphaGo短短两三年就远远超越了人类棋手,这就是深度学习的威力。同样的,机器翻译也发生了深度学习的革命,进入了新的境界。
  巨大的突破来自对问题的重新定义,我们现在将翻译问题抽象理解成一个序列到序列(sequence to sequence)的转换问题。对一个序列,可以进行编码(encode)。在通信传输、图像压缩等领域,编码是很常见的思想。
  你也许会问,文字已经用字母或者汉字这些符号来编码了,还要怎么编码?这就是革命性的思想:人就别管了,管也管不好,这事交给神经网络来干!
  就当有个黑盒子叫做"编码器",输入是一串串的字符,输出是一堆数字的编码。然后再把那一堆数字编码,输入另一个叫"解码器"的黑盒子,解码器输出的是有意义的文字序列。这头编码器把中文"编码"成一堆数字,那头解码器把这堆数字"解码"成有意义的英文,一次翻译就完成了。
  编码器和解码器
  这个结构的好处在于,两个黑盒子里面具体怎么编码、解码不用管,给足样本,让机器自己去深度学习。里面干的其实还是概率统计、减少误差这些事,但逻辑不是程序员写出来的,而是通过数据训练出来的,它们是神经网络的上千万个系数。从语言学家定规则到深度学习自我训练,基本的脉络是逐渐排除人为影响,这就是电脑围棋和机器翻译飞跃进步的根本原因。
  现在,我们终于可以来解释字节跳动获得最佳论文奖的工作了。它研究的是这样一个问题:如何把句子划分成一个个单元?也就是说,如何选择最好的"词表"(vocabulary)?
  举个例子,一个句子是:The most eager is Oregon which is enlisting 5000 drivers in the country(最积极的是俄勒冈,它在国内招募5000名司机)。我们需要首先把这句话划分成若干个单元,每个单元对应一个编码,然后把这串编码输入神经网络。
  词级别、字符级别、子词级别的句子拆分
  最容易想到的划分,就是一个单词一个单元,或者一个字母一个单元。但英文中一个词往往是由若干个词根组合成的,例如enlist = en + list。我们背单词的时候不是死记硬背,而是通过这些词根去理解。例如一看到enlist就能猜出它是"使列入名单",所以是"招募";一看到enlighten就能猜出它是"使发光",所以是"启发"。
  因此真正高效的划分方法,是用词根来划分,这些词根的集合就是"词表"。就像在生物学里为了理解蛋白质结构,我们用氨基酸而不是原子作为基本单元。
  用氨基酸作为蛋白质结构的基本单元
  这就带来一个科学问题:词表该取多大好呢?
  很容易产生的想法,是词表越大越好。但其实并不是这样,因为每一种语言中常用的单词都只占少数。换句话说,每一种语言的单词使用频率都是长尾分布。
  长尾分布
  如果我们引入大量的低频词汇,收益就会越来越小,成本却会越来越高,最终得不偿失。因此,我们可以定义一个最优的词表规模,即边际收益刚好等于边际成本时的词表规模,这时总的收益是最大的。
  这样,字节跳动团队把词表问题转化成了一个优化问题,然后用"最优运输"(optimal transport)的思想提出了一种解决方案,用深度学习实现了这种方案。
  最优运输问题
  这些方法的细节,大家可以去看他们的论文《神经机器翻译中通过最优运输的词表学习》(Vocabulary Learning via Optimal Transport for Neural Machine Translation)(https://arxiv.org/abs/2012.15671)。下面我们来讲三个宏观的要点。
  《神经机器翻译中通过最优运输的词表学习》
  第一个要点是,这种方法大大缩小了词表,同时翻译效果也不错。
  来看下面这个图。字节跳动的软件叫做VOLT,跟它对比的BPE-30K是目前业界最常用的设置,这个图就是VOLT和BPE-30K对于英语和其他若干种语言互相翻译的对比,黑体是表示哪一方胜出。最上面两行是英语到其他语言的翻译,中间两行是其他语言到英语的翻译,可以看到大部分是VOLT表现更佳,不过相差不大。最下面两行是词表的大小,这个差别就大了。例如对于英德翻译,BPE-30K的词表有33.6 K,而VOLT的词表是11.6 K,只有前者的1/3。
  VOLT与BPE-30K的比较
  词表的节约,带来能量的节约。同样的搜索和评估工作,BPE需要运行384小时的GPU,而VOLT只需要半个小时的CPU加30小时的GPU,相当于少砍很多树。在这个意义上,这是一个绿色环保的成果。
  VOLT:绿色环保的词表学习方案
  第二个要点是,这是一个基础原理层面的进步,而不是技术应用层面的进步。后者大家已经习以为常了。许多人甚至有这样的印象:中国人只擅长改进技术,做不了基础原理。我们可以明确地说,这种印象是错的!
  第三个要点是,人工智能发展的七十年,也是中国人工智能研究从空白走向繁荣的七十年。
  2010年之前,华人出现在AI顶级会议优秀论文中的还寥寥可数。近年来,华人开始在AI国际机构担任要职,优秀论文也开始涌现。例如在过去三年的ACL会议中,华人科学家拿到了两年的最佳论文。
  机器翻译以及整个人工智能已经创造了很多奇迹,但还有很长的路要走。我们相信,未来中国会做出更多基础性、革命性的贡献。
  扩展阅读 :
  贝叶斯统计:概率思维的魔法 | 袁岚峰
  中国力量在人工智能顶会崛起,这枚NLP"金牌"奥妙何在?
  「博士毕业一年,我拿下 ACL Best Paper」
  中国AI荆棘之路,从荒蛮到繁荣
  背景简介: 袁岚峰,中国科学技术大学化学博士,中国科学技术大学合肥微尺度物质科学国家研究中心副研究员,中国科学技术大学科技传播系副主任,中国科学院科学传播研究中心副主任,科技与战略风云学会会长,"科技袁人"节目主讲人,安徽省科学技术协会常务委员,中国青少年新媒体协会常务理事,中国科普作家协会理事,入选"典赞·2018科普中国"十大科学传播人物,微博@中科大胡不归,知乎@袁岚峰(https://www.zhihu.com/people/yuan-lan-feng-8)。

妻子去世了,才知道女儿不是亲生的姜兰发现老孙最近有点不正常。一开始,她并不把它放在心上,但那天她的女儿在学校受到了表扬。因为她通常不让女儿吃腌制食物,所以她告诉他那天买些腌肉来奖励女儿。但老孙没回家就忘了!看着女黄狗巫利的故事小巫利出生于遥远的切维厄特,一窝小狗除了他和另外一只留了下来,其余的都送人了。他们之所以能留下来,是因为那位兄弟长得酷似附近一只最优秀的狗,而巫利则是一只黄毛靓狗。巫利从小就过着牧一只被遗弃的猫和一只狗对我和霍莉来说,一切源于一只被遗弃的猫,严寒中,她被遗弃在校舍楼前台阶上。冻得身子缩成一团儿。这所小学是为心理不正常的儿童开设的,我每周在那儿提供三天的心理治疗。那天早上,那只猫留美洲神秘来客水晶头骨美洲有一个古老的传说神秘的玛雅人留下了13颗水晶头骨,当它们聚集在一起的时候,人类生命的奥秘将被揭晓。然而,当神秘水晶头骨真的惊现于世,古老的传说是否真的存在?水晶头骨到底有何神秘它对它说未对末说你戴上大盖帽就了不起了?末对未说削尖了脑袋也没见你爬上去呀!木对本说穿上裙撑也不见你屁股大一点啊!本对木说底裤也不穿就敢出来逛街?代对伐说挎把大洋刀出来吓唬谁呢?伐对代说裤雪夜访戴晋人王徽之弃官东归,隐居山阴(今浙江绍兴)。一日,大雪弥天,徽之夜半起身,四望皎然。孤闷中,独坐饮酌,咏左思招隐诗,彷徨有感。忽忆名士戴逵,亟欲一见。此念既生,竟不能自休。其时戴逵通往天堂的巴别塔寻找通天塔对高度的崇拜仿佛是人类的天性,就好似身边这一栋栋拔地而起的摩天高楼昭然宣告着人类近代文明的昌盛。而在那遥远的古代巴比伦文明繁荣之时,据说人们也曾为了同样的目的建造过座通天之塔。上帝9月11日出门看黄历,运势全掌握宜出行外出旅行,观光游览。打扫老黄历中解除。打扫卫生,指冲洗清扫宅舍消除灾厄等事。搬家老黄历中移徙。指搬家,搬迁入二手房租房。合婚订婚老黄历中纳采。古时指缔结婚姻的仪式受授聘金,现天堂之国的传说巴比伦空中花园刘波天堂之国的传说巴比伦空中花园在遥远的帝王时代,为博美人一笑而一掷千金劳民伤财的国王似乎并不少见。古代同样果盛的巴比伦王国,也发生过类似的逸闻,不但留下一段风流佳话,还造就了一个这种性格的女人,对你有好感,就会对你一心一意我想,一提起这种性格的女人你首先想到的就是东北女人吧,事实确实如此。东北女人的性格真的有不输于男人的直爽,她们认准的事情就会一直坚持下去,当然了,认准的男人也是一样的。你明白吗?这坟墓还是庙宇马耳他神秘建筑人类神秘发达的史前古文明一直让世人充满了不解和敬畏。而史前文明似乎和巨石建筑有着难解难分的缘分。世界各地都曾发现过大型的巨石建筑,其中位于地中海的马耳他小岛上就发掘出了奇妙的地下巨
读曾国藩患难与共者勿有遗憾沅浦九弟左右十四日接到你初七晚上的信,得知一切,贵溪紧急的说法确实吗?近日的消息如何?次青是非常的人才,带兵虽不是他的长处,但是也有百折不回的气慨,他在兄长处,尤其是肝胆照人,始终曾国藩君子不要占人便宜澄侯子植季洪三弟足下从四月二十七日得知大考的谕旨后,二十九日寄出家信,五月十八日又寄了一封信,二十九日又寄了一封信,六月十八日又寄了一封信,不知都收到没有?二十五日,接到澄弟六月一如果你还不到25岁如果你到了20岁,还没到25岁,你应该仔细读一下这篇文章。因为这篇文章是一把刀,让已经三十岁的我看得心痛。或许你还没有认真认识社会,认识自我,这是你应该做的事。如果你已经过了20岁关注经济关注钱关注享受关注自己,冷了别人与内心修行近代社会人人都在想办法搞钱,这很不好,虽然生活压力大,贫富分化不均。中国古人讲做人要内圣外王,而现代中国人在西方文明的冲击下,已经把内心的好东西丢掉了。有没有想过,钱有啥用?很多人提高你经商能力的20部电影通过这20部电影,可以学到资本主义社会必须的经济常识,以及认识到每天都发生着的经济欺诈。这20部电影都是英语国家孩子在学习商业知识方面一定会看的影片。其中包括哈佛商学院一直排第一的创业者怎样搞定无处不在的不确定性不确定,分为客观存在的不确定,与心理上存在的不确定心理。第一。客观存在的不确定性。王健林曾将在某场演讲中这样说到百分之百把握的事是没有的,那太简单了怎么可能。但不管有没有把握,把握八大菜系有哪些菜品八大菜系大家都耳熟能详了,川菜徽菜鲁菜粤菜闽菜苏菜湘菜浙菜。就我个人品尝的经验,东北的传统特色菜味道也是可以的。今天给大家介绍一下传统的八大菜系都有哪些菜品。川菜白菜卷肉白汁鱼肚板教育孩子正确的金钱观关于金钱财富和如何致富这些问题上,如何教育自己孩子的?大多数父母在这方面想得还不够。然而帮助我们战胜巨大的金融危机,并且让年轻一代不会继续挣扎的有效方法,就是从他们小时候开始,培养荷兰房市新风向不让父母拿钱给孩子买房了?在荷兰的买房子,是可以向父母伸手要钱,免税的金额为免税额为105。302欧!如何操作?有何种要求与限制?可是最近,这套政策被质疑拉高荷兰的房价加剧社会不平等因此,可能要有所变化调整荷兰乌特勒支小学因病毒关闭这所小学的校长在给家长的一封信中写道由于新冠病毒感染,位于乌特勒支的OBSTuindorp小学将被迫关闭。据学校称,目前已有20多名学生和5名教师检测呈阳性,而且这一数字仍在上升。找不到工作该怎么办?找不到工作对身心的影响感觉自己很惶恐很焦虑。这主要是因为长期没有工作,导致的你的价值感存在感丢失,逐渐的丢掉了自我,丢掉了自信。靠焦急是解决不了的,唯一的办法就是找个事业做起来。人