范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

ACL最佳论文公布!59年,中国团队第2次夺魁

  ACL最佳论文公布啦!字节跳动摘得唯一一篇最佳论文桂冠。这是ACL成立59年以来,中国科学家团队第2次摘得最高奖项。
  上个月,ACL 2021 公布了最佳论文、最佳主题论文和杰出论文,共8篇论文入选!
  其中, 字节跳动摘得唯一一篇最佳论文(best paper)桂冠 。
  这是ACL成立59年以来,中国科学家团队 第2次摘得最高奖项 !
  这篇获奖论文题目为 Vocabulary Learning via Optimal Transport for Machine Translation 。
  该研究提出了一种新的词表学习方案VOLT,在 多种翻译任务上取得了优秀的结果 。
  今年是自然语言处理领域顶级会议ACL的第59届年会,于8月2日-5日在线上举行。
  在8月5日进行的ACL 2021大会上,主办方为最佳论文正式颁奖。
  要说这次获奖的idea, 离不开一个「执念」 。
  拼算力有用,节能环保同样值得探索
  如今AI在全世界都很火,AI模型的强度往往和算力成正比,占用大量算力资源、消耗大量电能去训练超大模型成为一股风潮,而且确实创造了巨大的效益。
  但是在字节AI Lab很多研究人员看来, 在实现同样效果的前提下,降低模型复杂度、推动节能环保 也是很有价值的一个研究方向。
  VOLT论文第一作者 许晶晶 ,就以「机器学习节能减排」的研究当选为 AAAI 今年评选的 学术新星(New Faculty Highlight) 。
  从VOLT的测试效果来看,其对促进AI产业节能环保极具潜力。
  以主流词表BPE为例,业界普遍会通过大量自然语言处理下游任务的训练以寻找最优大小。
  相比之下,使用VOLT方案可以 节省大约92%的算力 ,这同时意味着所需电能的大量减少。
  这篇论文得到 ACL评审们的一致好评 : 想法新颖; 显著减少词表的学习和搜索时间; 有效性已经通过几个实验得到了很好的证明。
  ACL官方评审意见认为:
  字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案, 能显著减少词表的学习和搜索时间 ,相信其不仅会在研究界产生重要影响,在工业应用方面也有着巨大潜力。
  根据ACL 2021官方信息,本届大会共计收到3350篇论文投稿,最终有 21.3% 的论文录用,并接收了14.9%的论文到Findings子刊, 综合录用率为 36.2% 。
  那么,字节跳动AI Lab的VOLT为何能在3350篇论文中脱颖而出?
  什么是 VOLT?
  VOLT最为突出的贡献便是去解决自然语言处理(NLP)的两个基本问题:
  什么是最优词表; 如何生成最优词表。
  最优词表:以边际收益定义词表评价指标MUV
  子词级别词表的效果在多个任务上已经得到了验证,由此,作者表示子词是目前来说比较好的选择。
  相比于传统的词为基础单位的词表,子词规模小不会面临稀疏标记(token)的问题。其中,稀疏标记是指在语言中出现概率比较小的子词。相比于字结构的词表,子词也不会面临熵太大语义无法区分的问题。于是,在确定最优词表的评价指标方面,作者综合考虑了信息熵和词表大小这两个主要因素。
  01 信息熵
  信息熵也可以理解成为蕴含在每个字中的平均语义含量。直观上理解信息熵越小表示每个字或者词表示的信息越简单,那么更加利于模型学习。作者使用基于字的熵计算方式来评估该属性,其中v为词表,i为词表中的标记,P为标记在训练集出现的频率:
  02 词表大小
  机器学习对训练数据的数量要求很高,稀疏标记的出现概率较低,因此稀疏标记越多,需要的训练数据往往也就越多。在基于频率的方法下,词表越小,稀疏标记越少,参数也越少,因此,小的词表更加有利于模型学习。然而,信息熵和词表大小不可以兼得。词表越大,所需参数越大,稀疏标记越多,但是信息熵在减小。
  03 边际收益
  为了建模这种平衡,作者为此引入了边际收益的概念。边际收益衡量了付出单位代价所能获得的利益的数量。边际收益越大,那么投入产出比越高。将信息熵看成是边际收益中的利益,词表大小看成是边际收益中的代价。随着词表的增加,不同大小的词表的信息熵收益是不同的。因此,利用边际收益的概念便可以对衡量词表质量的指标MUV进行定义,并且可以观测到MUV指标和下游任务的相关性。
  生成最优词表:将词表搜索变为最优运输问题
  在确定词表评价指标MUV之后,学习最优词表的问题可以粗略地等价为寻找具有最大MUV的词表问题。但是词表搜索空间不仅庞大,而且是离散空间。为了解决这一问题,作者将词表搜索转化为最优运输的过程。
  01 词表搜索
  比如cat在训练集中出现了20次,那么cat需要20个c,20个a,和20个t来组成该标记。为了避免不合法的搬运,作者将不合法的搬运设为无穷大(比如字e搬运给标记cat是不合法的)。由于字的个数是有限的,有一些标记候选就无法拿到对应的字,那么这些标记将会从最终的词表中踢出去。为了将词表学习的问题转化成为最优运输的代价,就需要进行一些重构操作了:MUV可以理解成为熵对词表大小的一阶导数,为了建模连续的导数,作者引入了相对分数来模拟导数:
  H代表的是信息熵,分子是信息熵的相对变化量,而分母中的i代表词表大小的变化量,S是一个递增序列,每个元素代表以该时刻大小为上届的所有词表组合。
  因此对于每个步骤来说,都存在一个具有最大MUV分数的词表,只要对所有的步骤做遍历,就可找到最优词表。为了进一步降低求解难度,作者对每一步的求解公式做了一个近似:
  因此,每个步骤的问题就转化成了每个步骤寻找熵最大词表的问题。
  接着使用基于熵的最优运输解法就可以将最优运输的目标定义成为寻找熵最大词表的问题。
  如此便可以使用标准的求解算法去求解该公式:
  找到词表的最大熵并且计算出当前的最大MUV分数,最后遍历所有的步骤即可找到具有最优的MUV的词表。
  由于篇幅限制,这儿就不展开说了。相关细节可查看论文作者blog:https://jingjing-nlp.github.io/volt-blog/
  该方法不需要下游任务训练,因此非常简单高效。
  02 测试结果
  在从双语翻译的结果上看,新方法学到的词表比经常使用的词表小很多,效果也很有竞争力。
  从多语翻译的结果上看,在三分之二的数据集上效果也是较好的。
  03 分析总结
  文章除了介绍VOLT提供一个更好的词表学习工具外,还分析了词表大小对表现的影响。
  作者使用VOLT搜索出的词表大小生成了BPE的词表,发现也可以得到相似的结果,因此作者也推荐使用VOLT作为一种词表大小学习方式。
  除此之外,实验中也发现简单的基线模型在使用了VOLT生成的词表之后也达到了和最优受限结果(不借助外部资源)匹配的分数,或许也可以引发对基线模型效果的进一步思考。
  东西是有点干,当你切身实际感受到,就不干了。
  老外在说什么?火山全懂
  和谷歌翻译一样,字节团队的论文研究成果也会在火山翻译中逐步得到应用。
  主要为飞书、今日头条等产品和火山引擎的「企业级客户」提供机器翻译支持。
  一起来看下西瓜视频中的翻译效果。
  这是一个数学教学视频,原视频中带有人工翻译的字幕。
  再来看经过火山翻译后的视频字幕, 其翻译质量并不比人工翻译逊色多少 。
  2021年以来,火山翻译实现多项重要技术突破,研发出 支持150个语种 互译的大规模翻译模型mRASP2。
  项目地址: https://github.com/PANXiao1994/mRASP2
  此外,还 对外开源了当前业界最快的推理和训练引擎LightSeq2.0 ,以及端到端语音翻译工具包NeurST,获得开源社区的广泛好评。
  项目地址: https://github.com/bytedance/lightseq LightSeq
  在GitHub上已经获得了1500星。
  项目地址: https://github.com/bytedance/neurst
  在此前由ACL举办的机器翻译大赛WMT2021上,火山翻译以独创的 「并行翻译」 系统参赛, 夺得德语到英语方向比赛自动评估第一名 。
  「并行翻译」在国际赛事中首次亮相,就击败了从左向右逐词翻译的传统技术,打破后者在机器翻译领域的绝对统治地位,这项技术的论文也得到ACL 2021大会收录。
  目前,火山翻译已 支持56个语种、3080个语向的翻译 。
  从背后可以看出,火山翻译的技术离不开字节团队多年来在机器学习和自然语言的深耕,有一套前沿研究、产品研发和用户反馈的闭环。
  字节业务覆盖150个国家和地区,研发团队分布在全世界多个国家,工作中也在使用自己打造的产品来跨语言沟通。
  全球化业务+全球化人才 ,火山翻译不能不行。

冬天踢球有什么注意事项?1863年12月26日英国成立了世界第一个足球协会英格兰足球协会,英格兰足球协会的诞生,标志着足球运动的发展进入了一个崭新的阶段。1978年,联合国把12月9日定为世界足球日,来纪蹭饭秘诀只要足够不要脸用心观看海哥量地球蹭饭视频的网友,都会不难发现以下蹭饭秘诀只要足够不要脸,一定可以蹭到饭。蹭饭是个没有丝毫技术含量的活儿,完全就是开口饭,任何人都能干。但是,要想提高蹭饭成功率,有生活无处不滑稽一个专职蹭饭之人竟摇身变成慈善家今日头条出了一个之前做什么什么都没有做好,做什么什么都做得很失败的人,一个之前并不富有甚至经济上称得上很贫穷很寒酸的人海哥量地球,基于生活所迫,不得不改行做了自媒体。这原本是不向命3个办公室健身动作,拒绝患上职业病国家统计局数据显示,2019年有近4亿人经常参加体育锻炼。不过据2019运动消费趋势报告和公开数据测算,有1亿人在假装健身。不知道这1亿人中有没有你呢?来测测你是不是在假装健身1。这几项体检报告异常,影响买保险吗?据中国青年报社对1979名1835岁的青年进行的一项调查显示,63。6的受访青年有过害怕看体检报告的经历。62。6的受访青年表示平时压力大,怕体检查出问题,60。9的受访青年坦言生全球变暖后儿童可能无法长大近日,一篇发表在柳叶刀上的论文称,如果全球的碳排放继续以现在的速度增长,现在出生的孩子在71岁时,可能生活在温度升高4的世界里。而气候危机,也将影响每个儿童的终生健康。论文中提出,有奖活动一张照片就是一个故事,说出你的201901hr讲述你的照片故事一样的2019,不一样的精彩生活!你是否也有一张舍不得删掉的照片或许照片本身虽然平淡无奇于你却充满故事?你是否愿意用照片讲述自己的2019?活动内容一。活动北京新拟提高对随地吐痰等废弃物罚款金额近日,关于修改北京市市容环境卫生条例的决定(草案)提交市人大常委会审议。根据决定草案,北京拟将随地吐痰便溺,乱丢废弃物,乱倒污水垃圾,焚烧树叶等行为的罚款额度由20元以上50元以下五一小长假,北京人寿不放假五一小长假,北京人寿不放假新冠疫情期间,很多人都长期居家隔离,鲜少外出。目前国内疫情防控形势逐步向好,随着五一小长假的到来,大家出游的热情也高涨起来。在假期即将到来之际,北京人寿本100个人里面就有2个阿尔茨海默症患者在澳门,每家医院都有一间怀旧阁,摆着旧家具,挂着老照片,帮失智老人留住记忆。失智症,又称痴呆症阿尔茨海默症。柳叶刀神经病学杂志于2019年9月4日发表的文章指出,中国阿尔茨海默症患赞!这位别人家的爸爸用粘土为女儿捏出千余件玩具近日,上海一位80后爸爸走红网络,他自2013年女儿出生起,为女儿捏出各种粘土玩具。目前,已利用粘土制作了千余件作品,其中包括童话故事四大名著形象热门影视剧等众多系列,不仅有静态的
光刻壁垒是纸老虎?北大教授解惑光刻机,任正非早就有言在先近几年来,中国在高新科技领域的发展势头十分迅猛进展飞快,很多之前想都不敢想的黑科技,现如今都已经化作现实。长期以来,中国的芯片制造业和所需要用到的光刻机,一直都受限于国外巨头,而就能发电的玻璃!我国博士带回黑科技,美国印度抢破头随着蒸汽时代电气时代的发展,全球工业化程度大大增加,经济科技等都迅猛发展,但随之而来的还有能源危机,寻找新能源需要提上日程。而由我国博士带回国的发电玻璃,为缓解能源危机提供了新方向能发电的玻璃!我国博士带回黑科技,美国印度抢破头随着蒸汽时代电气时代的发展,全球工业化程度大大增加,经济科技等都迅猛发展,但随之而来的还有能源危机,寻找新能源需要提上日程。而由我国博士带回国的发电玻璃,为缓解能源危机提供了新方向万豪Uber强强联手,以忠诚度计划吸引客户品橙旅游当地时间4月14日,万豪和Uber宣布万豪国际集团旅享家忠诚度计划的会员可以通过Uber赚取积分,因为在疫情期间,旅行服务品牌都希望可以使其忠诚度产品更加多样化。通过此次合淳化巡特警国庆我在岗,忠诚履职保平安为确保国庆期间社会治安稳定,淳化巡特警大队按照县局党委及上级部门的部署要求,实行特警巡警武警联勤武装巡逻,切实提高见警率管事率,做到闻警即动快速反应有效处置。通过联勤武装巡逻,切实安徽合肥最有名的小吃街,名字却很容易读错,你去过吗?安徽省会合肥,改名前叫庐州,是一座具有2000多年历史的古城,素有江淮首郡吴楚要冲中原之喉的美誉。可以说是安徽占据绝对优势的第一大城市,在省内有着举足轻重的地位。在2019年,合肥繁峙县三强化打造忠诚干净担当的组工干部队伍矩不正,不可为方规不正,不可为圆。繁峙县委组织部三强化提升干部队伍建设,切实把组工干部建设成为政治坚定公道正派求实创新业务精通清正廉洁的高素质专业化队伍。强化政治建设,永做党和人民火了后,跟进丁真品橙旅游3月15日,胡波与丁真再次相遇了。胡波就是那个7秒短视频的拍摄者,也是他的收集微笑计划造就了现象级的丁真。据上次2020年11月的一面之缘后,仅仅过去了四个月,但丁真的世界暗夜暮曙,西南第一暗夜公园诞生记品橙旅游暗夜公园,对于关注观星活动的人来说并不陌生。截至2018年,世界上共有31个暗夜公园13个暗夜社区19个暗夜保护区。目前中国尚无获得国际暗夜协会认证的暗夜地点,但是中国阿里永乐华住诞生后,行业最关心的几大问题品橙旅游融创文旅华住合作成为本周最引人关注的事件之一。3月22日,华住集团(NASDAQHTHT01179。HK,以下简称华住)与融创文旅集团(以下简称融创文旅)在长沙举办战略合作2021年C盘点最美梯田如何抓住镜子阶梯的开发重点品橙旅游从种植方式到旅游产品,梯田走过了千年。在古代,人们用高田如楼梯,平田如棋局形容梯田景观,现代则有镜子阶梯春如银带夏如绿波等诗句。这意味着,梯田在现代被人们赋予了新的美学标准