范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

多粒度输入信息不降低推理速度,腾讯看点提高效预训练方法LICHEE

  机器之心报道
  编辑:张倩
  既能利用多粒度输入信息,又不降低推理速度,腾讯看点等机构的研究者在一篇 ACL 论文中提出了一种高效的语言模型预训练方法荔枝 LICHEE。经过半年多的摸索改进,荔枝 LICHEE 同时登顶 CLUE 分类榜单、阅读理解榜单、总榜单,其相关的技术创新也被 ACL 2021 录用。
  近日,腾讯看点 NLP 内容算法专家郭伟东在机器之心举办的 ACL 论文分享会上对此研究进行了解读,欢迎大家浏览视频。
  基于大型语料库的语言模型预训练在构建丰富的上下文表示方面已经取得了巨大的成功,也在一系列自然语言理解任务中实现了显著的性能提升。然而,现有的预训练语言模型(如 BERT)大多是基于单粒度训练而成的,通常伴随细粒度的字符或 sub-word,这使其很难学习粗粒度词汇和短语的准确含义 。
  为了得到更加准确的模型,部分研究者试图通过在预训练阶段 mask 连续 token 的序列,将粗粒度信息纳入到用细粒度分词训练的模型中。还有研究者提出了一种可以处理多粒度输入文本的模型——AMBERT。它利用两个具有共享权重的编码器将细粒度 token 和粗粒度 token 分别编码为两个上下文表示序列。虽然 AMBERT 效果不错,但它的推理成本却比原始 BERT 高了一倍左右,这在业界的很多场景下都是不可接受的。
  为了得到更加准确的模型,主要的研究方向分为两类: 在 MASK 层引入粗粒度信息,如 whole word mask 或者 ERNIE 1.0; 在嵌入层引入粗粒度信息,如 ZEN 何 AMBert。
  前者的好处是不需要修改模型,只需要在数据预处理阶段对整个词做连续 mask 就好,缺点是没有充分使用文本中的词信息(没有 mask 的词依然会使用字粒度)。后面的 ERINIE-gram 直接把词作为整体进行预测,会导致最后 softmax 层效率极大降低,导致训练周期变长。后者的好处是充分使用了全文的词信息,但是缺点是引入了额外的计算逻辑,导致效率降低。以 AMBERT 为例,它利用两个具有共享权重的编码器将细粒度 token 和粗粒度 token 分别编码为两个上下文表示序列。虽然 AMBERT 效果不错,但它的推理成本却比原始 BERT 高了一倍左右,这在业界的很多场景下都是不可接受的。
  在这篇 ACL 论文中,来自腾讯看点和阿尔伯塔大学的研究者提出了一种简单但高效的预训练方法——荔枝 LICHEE。该方法可以在预训练阶段有效利用多种粒度的输入信息来增强预训练语言模型(PLM)的表示能力。
  论文链接:https://arxiv.org/pdf/2108.00801.pdf
  与 AMBERT 不同的是:AMBERT 利用两个编码器编码细粒度和粗粒度 token,这使得推理成本大大增加;但在 LICHEE 中,输入文本的多粒度信息融合发生在嵌入层,不需要改变 PLM 原有的模型结构,因此几乎不会带来额外的推理开销。
  具体来说,LICHEE 首先会将输入文本处理成细粒度和粗粒度 token。然后,这些 token 会被传送到两个嵌入层,生成对应的向量表示。接下来,两种向量表示通过池化操作进行融合,形成多粒度嵌入向量,作为 PLM 编码器的输入。最后,我们得到由 PLM 编码器生成的增强上下文表示(包含细粒度和粗粒度信息)并将其用于下游任务。
  在 CLUE 和 SuperGLUE 上进行的实验表明,该方法在中、英两种语言的多个自然语言理解任务中都能带来全面的性能提升,而且几乎不增加额外的推理成本。采用该方法的最优集成模型在 CLUE 基准上实现了 SOTA 性能。
  此外,使用荔枝做特征抽取器,在词法分析任务 CLUENER 和千言数据集文本相似度任务上取得了超越其他模型的结果。
  在机器之心 7 月 31 日举办的 ACL 2021 论文分享会上,本文第一作者、腾讯看点 NLP 内容算法专家郭伟东详细介绍了他们的这项研究成果,感兴趣的同学可以点击文末链接,查看回顾视频。
  方法概览
  下图 1 显示了 LICHEE 的框架。它利用多粒度输入信息来增强预训练语言模型的表示能力。
  该框架以文本序列作为输入,它们被分解为 token 序列。在这篇论文中,研究者选择保留两个词汇,并用两个分词器执行细粒度和粗粒度分词,词汇中的 item 是基于它们在预训练语料库中的 token 频率来选择的。此外,「细粒度」和「粗粒度」的定义因语言而异。例如,在英文中,词汇和短语通常分别被用作细粒度和粗粒度 token。但在中文中,细粒度和粗粒度 token 就要对应汉字和词汇。
  在论文中,对于一个给定的输入文本序列 T,研究者用
  表示第 i 个细粒度 token;用
  来表示一个粗粒度 token,这个 token 由 j 和 k 之间的细粒度 token
  组成。比如说,在图 1 中,粗粒度 token「 New York Times 」由第一、第二和第三个细粒度 token 组成,并表示为
  分词之后,研究者利用两个独立的嵌入层将分解之后的 token 映射为它们的向量表示。具体来说,每个细粒度的 token
  被传递到一个细粒度嵌入层,以产生该 token 的细粒度嵌入向量
  ,其中的 d 表示该细粒度嵌入的维数。类似的,通过将 token
  馈入粗粒度嵌入层,可以得到拥有相同维度 d 的粗粒度嵌入
  。公式如下:
  对于每个 token
  ,研究者通过执行一个最大池化操作来构建其多粒度嵌入向量
  。公式如下:
  其中, j ≤ i ≤ k。注意,d 等于单粒度 PLM 的原始嵌入维数,以证明性能增益是由于引入了多粒度信息,而不是修改了模型结构造成的。
  最后,将组合嵌入向量
  馈入 PLM 编码器,以构建最终的、借助多粒度信息增强的上下文表示
  。公式如下:
  实验结果
  中文任务
  如下表 1 所示,研究者在三个预训练语言模型(BERT、ALBERT 和 GPT)上采用了本文中提出的多粒度预训练方法,并在 CLUE 排行榜上比较了这些模型和它们的单粒度基线。从结果可以看出,通过利用文本输入的多粒度信息,荔枝 LICHEE 实现了明显的性能提升。
  为了进一步探索荔枝 LICHEE 的潜力,研究者将其应用到了一个基于 BERT-large 的集成模型上,并在 CLUE 基准上进行了评估。如下表 2 所示,LICHEE 在 CLUE 9 项任务中的平均分明显高于其他平台,还在 IFLYTEK、CSL 两项自然语言理解任务上取得了 SOTA 结果。这一表现进一步证明了 LICHEE 能够显著提高语言模型的表示能力,并且对大量下游 NLU 任务普遍有效。
  为了评估多粒度设计的影响,并对多粒度嵌入的不同集成方法进行全面的分析,研究者还在 CLUE 基准上进行了消融分析。下表 3 列出了不同训练策略下模型变量的表现,包括两种单粒度方法和五种多粒度方法。从中可以看出,有最大池化加持的荔枝 LICHEE 平均分高于其他所有方法,在 3 项 CLUE 任务中达到了最高分数。
  英文任务
  为了评估 荔枝 LICHEE 在英文任务中的表现,并将其与单粒度基线 BERT-WWM 进行比较,研究者在 SuperGLUE 基准上进行了实验。
  如下表 4 所示,用荔枝 LICHEE 方法预训练的 BERT 模型在 8 项 SuperGLUE 任务中都超越了单粒度基线 BERT-WWM,平均分比后者高出 1.89。这一结果表明,荔枝 LICHEE 的有效性很大程度上归功于其多粒度表示的信息增益,而不仅仅是 token 边界信息。
  推理速度
  除了荔枝 LICHEE 在中、英语言任务中的表现,研究者还探索了其推理速度。并将其与原始的单粒度 BERT 和另一种多粒度方法 AMBERT 进行了比较。
  下图 5 给出了在序列长度为 512 的二分类任务上测试的 FLOP 和加速结果比较。
  可以看出,AMBERT 的 FLOP 是 87.0B,比单粒度 BERT 高出一倍,这意味着推理时间也增加一倍。对于很多现实世界的应用来说,这通常是不可接受的。相比之下,荔枝 LICHEE 的 FLOP 仅为 43.5B,比单粒度基线高出的部分几乎可以忽略不计,因为多出来的操作只包括粗粒度 token 的一个嵌入查找操作和集成细粒度与粗粒度嵌入向量的最大池化操作。所以总的来说,荔枝 LICHEE 可以实现显著的性能提升,而无需额外的推理时间。
  腾讯看点内容 AI 算法团队是腾讯 PCG 看点线专门负责内容处理工作的团队,包括文本、图片以及视频多模态的内容理解和内容生成相关工作。
  团队目前已经建设了丰富的内容 AI 相关的中台能力,并为腾讯 PCG 各个重要产品线提供开放使用,包括腾讯看点、腾讯新闻、QQ、腾讯微视等。
  回放链接:https://app6ca5octe2206.pc.xiaoe-tech.com/detail/v_6108f53ce4b0cce271b93f2d/3?from=p_6108e354e4b054ed7c495ab3&type=6

北京卓一慧众知产神十三载人飞船圆满成功意味着什么2021年10月16日0时23分,搭载神舟十三号载人飞船的长征二号F遥十三运载火箭,在酒泉卫星发射中心点火发射,神舟十三号载人飞船与火箭成功分离,进入预定轨道,顺利将翟志刚王亚平叶俄媒俄宇航员认为,俄中合作将使月球开发更容易更快速环球网报道俄罗斯卫星通讯社18日消息,俄罗斯宇航员米哈伊尔科尔尼延科在接受俄消息报采访时说,俄罗斯和中国的合作将使月球开发更容易更快速更经济。俄宇航员科尔尼延科资料图据报道,科尔尼木内鹤彦濒死体验,意识穿越时间空间,看到人类起源和地球的未来如果说你能用意识穿越,探索未来,这样的能力,你想要吗?今天我们就给大家说一个这样的故事,据说他通过此能力亲眼看见了宇宙和地球的起源,看到了大洪水和亚特兰蒂斯,揭开了很多人类还没有解航天人的航天精神,照亮复兴之路神舟十三号载人飞船干10月16日发射,飞行乘组由翟志王亚平和叶光富3名航天员组成。从9月17日神舟十二号返回地球到神舟十三号发射,时间仅过去短短一个月。按照计划,神舟十三号飞船入轨外交部中国空间站欢迎国外航天员来访4月18日,外交部发言人汪文斌主持例行记者会。有记者提问中国载人航天工程办公室昨天宣布,今年将实施六次飞行任务,包括将更多航天员送入太空。请问中国对国际航天合作持何种态度,未来是否今年,六次飞行任务定了!4月17日下午,国务院新闻办公室举行新闻发布会介绍中国空间站建造进展情况。中国载人航天工程办公室主任郝淳表示,根据任务计划安排,2022年将实施6次飞行任务,完成我国空间站在轨建造明晨,这一幕罕见天文科普专家介绍4月18日晨,太阳系中的木星金星火星和土星几乎等距排列上演罕见的四星连珠届时只要天气晴朗大气透明度好我国公众可以亲眼目睹这幕奇特的天文景观这是北京市天文爱好者吴鲁萍神十三航天员返回地球!同溢堂与您一起关注航天英雄的健康2022年4月16日,神州十三号将首次采用快速返回技术,将已经在太空飘了五个多月的三位航天员送回地球,本次采用的快速返回技术,只需绕地球几圈,也就是几个小时之后,他们就可以进入返回太阳(太阳系中心的恒星)我们身边的恒星太阳是太阳系的主宰,是我们光与热的主要来源,也是它让地球和其他行星运行在各自的轨道上。这幅紫外图像揭示出。它们远在太阳的可见表面之上。太阳耀斑在肉眼看来,太阳通常是个神舟十三号成功着陆!灯塔涂料添新功慧正资讯据中国载人航天工程办公室消息,北京时间2022年4月16日09时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,现场医监医保人员确认航天员翟志刚王亚平叶光富身体状态良ACC太空实验四名私人宇航员机组即将从国际空间站返回地球NASA将在AxiomMission1(Ax1)从国际空间站返回地球之前提供其脱离和离开的现场报道。空间站上的11名机组人员包括(从右下角顺时针方向)远征67指挥官TomMarsh
研究人员提出物质具有奇异磁相的证据研究人员提出物质具有奇异磁相的证据,物质具有奇异磁相的证据艺术家对团队如何确定这一历史阶段的印象。研究人员使用x射线来测量自旋(蓝色箭头)在受到干扰时的运动方式,并能够显示出它们在新研究或可提高搜索暗物质的测量灵敏度全球GNOME(用于搜索外来物理现象的光学磁强计全球网络,GlobalNetworkofOpticalMagnetometersforExoticPhysicsSearches)网哈勃望远镜最新图像星系碰撞产生太空三角形科幻网2月23日讯(朱曦薇)据外媒报道,美国宇航局哈勃望远镜最新拍摄到的一张图片中,两个星系正面碰撞形成一个三角形的恒星诞生区域。相互作用的星系组合被统称为Arp143。这对星系包新技术可帮助了解巨行星如何成长行星形成途径的比较图。(图片来源HiroshiKobayashi)气态巨行星一般由一个巨大的固体核心组成,而周围则环绕着更大质量的氦和氢。尽管这类行星在宇宙中相当常见,科学家们仍然避免CO2来提高Li7La3Zr2O12电解质与层状氧化物阴极界面热稳定性研究背景与液态锂离子电池相比,固态电池具有更高的能量密度和更好的安全性。然而,固体电解质和阴极之间的界面结合不稳定,尤其是CO2的存在,因此,对于确定固体电解质阴极界面的稳定性至关NG混合不充分的地幔过渡带及其热状态来自地震波的约束热点是指地球表面长期经历火山活动的地区。来自全波形层析成像结果显示,太平洋下方的超级地幔柱近垂直上升到地幔过渡带的底部,进入到上地幔(FrenchandRomanowicz,201李宗琦拂晓观看金星火星水星三角形,哥白尼一生都没见过水星冬末春初是一个极佳的观星季节,在夜色清朗的晚上,或日出之前的拂晓,你会看到繁星闪烁的猎户星座,它的腰带三星福禄寿会为你新的一年添福添寿,还有著名的双子座金牛座御夫座冬季大三角冬季大宇航员连登月都不怕,却从月球上看地球时,为何会感到害怕?自上个世纪对太空的探测,使人类对宇宙的理解达到了一个新的层次。阿姆斯特朗是第一个于1969年七月二十一日登上月球,并在外星球上留下足迹。值得一提的是,在登上月球的宇航员中,也有很多太阳的黑子(Sunspots)太阳黑子是出现在太阳光球上的暗黑斑点,黑子温度比周围光球的温度低2000左右。黑子中心有一个暗黑的核,叫本影,温度最低本影周围稍亮些的叫半影。太阳黑子经常成群出现,由于太阳的自转,NASA航天器见证创纪录太阳爆发据美国新闻周刊网站2月21日报道,由美国国家航空航天局(NASA)和欧洲航天局联合运行的一台航天器,对一次规模巨大的太阳爆发进行了创纪录观测。2月15日,欧洲航天局NASA的太阳轨科学家们发现了迄今为止发现的最大的侏罗纪翼龙的古老骨骼在苏格兰斯凯岛(IsleofSkye)的退潮期间,一名正在寻找恐龙骨骼的研究生搜寻着海岸的岩石,获得了一个惊人的发现侏罗纪时期有记录以来最大的翼龙遗骸。自2017年收集到这个标本以