不拆分单词也可以做NLP,哈工大最新模型在多项任务中打败BE
众所周知,BERT在预训练时会对某些单词进行拆分(术语叫做WordPiece)。比如把loved、loving和loves拆分成lov、ed、ing和es。
目的是缩减词表、加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力。比如把lossless分成loss和less的时候。
现在,来自哈工大和腾讯AILab的研究人员,尝试利用不做单词拆分的词汇表开发了一个BERT风格的预训练模型WordBERT。结果,这个WordBERT在完形填空测试和机器阅读理解方面的成绩相比BERT有了很大提高。
在其他NLP任务,比如词性标注(POSTagging)、组块分析(Chunking)和命名实体识别(NER)中,WordBERT的表现也都优于BERT。由于不用分词,这个WordBERT还可以直接进行中文训练。更值得一提的是,它在性能提升的同时,推理速度并没有变慢。
可谓一举多得。NOWordPieces
与BERT类似,WordBERT包含两个组件:词向量(wordembedding)和Transformer层。和以前的模型一样,WordBERT采用多层双向Transformer来学习语境表示(contextualizedrepresentation)。
wordembedding则是用来获得单词向量表示的参数矩阵,与把单词分成WordPiece的BERT相比,WordBERT的词汇由完整的单词组成。他们用自然语言处理软件包Spacy处理数据,生成了两个词汇表,一个规模为500K,一个为1M。词汇表中还被单独添加了5个特殊单词:〔PAD〕、〔UNK〕、〔CLS〕、〔SEP〕和〔MASK〕。
通过不同的词汇表规模、初始化配置和不同语言,最后研究人员一共训练出四个版本的WordBERT:WordBERT500K、WordBERT1M、WordBERTGlove和WordBERTZH。
它们的配置如上,嵌入参数都是随机初始化的,嵌入维数和基准BERT保持一致。其中WordBERTGlove用的词汇表是现成的Glovevocabulary,里面包含约190万个未编码的单词,该模型由相应的单词向量(wordvectors)在WordBERT之上初始化而来。WordBERTZH则是用中文词汇训练出来的WordBERT,它也保持了768的词嵌入维数。性能与速度兼具
在测试环节中,完形填空的测试数据集来自CLOTH,它由中学教师设计,通常用来对中国初高中学生进行入学考试。其中既有只需在当前句子中进行推理的简单题,也有需要在全文范围内进行推理的难题。结果如下:
M代表初中,H代表高中
WordBERT1M获得了最佳成绩,并接近人类水平。它在高中题比BERT高了3。18分,初中题高了2。59分,这说明WordBERT在复杂任务中具有更高的理解和推理能力。在词性标注、组块分析和命名实体识别(NER)等分类任务中,WordBERT的成绩如下:
相比来看,它在NER任务上的优势更明显一些(后两列)。
研究人员推测,这可能是WordBERT在学习低频词的表征方面有优势,因为命名实体(namedentities)往往就是一些不常见的稀有词。对于中文版WordBERTZH,研究人员在CLUEbenchmark上的各种任务中测试其性能。除了BERT,对比模型还包括WoBERT和MarkBERT,这也是两个基于BERT预训练的中文模型。
结果,WordBERTZH在四项任务中都打败了所有其他对比模型,在全部五项任务上的表现都优于基线BERT,并在TNEWS(分类)、OCNLI(推理)和CSL(关键字识别)任务上取得了3分以上的差距。这说明,基于词的模型对中文也是非常有效的。
最后,实验还发现:性能不差的WordBERT,在不同任务上的推理速度也并未落于下风。
关于作者
一作为哈工大计算机专业在读博士生冯掌印,研究方向为NLP、文本生成。
他曾在微软亚研院自然语言计算组、哈工大和科大讯飞联合实验室实习,在NLP领域的顶会ENNLP发表过一篇一作论文。
通讯作者为史树明,来自腾讯AILab。
论文地址:
https:arxiv。orgabs2202。12142
谷歌遭反垄断诉讼一场遏制科技巨头的战役拉开序幕在华盛顿上演了数月的政治闹剧之后,遏制大型科技公司的战斗终于打响了第一枪。在美国11个州共和党总检察长的支持下,美国司法部(DepartmentofJustice)本周对……
关于忍受的近反义词忍受的意思是勉强承受。下面是品学网小编为大家整理了忍受的反义词,近义词和造句,供大家学习参考。忍受的反义词难耐〔注释〕1。不能忍受。反抗〔注释〕用行动反对;抵抗:精……
OPPO自制英雄联盟S10非官方MVFindX2英雄登场!IT之家10月12日消息今天上午,OPPO发布了自制的《英雄联盟》S10非官方MV:英雄登场BetheLegend。OPPO表示,英雄不是一时称号,而是每个人勇气的征途。当你面……
枫叶礼赞的阅读题及答案我爱枫叶,因为它红得深浓,红得艳丽。多少年来,一想到秋,我首先就会想到枫叶;想到枫叶,就会想到杜牧的诗句停车坐爱枫林晚,霜叶红于二月花,就会引发许多联想和感慨。在萧瑟的秋……
二年级语文上册蔬菜营养丰富教学反思《蔬菜营养丰富》是识字课,以写字识字为主。课文不难,第一小节是六种蔬菜的名称,第二小节是加上形容词的六种蔬菜的名称,最后一小节只有一句话,总结全文。本节课作为我的公开课应该说是……
语法复习五强调句It的用法省略和插入语一、强调句(一)强调句句型1、陈述句的强调句型:itiswas被强调部分(通常是主语、宾语或状语)thatwho(当强调主语且主语指人)其它部分。e。g。it……
消息称特斯拉与必和必拓洽谈镍供应事宜,寻求避免供应紧张据报道,特斯拉正在与全球最大矿商必和必拓集团(BHPGroup)就镍交易进行谈判,因该电动汽车制造商的目标是提高产量,并寻求避免供应紧张。知情人士表示,有关价格的谈判一直……
特斯拉副总裁回应降价初心是让性价比更好,而非利润最大化IT之家10月6日消息对于很多特斯拉车主而言,这个国庆假期似乎并不平静。10月1日当天,特斯拉宣布国产Model3标准续航升级版降价2。16万元,国产Model3长续航后轮驱动……
为造电池购买镍?特斯拉正与印尼谈判,还可能建厂印尼政府一位官员表示,就电动汽车制造商特斯拉公司在印尼一项潜在投资,印尼政府正在与该公司进行早期谈判。印尼是金属镍的主要生产国,该国渴望在国内开发一个完整的金属镍供应链,……
特斯拉或将为FSD选购包加入鸟瞰停车视角IT之家10月5日消息据外媒Engadget报道,10月5日,马斯克在推特上向一位特斯拉车主证实,特斯拉的FullSelfDriving(完全自动驾驶)选购包未来将会引入所谓的……
语文课文小壁虎借尾巴优秀教案教学目标1学会本课10个生字和由生字组成的词组。2理解课文内容,知道小鱼,老牛和燕子尾巴的作用以及壁虎的尾巴可以再生的特点。3能按事情的先后顺序练习说话。……
小米最新任命王川担任首席战略官(CSO),李肖爽接手大家电事IT之家2月21日消息小米集团今日宣布最新人事任命,联合创始人王川担任小米集团首席战略官(CSO),协助CEO统筹集团质量委员会、集团技术委员会、集团采购委员会的工作。同时,电……
SIE总裁PS5于美国前12小时预定量几乎和PS4前12周相IT之家10月28日消息据路透社报道,SIE总裁JimRyan本周透露,索尼PS5在美国的预购表现大好,据悉,PS5在美国前12个小时的预购量就与此前PS4前12周的预购量大体……
微软第一财季营收372亿美元,净利同比增30北京时间10月28日凌晨消息,微软今天发布了该公司的2021财年第一财季财报。报告显示,微软第一财季营收为371。54亿美元,比去年同期的330。55亿美元增长12,不计入汇率……
华为2019年净利润627亿元人民币,智能手机发货量超2。4IT之家3月31日消息华为今日公布2019年年报。年报显示,华为2019年全年营收8588亿元人民币,同比增长19。1,净利润627亿元人民币,经营活动现金流914亿元,同比增……
众创空间WeWork董事会欲反击日本软银,要求完成要约收购(原标题:WeWork董事会欲反击软银要求完成要约收购)3月23日消息,据国外媒体报道,美国共享办公服务供应商WeWork董事会特别委员会准备采取措施对日本软银集团进行反……
口碑饿了么超80商户复工,订单量较2月初增长近2倍3月12日消息,口碑饿了么数据显示,近一周来中小商户复工率已超过80,订单量较2月初增长近200。与此同时,在口碑饿了么连续4次推出商家扶持举措后,目前已有超过20万商家……
我的梦想谈话活动教案在幼儿园里,通过我的梦想谈话活动,我们可以导幼儿学习用完整的语言讲述自己的梦想,培养幼儿的想像力和语言表达能力。以下是小编精心准备的我的梦想谈话活动教案,大家可以参考以下内容哦……
长夜漫漫(转)一手端着咖啡,一手放在键盘上。斜了一眼屏幕右下角的时间,23:45。张楚无聊地打了个哈欠,从自己的工作区内探出头来,看了一眼前面工作区里的同事。见同事还在对着那张该……
职称怎么造句职称拼音【注音】:zhicheng职称解释【意思】:职务的名称。职称造句1、一些职称的确说明你做了什么。2、所以,在这种环境之下,职称还会有……
美股周一大幅收高道指涨近700点,微软涨73月31日消息,据外媒报道,美国时间周一,美股在上周强劲反弹的基础上大幅收高,因美国扩大了控制新冠肺炎疫情的措施。道琼斯指数收于22327。48点,上涨690点,涨幅3。……
美国科技五巨头强势,美股大跌期间也比大盘跌得少3月27日消息,据外媒报道,自美国股市2月19日见顶以来,美国股市市值最高的五支股票依然跑赢大盘。这五支股票包括苹果、微软、亚马逊、谷歌母公司Alphabet和Faceb……
英语教学反思800字提起那节课,我至今记忆犹新。那天的教学内容是初中英语第三册中的Lesson62,GirlsBeatBoys,课文叙述的是一场精彩的足球赛。这是学生非常感兴趣的内容,可是对……
第二册23植物的光合作用第三节植物的光合作用植物的光合作用是植物重要的生理功能,本节内容是本章的重点。本教材都是从实验入手来讲解光合作用的原料、产物、条件、场所的。在此基础上,归纳出光合作……