范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

不拆分单词也可以做NLP,哈工大最新模型在多项任务中打败BERT,还能直接训练中文

  众所周知,BERT 在预训练时会对某些单词进行拆分(术语叫做"WordPiece")。比如把"loved"、"loving"和"loves"拆分成"lov"、"ed"、"ing"和"es"。
  目的是缩减词表、加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力。比如把"lossless"分成"loss"和"less"的时候。
  现在,来自哈工大和腾讯 AI Lab 的研究人员,尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT。结果,这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高。
  在其他 NLP 任务,比如词性标注 (POS-Tagging)、组块分析 (Chunking) 和命名实体识别 (NER) 中,WordBERT 的表现也都优于 BERT。由于不用分词,这个 WordBERT 还可以直接进行中文训练。更值得一提的是,它在性能提升的同时,推理速度并没有变慢。
  可谓一举多得。NO WordPieces
  与 BERT 类似,WordBERT 包含两个组件:词向量(word embedding)和 Transformer 层。和以前的模型一样,WordBERT 采用多层双向 Transformer 来学习语境表示(contextualized representation)。
  word embedding 则是用来获得单词向量表示的参数矩阵,与把单词分成 WordPiece 的 BERT 相比,WordBERT 的词汇由完整的单词组成。他们用自然语言处理软件包 Spacy 处理数据,生成了两个词汇表,一个规模为 500K,一个为 1M。词汇表中还被单独添加了 5 个特殊单词:[PAD]、[UNK]、 [CLS]、[SEP] 和 [MASK]。
  通过不同的词汇表规模、初始化配置和不同语言,最后研究人员一共训练出四个版本的 WordBERT:WordBERT-500K、WordBERT-1M、WordBERT-Glove 和 WordBERT-ZH。
  它们的配置如上,嵌入参数都是随机初始化的,嵌入维数和基准 BERT 保持一致。其中 WordBERT-Glove 用的词汇表是现成的 Glove vocabulary,里面包含约 190 万个未编码的单词,该模型由相应的单词向量(word vectors)在 WordBERT 之上初始化而来。WordBERT-ZH 则是用中文词汇训练出来的 WordBERT,它也保持了 768 的词嵌入维数。性能与速度兼具
  在测试环节中,完形填空的测试数据集来自 CLOTH,它由中学教师设计,通常用来对中国初高中学生进行入学考试。其中既有只需在当前句子中进行推理的简单题,也有需要在全文范围内进行推理的难题。结果如下:
  △M 代表初中,H 代表高中
  WordBERT-1M 获得了最佳成绩,并接近人类水平。它在高中题比 BERT 高了 3.18 分,初中题高了 2.59 分,这说明 WordBERT 在复杂任务中具有更高的理解和推理能力。在词性标注、组块分析和命名实体识别(NER)等分类任务中,WordBERT 的成绩如下:
  相比来看,它在 NER 任务上的优势更明显一些(后两列)。
  研究人员推测,这可能是 WordBERT 在学习低频词的表征方面有优势,因为命名实体(named entities)往往就是一些不常见的稀有词。对于"中文版"WordBERT-ZH,研究人员在 CLUE benchmark 上的各种任务中测试其性能。除了 BERT,对比模型还包括 WoBERT 和 MarkBERT,这也是两个基于 BERT 预训练的中文模型。
  结果,WordBERT-ZH 在四项任务中都打败了所有其他对比模型,在全部五项任务上的表现都优于基线 BERT,并在 TNEWS(分类)、OCNLI(推理)和 CSL(关键字识别)任务上取得了 3 分以上的差距。这说明,基于词的模型对中文也是非常有效的。
  最后,实验还发现:性能不差的 WordBERT,在不同任务上的推理速度也并未"落于下风"。
  关于作者
  一作为哈工大计算机专业在读博士生冯掌印,研究方向为 NLP、文本生成。
  他曾在微软亚研院自然语言计算组、哈工大和科大讯飞联合实验室实习,在 NLP 领域的顶会 ENNLP 发表过一篇一作论文。
  通讯作者为史树明,来自腾讯 AI Lab。
  论文地址:
  https://arxiv.org/abs/2202.12142

汪涵直播带货退货率超70引热议,坑位费10万元不退,签约方回应直播带货目前已成为当下的流行趋势,不管是当红流量明星资深艺人,还是十八线艺人,几乎全部都在直播卖货。而近日的双十一期间,更是直播带货的好时机。但在近日,网上竟然出现了直播带货造假事5G手机普及战开打一图了解高通骁龙690核心参数IT之家6月17日消息今天高通宣布推出首款骁龙6系5G移动平台骁龙6905G移动平台。全新平台旨在进一步推动全球5G体验的广泛普及,并提供卓越的终端侧AI和畅爽的娱乐体验。骁龙69高通发布骁龙690处理器CPU速度提升20,支持5GWiFi6IT之家6月17日消息据外媒gsmarena报道,高通今天发布了旗下首款支持5G的6系列骁龙移动芯片组骁龙690,基于8nm工艺打造,是骁龙675的继任者,这款新芯片组搭配的是X5比尔183盖茨10月底前没有一种新冠疫苗能在美国获批IT之家9月16日消息据人民日报海外网报道,微软联合创始人比尔盖茨(BillGates)上周接受采访时表示,没有一种新冠疫苗可能在10月底之前于美国获批。不过,比尔盖茨指出,我确实诺基亚6(2017)国行安卓9Pie升级今日推送感谢IT之家网友CC630336的线索投递!IT之家2月26日消息诺基亚手机在系统升级方面一直比较积极。在诺基亚9PureView五摄手机刚刚推出不久,诺基亚手机官方又宣布,第一代苹果侵入高通腹地称三年内将在圣地亚哥招募1200人苹果公司周三宣布,未来三年将在圣地亚哥的一个办公室招聘1200名员工,试图在其目前的法律对手高通的地盘上扩大影响力。苹果扩张之际,两家公司仍在进行一场跨国法律战。高通指控苹果侵犯了支付宝为全国医护人员设立健康保障金,守护医护英雄!IT之家1月27日消息越来越多的来自全国各地的医护人员赶赴武汉疫区。为此支付宝保险平台为全国医护人员设立健康保障金。在国家卫健委公告认定的疫情期间,如果医护人员在抗击疫情中不幸感染赛博朋克2077将比巫师3有更深入的RPG体验IT之家8月13日消息游戏赛博朋克2077高级游戏设计师MilesTost本周在接受外媒Netrunner2077采访时表示,赛博朋克2077将会带来比巫师3更加深入的RPG游戏体收藏回看!新中国成立70周年盛大阅兵全程视频来了10月1日,庆祝中华人民共和国成立70周年盛大阅兵式在北京天安门广场举行。受阅部队由15个徒步方队32个装备方队12个空中梯队组成,他们依次通过天安门广场,接受祖国和人民检阅。空中小米大疆等53家企业获评2019年国家技术创新示范企业IT之家9月27日消息据工业和信息化部9月27日消息,为深入实施创新驱动发展战略,根据技术创新示范企业认定管理办法(试行),经审核,工业和信息化部认定北京小米移动软件有限公司深圳市雷军大家觉得小米很劣质便宜,其实是在贴着成本卖IT之家3月6日消息据老板联播消息,3月2日,哈佛北京校友会答谢晚宴上,雷军上台致辞。雷军表示中国企业和整个中国行业的流通效率特别慢,导致大家在制造端偷工减料,所以不容易做出好东西
外媒称苹果与现代合作,起亚将在佐治亚州工厂生产苹果汽车,起亚大涨171月19日下午消息,Edaily报道称,现代汽车集团内部正在安排旗下的起亚品牌与苹果公司在电动汽车生产方面进行合作,但是此报道并未援引任何消息源。该报道表示,如果现代汽车集团与苹果揭秘谷歌前自动驾驶工程师莱万多夫斯基跳槽之谜作为谷歌曾经最耀眼的明星自动驾驶工程师,安东尼莱万多夫斯基(AnthonyLevandowski)和克里斯厄姆森(ChrisUrmson)帮助塑造了今天的自动驾驶行业。但两人的性格丰田与松下合资电动汽车电池公司拟提高生产率10月28日消息,据国外媒体报道,丰田与松下合资的电动汽车电池公司社长好田博昭日前表示,正在设法提高公司生产率。好田博昭表示,若生产率提升至10倍,就能胜过中国厂商。丰田和松下今年香港地铁明年1月23日起,AlipayHK和支付宝均可扫码进闸感谢IT之家网友OrekiDawson的线索投递!IT之家12月24日消息港铁明年将全面实现扫码进闸。香港铁路有限公司(0066。HK)及蚂蚁集团旗下AlipayHK日前宣布自20成渝两地正式实现公交轨道一码通天府通重庆市民通互用IT之家12月21日消息据成都天府通官方发布,今天(12月21日)起,成渝两地正式实现公交轨道一码通了。不用下载新的App,两地公交轨道BRT都能用。IT之家获悉,也就是说,成都市深圳地铁14号线开始铺轨线路总长50。34公里,首次应用纯电动轨道车IT之家12月19日消息据微博深圳地铁消息,12月18日深圳东部首条快线14号线开始铺轨。在14号线福新铺轨基地,两台大跨度龙门吊将第一节25米长的轨排精准地铺设在轨道板上,正式拉成都轨道交通5线齐开,运营突破500公里IT之家12月18日消息据央视新闻和成都地铁,12月18日上午10时,成都轨道交通6号线一二三期8号线一期9号线一期17号线一期18号线三岔站(不含)至天府机场北站段同步开通初期运被现代汽车收购后,波士顿动力CEO谈公司的未来知名机器人公司波士顿动力(BostonDynamics)近期被韩国的现代汽车收购。该公司CEO罗伯特普莱特(RobertPlayter)日前接受了国外媒体采访,谈论了新的母公司,以上海市推出老年人一键叫车无需输入目的地地址IT之家11月27日消息据央视财经报道,约车软件不会操作,只靠招手打不到车,线上支付又搞不定,现在不少老年人感叹外出打车太难。针对这一情况,日前,上海市出租车统一平台推出一键叫车功高德打车发布好的出租扬招乘客可扫描智慧码自选路线11月26日下午消息,高德地图宣布启动好的出租计划,与交通主管部门出租车企业合力打造更好的巡网融合生态。根据计划,好的出租将在一年内帮助100万辆巡游出租汽车完成巡网融合改造,帮助深圳首条无人驾驶地铁线明年通车IT之家11月5日消息据深圳特区报,11月4日,深圳地铁全自动运行试验中心开工建设,计划于2021年6月投入使用。报道指出,地铁20号线有望成为全市首条全自动运行地铁线路,12号线