解读谷歌最强NLP模型BERT:模型、数据和训练
5月5日 溷元楼投稿 NLP是人工智能的一个子领域,也是人工智能中最为困难的问题之一,但是对于自然语言处理的研究也是充满魅力和挑战的。
近日,谷歌AI团队新发布的BERT模型,在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步。BERT的创新点在哪里?新智元专栏作者潘晟锋对这篇论文进行了深度解读。
最近谷歌研究人员通过新的BERT模型在11项NLP任务中夺得STOA结果,这在自然语言处理学界以及工业界都引起了不小的热议。
作者通过在33亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,这样的模型在不同的任务均得到了目前为止最好的结果,并且有一些结果相比此前的最佳成绩得到了幅度不小的提升。
作者的这一研究其实是今年深度学习在自然语言处理中一个新热点方向的延续,故事还得从更早一点说起。
论文地址:https:arxiv。orgabs1810。04805
一、BERT的“前任”们
早在2015年的时候,微软研究院的何凯明和他的同事们发表了残差网络的论文,第一次通过残差的方式将卷积神经网络推进到了100层以上,并在图像识别的任务上刷新了当时的最高纪录。
自那以后起,随着网络不断地加深,效果也在不断提升。然而大量的数据训练出来的大型网络虽然效果更好,但随着网络的加深以及数据集的不断扩大,完全重新训练一个模型所需要的成本也在不断地增加。
因此在计算机视觉处理中,人们越来越多地采用预训练好的大型网络来提取特征,然后再进行后续任务。目前这种处理方式已经是图像处理中很常见的做法了。
相比之下,自然语言处理目前通常会使用预训练的词向量来进行后续任务。但词向量是通过浅层网络进行无监督训练,虽然在词的级别上有着不错的特性,但却缺少对连续文本的内在联系和语言结构的表达能力。
因此大家也希望能像图像领域那样,通过大量数据来预训练一个大型的神经网络,然后用它来对文本提取特征去做后续的任务,以期望能得到更好的效果。其实这一方向的研究一直在持续,直到今年的早些时候AllenAI提出的〔ELMo〕(https:arxiv。orgpdf1802。05365。pdf)由于其在后续任务上的优异表现获得了不小的关注。
在ELMo获得成功以后不久FastAI就推出了〔ULMFiT〕(https:arxiv。orgabs1801。06146),其大体思路是在微调时对每一层设置不同的学习率。此后OpenAI又提出了〔GPT〕(https:blog。openai。comlanguageunsupervised)。
从上面提及的这些论文的结果以及学界和工业界的反馈来看,这种使用大量的语料进行预训练,然后再在预训练好的模型上进行后续任务训练,虽然训练方式各有不同,但在后续任务都有不同程度的提高。
而谷歌提出的BERT就是在OpenAI的GPT的基础上对预训练的目标进行了修改,并用更大的模型以及更多的数据去进行预训练,从而得到了目前为止最好的效果。
Transformer的编码器结构
二、BERT的主体结构和创新点
BERT模型沿袭了GPT模型的结构,采用〔Transfomer〕(https:arxiv。orgabs1706。03762)的编码器作为主体模型结构。Transformer舍弃了RNN的循环式网络结构,完全基于注意力机制来对一段文本进行建模。
Transformer所使用的注意力机制的核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。因此再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表达。
这个新的表征不但蕴含了该词本身,还蕴含了其他词与这个词的关系,因此和单纯的词向量相比是一个更加全局的表达。
Transformer通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。
Transformer的注意力层得到的词词之间关系
GPT则利用了Transformer的结构来进行单向语言模型的训练。所谓的语言模型其实是自然语言处理中的一种基础任务,其目标是给定一个序列文本,预测下一个位置上会出现的词。
模型学习这样的任务过程和我们人学习一门语言的过程有些类似。我们学习语言的时候会不断地练习怎么选用合适的词来造句,对于模型来说也这样。例如:
今天天气不错,我们去公园玩吧。
这句话,单向语言模型在学习的时候是从左向右进行学习的,先给模型看到“今天天气”两个词,然后告诉模型下一个要填的词是“不错”。然而单向语言模型有一个欠缺,就是模型学习的时候总是按照句子的一个方向去学的,因此模型学习每个词的时候只看到了上文,并没有看到下文。
更加合理的方式应该是让模型同时通过上下文去学习,这个过程有点类似于完形填空题。例如:
今天天气{},我们去公园玩吧。
通过这样的学习,模型能够更好地把握“不错”这个词所出现的上下文语境。
而BERT对GPT的第一个改进就是引入了双向的语言模型任务。
此前其实也有一些研究在语言模型这个任务上使用了双向的方法,例如在ELMo中是通过双向的两层RNN结构对两个方向进行建模,但两个方向的loss计算相互独立。
而BERT的作者指出这种两个方向相互独立或只有单层的双向编码可能没有发挥最好的效果,我们可能不仅需要双向编码,还应该要加深网络的层数。但加深双向编码网络却会引入一个问题,导致模型最终可以间接地“窥探”到需要预测的词。
这个“窥探”的过程可以用下面的图来表示:
从图中可以看到经过两层的双向操作,每个位置上的输出就已经带有了原本这个位置上的词的信息了。这样的“窥探”会导致模型预测词的任务变得失去意义,因为模型已经看到每个位置上是什么词了。
为了解决这个问题,我们可以从预训练的目标入手。我们想要的其实是让模型学会某个词适合出现在怎样的上下文语境当中;反过来说,如果给定了某个上下文语境,我们希望模型能够知道这个地方适合填入怎样的词。
从这一点出发,其实我们可以直接去掉这个词,只让模型看上下文,然后来预测这个词。但这样做会丢掉这个词在文本中的位置信息,那么还有一种方式是在这个词的位置上随机地输入某一个词,但如果每次都随机输入可能会让模型难以收敛。
BERT的作者提出了采用MaskLM的方式来训练语言模型。
通俗地说就是在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号来代替它们。尽管模型最终还是会看到所有位置上的输入信息,但由于需要预测的词已经被特殊符号代替,所以模型无法事先知道这些位置上是什么词,这样就可以让模型根据所给的标签去学习这些地方该填的词了。
然而这里还有一个问题,就是我们在预训练过程中所使用的这个特殊符号,在后续的任务中是不会出现的。
因此,为了和后续任务保持一致,作者按一定的比例在需要预测的词位置上输入原词或者输入某个随机的词。当然,由于一次输入的文本序列中只有部分的词被用来进行训练,因此BERT在效率上会低于普通的语言模型,作者也指出BERT的收敛需要更多的训练步数。
BERT另外一个创新是在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务。这个任务的目标也很简单,就是预测输入BERT的两端文本是否为连续的文本,作者指出引入这个任务可以更好地让模型学到连续的文本片段之间的关系。在训练的时候,输入模型的第二个片段会以50的概率从全部文本中随机选取,剩下50的概率选取第一个片段的后续的文本。
三、除了模型结构,模型大小和数据量都很重要
以上的描述涵盖了BERT在模型结构和训练目标上的主要创新点,而BERT的成功还有一个很大的原因来自于模型的体量以及训练的数据量。
BERT训练数据采用了英文的开源语料BooksCropus以及英文维基百科数据,一共有33亿个词。同时BERT模型的标准版本有1亿的参数量,与GPT持平,而BERT的大号版本有3亿多参数量,这应该是目前自然语言处理中最大的预训练模型了。
当然,这么大的模型和这么多的数据,训练的代价也是不菲的。谷歌用了16个自己的TPU集群(一共64块TPU)来训练大号版本的BERT,一共花了4天的时间。
对于是否可以复现预训练,作者在〔Reddit〕(https:www。reddit。comrMachineLearningcomments9nfqxzrbertpretrainingofdeepbidirectional?utmcampaignNLP20NutmsourceRevue20newsletter)上有一个大致的回复,指出OpenAI当时训练GPT用了将近1个月的时间,而如果用同等的硬件条件来训练BERT估计需要1年的时间。不过他们会将已经训练好的模型和代码开源,方便大家训练好的模型上进行后续任务。
虽然训练的代价很大,但是这个研究还是带来了一些思考和启发。例如双向语言模型的运用,多任务对预训练的帮助以及模型深度带来的收益。相信在未来的一段时间,自然语言处理中预训练的神经网络语言模型会得到更多的关注和运用。
相关阅读:
NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!
狂破11项记录,谷歌年度最强NLP论文到底强在哪里?
新智元AIWORLD2018
世界人工智能峰会全程回顾
新智元于9月20日在北京国家会议中心举办AIWORLD2018世界人工智能峰会,邀请机器学习教父、CMU教授TomMitchell,迈克思泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。
全程回顾新智元AIWorld2018世界人工智能峰会盛况:
爱奇艺
上午:https:www。iqiyi。comv19rr54cusk。html
下午:https:www。iqiyi。comv19rr54hels。html
新浪:http:video。sina。com。cnlp1724373。html
投诉 评论 解读谷歌最强NLP模型BERT:模型、数据和训练NLP是人工智能的一个子领域,也是人工智能中最为困难的问题之一,但是对于自然语言处理的研究也是充满魅力和挑战的。近日,谷歌AI团队新发布的BERT模型,在NLP业内引起巨……
教育AI产品设计以考试机器人为例AI技术与教育的融合速度日益加快,AI助力的自适应学习大家都比较熟悉,本文的产品以考试机器人为例,举例教育AI产品的设计内容。教育考试机器人(EducationalEva……
维密、LV、Burberry等时尚大牌,是如何借助AI掀起营随着微信、FacebookMessenger等通讯应用的广泛应用,消费者的兴趣和时间,正在从社交网络向通信应用转移;很多品牌就找到了其中的商业潜力,开始接入和消费者直接沟通的聊……
语音对话系统的设计要点与多轮对话的重要性当今,ASR与TTS技术相对来将已经成熟,自然语言的表示和理解已经取得了很大的进展,在行业的竞争壁垒中也逐步削弱,未来智能对话机器人的核心竞争力在于理解了用户的意图之后所提供的……
AI时代眼动研究的变与不变本文聚焦于AI交互中的眼动研究和传统互联网眼动研究的异同,从眼动技术本身、研究内容的延展、眼动分析思路的差异、眼动研究注意事项,这四个方面,来探讨AI时代眼动研究的变与不变。……
AI医疗:聊天机器人的案例和创新点探讨本篇文章对预问诊机器人、养老陪伴机器人、心理健康咨询机器人、医疗机构客服这四大类聊天机器人进行了分类举例探讨。Siri创始人曾表示,AI虚拟助手未来5年内将彻底改变医疗行……
摄像头“读脸”的另一种打开方式用户们对被摄像头“读脸”这件事如临大敌,担心自己的隐私被泄露;而这却并没有影响科技公司攻克心情识别技术的一片“初心”,积极攻克摄像头心情识别技术难关。矛盾之下,如何双赢?……
AI产品与医疗产业的几个结合点本文将探讨AI产品如何在癌症早期筛查乃至于所有的医疗场景下发挥作用,enjoy一、医疗影像目前医疗数据中有超过90来自医疗影像,医疗影像数据已经成为医生诊断必不可少……
扫”忙”贴机器人硬件如何从0到1机器人是什么制作的?本篇文章详细地介绍了机器人的制作流程,从需求到批量生产,相信读完你也一定能对机器人制作有一定的了解。必读群体:是比我更不了解机器人硬件的产品经理,或者……
以优衣库为例,说说传统零售应该关注的AI产品方向优衣库推出了购物助手UniqloIQ,与之相似,当前很多零售巨头都在试图借助AI打造个性化的用户体验。日本快时尚巨头优衣库(Uniqlo)在今年8月正式拥抱AI,推出了购……
聊天机器人在中外大型银行的应用案例及意义本篇文章介绍了六家大型银行的聊天机器人,并分析了聊天机器人可以在银行领域中带来的几个方面变革。聊天机器人和机器人投资顾问的出现,正在迅速改变这人们的储蓄、转账和资金管理方……
产品经理必读:AI智能客服的发展趋势智能客服已经逐渐出现在人们的生活之中,并且因为其智能化的特点,在很大程度上节省了人工成本。2018双十一期间引爆了一场智能客服大战。阿里的“阿里小蜜”、京东的“无人客服”……
普京签署天然气“卢布结算令”:不付卢布就断气俄罗斯总统普京31日签署总统令,对俄“非友好国家和地区”以卢布支付俄罗斯天然气的新规于4月1日起生效。据克里姆林宫网站刊登的相关文件,自4月1日起,对俄“非友好国家”公司……
美国和北约在乌克兰危机中充满算计近日,印度国际问题专家斯瓦斯蒂拉奥在接受中央广播电视总台记者采访时表示,乌克兰危机的主要原因是由于美国和北约的不断扩张,让俄罗斯的军事安全受到极大威胁。在乌克兰危机持续的背后,……
俄公布参与美在乌军事生物计划人员名单俄军辐射、化学和生物防护部队司令基里洛夫3月31日公布了参与美国在乌克兰境内军事生物计划的人员名单。俄方认为,这些人员及其活动信息表明美军事部门及其承包商参与了美国防部在乌境内……
对俄罗斯制裁,敌损一千自损八百俄乌冲突以来,俄罗斯受到了欧洲多国的“惩罚”,然而不止俄罗斯不好受,欧洲也同样因此付出了代价。根据美国资深机构分析数据,欧元区面临的能源危机将给消费者带来相当于其GDP1……
美国生物实验室乱象暴露霸权主义本质美国本着“合则用不合则弃”的实用主义心态,肆意破坏现存国际制度,妄图构建一个更加符合美国心意的新国际秩序。据新华社报道,近期,美国在乌克兰的生物实验活动引起国际社会的高度……
白宫称正向乌克兰提供物资抵御“俄生化攻击”,当地时间4月1日,美国白宫新闻秘书普萨基表示,为防止俄罗斯在乌克兰部署生化武器,美国正在向乌克兰提供相应的物资和设备。不过,有美国官员表示,目前尚无确切证据证明乌克兰即将遭受生……
俄官员:美国从俄进口石油量大增海外网4月4日电当地时间3日,俄罗斯国家安全会议副秘书长波波夫表示,美国强迫欧洲制裁俄罗斯的同时,其最近一周购买俄罗斯石油的量却增加了43,达到了每日10万桶。……
二战后俄罗斯本土首次遭受军事打击,俄媒曝乌军所为4月1日,俄罗斯对乌克兰的特别军事行动进入第37天。据俄媒报道,在俄军正准备对顿巴斯地区发动新一轮攻势之际,乌方1日罕见空袭了俄西部一处石油基地。另一方面,俄与美西方在能源领域……
多种进口水产品检出阳性近日,海关总署发布公告称多种进口水产品检出阳性冻鳀鱼干检出阳性因从进口自越南1批次冻鳀鱼干的1个内包装样本中检出新冠病毒核酸阳性,按照海关总署公告2020年第……
逼俄入绝境,若普京死磕到底,整个欧洲或也将玩完北约峰会在布鲁塞尔北约总部如期举行。这场峰会将决定接下来,北约会以怎样的方式,来介入其中,也将决定未来国际格局的新走向。整个峰会大约持续了2个小时,最终发布了联合声明。整……
俄本土遭到轰炸,传递了三个很不寻常的信号!开战一个多月以来,乌克兰军队第一次对俄本土发动空袭。这不是愚人节的假新闻。这是真的事件,4月1日,也就是说,开战一个多月以来,乌克兰军队第一次对俄本土发动空袭。……
美国暗示很快将对俄方采取更多行动外媒报道,俄罗斯外交部长拉夫罗夫在新德里与印度外长苏杰生会谈后共同会见记者时说:“我们是朋友”“我们准备提供印度想要购买的所有商品。”此前,拜登多次批评印度对俄立场“不坚……