范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

一文详解BERT模型实现NER命名实体抽取王文广

  在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。BERT是一个大规模预训练模型,它通过精心设计的掩码语言模型(Masked Language Model,MLM)来模拟人类对语言的认知,并对数十亿个词所组成的语料进行预训练而形成强大的基础语义,形成了效果卓绝的模型。通过 BERT来进行实体抽取、NER的方法是当前在NLP和知识图谱的产业化应用中最常用的方法,是效果与成本权衡下的最佳选择。本文详细讲解使用BERT来进行实体抽取,看完本文就会用当前工业界最佳的模型了。
  什么是实体抽取?
  实体是一个常见的名词,《知识图谱:认知智能理论与实战》一书将其定义为:
  实体(Entity):是指一种独立的、拥有清晰特征的、能够区别于其他事物的事物。在信息抽取、自然语言处理和知识图谱等领域,用来描述这些事物的信息即实体。实体可以是抽象的或者具体的。
  在实体抽取中,实体也成为命名实体(Named Entity),是指在实体之上会将其分门别类,用实体类型来框定不同的实体。图1是一些常见的"实体"的例子,比如"城市"类型的实体"上海"," 公司"类型的实体"达观数据"等。
  图1 实体示例
  实体抽取(Entity Extraction,EE)的目标就是识别一段文本中所包含的实体,在其他语境中,也被称之为"实体识别(Entity Recognition,ER)"、"命名实体识别(Named Entity Recognition,NER)",这些不同的名词在大多数情况下所指代的意思是一样的。
  举例来说,有一段文本:
  达观数据与同济大学联合共建的"知识图谱与语义计算联合实验室"正式揭牌成立
  识别出其中的蓝色部分,并标记为"机构"类型的实体,就是实体抽取。实体抽取的过程通常可以分为是两个阶段:
  识别出所有表示实体的词汇
  将这些词汇分类到不同实体类型中
  在传统的命名实体识别任务中,通常有人物、机构、地点等。而在知识图谱中,实体类型可以有数十种,甚至数百种。对于知识图谱来说,将各种文本中的实体抽取出来是最基本的任务,有许多方法都致力于解决这个问题。
  图2 实体抽取案例
  众所周知,实体抽取的复杂程度十分之高,这不仅仅有上图中的这样复杂的文档的原因,语言本身的理解也存在重重困难,有些场景下即使是人类也会出现不解之处。比如语言中隐含着专业的背景知识,隐形或显性的上下文语境,同样的文本表达着完全不同的概念,而相同的概念又有多变的语言表达方法等等。这些综合的原因使得理解语言成为了人工智能皇冠上的明珠,而从文本中抽取实体则不可避免地要理解语言,实体抽取的效果则依赖于对语言理解的程度。
  图3 语言理解困难重重
  历史上,用来进行实体抽取的方法包括基于规则的方法、机器学习方法、深度学习方法和弱监督学习方法等几大类,每类方法中都有很多种不同的算法,具体的算法内容可以参考《知识图谱:认知智能理论与实战》第三章《实体抽取》(P78~136)。
  BERT介绍
  BERT 是英文"Bidirectional Encoder Representations from Transformers"的缩写,是Google开发的一种基于Transformer的深度学习技术,用于人工智能领域的文本预训练。BERT 由Jacob Devlin和他在 Google 的同事于 2018 年创建,并在论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中发布。在2019 年,谷歌宣布已开始在其搜索引擎中使用 BERT,到 2020 年底,它几乎在搜索查询中都使用了 BERT。在2020 年的一篇论文《"A Primer in BERTology: What We Know About How BERT Works"》中提到"In a little over a year, BERT has become a ubiquitous baseline in NLP experiments and inspired numerous studies analyzing the model and proposing various improvements. The stream of papers seems to be accelerating rather than slowing down, and we hope that this survey helps the community to focus on the biggest unresolved questions."自从 BERT 出来以后,也引导了至今炙手可热的"大模型"浪潮。其本质就是"预训练"+"微调":
  图4 BERT模型,来自参考文献[2]
  对于普罗大众来说,人工智能的标志性事件当属AlphaGo,号称人类最难的智力游戏败于机器,可是街头巷尾的谈资。
  在自然语言处理领域,BERT在当时的自然语言处理领域可谓掀起轩然大波,总结起来有:
  在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人成绩,首次两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩。
  关于 SQuAD数据集和评测参考https://rajpurkar.github.io/SQuAD-explorer/,当前是2.0版本。
  谷歌团队成员Thang Luong表示,BERT模型开启了NLP的新时代
  证明了通过大规模语料集预训练的技术,能够大幅度提升各类文本阅读理解的效果,也因此,"大模型"自此兴起
  Masked LM(见下图)通过学习masked的词,不仅让模型学会了上下文信息,还学会了语法syntax、语义semantics、语用pragmatics等,并能够很好地学会部分领域知识
  预训练模型越大,效果越好;对应的,成本也会越高。相比于单任务模型来说,无监督的预训练模型成本要大1000倍以上
  学术界传统上认为,在一些很难处理的文字阅读理解任务上,计算机有望能够全面超越人类
  图5 掩码语言模型
  掩码语言模型的提出则来自于Google 的更早些的一篇论文《Attention Is All You Need》(下载地址:https://arxiv.org/pdf/1706.03762.pdf) 所提到的 Transformers 模型(见下图)。但 BERT 与 Transformers 略有区别,使用的是其编码器部分,这点从BERT 的论文标题也可以看出来。事实上,当前炙手可热的大模型中(如 GPT-3等),几乎都依赖于 Transformers 的模型结构,特别是其中的自注意力机制。《知识图谱:认知智能理论与实战》一书 P123~130的"BERT 模型详解"一节则对结合代码实现该BERT 的模型结构进行详细的解析,通俗易懂,非常适合阅读来深入理解BERT 模型。上述两篇论文则提供了更多的实验对比素材,深入阅读有助于了解BERT 为何会在当时引起轰动,以至于在NLP领域引领风骚数年。
  图6 Transformer模型结构
  此外值得一提的是,Google最初 发布的 BERT 模型有两种配置:
  BERT BASE:12 个编码器,带有 12 个双向自注意力头;
  BERT LARGE:24 个编码器,带有 16 个双向自注意力头。
  这两种配置结构类似,Large版本要比Base版本"更大",效果自然更好,同时使用时资源要求也更高。本文以Base版本示例,以使得在一张显卡上即可完成。换成 Large 版本不用改变任何代码,但因为网络更大,可能需要更高级的显卡或多卡来支持模型的训练。
  语料准备
  本文采用"MSRA实体抽取数据集",并使用BIO标记方法来标记,数据集在GitHub 上有很多,也可以GitHub官网下载。
  (https://github.com/wgwang/kgbook/tree/main/datasets/NER-MSRA)
  MSRA数据集中,实体类型有三种:
  LOC:地点类型
  ORG:机构类型
  PER:人物类型
  一个例子为:
  1 O
  、 O
  中 B-ORG
  国 I-ORG
  作 I-ORG
  协 I-ORG
  和 O
  现 B-LOC
  代 I-LOC
  文 I-LOC
  学 I-LOC
  馆 I-LOC
  负 O
  责 O
  人 O
  在 O
  巴 B-PER
  金 I-PER
  家 O
  中 O
  介 O
  绍 O
  文 B-LOC
  学 I-LOC
  馆 I-LOC
  新 O
  馆 O
  设 O
  计 O
  模 O
  型 O
  。O
  从上述例子可以看出:1."中国作协"是组织机构(ORG)类型:
  B-ORG标签:因为它是一个机构实体的开始I-ORG标签:因为它是一个机构实体的延续
  2. "现代文学馆"和"文学馆"是地点(LOC) 类型:B-LOC标签:因为它是地点实体的开始I-LOC标签:因为它是地点实体的延续
  3."巴金"是任务(PER) 类型:B-PER标签:因为它是人物实体的开始I-PER 标签:因为它是人物实体的延续
  4.其他词被分配O标签:因为它们不是任何实体
  使用 BERT 来进行实体抽取的话,需要将语料进行处理,转化成列表的形式(train_data和test_data,对应于原始的train.txt 和test.txt),列表的每一个元素是一个键值对元组,键为文本列表,值为标签列表。如下图所示:
  图7 数据样例
  用BERT进行实体抽取这里使用最流行的 PyTorch 框架来实现。首先是引入相关的库。
  这里选择的是Google发布的模型bert-base-chinese(https://huggingface.co/models 提供了大量的模型供使用,包括各种专业的预训练模型,比如面向金融领域 FinBERT,面向医药领域的 MedBERT等等):
  BERT_NAME = "bert-base-chinese"
  转化为torch能够使用的数据集
  再用如下代码将torch 的 dataset转化为按微批提取的 dataloader:
  到此,数据准备完成,后面就可以使用数据集来训练模型和测试模型效果了。
  构建模型
  在本文中,我们将使用来自HuggingFace的预训练 BERT 基础模型。既然我们要在token级别对文本进行分类,那么我们需要使用BertForTokenClassificationclass。
  BertForTokenClassificationclass是一个包装 BERT 模型并在 BERT 模型之上添加线性层的模型,将充当token级分类器。基于BertForTokenClassificationclass来创建基于 BERT 的实体抽取模型非常简单,见下面代码:
  通过如下代码即可实例化一个用BERT进行实体抽取的模型:
  model = BertModel(len(label2id)+1)
  训练
  我们的BERT模型的训练循环是标准的PyTorch训练循环。在训练模型中,需要使用 GPU,否则会非常耗时。GPU建议使用nvidia的显卡提供,1080ti及其更高版本皆可。model = model.cuda()
  由于BERT已经使用了大规模语料训练并得到了通用的语义表示,通常使用的话,仅需要重新微调最上面一层即可。为此,需要冻结其他不需要训练的层的参数。下面代码实现了这个逻辑:
  接下来就是常见的深度学习训练方法了,这里使用AdamW优化器,其他优化器也可以根据需要进行选择,具体的参考PyTorch的官方文档。
  lr = 0.00005
  optimizer = torch.optim.AdamW(optimizer_grouped_parameters, lr=lr)
  下面是具体的训练代码:
  在测试数据上评估模型现在我们已经训练了用于抽取实体的BERT模型。在前面数据集准备中还有测试集,这里可以使用测试集来看效果:
  另外,上述的效果评估是比较简单的,实际应用中还可以使用更为精细的评估方法,比如按所抽取的实体来评估的方法。更多的用于评估实体抽取的方法可参考《实体抽取:如何评估算法的效果?》 一文。
  (https://mp.weixin.qq.com/s/STS8N1PBML_2BvkO5NfiXg)
  结论
  本文介绍了全面介绍了如何使用BERT进行实体抽取,并给出了代码实例。通过本文,读者可以很方便地"依瓢画葫芦"实现一个基于BERT模型的实体抽取程序,从而学会工业界中最好用的实体抽取模型,并将其应用到学习或工作当中。
  具体来说,本文内容包括:
  介绍了什么是实体抽取
  介绍了什么是 BERT
  用代码实例介绍了如何使用 BERT 进行实体抽取的完整过程,这包括四个内容:
  准备数据
  构建模型
  训练模型
  测试模型效果参考文献
  Ashish Vaswani etc., Attention Is All You Need, arxiv: 1706.03762, 2017Jacob Devlin etc., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arxiv:1810.04805, 2018Anna Rogers etc., A Primer in BERTology: What We Know About How BERT Works, arxiv:2002.12327 2020王文广, 知识图谱:认知智能理论与实战, 电子工业出版社, 2022
  作者简介王文广,达观数据副总裁,高级工程师,《知识图谱:认知智能理论与实战》作者,曾获得上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖,专注于自然语言处理、知识图谱、图像与语音分析、认知智能、大数据和图分析等方向的技术研究和产品开发。现在是上海市人工智能标准化技术委员会委员,上海科委评审专家,中国计算机学会(CCF)高级会员,中文信息学会(CIPS)语言与知识计算专委会委员,中国人工智能学会(CAAI)深度学习专委会委员。申请有数十项人工智能领域的国家发明专利,在国内外知名期刊会议上发表有十多篇学术论文。曾带队获得国内国际顶尖算法竞赛ACM KDD CUP、EMI Hackathon、"中国法研杯"法律智能竞赛、CCKS知识图谱评测的冠亚季军成绩。在达观数据致力于将自然语言处理、知识图谱、计算机视觉和大数据技术产品化,以OCR、文档智能处理、知识图谱、RPA等产品服务于金融、智能制造、贸易、半导体、汽车工业、航空航天、新能源、双碳等领域。

专注矿产资源,河钢资源铁矿主业稳步发展,铜二期将注入新动能(报告出品方分析师国泰君安证券李鹏飞魏雨迪王宏玉)1。河钢资源专注打造全球化资源类上市平台1。1。剥离工程机械业务,专注矿产资源主业河钢资源股份有限公司(以下简称公司)独家发起人宣腾讯和达摩院相继发布2023年十大科技趋势,AIGCWeb3等仍是关键词记者佘晓晨AIGC数字人Web3起伏不定的2022年,仍有不少科技突破让人为之振奋。进入2023年,这些技术是否还能引领行业未来?近日,腾讯和阿里达摩院相继发布了他们对于2023年积极创新参与宏观经济治理的方式作者王欣据报道,2022年国内有7个城市GDP总量进入2万亿俱乐部,分别为上海北京深圳重庆广州苏州和成都。综合分析可以发现,这些城市不仅经济建设取得了显著成就,生态环境保护工作也交南方观察驱动金融大引擎,佛山为拼经济注入更强信心佛山吹响了拼经济的最强号角。最近,佛山五区相继进入两会时间。值得注意的是,在佛山五区各自的2023年地方政府工作报告中,不约而同都提到同一个关键词,那就是拼经济。拼经济,拼的首先是1650亿美元马斯克刷新个人财富损失最大吉尼斯纪录根据吉尼斯世界纪录近日发布的数据,埃隆马斯克打破了历史上个人财富损失最大的世界纪录在2021年11月至2022年12月期间,他的财富损失了1350亿英镑(1650亿美元)。据报道,齐声警告美国衰退!美国四大银行财报到底说了什么?财报季序幕拉起,华尔街巨头们再次警告美国今年或将出现温和衰退,前景并不乐观。1月13日摩根大通美银等华尔街巨头公布了四季报。摩根大通四季度收入和利润均超预期增长,但公司预留了14亿对话百福控股王小龙现在的餐饮行业就像正沸腾的火锅新春将近,餐饮行业烟火气逐渐回笼,排队场景在多家店前重现。对于未来,百福控股(01488。HK)CEO王小龙向红星资本局表示,长期看,餐饮行业的发展机遇肯定是大于挑战,短期看,餐饮2022美国十大最畅销游戏公开老头环销量排第二市场调查公司NPD公开了新的调查数据显示了2022年美国最畅销的十大游戏,其中备受玩家喜爱的年度游戏艾尔登法环竟不是第一,榜单中还有3款运动游戏上榜,一起来了解一下吧。2022年美智能网联汽车呼唤数据安全随着智能网联汽车加速发展,用户数据和隐私泄露智能系统遭受恶意攻击等安全问题引发社会广泛关注。如何确保数据的合理合规和高效使用,正成为摆在行业面前的难题。一台L4级别自动驾驶车辆,每2022年国内乘用车零售销量增长1。9自主品牌份额达到47每经记者李星每经编辑裴健如1月10日,乘联会发布的最新数据显示,2022年12月,国内乘用车市场零售销量达216。9万辆,同比增长3,环比增长31。4。这是自2008年以来最强的1中信银行打造汽车产业数字金融构建三大核心能力,助力汽车产业腾飞鲁网1月11日讯2023年1月9日,由中信银行组织撰写安永咨询提供支持的汽车产业数字金融研究报告(2023)(以下简称研究报告)正式发布。这是国内首份围绕汽车产业数字金融方向的研究
非顶流没出圈不火爆,但汕头这些风物绝对值得一聊今年国庆,汕头火了。这座五百多万人的城市迎来了超乎往常的热闹,多个旅游景点车流人流挤成一片,游客熙熙攘攘,摩肩接踵。网友调侃道仿佛天南地北的人都来了汕头。汕头,别称鮀(tu)城,她预售价2。78万起,对标五菱宏光MINIEV,北汽新款代步小车来了头条创作挑战赛随着新能源汽车的兴起,微型电动车也成了一块香饽饽,尤其是在五菱宏光MINIEV的成功之下,让各大车企都蠢蠢欲动,纷纷打造属于自己的纯电微型车。今天要讲的这款车就是其中公开招聘!中国电信集团有限公司政企信息服务事业群2022年公开招聘公告(第二批)中国电信集团有限公司政企信息服务事业群是中国电信设立的专注于服务政府机构企事业单位和跨国公司的专业化营销服务机iPhone15Ultra渲染图四曲屏钛合金边框,灵动岛有了全新进化灵动岛对于消费者来说是全新的设计思路,在原本屏幕打孔的基础上,用全新的交互形式来掩盖了屏幕打孔的设计。虽然说消费者对于屏幕打孔并不陌生,但是全新的交互形式让消费者感到非常新鲜。不过强调运动气质,新款瑞虎7PLUS预售10。69万起10月26日,奇瑞新款瑞虎7PLUS正式开启预售,新车主要针对内外设计功能配置进行升级,搭载鲲鹏1。6TGDI发动机推出三款车型可选,预售价区间为10。6912。19万元。现在订车国内赏红叶的这10个景点,你去过几个呢?1。辽宁关门山国家森林公园地址本溪市本溪满族自治县小市镇关门山开放时间08301600森林公园里有几个赏枫摄影点小黄山景区的枫之海,这是小黄山顶部的一个景点,这里枫树面积大,每到秋乡村新貌按下美颜键绘出新画卷央广网萍乡10月26日消息(记者邓玉玲)近日,记者在江西省萍乡市安源区丹江街的美丽乡村示范带看到,道路两旁绿树成荫,一片盎然生机呈现在眼前,点上出彩线上靓丽面上整洁的美丽乡村新画卷中西部城市第四批国家级小巨人版图全国前十强占据四席,武汉增幅全国第一21世纪经济研究院研究员刘茜实习研究员冯晶琳近日,工信部发布的专精特新中小企业发展报告(2022年)显示,第四批专精特新小巨人企业认定通过4328家,数量接近前三批认定通过家数之和邯郸科普主题公园亮相近日,邯郸科普主题公园对外开放。科普主题公园建在市植物园北园,紧邻联纺路,是按照市委市政府统一安排部署,在市委宣传部的指导下,由市科协牵头,联合市园林局市规划设计院共同打造。该主题日本烟花女子站街拉客60年,74岁高龄仍不放弃,却备受日本人尊重站街女,顾名思义就是站在大街上招揽客人的女性。至于这是个什么服务行业,想必大家都不言而喻。随着时代的进步,诸如此类的行业也在一点点消退,日本的律法甚至还明文规定不允许妇女进行卖淫行樊小慧道歉!她老公的外遇女人的老板娘发声,不是你们想象的那样樊小慧是一个拥有800万粉丝的一个美食博主,同时也是一名军嫂,他的丈夫(暂且称为波)是一位军人。一个保家卫国,一个照顾家庭,分别两地,互相鼓励。10月25日,樊小慧突然晒出证据,疑