专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

腾讯文本理解系统TexSmart中的细粒度实体识别关键技术

  导读本文分享主题为腾讯文本理解系统TexSmart中的细粒度实体识别关键技术。
  主要介绍以下内容:
  1。TexSmart系统介绍
  2。TexSmart细粒度NER综述
  3。基于知识库的组合方法
  4。基于相似实体推断的远程监督方法
  5。基于多源融合的Zeroshot方法
  分享嘉宾蒋海云博士腾讯AILab高级研究员
  编辑整理程煜晴新疆大学
  出品社区DataFun
  01hrTexSmart系统介绍
  TexSmart〔1〕是一种自然语言理解系统,例如大家熟知的哈工大的LTP〔2〕、复旦大学的FastNLP〔3〕、斯坦福的CoreNLP〔4〕,提供一种面向自然语言理解的工具和服务,能够对中、英文两种语言的文本进行词法、句法和语义分析。相比现有的系统,TexSmart具有以下三大特色:
  细粒度NER(细粒度命名实体识别)
  能够支持上千种实体类型的识别和分类,同时支持类型之间的层级结构。
  增强的语义理解功能
  如给定一个词,能够支持上下文相关的语义联想。
  为多维度应用需求而设计
  兼顾学术与工业界对精度和速度的不同需求。
  如下图所示,对于句子上个月30号,南昌王先生在自己家里边看流浪地球边吃煲仔饭,传统的文本理解工具的NER(NamedEntityRecognition,实体识别)功能能够识别出南昌、王先生实体,而TexSmart在基础粒度基础上,还能进一步识别复合粒度的实体,如流浪地球,以及流浪和地球。
  南昌在传统工具中被识别为地方,而在TexSmart中被识别为城市;流浪地球在传统工具中可能被识别为作品或不被识别,而TexSmart进一步将其定义为电影。
  此外,TexSmart还提供上下文相关的语义联想,比如与流浪地球相关的战狼二等电影。
  由此,面对细粒度NER遇到的可扩展性和歧义问题的挑战,TexSmart经过人工整理和筛选,将传统十几种类别实体扩充到一千多种类别,增强了实体识别的可扩展性。
  在语义联想方面,TexSmart能够做到对句子中给定的实体,预测与其关联的实体集合。
  同时,TexSmart对系统中的每一种算法都提供了大于等于两种的候选实现方式,能够适应对精度和速度的不同要求;在测试范围上,TexSmart多采用无监督方法,能够覆盖更多的复杂数据;TexSmart也会定期收集无标签数据,动态更新模型。
  除了上述功能,TexSmart同样支持文本理解,如分词、词性标注、文本分类等场景,并支持文本匹配和文本图谱应用。
  02hrTexSmart细粒度NER概述
  NER的步骤一般是先找出文本中的mention位置,再在此基础上识别类型,在这一模块,我们专注于NER中的细粒度场景,如何识别上千种类别的实体,实现超细粒度的识别。
  如图是超细粒度NER中的类别样例,在Ontology树中Person类别的深度达到了7层。
  下面,我们将介绍如何在给定一句话中的mention后,识别其中蕴含的实体类别。
  03hr基于知识库的组合方法
  1。无监督算法
  这类方法已经较为成熟,借鉴了上下文抽取以及概念图谱的思想,先从无结构的文本数据中抽取出大量isa对,如(苹果,公司)、(苹果,水果),之后通过人工将上位词映射到预定义的实体类别,如(苹果,org。company)、(苹果,food。fruit),得到term(mention)totypegraph,由此,在Type下积累了一系列的mentions,在使用时,只需要计算上下文与mentions的相似度,即可得到实体的类别。
  如要识别出苹果汁中的苹果实体的类别,在已构造好的实体集合类别库中,上下文与汁相关的更多是食物或饮料类别的mention,与company类相比,这里的苹果更可能属于fruit类,由此实现了消歧。
  这类方法同样存在一些缺点,首先,词典需要足够大,对于新的实体无法很好地识别,其次,我们也面临词典规模与覆盖率的折衷问题。
  2。无监督和有监督的组合方法
  为了缓解这一问题,我们提出了一种组合算法。在粗粒度上,由于类别数量较少,可以通过少量标签数据训练出一个有监督模型,在细粒度的类别预测上采用无监督方法,最后将两者结合,联合推理出最优的细粒度类别。
  如图,对于王青松这一词典中没有的mention,在无监督中模型中无法直接预测,但有监督模型将其预测为person;又如流浪地球在有监督模型中被预测为(work,generic),在无监督模型中被预测为(work,movie),经过联合,综合预测结果为(work,movie)。
  可以看到,我们的Hybrid方法在Base基础上获得了有效提升。
  04hr基于相似实体推断的远程监督方法
  在细粒度实体识别的场景下,由于上下文十分复杂,或者是十分简短而具有歧义,因此很难学到有效的表示。在ACL2022上,我们发表了一篇基于相似实体推断的方法,其核心思想类似于检索方法,即通过相似的实体推断出目标实体。
  我们将相似实体定义为SiblingMentions(一般情况下,Mention代表识别前的实体,为方便表述,在Slides中我们混用了Mention和实体,请注意),相似实体指该实体与目标实体具有相同或相似的概念分布,如country和nation。在语料库中,我们常会发现上下文中出现了与识别实体相似的兄弟实体,即SiblingMention,这类实体是否能帮助我们推断出目标实体。
  我们将其建模成一种异构图问题,即图中有两类节点,一类是Mention,一类是Type;三种关系,Mention之间的兄弟关系、Type之间的层级结构以及训练数据中已有isa的关系,对应Mention与Type之间的关系。
  之后,采用图神经网络方法学习异构图中的节点表示,并进行节点分类。
  1。如何找出相似实体
  首先,在相似Mention的检测方面,我们采用了两种方法:
  Worddistributionbasedmetric
  首先,采用TFIDF将mention中的词映射成稀疏向量,并用余弦相似度方法进行相似度计算。
  Typingdistributionbasedmetric
  另外一种更精确的方法是在训练数据上先训练一个轻量实体识别模型,运用模型对实体做初步类型预测,并将预测的Type信息作为先验知识。
  2。如何推断目标实体
  图神经网络建模了图上节点传播的过程,即如何通过邻居节点的信息更新当前节点信息。我们采用一种自注意力图神经网络,由于在图上有Mention节点与Type节点两种类型,对于Type节点,我们通过子节点更新上层父节点;对于Mention节点,我们通过Siblingmention和groundtruth的Type更新节点的表示,在预测时,用最后一层神经网络的节点做分类即可。
  但是,这种方法存在着groundtruth泄漏问题,使得模型退化到只关注groundtruth中的type邻居,即只预测这一种type。为了克服这一问题,我们采用一种Dropout的方法,在构图时,对于每一个mention,其每一个邻居都有一定概率被丢弃,使得预测模型需要自食其力,进而改善预测的效果。
  3。可扩展的模型推理
  在模型推理过程中,当有新的mention,首先将它作为一个节点加入图,与训练集中的相似实体相连。值得注意的是,新mention是没有Type邻居的(这正是我们需要预测的),且我们以batch的方式加入,加入的一批mentions之间也没有边的关联。
  之后,在保持原参数不变的情况下,使用图神经网络得到节点表示,并用于节点分类。从结果来看,我们在以往的baseline中得到了较为明显的提升。
  我们也做了相关消融实验,验证相似实体的有效性。我们定义了三种指标,分别是Purity、Coverage和Quality,分别对应Precision、Recall和F1score。
  实验中,对于寻找相似实体,我们的两种方法与随机取实体、基于groundtruth取实体做了比较,可以看出,当相似实体定义地越好时,节点分类的效果也越好。
  05hr多源融合的Zeroshot方法
  多源可以理解为一种多视角学习,Zeroshot在实体分类中可以定义为在训练集中完全没有见过的实体。
  我们认为,Zeroshot的核心是需要建立训练时实体类别和推理时实体类别的语义相关性,在实体分类任务中如此,其余任务亦然。为了建立这一种相关性,我们需要引入辅助信息。
  辅助信息源主要分为三类:
  (1)Contextconsistency
  把Type当作一个词,从语言模型的角度建模当前的Type与上下文的相关性。
  (2)Typehierarchy
  Type之间的相关性可以通过Ontology树得到,例如,当预测文中实体的类型为Organization时,我们倾向于进一步预测实体为Corporation或Government,而非fruit。
  (3)BackgroundKnowledgeProtypes:为Type选择一个具有代表性的mention。Descriptions:通过WordNet获取关于每个Type词的描述信息。
  为了对前面三种信息分别建模。
  (1)ContextConsistencyAwareModule(CA)
  我们首先通过大规模预训练语言模型(如,BERT),捕捉当前Type和其上下文语义上的兼容性。
  (2)TypeHierarchyAwareModule(HA)Hierarchyawaretypeencoder
  借鉴Transformer的思想,由于Type之间的关系是不具顺序的,因此去掉其中的positionembedding。对于selfattention机制,我们针对Type的层级结构特点,使得每个Type只attend它的父节点和它自己。
  为了实现这一点,我们引入一个MASK矩阵,当两个节点之间不需要attention,我们就将矩阵元素置为,在经过softmax之后值就趋于0。
  Mentioncontextencoder
  使用ELMo学习词向量,并对Mention及其context的词向量进行堆叠。
  建立损失函数如下:
  (3)BackgroundKnowledgeAwareModule(KA)
  我们将其建模为多前提的文本蕴含任务,前提即为Context、Prototype和Description。
  在损失函数上,借鉴知识图谱表示学习中的Trans系列技术,使假设的表示和前提表示加起来尽可能相等,损失函数表示如下:
  最终在训练和测试时,得分由三个子模型的得分得到,根据验证集对三个子模型相应设置参数。
  在BBN和Wiki两个数据集上,对比Baseline提升4~5个点。
  在有监督实验上,只考虑粗粒度样本,切分一部分作为测试。
  同时,我们也考虑每个辅助信息源的效果,进行消融实验。
  此外,我们发现当context越长时,效果越好。
  对每一个辅助信息源的预测能力,我们做如下实验。
  上图中未重合的部分表示只有该部分的辅助信息源能够预测,有共16。05的例子是三种辅助信息源都无法预测的,有待进一步探索。
  06hr问答环节
  1。TextSmart最近在细粒度NER任务中的表现,以及后续规划?
  A1:后续将在如何设计Span上做进一步探索,目前在细粒度实体识别上的表现大部分都比较好。
  2。Prototype是从训练集数据中选择的吗?
  A2:我们引用了2016年的一篇Entitytyping相关工作〔6〕,使用了他们的开源数据。
  3。在异构图节点表示中,为什么要弱化异构图,是否有尝试过其他的GNN方法?
  A3:我们在这里的侧重点在如何用SiblingType学到目标实体,使用异构图只是因为我们的有两类节点,三种边,并没有强调异构图的特性,可以继续尝试其他图神经网络方法。
  07hr参考文献
  〔1〕https:ai。tencent。comailabnlptexsmartenindex。html
  〔2〕https:ltp。ai
  〔3〕http:www。fastnlp。topabout
  〔4〕https:stanfordnlp。github。ioCoreNLP
  〔5〕https:aclanthology。orgC161017
  今天的分享就到这里,谢谢大家。
  分享嘉宾
  蒋海云博士腾讯AILab高级研究员
  蒋海云,男,2020年博士毕业于复旦大学数据科学方向,主要研究包括知识图谱、文本理解,自然语言生成等,在ACL,EMNLP,IJCAI、AAAI、ICDE等会议发表论文20余篇。
  DataFun新媒体矩阵
  关于DataFun
  专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章900,百万阅读,16万精准粉丝。

科莫多巨蜥的毒液到底有多可怕?2009年,一名31岁的渔民安瓦尔,在印尼科莫多岛上采摘水果,结果不小心从水果树上掉了下来,刚好踩到了一只巨型蜥蜴,蜥蜴瞬间就朝他扑了过去,咬住了他的腿,之后又咬住了他的手臂,身体武汉未来的房价会涨到100000元平米吗?这个问题的答案是肯定的!以目前的趋势,未来武汉房价必然达到10万的水平,只是时间长短的问题。2010年至2017年,短短七年间,武汉的房价已经翻了3番,目前,武汉部分高端楼盘如洞庭兰州青白石片区,中央公园怎么样?兰州北拓的黄金区域,目前基础交通还跟不上建设需要,交通滞后可能会成为十四五期间兰州青白石片区发展的的最大障碍!不过就兰州地理位置和城区格局而言,青白石片区是离主城区最近的待开发区域农民为什么不在国家统计失业范围之内?中国有四个儿子,大儿子叫工人,二儿子叫子弟兵,三儿子叫公务员,四儿子叫农民,所以四儿子就没有纳入统计失业包括养老金范围,因为四儿子有金山银山还有三分地。农民有土地,这是农民可以赖以农村成立社区是什么意思?很多农村驻有村委会办公室,同时也驻有社区管理委员会办公室,特别是在城市郊区的农村和街道的农村都同时设立了村委会和社区管理委员会,很多人弄不明白是怎么回事。那农村成立社区是什么意思呢农村里的剩男,为何一剩再剩呢?到底是什么原因?男女比例失调。计划生育只要一个孩子时,受封建思想影响,都拚命要男孩,等他们长大了,很难找到媳妇。一,农村姑娘远嫁,二,女孩见少,三,彩礼高,四,剩男挣钱少。我就一大龄剩男!个人亲身抖音付费直播试水,看直播要给钱了?我们应该如何思考?使劲收,最好是家人们看的话,一分钟100块钱。毕竟粉丝听话的很。毕竟人设都设计好了打PK,卖货摆错价格,怒亏2个亿回馈粉丝。没事就怼工厂,怼员工反正就是赔钱回馈粉丝。赔完还得补交税马上就要退休了,退休工资才3650元太少了,怎么办?3600不少了。我企业工龄32年,退休时退休金只有2200,涨了这么多年还不到3000。知足常乐吧!如果身体不好,这些钱也够生活了,如果身体还可以,就找一些力所能及的工作,打打工补南宁五象新区未来的发展潜力很大吗?五象新区无法成为国家级新区!!!目前看来,五象新区的潜力也就这样了。我们对比一下贵阳的贵安新区,贵安新区的面积是1700平方公里,由贵阳市的郊区和安顺市合并得来。是全国第8个国家级如果把三峡大坝加高10米,截留更多的洪水,可行吗?我国的三峡大坝,作为当今世界上最大的水利枢纽工程,位于湖北省宜昌市上游,距下游葛洲坝水电站38公里,三峡大坝全长2309米高185米,呈梯形形状,集发电旅游航运调控洪水于一身。三峡大家有经历过亲人去世吗?是怎样走出痛苦和想念的?2018年9月1日下午3点8分,我的妻子在医院里停止了呼吸。她的眼睛没有闭上,我流着泪,帮她合上了双眼。我永远失去了我最亲近的爱人,孩子永远的失去了妈妈。一位好妻子,好女儿,好姑妈
茅台镇7。5平方公里核心产区怎么来的?7。5平方公里可以做什么?1000个足球场?10。41个故宫?8。36个北京奥体中心?1。33个西湖在酒友眼中,7。5平方公里这个数字可并不陌生,因为如果离开这7。5平方公里,是断短道速滑有多危险?割伤骨折是常态,张会险些被王濛毁容!北京时间的2月10日,短道速滑比赛继续进行,在世界杯分站多德里赫特站的比赛中,林孝埈再次展现了超强实力,他在500米预赛中连过三人,以第一的身份闯进接下来的比赛,林孝埈的强势回归,广东春耕正当时,百万农机保粮安粮食安全是国之大者。党的二十大报告提出,加快建设农业强国。习近平总书记强调,保障粮食和重要农产品稳定安全供给始终是建设农业强国的头等大事。一年之计在于春,春播粮食产量占全年六成左右ChatGPT大火,江西能否踏上未来产业新浪潮?来源江西日报江西新闻客户端江西新闻客户端全媒体记者曾宪文要说近期啥话题最火?非ChatGPT莫属,能聊天能写诗,还能写论文和代码。其上线两个月,活跃用户已经超过1亿人,成为史上用户早报华为P60已交付工厂开始生产MIUI14开始推送手机中国早报在即将召开的MWC2023中,华为全新机型P60系列将首次亮相。该机外观设计大变样,并已定板交付工厂开始生产。与此同时,小米也将在MWC2023上发布一款新的4K电视棒情人节送啥最贴心?这几款手机别错过让TA爱不释手手机中国导购马上我们即将来临一个特别的日子情人节。在这个表达爱意的时刻,是时候把情人节礼物安排起来了。浪漫的情人节送什么礼物比较好呢?你是不是也正在迷茫?因为礼物不仅要拿得出手,同化学气相沉积法碳化硅外延设备技术进展摘要碳化硅(SiC)是制作高温高频大功率电子器件的理想电子材料,近20年来随着外延设备和工艺技术水平不断提升,外延膜生长速率和品质逐步提高,碳化硅在新能源汽车光伏产业高压输配线和智数据结构并查集简介并查集是一种树形的数据结构,主要处理不交集的查询和合并问题,它有两种操作方式查找(Find)确定当前结点属于哪一个集合合并(Union)将两个不同的集合合并在一起我们通常使用一从APP买菜引发的思考某app买菜平台科技在发展,时代在变化,几十年前老一辈挎着菜篮子去菜市场买的时代已经慢慢演变成了各大APP网购的时代,现如今年轻人足不出户就可以在APP上选购自己喜欢的菜品,一键下红米高管沉默半周后K60512GB宣布降价300,你会选择开冲吗?红米总裁卢伟冰在2月7日沉默半周后,先是用2月11周六无关紧要的晒单K60销量,随后2月13日周一工作日终于预热了降价决策宣布12512GB版红米K60和16512GB版红米K60贵阳生物群,现世!记者从中国地质大学(武汉)获悉,该校宋海军教授团队在我国贵州省贵阳市及其周边发现一个距今2。508亿年的特异埋藏化石库贵阳生物群。相关研究成果10日发表在科学杂志上。宋海军介绍,贵
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网