范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

知识抽取与知识挖掘

  前言
  知识抽取是构建大规模知识图谱的重要环节,而知识挖掘是在已有知识图谱的基础上发现隐藏的知识。1.非结构化数据的知识抽取
  大量的数据以非结构化数据的形式存在,如新闻报道、文学,读书等。我们将从实体抽取、关系抽取和事件抽取进行介绍。1.2 实体抽取
  实体抽取又称命名实体识别,其目的是从文本中抽取实体信息元素,包括人名、时间、地点、数值等。实体抽取是解决很多自然语言处理问题的基础。想要从文本中进行实体抽取,*首先需要从文本中识别和定位实体*,然后再将识别的实体分类到预定义的类别中去。实体抽取问题的研究开展得比较早,该领域积累了大量的方法。总体上,可以将已有的方法分为基于规则的方法、基于统计模型的方法和基于深度学习的方法。
  1.2.1 基于规则的方法
  早期的命名实体识别方法主要采用人工编制规则的方法进行实体的抽取。这类方法首先需要构建大量的实体抽取规则。一般由相关领域的知识专家进行手工构建,然后将这些规则与文本字符串进行匹配,识别命名实体。
  这种实体抽取方法在小数据集上可以达到很高的准确率和召回率*(召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数)* 但是随着数据集的增大,规则集的构建周期变长,并且移植性较差。
  1.2.2 基于统计模型的方法
  基于统计模型的方法利用完全标注或标注的语料进行模型训练,主要采用的模型包括隐马尔可夫模型、条件马尔可夫模型、最大熵模型以及条件随机场模型。
  这类方法将命名识别作为序列标注问题处理。与普通的分类问题相比,序列标注问题中当前标签的预测不仅与当前的输入特征相关,还与之前的预测标签相关,即预测序列是有强相互依赖关系的。
  基于统计模型构建命名识别方法主要涉及训练语料标注、特征定义和模型训练三个方面 :
  - 训练语料标注:为了构建统计模型的训练语料。一般采用Inside-Outside-Beginning(IOB)或Inside-Outside(IO)标注体系对文本进行人工标注。在IOB标注体系中,文本中的每个词被标记为实体名的启始词(B)、实体名称的后续词(I)或实体名称的外部词(D)。而在IO标注体系中,文本的词被标记为实体名称内部词(I)或实体名称外部词(D)。
  - 特征定义。在训练模型之前,统计模型需要计算每个词的一组特征作为模型的输入,这些特征具体包含单词级别特征、词典特征和文档级特征等。单词级别特征包含是否首字母大写、是否以句点结尾、是否包含数字、词性等。词典级别特征依赖外部词典定义,例如预定义的词表、地点列表等。文档级特征基于整个语料文档集计算,如文档集中的词频、同现词等。
  - 模型训练:隐马尔可夫(HMM)和条件随机场(CRF)是两个常用于标注问题的统计学习模型,也被广泛应用于实体抽取问题。
  1.2.3 基于深度学习的方法
  随着深度学习在自然语言处理的广泛应用,深度神经网络也被广泛的成功用于命名实体识别问题,并取得很好地效果。与传统统计模型相比,基于深度学习的方法直接以文本中词的向量为输入,通过神经网络实现端到端的命名实体识别,不再依赖人工定义的特征。目前,用于命名实体识别的神经网络主要有卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent NeuralNetwork,RNN)以及引入注意力机制(Attention Mechanism)的神经网络。1.3 关系抽取
  关系抽取是从文本中抽取两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关,一般在识别出文本中的实体后,在抽取实体之间可能存在的关系。目前,关系抽取得方法可以分为基于模板的关系抽取方法,基于监督学习的关系抽取方法和基于弱监督学习的抽取方法。
  1.3.1 基于模板的关系抽取方法
  在早期的实体关系方法大多数基于模板匹配实现。该类方法基于语言学知识,结构语料的特点,由领域专家手工编写模板,从文本中匹配具有特定关系的实体。
  在小规模、限定领域的实体关系抽取问题上,基于模板的方法能够取得较好的效果。优点是模板构建简单,可以比较快地在小规模数据集上实现关系的抽取系统。但是,当数据规模较大是,手工构建某班需要消耗专家大量的时间,此外,系统的可移植性差。
  1.3.2 基于监督学习的抽取方法
  基于监督学习的抽取方法将关系抽取转化为分类问题。在大量标注数据的基础上,训练有监督学习模型进行关系抽取。一般的步骤包括:
  - 预定义关系的类型
  - 人工标注数据
  - 设计关系识别所需的特征,一般根据实体所在句子的上下文计算获得
  - 选择分类模型,基于标注数据训练模型
  - 对训练的模型进行评估
  传统的基于监督学习的关系抽取是一种依赖特征工程的方法,近年来有多个基于深度学习的关系抽取模型被研究者们提出。目前,已有的基于深度学习的关系抽取方法主要包括**流水线方法和联合抽取方法**两大类。流水线方法将**识别实体和关系抽取作为两个分离的过程进行处理**,两者不会相互影响;关系抽取在实体抽取结果的基础上进行,因此关系抽取的结果也依赖于实体抽取的结果。联合抽取方法将**实体抽取和关系抽取相结合**,在统一的模型中共同优化;联合抽取方法可以避免流水线方法存在的错误积累问题。
  ### 1.3.3 基于弱监督学习的关系抽取方法
  基于监督学习的关系抽取方法需要大量的训练语料,特别是基于深度学习的方法,模型的优化更依赖大量的训练数据。当训练语料不足时,弱监督学习方法可以只利用少量的标注数据进行模型学习。基于弱监督学习的关系抽取方法主要包括**远程监督方法和Bootstrapping方法。**
  (1)远程监督方法。远程监督方法通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据,减少模型对人工标注数据的依赖,增强模型的跨领域适应能力。远程监督方法的基本假设是如果两个实体在知识图谱中存在某种关系,则包含两个实体的句子均表达了这种关系。
  因此,远程监督关系抽取方法的一般步骤为:
  从知识图谱中抽取存在目标关系的实体对;
  从非结构化文本中抽取含有实体对的句子作为训练样例;
  训练监督学习模型进行关系抽取。
  远程监督关系抽取方法可以利用丰富的知识图谱信息获取训练数据,有效地减少了人工标注的工作量。但是,**基于远程监督的假设,大量噪声会被引入到训练数据中,从而引发语义漂移的现象。**
  (2)Bootstrapping方法。Bootstrapping方法利用少量的实例作为初始种子集合,然后在种子集合上学习获得关系抽取的模板,再利用模板抽取更多的实例,加入种子集合中。通过不断地迭代,Bootstrapping方法可以从文本中抽取关系的大量实例。
  Bootstrapping方法的优点是关系抽取系统构建成本低,适合大规模的关系抽取任务,并且具备发现新关系的能力。但是,Bootstrapping方法也存在不足之处,包括对初始种子较为敏感、存在语义漂移问题、结果准确率较低等。1.4 事件抽取
  事件是指发生的事情,通常具**有时间、地点、参与者等属性**。事件的发生可能是因为一个动作的产生或者系统状态的改变。事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等
  一般地,事件抽取任务包含的子任务有:
  识别事件触发词及事件类型;
  抽取事件元素的同时判断其角色;
  抽出描述事件的词组或句子;
  事件属性标注;
  事件共指消解。
  已有的事件抽取方法可以分为流水线方法和联合抽取方法两大类。
  1).事件抽取的流水线方法流水线方法将事件抽取任务分解为一系列基于分类的子任务,包括事件识别、元素抽取、属性分类和可报告性判别;每一个子任务由一个机器学习分类器负责实施。一个基本的事件抽取流水线需要的分类器包括:
  (1)事件触发词分类器。判断词汇是否为事件触发词,并基于触发词信息对事件类别进行分类。
  (2)元素分类器。判断词组是否为事件的元素。
  (3)元素角色分类器。判定事件元素的角色类别。
  (4)属性分类器。判定事件的属性。
  (5)可报告性分类器。判定是否存在值得报告的事件实例。
  2).事件的联合抽取方法事件抽取的流水线方法在每个子任务阶段都有可能存在误差,这种误差会从前面的环节逐步传播到后面的环节,从而导致误差不断累积,使得事件抽取的性能急剧衰减。为了解决这一问题,一些研究工作提出了事件的联合抽取方法。在联合抽取方法中,事件的所有相关信息会通过一个模型同时抽取出来。一般地,联合事件抽取方法可以采用联合推断或联合建模的方法

华为Mate50Pro再爆料2亿摄像头200MP8k视频,你心动了吗?华为又将携带猛料攻陷市场,据可靠消息,华为即将推出一款全新的Mate50Pro手机,上市日期预计在2022年7月21日。华为手机一贯非常硬核,为了给用户超高像素和超清晰的拍摄体验,国乒最新训练视频中孙颖莎笑意盈盈,王楚钦显无奈近日,某官方账号发布了国乒在威海的最新训练视频,从发布的影像中可以看出来,我们国乒球员斗志高昂,积极投入到训练中,现在就让我们一起看看王楚钦和孙颖莎在训练中的表现吧!莎莎多次出现在巴甲巴西国际VS戈亚尼恩斯竞技,本场应该双方都动力十足2330芬甲科特卡工人VS艾克奈斯IF虽然科特卡工人作为上赛季芬超的副班长降级,但是来到芬甲这个级别后,他们的实力至少也应该是联赛前列的。他们这个赛季的表现属于高开低走,前几场比赛王兴的极端假设与美团的关键命题从数字世界回到物理世界。文丨马可欣编辑丨宋玮2022年3月,美团创始人兼CEO王兴在一次内部会中提出了一个假设,大意是,如果未来三年,美团没有任何收入,企业依然要维持运行,现金流情徐梦桃变身浪姐中国运动明星的顶流时代已经来临只关注体育城市赛事品牌传播民间情侣节520那天,奥运冠军徐梦桃官宣了与男友王心迪领证结婚的消息。与此同时,她的身份不仅仅是冬奥会冠军运动员,还是湖南电视台里的一名人气浪姐。作者丨王李小冉的老公,是一位油腻的中年胖大叔啊!李小冉都是我的爱李小冉14岁清纯照火上热搜!近日,李小冉14岁旧照被网友们扒出,迅速火上热搜。照片中李小冉青涩又纯净,不少人感慨,李小冉真的是30年颜值未变。想问姐姐,从小美到大是一种什么体验?在沉香如屑万众期待,杨紫和成毅联手演绎虐心大剧,纸巾已备好在众多的影视作品中虐心剧开始独挑大梁,很多观众就是喜欢看这种虐恋,跟着剧中的演员一起哭一起笑,这是很多人的发泄方式,感觉自己被压得喘不过气的时候大哭一场是最好的发泄方式,正好现在也黎明错过舒淇,被乐基儿伤透心,51岁如愿当爸爸,52岁娶小女友2017年,黎明接受了金星的采访。金姐一如既往的犀利,直接丢出炸弹你是四大天王里面演技最差的。黎明心态倒是好,笑眯眯地反驳我可是最早拿影帝的。接着他又说现在许多年轻演员长得帅,但演80年代北影厂6朵金花,千娇百媚背后命运不尽相同,有人一生无子上个世纪八十年代,是我国影视圈发展比较繁荣的一个时期。各大影厂的优秀作品层出不穷,一批优秀的年轻演员也随之都进了大众的视野。北影厂全名北京电影制片厂,这里应该是最早包装演员做明星的婚内出轨却倒打一耙,想看孙子被拒绝,宋丹丹这是英达咎由自取宋丹丹和英达相识于1987年。此时英达刚离婚回国,26岁的宋丹丹也刚结束一段婚姻。两人正值花样年华,又是才子佳人。在排练话剧的过程中,宋丹丹和英达逐渐互生情愫,很快就谈起了恋爱。1C开源之WPFUI控件AduSkin描述WPF下的一款简单美观的UI控件。参数来源GitHub(1400)httpsgithub。comaduskinAduSkin协议GPL3。0示例通过nuget直接安装AduSk
LPL下赛季上中野组合哪队最强?LNG或成第一,BLGTES垫底?有一说一,虽然大多数队伍都没有官宣,但水友们依然能够从各种消息当中获取战队阵容的相关消息,换句话说就是,绝大多数的战队都已经被水友们摸透了,其中最具悬念的公爵已经确定去了滔博,跟小巴克利说詹姆斯是历史第七?名嘴拿枪指着我LBJ也是GOAT直播吧1月17日讯今日名嘴ShannonSharpe和他的老搭档Skip在节目中谈到了詹姆斯。两人今日重启经典话题,谁才是NBA的GOAT(历史最佳球员)。Skip表示巴克利曾在2骁龙888跌至白菜价,65W快充12256GB,如今跌至2099元每年手机厂商都会发布一大批新机,但是数量最集中的还是2000元价格段。随着手机的价格水涨船高,大家的购机预算大都提升到了2000档位。每个厂商的在这个价格段都会推出一大批机型,很多阳谋!小米一怒MixFold价格跳楼防荣耀新机MagicV上位?2022手机市场开年即战,荣耀总裁赵明在MagicV发布会上两次摔机,不仅是秀肌肉,更是在向友商宣战!两年之前,荣耀20s一摔成为当时最强中端机,两年之后,同样的手段出现在荣耀折叠RNG辅助选手Ming成功续约,上单选手Xiaobai转任助力教练12月14日,RNG电子竞技俱乐部发布公告称,经过与选手的友好沟通洽谈,辅助选手Ming(史森明)已与RNG成功续约,将与战队继续携手共进。与此同时,上单选手Xiaobai(杨忠贺篮网的交易模拟星空PS一切的交易模拟都基于篮网阵容不大变之前我在写篮网半赛季模拟的时候,我写过篮网的交易模拟,但是随着赛季的进行,各个交易名单发生了一点点的变化,所以我准备重新在写一次。首先,我戴维斯战绩这么差,大哥还这么悠闲?詹姆斯神龟塔克才是大哥本故事为NBA新闻改编的小品,只为逗大家一乐,不喜勿喷!珍妮巴斯在兰比斯夫妇帮助下执掌湖人珍妮巴斯琳达,你是我登基的功臣,是我的智囊我的左膀右臂!以后我什么都听你的!兰比斯为巴斯家5款解馋又健康的宝藏零食,好吃不贵不易长胖,快囤回家过年我们即将迎来2022年的春节,想必大家已经开始置办年货了吧?辛辛苦苦忙碌了一年,就等着过年和亲朋好友欢聚一堂,而过年最让人期待的就是敞开肚皮吃吃喝喝,从年夜饭开始,整个春节长假期间花是冬天一团火冬日里看花开,领悟花是一团火,它为你带路,跨过去就是春天。花是冬天一团火。当我写下这个题目,眼前又浮现出多年前在北极圈大雪原上看花开的情景。我永远忘不了,我们骑着雪地摩托,披着漫天美媒建议5队进行3笔交易!火箭可以送走伍德,湖人有意格兰特NBA新赛季每年进行到这个时候,各种交易流言就开始满天飞。强队查缺补漏,进行最后的阵容补强,期待在季后赛中走得更远而弱队也到了交易老将尽可能换取更多选秀权和年轻球员的时候。毒舌君结早餐不建议吃大米粥?除了大米粥,这3种早餐也得少吃正确摄入早餐,人体需要的各类营养满足需求,才能增强抵抗力,同时保持精力充沛状态。如果早餐没有选对食物,胡乱饮食,可能会拖累身体,甚至引发消化系统健康问题,需提前掌握常识,才能越吃越