知识图谱是什么?
3月23日 相思宫投稿 知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的基础功能了。那到底知识图谱是什么?有什么能力?怎么应用?这就是本文想要讨论的内容。
01什么是知识图谱
1。定义
官方定义:知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。
实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。
由上图,可以看到实体有地名和人;大理属于云南、小明住在大理、小明和小秦是朋友,这些都是实体与实体之间的关系。
通俗定义:知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。
2。可视化表现
如果我们在百度搜索“周杰伦的老婆”的时候,搜索结果不是周杰伦,而是直接返回了昆凌的信息卡片,为什么呢?
因为底层知识图谱已经有了周杰伦和昆凌是夫妻关系,所以可以理解到你要找的是昆凌,而不是周杰伦,这也说明了知识图谱有理解用户意图的能力。
02知识图谱构建的关键技术
知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为知识抽取。
数据源的分为两种:结构化的数据和非结构化的数据。
结构化的数据是比较好处理的,难点在于处理非结构化的数据。而处理非结构化数据通常需要使用自然语言处理技术:实体命名识别、关系抽取、实体统一、指代消解等。
我们先来看下把这段文字变成知识图谱的方式表达的结果:
上图左边的文案就是一个非结构化的文本数据,就需要经过一系列的技术处理,才能转化为右边的知识图谱。具体是怎么实现的呢,接下来一一讨论。
1。实体命名识别
提取文本中的实体,并对每个实体进行分类或打标签,比如把文中“1984年12月30日”记为“时间”类型;“克利夫兰骑士”和“迈阿密热火”记为“球队”类型,这个过程就是实体命名。
2。关系抽取
关系抽取是把实体之间的关系抽取出来的一项技术,其中主要是根据文本中的一些关键词,如“出生”、“在”、“转会”等,我们就可以判断詹姆斯与地点俄亥俄州、与迈阿密热火等实体之间的关系。
3。实体统一
在文本中可能同一个实体会有不同的写法,比如说“LBJ”就是詹姆斯的缩写,因此“勒布朗詹姆斯”和“LBJ”指的就是同一个实体,实体统一就是处理这样问题的一项技术。
4。指代消解
指代消解跟实体统一类似,都是处理同一个实体的问题。比如说文本中的“他”其实指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。
指代消解和实体统一是知识抽取中比较难的环节。
03知识图谱的存储
知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。
1。RDF
RDF一个重要的设计原则是数据的易发布以及共享,另外,RDF以三元组的方式来存储数据而且不包含属性信息。
2。图数据库
图数据库主要把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性。
3。RDF和图数据库的主要特点区别
关于知识图片的存储方式的内容比较专业,且没有实际操作过比较难理解,所以我就不在此展开讨论了,大家简单知道知识图谱有这么一项内容就行,若有需要的可以自行研究下。
下面我们把重点放在知识图片在金融领域的一些应用。
04知识图谱在金融领域的应用
知识图谱在各行各业中的应用是比较普及的,并且有很重要的地位。下面我们跟大家一起讨论的是知识图谱在金融领域的一些应用,希望能通过这些例子给大家一点启发。
1。反欺诈
假设银行要借钱给一个人,那要怎么判断这个人是真实用户还是欺诈的呢?
我们需要以人为核心,展开一系列的数据构建,比如说用户的基本信息、借款记录、工作信息、消费记录、行为记录、网站浏览记录等等。把这些信息整合到知识图谱中。从而整体进行预测和评分,用户欺诈行为的概率有多大。当然这个预测是需要通过机器学习,得到一个合理的模型,模型中可能会包括消费记录的权重、网站浏览记录的权重等等信息。
2。不一致性验证
比如说不同的两个借款人,却填写了同一个电话号码,那说明这两个人中至少有一个是可疑的了,这时就需要重点关注了。
更复杂点的,可能需要知识图谱通过一些关系去推理了。比如说“借款人”跟小明和小秦都是母子关系,按推理的话小明跟小秦应该是兄弟关系,而在知识图谱上显示的是朋友关系,就有可能有异常了,因此也需要重点关注。
3。客户失联管理
如果借款人失联了,通过知识图谱,是不是可以联系他的朋友,或兄弟,甚至是兄弟的妻子,去追踪失联人。
因此在失联的情况下,知识图谱可以挖掘更多失联人的联系人,从而提高催收效率。
4。知识推理
如上左图(注意这里的箭头方向),小秦是大秦的儿子,大秦是老秦的儿子,从这这样的关系,我们就可以推理出,小秦是老秦的孙子,这样就能使知识图谱更加完善了。
如上左图,小明在腾讯上班,小秦也在腾讯上班,从这样的关系,我们可以推理出,小明和小秦是同事关系。
推理能力其实就是机器模仿人的一种重要的能力,可以从已有的知识中发现一些隐藏的知识。当然这样的能力离不开深度学习,而随着深度学习的不断成熟,我相信知识图谱的能力也会越来越强大。
在此就介绍完了知识图谱的一些简单知识,在写这篇文章的同时,也参考了很多业界优秀大佬的文章,感谢各位大佬的无私分享。
参考文章
《浅谈知识图谱基础》我偏笑NSNirvana
《“知识图谱”项目,需产品经理考虑的几点问题》博斌20190218
《【知识图谱】项目前期产品经理需要做哪些准备》Jasmine
《知识图谱的应用》惠普大数据李文哲
《干货从零到一学习知识图谱的技术与应用》李文哲
《知识图谱及其变种在行业实践中的应用与思考》中兴陈虹
投诉 评论 每位产品经理,都应该是商业到人文的翻译产品经理不在于你知道多少,而在于你解决了多少问题!前哒哒英语产品副总裁胡怀文产品经理不是一个岗位,而是一种思维方式。微贷网联合创始人COO叶巍通……
找到“伴侣”的互联网家装并未解决“终身大事”“互联网”的出现,仿佛给家装行业带来了逃离困局的曙光,但实际上,大多数的“互联网家装”只是简单粗暴地利用资本、流量粉饰太平而已,并未进行真正的改变。互联网红利的结束让越来……
从《PokemonGo》出发,纵览AR行业的发展现状什么是AR?它的技术原理是怎么样的,它能够具备哪些商业价值?一起来了解一下增强现实(AR)这个概念想必很多读者都不陌生吧,可AR第一次真正意义上进入大众用户的视野,要从一……
三个原因,解析淘宝电商为何越来越难作为8年电商老兵,作者经历过了淘宝各个发展阶段,深度孵化过多个规模近亿的淘系商家店铺,对淘系电商的变迁有深入的认知,此次深入浅出分析一下淘宝为何难做。淘宝难做的原因是方方……
4步拆解秋招笔试套路,内附80份互联网大厂笔试真题找工作啦2019秋招在即,你还没做好准备吗?“最后一个暑假,开学再想秋招的事吧”瓦特??你知道秋招是什么个套路吗?小编都要忍不住给你敲黑板划重点了!……
小程序互联网时代,来了当人口红利消失时,基于服务价值的小程序会变得更有想象力。一个很多人都没有意识到的拐点来了。最近,QuestMobile最新的数据显示:2019年Q2,中国移动互联网……
解密当代年轻人聊天标点里的隐藏含义你们知道(。是什么意思吗?在这个天天都不大一样的互联网新社交圈,作为一个时髦的网络交际花,你应该需要的知识储备,应该要达到:掌握微笑的100233种含义以及略懂一些尚未形……
ToB运营:4个误区和3个获客方式什么才是ToB运营的正确打开方式?本文笔者将为大家讲述:ToB运营的4个误区和3个获客方式。现在流行一句话:ToB的企业不需要运营,只需要商务,因为商务驱动更好的成单,而……
科技巨头的语音生意经语音识别正在成为人类与互联网沟通的新主流方式。近日,一份来自大西洋彼岸的报告成为很多人关注的焦点。这份由美国知名投资机构MangroveCapitalPartner……
“下沉市场”有哪些生意值得做?之前写的《我在“下沉市场”生活的一个月》受到很多用户和媒体的关注,也吸引了很多创业者和投资人找我询问交流。由于时间和精力有限,无法一一回答的很详细,所以还是写篇文章出来,说说我……
知识图谱是什么?知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的……
产品经理周报第77期微信支付推出“微信机上付”;百度网盘将推早早早,今天又是一周的最后一天(如果是996的话,当我没说)大家有没有出游的计划呀,虽然天气炎热,但出去走走还是很好的呀欢迎大家来评论区留下周末打算去做的事哇……
视频类产品中的UGC音乐内容分析本文通过市场分析、用户分析、运营分析,针对音乐细分领域,总结出关于市场空间,用户定位,音乐活动运营和用户参与特性的几点想法。除了QQ音乐,网易云音乐这类拥有海量版权曲库的……
网红品牌爆火的时候,离死就不远了如今一提到网红品牌、网红店,老板都要出来反驳,坚决与网红二字划清界限。2017年的时候,上海市食药监局约谈一点点、喜茶、哥老官、楼上四家品牌时,大家都不承……
社交网络是如何一步步失控的?2006年Facebook推出的NewsFeed功能使内容的可信度层级趋平,让假新闻风靡网络;Facebook随后推出基于热度的推荐算法和2009年Twitter推出的转发功能……
首单免费,平台亏不亏钱?首单免费,平台亏不亏钱?本文将和大家聊聊首单免费有哪些玩法,以及要注意的一些事项。赶紧注册,首单免费不花钱!这是各位经常在微信、视频中看到的广告,也是许多电商平台拉……
线下课程10年腾讯人,沉淀做运营的经验和心得,分享给你2015年,是我在腾讯的第10年,想要对自己10年的成长有个交代,于是系统地去总结和梳理了实践过程中沉淀的运营知识和方法论。同时,也希望能够将这些知识传达给仍然在摸爬滚打……
新品推广如何制定营销策略?一个新品想要做起来,推广出去,首先要思考一个问题:在市场大牌林立的情况下,消费者为什么要买你的产品?市场上99的品类,新品都面临着这个问题,毕竟独家产品比较少。如果……
从极简模型,看广告出路本文笔者将通过一个极简的模型,来探究互联网三大基础商业(变现)模式电商、游戏、广告的利弊、窘境,与可能的出路。一、极简模型以双方是否需求(或接受)对方为衡量因素的简……
从“90后消费榜单”,看快消品新消费的10大趋势大牌强势、自有品牌崛起、重口味流行!本文笔者从这份90后消费榜单,看出了有趣的10个消费新趋势。这两天,我的朋友圈被一份“90后消费榜单”刷了屏。转这个榜单的很多是……
张小龙微信公开课PRO演讲:将近100万人已接近5000好友又是一年微信公开的课的时候,今年的张小龙给大家分享了他对于信息互联的7个思考。公开课的朋友们,大家好。又到了一年一度的微信公开课。很抱歉这次没有来到……
悦跑圈CEO:要给予用户成就感2019年12月2122日,人人都是产品经理举办的【2019深圳产品经理大会】完美落幕。悦跑圈联合创始人兼COO吴文业老师,他为我们带来《由快感到成就:多巴胺VS内啡肽》。……
疫情下的广告业极少数广告人认为疫情对广告业没什么严重,也没什么影响。大多数广告人认为:疫情对广告业的影响,暂时还不是很明显,但也有不少项目在调整Brief、取消投放和延……
疫情之下,在线教育企业如何保证产品持续增长?本文作者梳理了在线教育头部机构面对疫情的应对策略并总结了3点建议,供大家一起参考和学习。疫情之下,全国人民开始了大门不出二门不迈的生活。起初大家是幸福的,现实却是残酷的,……