童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

AI产品经理需要了解的数据知识:余弦相似度

9月25日 听风行投稿
  本文概括介绍了余弦相似度是什么、如何应用以及案例说明,目的是希望我们产品经理在设计相关跟相似度功能或是利用相似性功能解决某一业务的场景时能利用上余弦相似度,并希望您读完对自己在设计相关推荐业务、搜索业务、识别业务时能有更深层次的理解。
  在机器学习算法中,有很多方法计算某个对象之间的距离或是相似性,余弦相似度是通过衡量两个向量间的夹角大小,通过夹角的余弦值表示结果,余弦相似度的取值为〔1,1〕,值越大表示越相似。
  计算余弦值的公式如下:
  注释:其中a和b代表两个向量(向量是在空间中具有大小和方向的量,在数据计量中表示带箭头的线段,相关向量知识可自行阅读相关文献)。
  如果是在二维空间,余弦相似度的值通过如下公式计算:
  对于以上公式的理解,我们可以看如下两图(二维向量图和余弦定理)
  以上左图是将a两个向量二维化,右图是余弦定理,通过余弦定理与二维空间结合,即可推导出来二维空间下计算两个向量的余弦相似性公式。(有兴趣的同学可以看上面两个图,自行推导一下)
  如果假设空间是多维的,那么余弦相似度公式可扩展如下公式:
  以上是对余弦相似度概括解释,以及公式演化形式,在下一节将会对以上公式的应用说明,请各位同学先好好理解以上公式。
  一、余弦相似度应用说明
  余弦相似度在度量文本相似度、用户相似度、物品相似度的时候都较为常用。
  案例一:文本相似度
  比如有如下两个句子:
  句子A:他不仅是一个歌手,还是一个舞者;
  句子B:他既是一个歌手,也是一个舞者。
  那么如何计算以上两个句子的相似度,首先我们要找到如何评价这两个句子,用什么方法将这两个句子向量化?我们最直观的看,连个句子用词相近,那句子整体相似度就高,因此我们从词频入手,来计算其相似性。
  首先,进行分词处理:
  句子A:他不仅是一个歌手还是一个舞者
  句子B:他既是一个歌手也是一个舞者
  其次,列出所有的词:
  他不仅既是一个歌手还也舞者
  第三步:计算词频
  句子A:他(1)不仅(1)既(0)是(2)一个(2)歌手(1)还(1)也(0)舞者(1)
  句子B:他(1)不仅(0)既(1)是(2)一个(2)歌手(1)还(0)也(1)舞者(1)
  第四步:
  我们总结出来两个句子的词频向量:
  句子A(1,1,0,2,2,1,1,0,1)
  句子B(1,0,1,2,2,1,0,1,1)
  这样问题就变成了如何计算这两个向量的相似程度。都是从原点(〔0,0,〕)出发,指向不同的方向的向量。
  通过公式计算得出:
  A和B的余弦相似度
  通过余弦相似度公式,我们计算出来这来两句话意思很相近。
  我们通过这个案例不难发现,想要利用余弦相似性公式来计算两者之间的相似性,首先要确定向量化的方法(比如本案例中,通过将连个句子通过分词的方式,计算词频来向量化),理解向量值的多维度(我们通过分词可以得出来9各维度的向量值),然后将向量化后将值带入到公式中,去计算相似度。
  通过以上案例我们可以联想其他案例,比如对于两篇文章,连个实体的相似性对比,我们可以通过向量化关键词、实体画像特征等进行向量化,然后通过这些特征向量化的维度值,进行计算相似性。
  案例二:用户相似度
  比如一个外卖平台,两个用户A和B,外卖新出了两款新品套餐,分别是a和b,用户A对这两款新品的评分是1分和2分,b对这两款新品的评分是4分和5分,我们通过余弦相似度来评价一下两个用户的相似度。
  假如我们将对这新品套餐评分作为特征向量,两个产品的评分分别连个维度的向量值,是那么A和B的特征向量分别是(1,2)、(4、5),我们代入公式计算得出:0。98。
  通过公式计算发现两个相似度很高,但是这跟我们直觉判断这两个应该相似度很低才是,这说明我们选定好评价的特征向量后,对于向量值的的确定出现了问题,我们对(1,2)、(4、5)进行转换,变成与平均分3的差额,的出来新的向量值(2,1)、(1、2)之后,重新计算得出相似度为0。8,那么我们看这个结果比较接近事实。
  通过这个案例我们可以看到:再找到特征向量后,对于向量值的取值与评价也需要灵活考虑,可以结合统计学知识。
  二、总结
  对于产品经理,尤其是对于AI产品经理,在理解和运用余弦相似性时需要考虑一下问题:
  首先,余弦相似性是对两个对象之间的比较,将两个对象向量化,向量化的过程中,我们要找到两个对象比较的基础;也就是特征,真对与不同特征赋予向量值的意义,并且在选取向量值时,定量化的评分要符合逻辑,然后通过公式计算相似性。
  其次,余弦相似性很难做到向量长度的归一化。
  比如两篇文章,讲的同一个事情,一篇200字,一篇5000字。假如通过关键词相似可以判定两个文章是高度相似的,假如我们还是用内容分词通过词频的方式,那么有很大可能是不相似的,因为词量差距太大。因此我们选取的特征向量尽量少维度,但是又能全面评价二者的指标。
  除此之外,关于相似性的判断,在机器学习中除了余弦相似性还有其他方法,比如欧氏距离、皮尔逊相关度、杰卡德(Jaccard)相似度等方法,有兴趣的小伙伴可以进一步了解。
投诉 评论

AI能发现高考生的心理疾病吗?对于高考生而言,学业的重压猝然消失,那颗总是沉甸甸的心也无处安放了。面对这样的情况,我们可以把评估、预防和治愈考生心理的重担交给AI吗?高考已经过去好几天了,随之而来的是……催收场景及产品调研分析:AI应用篇随着消费信贷的快速发展,第三方催收行业迅速发展,但暴力催收、裸条事件的曝光,催收行业的薄弱环节及制约因素,引起行业及监管部门的关注。催收企业需要法律法规监管的同时,更需要借助科……深度学习真的要衰落?几天之前,国内科技媒体,尤其是AI媒体之间刷屏了一篇文章。其原作者是机器视觉专家FilipPiekniewski,标题叫做《AIWinterisWellonitsWay》。这篇……AI与偶像产业结合,让你的爱豆更可爱把AI技术应用于偶像产业,会产生怎样的神奇效果呢?跟着作者一起想象爱豆的另一番模样吧!降临在AI时代的偶像元年一个公认的说法是,2018年是中国的偶像产业元年。“土……AI产品经理需要了解的数据知识:余弦相似度本文概括介绍了余弦相似度是什么、如何应用以及案例说明,目的是希望我们产品经理在设计相关跟相似度功能或是利用相似性功能解决某一业务的场景时能利用上余弦相似度,并希望您读完对自己在……抢占AI翻译赛道,搜索平台为何不约而同发力NMT?不论是国外的谷歌,还是国内的搜索巨头百度、搜狗、360等,均把NMT作为AI翻译的标配,翻译集中的领域在中英互译上,这是一个很有趣的现象。AI翻译真的是块肥肉吗?为什么要发力N……从产品视角看智能客服本文缘起来自咱们饭团“AI产品经理大本营”团员Wildelin的提问:“请问团长,智能客服,会是一个好方向吗?希望能从技术的发展应用,行业深度以及作为PM的发展前景几……进入深水区的母婴行业,AI成了新的催化剂?AI图像识别与母婴领域有充分关联的可能,针对婴幼儿的图像识别技术正在不断成熟,需求也开始显现。而另一边,互联网母婴行业从PC时代升级而来,也已走入深水区,利用可与之结合的AI技……Facebook的AI导向设计当AI不可避免地与我们所生产的产品深深地融合在一起时,产品设计师就越来越需要参与它的发展。在facebook,AI无处不在在幕后,AI帮助facebook更聪明,更……只做AI诊断的智能医疗行业,已经不够看了随着AI在医疗领域的攻城略地,AI康复医疗是否会出现,其是否会成为医疗服务业中的黑马呢?预防、诊断、治疗,这三个医疗流程相信大家已经了然于心,但是康复医疗,狭义上,就是我……助视产品,如何掀开视障患者眼前的帘子?即使现在的智能“助视”产品比比皆是,但要真的掀开视障患者眼前的帘子,恐怕还不容易。在台湾,有一位歌手叫萧煌奇,他因先天性白内障一出生就全盲,在4岁动了眼部手术后成为弱视。……立志取代全世界的AI,能啃得动法务这块硬骨头吗?在作者看来,AI取代法务可能是一件遥远的事情,但目前的影响确是显而易见的。有这样一种观点:AI最先取代的将是那些机械化、数字化和管理相关的工作,比如编辑、银行职员和客服等……
百度移动搜索结果页新版测试,背后都有哪些逻辑和思考?戴着镣铐跳舞,中国互联网音乐平台的边界在何处?为什么说内容是一门好生意?想成为CEO?先成为一名出色的产品经理吧丨产品经理实战训练营面临新媒体转型,企业真的需要做公众号么?五大维度,看共享充电宝能否比肩共享单车?产品经理日报第1008期一个时代的的完结:腾讯朋友网宣布8月过气桌游狼人杀卷土重来,APP红透半边天奈何痛点多从搜索型、社会化走向智能分发,问答超级社区的“天时”已至?如雨后春笋般的广场舞类APP,也成了互联网创业风口?在线音乐平台会在三个领域展开竞争美业接轨互联网困难重重,医美将成美业O2O的巨星?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界