童话说说技术创业美文职业
快好知
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

分析:基于文本内容推荐和协同过滤推荐

7月3日 暗影泪投稿
  当用户看完某个感兴趣的事物时,推荐系统会给你推荐类似你喜欢的东西,而本文主要分析一下关于协同过滤推荐和基于文本内容推荐的这两种推荐方式。
  (1)需求背景
  当用户表示出对一些内容感兴趣的时候,满足用户的一个拓展的兴趣;比如:feed流产品,让你对新的内容既有熟悉感并且有新颖感,这样的话就能够促进用户进一步内容消费。
  一般是在内容消费完结时推荐,比如:看完一部小说,会给你推荐通类型的小说,看完一部钢铁侠的电影,会给你推荐钢铁侠系列电影。
  相似内容推荐的核心逻辑即推荐用户在当前当刻下最感兴趣的或者与这个内容最相似的一个内容。
  (2)业务目标
  业务目标:推荐内容用户消费行为的最大化
  (3)衡量标准
  简单的方式就是CTR的方式,用户点击的数量推荐的数量。
  用户行为消费的深浅,比如:一个网页的用户停留事件,网页的浏览完成时间。
  基于文本内容推荐Contentbase
  1。基本原理
  使用内容的元数据,或者针对内容的自身的分析,对于任意内容A、B,计算AB之间两两相似度Sab,推荐给用户相似度最高的N个内容。
  2。关键路径
  (1)定义度量标准
  标准类似于坐标轴,例如:人有很多属性,性别、年龄、身高、体重、文化程度、专业技能等。
  这些共同构成的一个多维空间,每一个特定的人,在每一个维度上面都会有一个具体的值,这样就实现对一个特定人的量化表示。实现从一个人的个体到一个N维度的向量的一个映射,并且由于面对的需求不一样,我们构建的一个特征空间可能是不一样的。
  继续上面的例子,如果我们要挑选好的战士,那么特征空间可能就包括性别、年龄、身高、体重,等维度基本就够了。那如果要挑选好的产品经理,这些维度肯定不不够全面。
  (2)对内容进行量化
  对各个内容,如:文章、商品,通过上面定义的维度进行量化。
  (3)计算相似度
  算距离度量,及文本在立体在空间上存在的距离,距离越远说明个体间的差异越大。
  算相似度度量,相似度度量的值越小,说明个体间相似度越小,差异越大。
  距离度量和相似度量是负相关的距离小、“离得近”、相似度高;距离大、“离得远”、相似度低。
  3。举例
  (1)定义度量标准:全体有益的词,如果两篇文章中相同的词汇越多,则认为两篇文章越相似。
  首先我们需要对文章进行处理,通过切词,去掉没有意义的形容词,得到关键词的一个集合,这样完成了一篇文章到一个集合的映射。
  (2)对内容进行量化
  如果直接对关键词量化,首先想到的是统计一下文档中每个词出现的频率(TF),词频越高,这个词就越重要。但是统计完你可能会发现你得到的关键词基本都是“的”、“是”、“为”这样没有实际意义的词(停用词)。因此,我们需要通过TFIDF的方法进行预处理。
  TFIDF指在上出现得越频繁的一些词,也就是说越是大众货色的词。那我们认为,对于区分不同内容的贡献度就越低。他们的权重应该降低,这个权重就是(IDF)。
  字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
  举一个例子说明一下:
  文章1:我喜欢动漫电视剧;
  文章2:我爱科幻动作电影;
  文章3:我喜欢动画科幻电影。
  在计算IDF时,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下会加1为了简便计算,分母只包含改词的文档数,公式如下:
  计算结果如下:
  文章1:(0。045,0,0。12,0,0。045,0,0,0)
  文章2:(0,0。096,0,0。036,0,0。096,0。096,0。036)
  文章3:(0。036,0,0,0。036,0。036,0,0。036,0)
  在此过程中完成了文章向向量的转化。
  (3)计算相似度
  算距离度量常用的算法:
  欧式距离
  欧式距离是最常见的距离度量,衡量的是多维空间中各点之间的绝对距离,公式如下:
  根据距离度量越大差异越大,相似度如下:文章1,文章3文章2,文章3文章1,文章2。
  闵可夫斯基距离
  P是一个变参数,当P1时,就是曼哈顿距离当P2时,就是欧氏距离。
  曼哈顿距离
  和欧氏距离非常相似(把平方换成了绝对值,拿掉了根号),公式如下:
  Dist(文章1,文章20。0450。0960。120。0360。0450。0960。0360。47
  Dist(文章1,文章3)0。21
  Dist(文章2,文章3)0。264
  与欧式距离结果类似。
  算相似度度量,常用的算法:
  余弦相似度
  余弦相似度用向量空间中两个向量夹角的余弦值,作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。
  公式如下:
  根据相似度量越小,相似度如下:文章1,文章3文章2,文章3文章1,文章2。
  皮尔逊相似系数
  即相关分析中的相关系数r,分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。
  公式如下:
  Jaccard相似度
  卡德相似度,指的是文本A与文本B中交集的字数除以并集的字数,杰卡德相似度与文本的位置、顺序均无关,并且公式非常简单:
  Jaccard(文章1,文章2)0
  Jaccard(文章1,文章3)38
  Jaccard(文章2,文章3)38
  相似度结果如下:文章2,文章3文章1,文章3文章1,文章2。
  使用哪种方法计算相似度都可以,没有一个明确的答案谁好谁坏,相反,我们怎么定义这种度量标准,如何实现精细化的量化?这相对来说更加重要些。
  总结
  优点:
  用户之间具有独立性:每个用户的推荐都是根据用户自身的行为所获得的,与其他人无关;
  好的可解释性:你可以向用户解释为什么会给他推荐这些内容;
  冷启动快捷:对于新加入的物品可以直接在推荐结果中曝光。
  缺点:
  度量标准难定义:上面的例子为文章,我们可以通过抽取文章的特征,但是我们在大多数的情况下很难从项目中抽取特征,比如:视频等多媒体内容中,信息的都蕴含在高纬度中,很难进行抽取。
  无法挖掘用户的潜在兴趣:我们推荐的内容只是根据用户过去的喜好,因此推荐的内容也跟用户过去喜好的相似。
  新用户无法推荐:由于新用户没有浏览历史,因此无法获得用户的喜好。
  协同过滤推荐CollaborativeFiltering
  1。基本原理
  对于每个用户,采集对每个内容的消费行为,量化构建用户内容行为矩阵,通过该矩阵的分析处理计算内容内容的两两相似度。
  2。主要步骤
  (1)用户行为的采集
  用户的反馈通常分为两种:一种是正反馈行为,一种是负反馈行为。
  在正反馈行为中还分为显性和隐形两种,,比如说:评价、分享、点赞、收藏、下载等等。用户主动参与的,认为是一个正反馈显性的行为,比如:用户页面的停留时间,播放视频等自然操作行为,认为是一个正反馈的隐形行为。
  但是由于我们在实际收集数据中,采集到用户正反馈的显性行为比较少,往往需要隐形的数据帮助我们推荐更精准的量化。负反馈行为就是负向评价,或者投反对票,不喜欢等。
  (2)用户内容行为矩阵构建
  划定采集行为的窗口期:从现在开始我要回溯多久的一个数据,确定窗口期的原因在于我们的内容会发生变化,并且用户的兴趣也可能发生变化,因此,具体的窗口期需要根据各个业务领域而定,比如新闻类,窗口期不宜设置过长。
  定义正负反馈行为的权重:一般来说,显性的正反馈的权重大于隐形的正反馈,比如正向的评价,肯定会比页面停留时间的权重要高,而负反馈的权重需要根据用户行为的深浅进行判断,比如:用户如果明确点击了不喜欢,或者一个负向的评价,则可以认为是一个权重比较高的行为。
  数据的预处理(降噪和归一化):
  降噪:数据是用户使用过程中产生的,因此会存在大量的噪音和误操作,需要将这些数据进行过滤,比如:在用户的生命周期中,只产生了一到两次的正反馈行为,这种用户的参考价值比较低。
  归一化:目的是让大的输入,大的信号映射到小范围内。
  假设一个产品用户查看次数为X1、分享次数X2,权重分别为Y1、Y2,加权求和X1Y1X2Y2。
  假设’X1属于〔101000〕,X2属于〔01〕,由于X1远远大于X2,那么X2Y2就可以忽略不计了,整个加权求和就只由X1Y1决定,小的信号被淹没了。
  常用的函数:
  y(xMinValue)(MaxValueMinValue)(归一到01之间)
  y0。1(xmin)(maxmin)(0。90。1)(归一到0。10。9之间)
  (3)矩阵分析计算相似度
  此过程中依旧是基于向量,计算两个向量之间的距离或者计算相似度,算法与上面CB中基本一致。
  在用户行为矩阵中,有两种维度计算方式:
  将用户对所有的物品的偏好,作为一个向量计算用户之间的相似度。
  将所有用户对某个物品的偏好,作为向量来计算物品之间的相似度。
  3。例子
  (1)用户行为矩阵的构建
  收集到如下正反馈行为及赋权规则:查看1、收藏4、分享1。
  用户行为矩阵:每个单元格代表了用户在该影片的行为量化后的结果。
  数据预处理
  (2)计算相似度
  基于用户维度
  首先计算用户与其他用户在商品维度上的相似性,每一个用户都可以用一个向量表示,首先计算第一个用户与其他用户的余弦相似度。
  小二的向量可以表示为(4,3,0,0,5,0),其他类似:
  Sim(小二,小三)Sim(小二,小四)Sim(小二,小五)Sim(小二,小六)Sim(小七)。
  由结果可以看出,小二,小三的相似度高,和小七完全不相似,根据此计算每个用户之间的相似度。
  首先找到与小二最相似的N个用户,这个n2,最相近的用户为小三、小四,且除去小二的看过的影片还有影片3、影片4。
  影片3(0。740。65)(0。70。6)4。5
  影片4(0。63)0。63。0
  因此向用户推荐影片3和影片4。
  基于商品维度
  每一个影片都可以通过向量表示,影片1的向量可以表示为(4,5,4,0,0,0)。
  根据此计算每影片之间的相似度。
  小二,看了影片1、影片2、影片5。
  与影片1相似的有:影片3、影片5
  与影片2相似的有:影片6、影片5
  与影片5相似的有:影片3、影片1、
  应该先用户推荐:影片3和影片6。
  总结
  优点:不依赖对于内容的理解,甚至可夸异构内容实现推荐。
  缺点:
  头部内容的问题:非常热门的内容容易覆盖用户行为更多,比如最近比较火的《延禧攻略》,如果仅仅基于行为来说的话,会有很多用户都会产生正向的行为,这样计算出来了,就会更很多内容有相似性,因此还需要进行降权处理。
  业务关联导致的相关性:在内容的生命周期内,由于业务关联导致用户既看了这个,又看了那个。
  其他:容易受脏数据污染,新内容冷启动慢,结果解释性差。
投诉 评论 转载

淘宝的内容布局,你真的看懂了吗?本文作者主要分享淘宝内容布局的逻辑以及每一个内容频道存在的意义,一起来看看前言笔者最近在某知名快消企业的电商部门实习,主要负责监测竞争品牌在淘宝的内容投放策略,因此……后台统计报表如何设计?在系统后台,我们看到最多的就是一张张报表。有的人对报表的第一印象肯定是“嗨,表格嘛,就和excel表格差不多,有什么可难的”。统计报表虽然看起来简单,但后端产品中,统计报表是非……分析:基于文本内容推荐和协同过滤推荐当用户看完某个感兴趣的事物时,推荐系统会给你推荐类似你喜欢的东西,而本文主要分析一下关于协同过滤推荐和基于文本内容推荐的这两种推荐方式。(1)需求背景当用户表示出对……用底层思维,去思考产品需求与用户价值用最简单的底层思维去考虑产品需求与用户价值,会让产品的方向变得很清晰。我们所做的所有事情其实可以很简单去概括,因为逃不过经济学规律,逃不过社会学及心理学规律。所有的互联网……细谈服务设计与用户体验设计之间的区别您可能已经听说过服务设计,但不清楚它是什么,所以才会打开这个页面。别担心,和你一样的人也大有人在在今天的设计世界中找到许多学科和专业的方法本身就是一项工作。更加困难的是,职位描……简单易用的产品设计方法论:以APP设计为例本文作者试图总结一些简单易懂、方便操作的方法和步骤,能将人机交互学的理论快速贯彻到具体的产品设计上。enjoy“简单易用”,无论是每本和产品设计有关的经典书籍,或是产品大……内容发布功能点对比分析:新浪微博VS微信朋友圈VSQQ动态新浪微博、微信朋友圈、QQ动态都具有让个体发布内容的功能,但在产品表现上却不尽相同。本文将结合自己、亲朋、好友的实际体验(从用户视角、需求场景),分析对比这些产品在内容发布这一……知识图谱在风控的应用本文将主要讨论知识图谱在风控领域的图谱构建过程。enjoy一。知识图谱和金融领域简述什么是知识图谱?借鉴其中一个理解:知识图谱主要的目标是用来描述真实世……车联网系统如何架构?车联网技术的关键功能是驾驶者,可以通过移动设备远程控制汽车、监控汽车的安全性,因此,车、车联网平台以及用户APP端组成一个完整的车联网系统。1996年,通用汽车公司与摩托……案例分析:设计一款k12阶段亲子产品的思考逻辑如何去设计一款k12阶段亲子产品?如何有效提升孩子的学习成绩,需要家长做哪些动作,是这个阶段家长的核心需求。一、k12阶段需要什么样的亲子产品?k12家长最关心什么……电商平台需要怎样的推荐系统?智能推荐的意义对于手握大把优质流量的电商巨头来讲,意义重大。同时,对于那些崛起的,流量没那么多的电商平台来说,可能价值还要更大。为了响应亚马逊CEO贝索斯的“亚马逊有10……互联网金融产品之风控系统风险控制到底有哪几部分,又该如何搭建?本文主要是为新入行的互金产品提供一些帮助,enjoy最近网贷行业哀声一片,频频暴雷不断,搞得投资者人人自危,而借款者则是喜大普奔。……
常用职场心灵鸡汤语录40条职场的语录简短的职场的语录常用职场正能量的语录经典职场心灵鸡汤语录29条职场的语录75条职场正能量的语录45条简洁的职场正能量的语录职场正能量的语录39条常用职场心灵鸡汤语录73条简单的职场的语录99条职场的语录
Twitter宣布禁止未经当事人同意分享其照片和视频到底是怀念18年的夏天,还是怀念18年夏天的人图Vivaldi2。4发布更多定制选项引入多用户模式减肥期,白菜这么炒,不放一滴油,好吃还减肥,富含膳食纤维父子过招使篮球提高学业成绩的对话火龙果怕霜冻吗杨幂晒新年造型,罕见挑战蓝色短发美翻了,花式卖萌少女感爆棚怕黑的女人歌词(田震怕黑的女人歌曲)小区有狗咬人怎么处理1个机顶盒2台电视机,怎么同时看电视?竟用一个兴平铁杆跑团(兴平微马大队)第347期约跑通知从犯的量刑情节都有哪些

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界