童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

个性化推荐十大挑战(上)

10月18日 乔了了投稿
  有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”还有很大的差距,所以,只能说个性化推荐是细分市场的极致!实际上,信息服务经历了两次理念上的变革,第一次是从总体到群体,第二次是从群体到个体。第二次变革正在进行中,所要用到的核心技术就是这篇文章要讨论的个性化推荐技术。
  有读者觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大众理解。实际上协同过滤只是个性化推荐技术中的一个成员。它与很多更先进技术相比,就好像流行歌曲和高雅音乐,前者广受欢迎,而且一般人也可以拿个麦克风吼两声,但是说到艺术高度,流行歌曲还是要差一些。当然,流行歌曲经济价值可能更大,这也是事实。总的来说,协同过滤只是个性化推荐技术中的一款轻武器,远远不等于个性化推荐技术本身。
  图1:信息服务的两次变革:从总体到群体,从群体到个体。
  有些读者可能不是很了解个性化推荐,我先推荐一些阅读的材料。中文的综述可以看我们2009年在《自然科学进展》上的综述。这篇文章质量不能说很好,但是可以比较快得到很多信息,了解个性化推荐研究的概貌。有了这个基础,如果想要了解突出应用的算法和技术,我推荐项亮和陈义合著的《推荐系统实践》。百分点科技出版过一本名为《个性化:商业的未来》的小册子,应用场景和商业模式介绍得比较细致,技术上涉及很少,附录里面介绍了一些主流算法和可能的缺陷,或许能够稍有启发。国外的专著建议关注最近出版的两本,其中实际上是很多文章的汇总,因为写这些文章的都是达人,所以质量上佳。Adomavicius和Tuzhilin的大型综述特别有影响力,不仅系统回顾了推荐系统研究的全貌,还提出了一些有趣的开放性问题尽管我个人不是很喜欢他们对于推荐系统的分类方法。我们今年发表了一篇大综述,应该是目前最全面的综述,所强调的不仅仅是算法,还有很多现象和思路大家有兴趣不妨看看。
  有些读者认为个性化推荐技术的研究已经进入了很成熟的阶段,没有什么特别激动人心的问题和成果。恰恰相反,现在个性化推荐技术面临很大的挑战,这也是本文力图让大家认识的。接下来进入正题!我将列出十个挑战(仅代表个人观点),其中有一些是很多年前就认识到但是没有得到解决的长期问题,有一些事实上不可能完全解决,只能提出改良方案,还有一些是最近的一些研究提出来的焦点问题。特别要提醒读者注意的是,这十个挑战并不是孤立的,极有可能一个方向上的突破能够对若干重大挑战都带来进展。
  挑战一:数据稀疏性问题。
  现在待处理的推荐系统规模越来越大,用户和商品(也包括其他物品,譬如音乐、网页、文献)数目动辄百千万计,两个用户之间选择的重叠非常少。如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,那么我们平时研究最多的MovieLens数据集的稀疏度是4。5,Netflix是1。2。这些其实都是非常密的数据了,Bibsonomy是0。35,Delicious是0。046。想想淘宝上号称有近10亿商品,平均而言一个用户能浏览1000件吗,估计不能,所以稀疏度应该在百万分之一或以下的量级。数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。这种情况下,通过珍贵的选择数据让用户和用户,商品和商品之间产生关联的重要性,往往要比用户之间对商品打分的相关性还重要。举个例子来说,你注意到一个用户看了一部鬼片,这就很大程度上暴露了用户的兴趣,并且使其和很多其他看过同样片子的用户关联起来了至于他给这个片子评价高还是低,反而不那么重要了。事实上,我们最近的分析显示,稀疏数据情况下给同一个商品分别打负分(低评价)和打正分的两个用户要看做正相关的而非负相关的,就是说负分扮演了“正面的角色”我们需要很严肃地重新审查负分的作用,有的时候负分甚至作用大于正分。
  这个问题本质上是无法完全克服的,但是有很多办法,可以在相当程度上缓解这个问题。首先可以通过扩散的算法,从原来的一阶关联(两个用户有多少相似打分或者共同购买的商品)到二阶甚至更高阶的关联,甚至通过迭代寻优的方法,考虑全局信息导致的关联。这些方法共同的缺点是建立在相似性本身可以传播的假设上,并且计算量往往比较大。其次在分辨率非常高的精度下,例如考虑单品,数据可能非常稀疏。但是如果把这些商品信息粗粒化,譬如只考虑一个个的品类,数据就会立刻变得稠密。如果能够计算品类之间的相似性,就可以帮助进行基于品类的推荐(图2是品类树的示意图)。在语义树方面有过一些这方面的尝试,但是很不成熟,要应用到商品推荐上还需要理论和技术上的进步。另外,还可以通过添加一些缺省的打分或选择,提高相似性的分辨率,从而提高算法的精确度。这种添加既可以是随机的,也可能来自于特定的预测算法。
  随机的缺省分或随机选择为什么会起到正面的作用呢,仅仅是因为提高了数据的密度吗?我认为仔细的思考会否决这个结论。对于局部热传导的算法,添加随机连接能够整体把度最小的一些节点的度提高,从而降低小度节点之间度差异的比例(原来度为1的节点和度为3的节点度值相差2倍,现在都加上2,度为3的节点和度为5的节点度值相差还不到1倍),这在某种程度上可以克服局部热传导过度倾向于推荐最小度节点的缺陷。类似地,随机链接可以克服协同过滤或局部能量扩散算法过度倾向于推荐最大度节点的缺陷。总之,如果拉小度的比例差异能够在某种程度上克服算法的缺陷,那么使用随机缺省打分就能起到提高精确度的作用。
  图2:品类树的示意图
  挑战二:冷启动问题。
  新用户因为罕有可以利用的行为信息,很难给出精确的推荐。反过来,新商品由于被选择次数很少,也难以找到合适的办法推荐给用户这就是所谓的冷启动问题。如果我们能够获得商品充分的文本信息并据此计算商品之间的相似性,就可以很好解决冷启动的问题,譬如我们一般不担心图书或者论文推荐会遇到冷启动的问题。不幸的是,大部分商品不同于图书和文章本身就是丰富的内容,在这种情况下通过人工或者自动搜索爬取的方法商品相应的描述,也会有一定的效果。与之相似,通过注册以及询问得知一些用户的属性信息,譬如年龄、居住城市、受教育程度、性别、职业等等,能够得到用户之间属性的相似度,从而提高冷启动时候推荐的精确度。
  最近标签系统(taggingsystems)的广泛应用提供了解决冷启动问题的可能方案。因为标签既可以看作是商品内容的萃取,同时也反映了用户的个性化喜好譬如对《桃姐》这部电影,有的人打上标签“伦理”,有的人打上标签“刘德华”,两个人看的电影一样,但是兴趣点可能不尽相同。当然,利用标签也只能是提高有少量行为的用户的推荐准确性,对于纯粹的冷启动用户,是没有帮助的,因为这些人还没有打过任何标签。系统也可以给商品打上标签,但是这里面没有个性化的因素,效果会打一个折扣。从这个意义上讲,利用标签进行推荐、激励用户打标签以及引导用户选择合适的标签,都非常重要。
投诉 评论

个性化推荐十大挑战(下)本文为个性化推荐十大挑战最后一部分,主要介绍了推荐系统效果评估,用户界面与用户体验,多维数据的交叉利用,社会推荐。接上文:个性化推荐十大挑战(中)挑战七:推荐系统效……为什么我们不反感微信做支付,却反感支付宝做社交?携带着不安全感的基因,支付宝做社交既是战略导向,也是为前途考量,这次充满荷尔蒙和LOW的尝试,不知能不能留住用户的心。支付宝和微信都是超级APP,功能非常丰富,同是生态型的AP……个性化推荐十大挑战(中)前文介绍了个性化推荐十大挑战的背景其中的数据稀疏性问题,冷启动问题。本篇介绍个性化推荐十大挑战中的大数据处理与增量计算问题,多样性与精确性的两难困境,推荐系统的脆弱性问题,用户……深度怎么总是支付宝?马云的社交梦阿里就没人能扛吗?支付宝的料,想必大家已经饱了眼瘾了。马云这是社交梦未死,还是支付宝产品经理另有打算?怎么总是支付宝?我们今天准备从DT的角度解读这件事。一、社交是假的,本质还是要数据……也来扒一扒移动支付NFC支付(上)编者按:又快到苹果新品发布会,一如往年,苹果手机对NFC的支持又引来猜测。的确在移动支付风起云涌的时代,苹果的站队将能一锤定音的作用。那移动支付的未来将会在哪里呢?欢迎关注“也……个性化推荐十大挑战(上)有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息……支付系统设计:对账处理(二)可以说,对账是支付系统最头疼的事情。每一笔交易,都要做到各参与者的记录能够吻合,没有偏差。对账系统的工作,是发现有差异的记录,即轧帐;然后通过人工或者自动的方式,解决这些差异,……观察DEMO:支付宝的屡败屡战当昨天支付宝的新版“圈子”裹挟着各种美女的大尺度照片霸占了社交网络的话题头条时,舆论导向就既定了,再加上“娱乐圈纪委”王思聪的一条“支付鸨”的微博,就像是彻底给这事儿定了一个“……“小绿人”就这样灭了,它不会再亮起来小雪导语:犹记得当初企鹅和360干架的时候很多人弃用企鹅转向MSN,如今,企鹅早已运用微信占领了大众,小绿人却面临消失,不注重更新不注重用户体验的产品被淘汰也算了大势了。……起点学院内训起点学院走进易立德,千锤百炼出精品2014年2016年对于很多面临转型互联网的公司来说都是痛苦的,两年来起点学院接触了近百家企业,涉及家电、汽车、金融、医疗等领域,在和这些企业的接触中,我们能深刻的感受到他们对……移动互联网内容营销“玩法”变了!原生广告“主宰”新规则这篇文章说一下原生广告对对互联网及移动互联网带来改变,上篇文章中写道【原生广告“颠覆”来袭,移动互联网营销革命爆发】在我看来,互联网营销最本质的东西就是内容,不管你是搜索营销、……蛋糕背后的大坑:互联网车险的主要模式与可行性分析要想在互联网车险这个市场有所作为,还需要创业者和从业公司更多的时间和耐心去寻求突破。一、互联网车险市场发展状况:2013年左右,随着互联网金融的极速发展,互联网车险……
壹周潮话题木村夫妇结婚20年首秀恩爱,海狸Kaia居家没忘秀滴,你的春天已余额不足。新曲回归张艺兴许久不见的艺兴带着最新原创单曲《Joker》在《我是唱作人2》的首秀舞台上回归啦!大家都看了咩呀?COCO可是刷了N多遍……评分最高恋爱番,终于等到它更新!戳上方蓝字关注,自动为你推荐一部热门好片整点电影你有128个好友已关注对于二次元少年来说,2019年绝对是各种爆款番剧横行的一年。有万众……方方有点辜负支持她的人。。作者闲时花开IDxsha369《方方日记》开始连载后,我读过一些,在之前的文章《出生世家却干了4年苦力,如今她在“封城日记”里说尽了大实话》也曾对其表示支……丰富自己,比取悦他人更有力量!提升自己必读的几个公众号,真不2020年过去三分之一了。是时候,调整你的生活节奏了。会思考的年轻人,都懂得善用新媒体获取高品质、可信赖的信息。那么,这几个顶尖知识类公号你一定不能错过!!!快来关……去年卖了10000,巨好喝!春夏必备小甜水,囤10瓶都不够喝广州最近的天气一天比一天热,惹人想喝点小酒。把酒放进冰箱凉透,就着一碟下酒菜。一个人慢慢的小酌一杯,身心和大脑都不自觉的放松下来,特别解压!喝到微微醺的感觉最……会盟创业社:今天在分享5款互联网创业项目,希望能给你一点启发无货源网店:这个项目阳光且好操作,虽然已经是网贝兼圈玩剩下的。但是依然有很多人在里面赚到不少的真金白银。不过之前的淘宝客,现在大部分的人都转向拼多多了,日入过千那真是在简……女性消费市场达10万亿:能挣会花的她们都在买什么?不久前,我们与第一财经商业数据中心(CBNData)共同发起2020女性品质生活大调查。深度洞察了当下中国女性消费群体的整体面貌,探寻新一代女性对品质生活的态度和实践。n……她逃离北京,回老家过起了山居生活,竟吸引二十多万粉丝争相围观她叫周猎猎是一个编剧十年前,她从中国戏曲学院毕业了和很多同学一样周猎猎一毕业,就怀抱着编剧梦加入了北漂的大潮拥挤的出租屋,阴冷潮湿的地下室……优质严选丨8件单品承包你整个春夏look大嘎好这里是每周日都来给你种草的优质严选最近气温反复,昨天还在初冬,今天就变成初夏,比女朋友的心情还难猜。不过再怎么变,……如何快速提升在团队中的影响力?自己解决问题是英雄,命令下属解决问题是老板,动员团队解决难题才是领袖。领导力不是当领导,领导力的核心是动员团队解决难题。领导力的短期任务是解决某个具体难题,长期任务是提升……风吹雨洗一城花谷雨读诗赏牡丹关注国学精粹与生活艺术顶级传统文化美刊谷雨诗词选《阳羡杂咏十九首茗坡》唐陆希声二月山家谷雨天,半坡芳茗露华鲜。春醒酒病兼消渴,惜取新芽旋摘煎。……解封后,湖北再次求救!人们最担心的事情还是发生了。。。从1月23日封城,到4月8日0时解封,经过76天的管控后,这个被“封印”了的省份,在熬过寒冬后,终于在春天浴火重生。大病初愈后的湖北,好像一切正都在欣欣向荣。大家都……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界