一种有效缓解数据稀疏问题的协同过滤推荐算法
〔摘要〕传统协同过滤推荐算法依据共同评分项目计算用户相似度,进而产生推荐项目。然而,随着用户和商品数量的不断增加,用户共同评分的项目会越来越少,甚至没有,因此传统协同过滤推荐算法对用户之间相似度的衡量将会越来越不准确,从而影响推荐系统的性能。针对这一问题,本文对用户相似度的计算方法进行了改进,提出直接相似度和间接相似度的概念,同时引入关键人物权重,进一步提高推荐系统的准确性。
〔关键词〕电子商务;推荐系统;协同过滤;直接相似度;间接相似度;关键人物
DOI:10。3969j。issn。10080821。2016。03。013
〔中图分类号〕TP301〔文献标识码〕A〔文章编号〕10080821(2016)03007604
〔Abstract〕IntraditionalcollaborativefilteringrecommendationAlgorithm,similarityofusersisoftencalculatedbasedoncommonratings,andthentherecommendeditemsareproduced。However,withtheincreasingnumberofusersandproducts,thecommonrateditemswillbelessandless,andevenno。Sothemeasureofthesimilarityofuserswillbemoreandmoreinaccurate,andthusitwillaffecttheperformanceoftherecommendationsystem。Inordertosolvethisproblem,themethodofcalculatingthesimilarityofusersisimproved,andtheconceptsofdirectsimilarityandindirectsimilarityareputforward。Atthesametime,inordertofurtherimprovetheaccuracyoftherecommendationsystem,thekeyfigureisintroducedintothesystem。
〔Keywords〕ecommerce;recommendingsystem;collaborativefiltering;directsimilarity;indirectsimilarity;keyfigures
随着电子商务的迅速发展,电子商务网站平台的商品越来越多,同时相当多的用户面临着海量的商品往往不知如何下手,必须花费大量的时间和精力来寻找所需的信息,因此智能推荐系统在电子商务网站中尤为重要。协同过滤推荐是目前最好的一种推荐技术〔1〕,其根据用户的评分数据进行项目推荐。传统的协同过滤推荐技术虽然一段时间内发挥了很大的作用,然而随着电子商务网站规模的不断扩大,协同过滤推荐技术面临着众所周知的严重问题〔2〕:(1)稀疏性问题:用户项目评价矩阵非常稀疏;(2)冷启动问题:一个新的商品出现时,用户对其评分会特别少,甚至没有,那么这个商品就不容易被推荐出去。另外,一个新用户加入时,由于没有对任何项目进行过评价,系统就无法对其进行推荐。(3)可扩展性问题:面对用户和商品数量的日益增多,系统的性能会越来越低。
为了解决数据稀疏而导致的推荐结果不准确问题,许多学者提出了各自不同的方法。目前常用的方法有以下几种:(1)数据填充:在计算用户相似性之前,首先对原始的用户项目评分矩阵进行填充,从而降低其稀疏性,提高推荐准确度。郝立燕等〔3〕根据原始矩阵中评分数据的特征,采用SOFTIMPUTE算法对评分矩阵进行填充,然后利用填充后的矩阵计算用户相似性,进而做出推荐预测。张玉芳等〔4〕采用分两步对原始评分矩阵进行填充的方法。首先在利用传统协同过滤推荐算法寻找目标用户邻居集时,只考虑相似度比较高的用户作为目标用户邻居,进而对评分矩阵进行第一次填充,然后将第一步填充后的矩阵作为新的用户项目矩阵,在此基础上进行第二次填充,此方法可以很好的解决数据稀疏问题。黄永锋等〔5〕在原始评分矩阵基础上,首先根据用户访问过的项目的特征及访问频率对用户访问过但没有给出评价的项目进行填充,从而降低原始评分矩阵的稀疏度,提高推荐准确性。(2)聚类技术:在计算用户相似性之前,首先对用户或项目进行聚类,从而降低预测计算量,提高推荐质量。黄国言等〔6〕及崔春生等〔7〕提出对用户进行聚类的方法,前者根据用户对项目评分的相似性对用户进行聚类,后者根据用户的兴趣度对用户进行聚类,进而分别在各聚类内部计算用户相似性,产生推荐项目。吴潮等〔8〕提出对用户和项目两个方面分别聚类并互相结合的方法,在已有聚类中寻找用户最近邻居集,实现对用户的推荐。(3)矩阵分解:对原始评分矩阵进行分解,从而降低评分矩阵维数,提高推荐精确度。李改等〔9〕分析了传统的矩阵分解模型(SVD)的弊端,并对其进行了改进,提出了带正则化的基于迭代最小二乘法的矩阵分解方法,此方法提高了传统推荐算法的抗稀疏性。杨阳等〔10〕提出增量奇异值矩阵分解的方法,对评分矩阵进行梯度分解,从而有效的解决矩阵稀疏的问题。
以上几种方法均在一定程度上缓解了评分矩阵的稀疏性问题,并取得了一定的成果,但在计算用户形似度进而寻找最近邻居集时,仍局限于用户共同评分项目,而大多数用户共同评分项目极少,此时用户相似度的计算只受几个项目评分的影响,计算结果很容易出现偏差。尤其当用户兴趣爱好一致但不存在共同评分项目时,系统则无法计算其相似性。针对这一问题,本文对传统协同过滤推荐技术中计算用户相似度及产生推荐项目的方法进行改进,使用户相似度的计算不再仅仅依据用户共同评分项目,同时兼顾用户未评分项目,并引入关键人物权重,进而进一步提高推荐质量。1传统协同过滤推荐算法
协同过滤推荐算法的主要思想是,利用现有用户群过去的评价数据来预测当前用户的购买意向〔3〕。这种方法的潜在假设是,如果某些用户对一些项目的评价相似,那么他们对其他项目的评分也是相似的。通过相似性计算发现和当前用户相似的N个近邻,根据兴趣相似的用户群的评价,计算产生对某些项目的预测评分,最后根据预测值将排名最前的k个项目推荐给当前用户。算法一般分为3步:建立用户物品评分矩阵,计算用户相似度并寻找近邻集,产生推荐项目〔11〕。
11建立用户物品评分矩阵
推荐系统经常利用用户对已购买物品的评分作为推荐系统的数据源,一般定义用户集U{U1,U2,,Um},物品集定义为I{I1,I2,,In},通常用户物品评分矩阵用矩阵Rmn来表示,其中的每一项Rij表示第i个顾客对第j个商品项的评价值〔12〕,通过获得的评价值来反映顾客的购买兴趣。通常以15表示用户对物品的偏好程度,没有评分的项目用0代替。
12计算用户相似度并寻找近邻集
在这一步先计算用户之间的相似度,然后根据相似度寻找到用户的最近邻居集。在协同过滤推荐系统中,确定相似用户集,一般采用的方法是Pearson相关系数〔3〕。给定评分矩阵R,用户a和用户b的相似度sim(a,b)可以用公式(1)来表示。
由以上实验结果可以看出,本文所改进的推荐算法,对推荐结果有明显的改善。随着目标用户最近邻居数目的增加,虽然两种推荐算法的MAE值都呈下降趋势,但当邻居数较多时,本文推荐算法的优势越来越明显,推荐结果更加准确。由此可见,本文所提出的协同过滤推荐算法可以增强推荐系统的抗稀疏性,提高推荐系统的推荐质量。
4结论
随着电子商务网站的迅速发展壮大,智能推荐系统在电子商务网站中发挥着越来越重要的作用,而推荐算法决定了推荐系统的性能。计算用户相似度是协同过滤推荐算法中最为关键的一步,本文在计算用户相似度时充分考虑直接相似度、间接相似度以及关键人物权重三个方面因素,实验结果证明,本文所改进的计算用户相似度的方法比传统的计算方法更合理更准确。尤其对于评分项目极少的用户,可以根据间接相似度寻找其近邻集,进而产生推荐项目。因此本推荐算法不仅可以很好的解决评分矩阵数据稀疏问题,同时还可以在一定程度上缓解系统冷启动问题。
参考文献
〔1〕许海玲,吴潇,李晓东,等。互联网推荐系统比较研究〔J〕。软件学报,2009,20(2):350362。
〔2〕夏建勋,吴非,谢长生。应用数据填充缓解稀疏问题实现个性化推荐〔J〕。计算机工程与科学,2013,35(5):1519。
〔3〕郝立燕,王靖。基于填充和相似性信任因子的协同过滤推荐算法〔J〕。计算机应用,2013,33(3):834837。
〔4〕张玉芳,代金龙,熊忠阳。分步填充缓解数据稀疏性的协同过滤算法〔J〕。计算机应用研究,2013,30(9):26022605。
〔5〕黄永锋,覃罗春。一种有效缓解协同过滤推荐评价数据稀疏问题的算法〔J〕。东华大学学报:自然科学版,2013,39(1):8387。
〔6〕黄国言,李有超,高建培,等。基于项目属性的用户聚类协同过滤推荐算法〔J〕。计算机工程与设计,2010,31(5):10381041。
〔7〕崔春生,吴祈宗,王莹。用于推荐系统聚类分析的用户兴趣度研究〔J〕。计算机工程与应用,2011,47(7):226228。
〔8〕吴潮,王永吉,王哲,等。两阶段联合聚类协同过滤算法〔J〕。软件学报,2010,21(5):10421054。
〔9〕李改,李磊。基于矩阵分解的协同过滤算法〔J〕。计算机工程与应用,2011,47(30):47。
〔10〕杨阳,向阳,熊磊。基于矩阵分解与用户近邻模型的协同过滤推荐算法〔J〕。计算机应用,2012,32(2):395398。
〔11〕曾庆辉,邱玉辉。一种基于协作过滤的电子图书推荐系统〔J〕。计算机科学,2005,32(6):147150。
〔12〕刘东辉,彭德巍,张晖。一种基于时间加权和用户特征的协同过滤算法〔J〕。武汉理工大学学报,2012,34(5):144148。
〔13〕刘庆鹏,陈明锐。优化稀疏数据集提高协同过滤推荐系统质量的方法〔J〕。计算机应用,2012,32(4):10821085。
〔14〕郭均鹏,王启鹏,宁静,等。基于符号数据与非负矩阵分解法的混合推荐算法〔J〕。系统管理学报,2015,24(3):372378。
以音乐课堂教学为载体ampnbsp培养学生的创新能力毕业论文摘要创新能力不仅是1个民族1个社会富有生机活力的条件,也是1个民族1个社会文明发展水准的标志。音乐在人的发展和个性特征形成方面所表现出来的最大优势就是培养人的创新精神。成功
浅谈小学趣味数学论文一趣味数学课堂俗话说的好,良好的开端是成功的一半。虽然一堂课的开头只有短短几分钟,但是它却是一堂课成败的关键,因此,我们必须根据学生的实际情况以及本堂课要教授的内容,精心设计每一堂
让学生在感动中学习数学论文摘要所有智力方面的工作都依赖于兴趣。数学知识由于它的抽象枯燥,缺乏应有的情绪色彩,容易使学生在学习过程中失去灵气和活力。作为数学教师,只有点燃学生心灵的火种,激发学生自己的动力,才
怎样教小孩子小学数学论文在新课程的标准下,学生需要在自主探究中体验再创造,在实践操作中体验做数学,在合作交流中体验说数学,在联系生活中体验用数学。学生体验学习,是用心去感悟的过程,在体验中思考创造,有利于
小学六年级数学论文写作(范文5篇)1王颖。如何做好六年级数学复习工作J。成才之路,2008(14)3637。2张兴磊,白利。浅谈小学升初中数学总复习方法J。中国校外教育,2014(14)2325。3史伟。温故而知新
DEM的建立及其在林业上的应用三維地理信息的产生和发展,是GIS技术及其应用发展到一定水平的必然要求,它不仅局限于利用计算机技术手段对地理信息进行可视化表达及其空间查询,而且满足了自动全面显示地理信息的要求1。
完全学分制下班级管理工作思考论文摘要完全学分制作为高校一种全新的教学管理制度,对我国人才的培养具有重大意义,同时也对高校辅导员的班级管理工作提出了新的要求。该研究以辅导员能力为切入点,探究完全学分制下,高校辅导员
林业病虫害的综合防控摘要林业的发展在我国的国民经济发展中占有重要的地位,林业事业的顺利进行必须要做好各个环节的工作,其中林业病虫害的防治更是重中之重,林业病虫害被称为不见烟的森林火灾,可见其危害性是十
财政支持乡村振兴战略思考及路径摘要现阶段乡村振兴战略属于国家的重要战略,可以显示出乡村在国家现代化建设时期的重要地位,能够有效地应对三农问题,能够促进全面建成小康社会以及社会主义现代化强化,具备较强的现实意义。
经济发展过程中的财政学改革思考摘要财政学是一门研究政府财政分配活动的学科,具有较强的应用性。作为各高校经管专业的必修课程,财政学的教学尤为重要。本文介绍了财政学的课程体系与特点,重点阐述了财政学教学存在的问题,
从新音乐课程标准谈以审美为核心的音乐教学改革毕业论文摘要建国以来,我国的中小学音乐教育在逐步完善的发展过程中取得了很大的成就,但是随着当前新科技的高速发展和国家综合能力竞争的日益激烈,以前旧的教育模式和方法已经不再适应社会发
日语委婉表达中社会文化的体现摘要作为日语教学者只有掌握了日语和社会文化之间的关系,才能达到日语教学的真正目的。本文简要介绍了日语中一种比较典型的表达方式委婉表达中是如何体现社会文化的。关键词委婉表达集团注意以
中西方文化中非言语交际的差异中西方文化中非言语交际的差异人类的交际体系在结构上可分为言语交际(verbalcommunication)和非言语交际(nonverbalcommunication)。根据一项调查
从电影推手中窥探中西方文化身份的隔膜从电影推手中窥探中西方文化身份的隔膜一前言经济全球化已经成为全球经济发展的趋势,各国之间在全球化的过程中文化交流也越来越频繁,但是文化之间都会存在一定的差异,不同个民族不同种族之间
浅析中西方文化之间的差异表现及原因浅析中西方文化之间的差异表现及原因一文化的现代含义ldquo文化rdquo一词,对它的定义有好几十种,这说明文化这个概念的复杂性。要对其内涵进行解释,存在着一定的难度。从文献的记载
关于对明清外销瓷西方文化题材纹饰的分析关于对明清外销瓷西方文化题材纹饰的分析一西方宗教典故和神话故事神话故事也是西方艺术家们创作的灵感之一。由于希腊及古罗马神话的源远流长,此类题材在欧洲一般社交场合很受欢迎。1700至
圣彼得堡,红色芭蕾及其他很幸运的是,看博物院时感觉历史被生生斩断的遗憾,却在芭蕾上得到了弥补。我们去赫赫有名的马林斯基剧院买票,被告知票已售罄。后来无意中发现了普希金剧院,进去一问,说是有票,演的是红色吉
诗与真关于卢梭自传作品的一种解析一关于那些自传性作品中,卢梭首先而且格外强调的是它的真实性。在这方面他实在是说得太多,这里只消引忏悔录题记的开头和全书结束时的一节,想必便足以代表这是世上绝无仅有也许永远不会再有的
关于西方思想史研究的几点思考注重文本本身是一方面,如何阅读文本则更为重要。作为思想史研究来说,它与其它学科最大的差异就在于要有历史的视野,即要将文本放在一定的语境下来解读。以往的思想史研究一个非常大的缺点就是
北美印第安文化的悲欢与启示纵观美国的历史,总回避不了那浓厚的浸透着印第安人血与泪的阴影,人们难以忘记,在过去的漫漫岁月中,白人曾经怎样对印地安人疯狂地进行杀戮驱逐隔离歧视,并掠夺和强占其土地白人传染的天花等
西方新文化史的兴起与走向摘要新文化史是20世纪七八十年代以来当代西方史学理论和历史编纂中一个最主要的发展趋势,它取代了经济一社会史而成为历史研究的主流。新文化史在形成过程中,主要吸收了三个方面的理论和方法
论西方社会学的元研究及其元理论化趋势提要20世纪80年代以来,西方社会学的元研究及其元理论化趋势的高涨,既受社会学理论和社会学元理论内部因素的影响,也受社会学学科之外因素的影响。但作为社会学发展中自我反省意识的必然产