Spotify,为什么音乐软件总能猜到我口味?
1月13日 封了心投稿 Spotify也是译者最喜欢的音乐软件了,和这篇文章的作者一样,对于Sptify的喜爱大多归功于其音乐推荐系统,那简直就是一个百宝箱,你总能听到自己喜欢的歌曲。这篇文章虽然是一篇技术文,但是读起来并不费劲,希望你能通过此文了解一些推荐系统背后的秘密。
对于音乐应用软件Spotify的用户来说,每周一都会收到Spotify的每周推荐(DiscoverWeekly)包含了30首各种风格但你从未欣赏过的歌曲混杂,神奇的是每一首对你来说都是珍品。
Spotify是我最钟意的音乐应用了,尤其是它的DiscoverWeekly。让我觉得它是那么的了解我,它比任何人都要了解我的音乐品好,每一周的推荐音乐都令我十分满意。我感觉不到它的存在,却又觉得它无处不在。
如果你也是为音乐狂的话,且让我来好好向你介绍一下我最好的虚拟音乐伙伴:
我的DiscoverWeekly页面
事实证明,并不是只有我一个人沉迷于DiscoverWeekly,它有着大量的拥趸,甚至于Spotify因为这个功能大受欢迎而重新思考商业模式,投入大量的资源来推荐基于算法的音乐列表。
自从2015年Spotify推出DiscoverWeekly之后,我就开始了解它的工作机理(我同时也是Spotify的粉丝,有时候我会把自己当成该公司的产品经理来研究这个产品)。
经过了三个星期的研究发现,我很高兴能够了解到一些帷幕背后的那股“神秘力量”。
那么Spotify究竟是如何向每个用户推荐那30首音乐的呢?
先让我们来了解一下音乐推荐的历史发展历程,来看看其他音乐公司是如何推荐音乐的,之后我们再来对比一下Spotify能够从中胜出的缘由。
早在2000年,Songza就开始了音乐推荐,不过那时候是人工挑选歌曲凑成歌单推荐给用户,Songza会邀请一些音乐方面的行家来做歌单。这就不可避免地造成了歌单实际上代表了“专家们”的品味,而且也不能满足每个人音乐品好的细微差别。
和Songza一样,身为音乐推荐领域的早期玩家,Pandora也有着自己的音乐推荐系统。和Songza不同,Pandora会让用户用关键词来描述每一首歌曲,然后给这些歌曲打上相应的标签,随后会用代码简单筛选一下歌曲,让相似的音乐组成歌单推荐给用户。
在同一时期,一个来自麻省理工媒体实验室的一家音乐公司TheEchoNext诞生了。
TheEchoNext彻底地颠覆了整个音乐推荐领域,让音乐推荐向个性化迈进了一大步。TheEchoNext用算法来分析歌曲的旋律和文本,从而实现音乐识别、个性化推荐、歌单创建和音乐分析。
Last。fm则采用了一种叫做协同过滤的一种方法来挑选用户可能喜欢的音乐,并且至今都在升级使用。
以上是其他音乐软件的推荐系统的简介,那么Spotify是如何构建自己的推荐系统的,它是如何从中脱颖而出的呢?
Spotify的三种推荐模型
事实上,Spotify并不是只用了一种推荐方法,它综合了其他音乐软件使用的几种最好的推荐策略构成了它独一无二强大的推荐系统。
在DiscoverWeekly背后,Spotify使用了三种主要的推荐模型:
协同过滤(上面介绍Last。fm的时候提到过),主要工作机理是分析你的用户行为和其他人的用户行为。
自然语言处理,用来处理分析文本。
音频模型,用来处理音乐源文件音轨和声道。
Spotity推荐系统简略图
下面我们来较为详细地了解一下每一种推荐模型:
1。协同过滤
一提到协同过滤,可能更多的人想到的是Netflix。Netflix是第一家采用协同过滤技术来搭建推荐系统的公司,它们使用评分制度来了解用户,进而推荐给用户和他们喜好相似的用户喜欢的影片。
自从Netflix采用协同过滤并取得成功之后,几乎所用评分制的推荐系统都采用了这种技术。
和Netflix不同,Spotify并没有与之类似的评分制度。事实上,Spotify通过一些隐性反馈比如我们是否会把某首歌曲保存起来,或者是我们在听完一首歌曲之后是否会浏览歌手的主页。
但究竟什么是协同过滤,它是如何工作的?
下面有一张生动的图片可以回答这个疑问:
Spotify“协同过滤”
上面这两个人都有自己喜欢的歌曲:一个喜欢P,Q,R和S,另一个喜欢Q,R,S和T,协同过滤系统就会利用这些数据。
“你们两个喜欢的四首歌曲当中有三首是相同,所以你们很有可能是品好相似的用户。所以你们有很大的概率喜欢对方喜欢自己却没有听过的音乐内容。”
之后协同过滤系统就会给第一位用户推荐歌曲P,给第二位用户推荐歌曲T。
那么Spotify是如何通过这些概念做到利用百万用户的音乐偏好来给其他海量的用户推荐音乐的呢?
通过算法,利用python的函数库来实现。
上图表示的是用户歌曲矩阵,事实上,真正的用户歌曲矩阵是巨大的。每一行代表一位用户,一共有1。4亿行(如果你使用Spotify的话,那么你就是其中一行);每一列代表着Spotify数据库中的3千万歌曲。之后,python代码会处理矩阵,将其进行因式分解。
复杂的数学式
处理完之后,我们将会得到两种类型的向量:X和Y。X称为用户向量,代表了每一名用户的音乐品好;Y称为歌曲向量,描述了每一首歌曲的内容。
用户歌曲矩阵
现在我们得到了1。4亿个用户向量和3千万个歌曲向量,这些向量对于用户来说就是没有用的数字,但是对于这家公司来说,却是威力无比。
为了了解我的音乐品好,可以通过把代表我的向量和其他所有用户进行对比,进而找到和我趣味相投的人。对于代表歌曲的向量也同样适用,比较所有歌曲向量,你可以找到相似程度高的相关音乐。
协同过滤已经足够有用,但是Spotify通过引入其他方式来让推荐系统变得更好。
2。自然语言处理
Spotify的第二种主要推荐模型叫做自然语言处理,自然语言处理所应用的数据资源全部来自于互联网访问记录,网上新发表的文章,博客和其他网上的一些文本信息。
自然语言处理计算机了解人类语言的方式其本身就是一门广阔的学问。
由于文章篇幅,我不能在这里详细介绍自然语言处理背后的详细原理,但是我可以给你一个通俗的解释:Spotify会爬取网上的各种音乐资讯。
乐评人写的博客,音乐爱好者发的文章通过这种方法来了解当下人们在讨论什么样的音乐,在评论时他们使用了什么样的语言描述他们的感受,并且还会发现风格相似的音乐人和歌曲。
Spotify具体是如何运用自然语言处理的我并不知道,但是我可以向你介绍一下TheEchoNest是如何使用它的:他们把网络资讯打包成一个叫做“文化向量”(culturalvectors)或“重要关键字”(topterms)。
每一位艺术家和歌曲有着成百上千的关键词,并且每天都是变化的。每一个关键字都有自己的权重,权重越高就代表这个关键字越能描述这为艺术家或这首歌曲。
culturalvectorstopterms
之后,和协同过滤相似,自然语言处理会把这些关键字和权重处理为向量模式,然后判断音乐之间的相似性。
3。原始音频模型
首先,你可能会问:我们已经从前两种处理模型当中获取了那么多的数据,为什么还要引入第三种推荐模型?
第一,引入原始音频模型可以提高整个推荐模型的准确性。
第二,但是真正的意义之所在,和前两种模型形式不同,原始音频模型可以处理新发行的音乐。
假如,你有一位音乐唱作者朋友在Spotify发表了他的新作,但是只有50名用户听了这首歌。在这种情况下,Spotify就收集不到足够的信息用来协同过滤。
在网上也找不到任何关于这首歌曲的相关描述,自然语言处理也就涉及不到。好在的是原始音频处理能够识别新发表的作品和流行作品音轨之间的不同,这样一来,你朋友的作品将有可能和流行歌曲一起被收录到DiscoverWeekly中。
下面我们就来看看原始音频模式究竟是如何工作的。
答案是卷积神经网络,卷积神经网络也可用于面部识别技术。在Spotify的例子当中,卷积神经网络用来处理音频数据而不是像素。
下面有一张卷积神经网络模型的实例样图:
如图所示,左边四个较粗的竖条代表四个卷积层,右边三个较细的竖条代表了密集层。向卷积层中输入代表音乐模型的时间频率,这些从频谱中分离出来的时间频率将会被串联起来。
音乐模型将会通过这些卷积层,在最后一个卷积层之后,你会看到一个全局时间池层(globaltemporalpoolinglayer),它将会贯穿整个时间轴,不停计算音乐中每一刻的频率特性。之后,卷积神经网络将会“弄懂”整首音乐,包括音乐中的拍子记号、音调、风格、节奏等。
下面这幅图就是DaftPunk的《AroundtheWorld》截选30秒的片段的音乐特性:
最终,因为Spotify掌握了这些最根本的音乐特性,它才能发现音乐之间的相似性,给用户推荐和他们历史记录中相似的音乐。当然,这三种推荐模型只是整个推荐系统中的一部分,还有其他比如储存大量数据的数据库,处理庞大矩阵和音乐资讯的机器等等。
最后,我希望我写的这些能够为你提供有用的信息,并且可以满足你的好奇心。现在,我要去欣赏DiscoverWeekly推荐给我的音乐了!
投诉 评论 到小程序,薅流量去在小程序平台薅流量的方法开始大规模涌现,不少创业者收获了实实在在的一波红利。而薅来的流量能不能留住,并最终转化为小程序的日活(DAU),更是创业者需要考虑的问题。当一个新……
来“品尝”下《风味人间》的海报文案吧!真香!爱美食的孩子总在可口的美食中回味,写文案的同学总在精美的海报中沉溺。值此《风味人间》开播之际,本文特在此凉秋,备上一碗“热乎”的美食海报,以供大家享用。刚播出一集,豆瓣就……
快速发展的医美市场面前,医美分期如何应对新变化?庞大的人口基数下,国内医美市场最近几年迎来了快速发展。这其中就包括消费金融与医疗美容的跨界领域医美分期,这个行业在多年狂奔突袭以及肃清洗牌后,也面临新的变化。爱美之心,人……
网易严选开始拼团购:精品电商的发展瓶颈到了吗?近日,网易严选上线拼团服务,目的是吸引新用户。这一举动一出,在行业内立即引发热议,精品电商逐渐兴起,竞争压力不断增大,未来网易严选的发展又将驶向何方呢?在拼多多火热后,越……
Facebook剑指抖音?没那么简单Facebook正在内测一款音乐短视频应用,产品形式类似TikTok(抖音海外版);这次Facebook剑指TikTok,事件背后,不但折射出全世界范围内,年轻用户从向新的社交……
你不知道的是,小程序也在掀巨头的桌子!小程序快速海量且低成本的获客帮助他们重新快速创造新的世界,成为新的巨头。就像当年无数巨头不得不全力奔跑,以从PC迁移向移动,拿下一张移动船票一样。一个巨大的时间窗口重新悄悄开启……
微信在扰乱我们的社交规范?微信对中国人的影响可以说是生态级、进化级的影响。它改变了中国人所崇尚的社交规范。在微信上个人的言论和观点开始影响群体,中国人羞于表达到敢于表达到胡乱表达的趋势在微信上显而易见,……
4个方面聊聊:电商搜索算法技术的演进搜索推荐算法多年的发展,就是围绕着商品与人的连接以及相应的商业诉求,从最初简单的统计模型、机器学习到形成完整的离线在线与实时的深度学习与智能决策体系,让连接匹配的质量更高,连接……
Spotify,为什么音乐软件总能猜到我口味?Spotify也是译者最喜欢的音乐软件了,和这篇文章的作者一样,对于Sptify的喜爱大多归功于其音乐推荐系统,那简直就是一个百宝箱,你总能听到自己喜欢的歌曲。这篇文章虽然是一……
借用经典案例,来扒一扒会员体系一说起用户运营,水深范围大,从定义到手段,没几本书是说不完的。所以,今天就用几个经典案例,来扒一扒聊聊用户运营中的一个部分:会员体系。在过去,会员体系风靡市场,大至各个行……
双十一避坑指南:教你如何看穿电商点赞套路一年一度的双十一马上就要来了,热衷于“买买买”的小伙伴们是否已经快要抑制不住体内的洪荒之力了呢?不过千万要记得:剁手需谨慎哟!这两年的双11,比以往来得都要早,去年阿里从……
今日头条low吗?从产品价格和使用机制上更low,从来就是中国互联网大潮前进的方向。至今仍然有身边的朋友表示,从没用过头条,或者下了一次就卸了,实在用不下去,它对得起传闻中,750亿美金的……
俄外长:乌克兰方面正在按照美国要求拖延俄乌谈判当地时间3月2日,俄罗斯外长拉夫罗夫表示,乌克兰方面正在按照美国的要求拖延俄乌谈判。目前,乌克兰方面尚未回应。相关新闻:白俄罗斯总统:存在非常强大的力量希望破坏俄乌……
从斗气到金融核弹”看俄央行如何“接招”俄罗斯代表团和乌克兰代表团在白俄罗斯的戈梅利州举行了谈判。双方会后表示,已找到未来达成共识的要点。近期将举行下一轮谈判,会谈地点在白俄罗斯和波兰边境地区。乌克兰危机升级会……
战争进入第七天,这5件事很不寻常!到3月2日,乌克兰战争爆发已整整一个星期。七天里,局势急遽演变,让世界震惊,也让我们痛心。但一个不争的事实是,当今世界的很多秩序正在被彻底打破。战火仍在继续,谈判紧锣密鼓……
印度留学生被乌军暴打?印度驻乌大使馆:快撤乌俄局势一发不可收拾,多国忙于安排从乌克兰进行撤侨。不过,印度方面的撤侨事宜似乎进行得并不那么顺利。在乌克兰与波兰边境,近期滞留了大量来自非洲和南亚国家的留学生,他们很多……
元宇宙和Web3看起来很像:两者最重要的区别在哪?最近大火的Web3和元宇宙,有人认为是一回事,其实不然。目前在商业技术领域,有两个热门词儿不断刷屏。一个是Web3,一个是元宇宙。从一些报道来看,很多人认为这……
市场动向欧盟批准对白俄罗斯实施制裁18:33欧盟批准对白俄罗斯实施制裁欧盟轮值主席国法国当地时间3月2日通过社交媒体宣布,欧盟决定以支持俄罗斯对乌克兰的特别军事行动为由,对白俄罗斯实施制裁。制裁措施主要是……
国台办:谋“独”伎俩都是徒劳国台办:谋“独”伎俩都是徒劳跳得越高,摔得越惨!针对民进党当局又跳出来攻击联大第2758号决议,国台办发言人朱凤莲2日应询表示,民进党当局目的就是千方百计否定台湾是中国一……
抖音需要今日头条的流量?抖今西”三平台正在走向“融合”去年11月初,在快手刚进行组织架构调整后没多久,字节跳动CEO梁汝波发布内部邮件,宣布字节跳动进行组织架构调整,将业务划分为六大板块。其中,……
“今日乌克兰,明日台湾?俄乌大战正酣之际,美国总统拜登指派跨党派资深代表团访台,传达对台海和平安全保证。不过,拜登没敢派现任官员,派的都是上届政府的官员,这也显示拜登政府对大陆的忌惮。而更为让人关注的……
中国电商为什么越来越“散”?中国互联网企业是最幸运的。既赶上了技术转换的风口,又搭上了中国经济高速发展的便车,发展至今,已成为深入社会各个角落的毛细血管。站在流量变现鄙视链的最顶端,电商平台无……
服务员出身,杨利娟到底有多牛?餐饮界“打工女皇”!餐饮界“打工女皇”、“最牛服务员”、“身价过30亿”、“年仅43岁”这些都是贴在海底捞新上任的CEO杨利娟身上的标签。这个贫苦家庭出身、只有小学……
俄乌冲突引发蝴蝶效应:近期俄乌冲突牵动全世界的神经,俄乌两国的每一个举动都会引发资本市场巨幅波动,尤其是国际能化以及农产品市场。3月2日16:30分,国际原油价格攀升至110美元桶关口,布伦特原油价……