Netflix,为何能成为个性化推荐的王者?
10月6日 封了心投稿 从《纸牌屋》开始,Netflix越来越多地进入国人的视线中。关于它的用户推荐系统、“大数据分析”等等神话和传说也有不少,本文是我在查找了一些资料后,整理出来的Netflix的推荐思路和一些方法。太过技术的算法内容实在是hold不住,因此仅从逻辑上进行说明。一来整理自己的思路,二来尽可能学习些东西,分享出来欢迎各位讨论。
一、坐等风来
回顾历史,Netflix是一家典型的提前布局等风来的公司。
1997年8月,在DVD机仅推出几个月后,ReedHasting和MarcRandolph创立了Netflix,并在1998年3月上线了全球第一家线上DVD租赁商店。以仅30名雇员拿下了925部电影,这几乎是当时所有的DVD电影存量。
1999年他们推出了全新的按月订阅的模式,用户第一次有机会享受到没有过期罚款、没有运费、手续费等等一系列烦人的东西的服务。相比Netflix之前使用的单部电影租赁的方式,新模式对用户更加友好,于是Netflix凭借着这个模式迅速在行业里建立起了口碑,老旧的单部影片租赁模式也于2000年寿终正寝。
随后的2001年,由于DVD机售价越来越低,成为当年圣诞节成为最受欢迎的礼物之一,Netflix也在2002年坐上了这趟快车,用户量得到了巨幅增长。这是Netflix创立四年迎来的第一个风口,现在看来不得不感叹其眼光之独到。
2005年,他们发现尽管没有高清内容,但Youtube的流媒体服务(可简单理解为在线播放)仍然十分受欢迎,于是放弃了自己的硬件产品NetflixBox转入其中,于2007年上线了流媒体服务。而随着日后网络带宽的提升和费用的降低,占据了先发优势的Netflix又一次收获了巨大增长。
2006年,一项名为NetflixPrize的算法大赛横空出世,Netflix拿出100万美元奖金让开发者们为他们的优化电影推荐算法。截至2012年第四季度,Netflix已在全球拥有2940万订阅用户。
2012年,Netflix开始尝试自制内容,并于2013年推出《纸牌屋》,高超的内容质量和一次放出整季内容的发行方式,让它瞬间风靡全球。
今年4月,Netflix的全球订阅用户达到1。25亿,服务超过190个国家和地区。截至今日,它的市值超越迪士尼成为全球互联网企业排名第六的公司。
回顾Netflix这21年的历史,似乎每一次转型的时机和方向都是如此准确,以至于有些“自然而然”地达成今天的高度。然而如果我们透过现象看本质,从万变中找不变的话,有一件事一定会被提到个性化推荐。甚至可以说,“个性化推荐”就像Netflix自制的鼓风机,第三个风口是他们自己造出来的。
没有明确的资料说明Netflix在做邮寄租赁DVD的时候有没有推荐机制。但他们确实从最开始的时候,就十分重视数据,并开始收集用户数据了:他们会在邮寄的信封里附上问卷让用户给电影打分。这些打分数据是之后Netflix推荐系统的重要基石之一。
“个性化推荐”一直都是Netflix的杀手锏,数据积累和算法研发的提前让它在这方面几乎是不可被超越的,时至今日用户在Netflix上观看的80内容都是由推荐而来的。
二、解构好莱坞
Netflix的推荐系统之所以能够如此高效地达成目标,我认为最大的理由是他们教会了“让机器懂电影”。在一篇名叫的文章中(由AlexisC。Madrigal于2014年发表)。作者从Netflix的推荐分类出发,解说了他们是如何解构好莱坞进而去给用户做推荐系统的。
在Netflix的首页中你会看到一行一行的电影,每一行是一个分类,官方叫它altgenre,或者说“微分类”,每个分类中是一系列的电影。这些分类和电影都是为你量身推荐的。
在这些分类中有一些非常精准、十分有意思的标题:情感充沛的反体制纪录片(EmotionalFighttheSystemDocumentaries)、基于事实的皇室掠影(PeriodPiecesAboutRoyaltyBasedonRealLife)、80年代的外国邪恶电影(ForeignSatanicStoriesfromthe1980s)。
那么这些类型是怎么来的呢,作者Alexis做了一件很绝的事情:
他把Netflix的所有分类全爬了下来,共有76897个分类之多。并且将这些分类的用词和语法做了深入分析,还自己开发了一个“类型生成器”,生成出了和Netflix类似的结果。他甚至给出了公式:地区形容词类型故事基础拍摄地时代关于(什么的内容)适合年龄段(RegionAdjectivesNounGenreBasedOnSetInFromtheAboutForAgeXtoY)。
但看到这里,我们只是看到了Netflix解构好莱坞的结果,那么这一切是从哪里开始的呢?
2006年,Netflix产品副总裁ToddYellin带领一票工程师用数月时间写了一份长达24页的名为《Netflix量子论》(NetflixQuantumTheory)的文档。专门讲述如何用“微标签”(microtag)拆解电影。
这份文档的目的是作为训练手册,让不同的人对微标签有同样的理解,以保证能够系统性地、标准统一地解构上千部电影。如今这份手册已经扩展到了36页。
这份36页的训练手册讲述了如何给一部影片的性暗示内容、血腥程度、浪漫等级、甚至情节总结等元素评级。文档还解释了如何给影片结局打标签、给主要演员的“社会接受度”打标签、给每部影片的浪漫程度打标签,更重要的是,每个标签都有从1到5的评级。
以《超胆侠》电影为例,标签会包括“四个主要角色”,至于其中MattMurdock这个角色,会有演员名、角色名、他很“英雄”(heroic)、是个律师等等。
Netflix就是用这样的方式,解构了几乎所有的电影,用精细、准确的微标签和评级教会推荐系统去认识电影、解读电影。
更令人称道的是,给Netflix打标签真的是一份工作。Netflix组建了一只团队,付钱让他们看电影同时给这些电影打上标签。有好事的媒体采访到了一位“标签员”(tagger),让他讲述给Netflix打标签是一种什么样的体验,十分有意思。
三、解构用户
2012年前后,Netflix的推荐系统经历了一次重大的策略变化,官方技术博客以名为的文章(分为1、2两部分)阐述了这种变化的前因后果:
在邮寄租赁DVD的时代,Netflix能够获得用户的评分,但是用户观看电影的过程对平台是隐形的。但是随着流媒体业务的开展,Netflix终于有机会看到用户的更多方面。于是他们认识到:
“EverythingisaRecommendation。”一切都是推荐。
由这一想法催生出的,是更加细致、深入的用户推荐。
Netflix的官方文档中把自己称为“幸运”,因为他们有大量的相关数据和能够把这些数据应用到产品中的人才。
以下是Netflix用来优化推荐系统的数据源:
数以百万计的用户评分数据(tagins),而且每天还在以百万量级增长;
作为算法基准线的项目热度(itempopularity);
包含时长、时间、设备类型的数百万播放数据(streamplays);
用户每天会想自己的列表(queue)中添加数百万项目;
每个项目下丰富的元数据(metadata);
每个项目的展示位置(presentation)和效果;
用户的社交数据(social);
百万级的用户搜索数据(searchterms);
来自外部(externaldata)的票房或影评数据;
当然,实际上用到的数据还远不止这些。
除了和影片相关的数据外,用户数据是Netflix推荐系统的另一重要基石。
转型流媒体后,用户的所有行为全部在平台内完成,这给了Netflix观察用户的绝佳环境,他们不仅仅知道用户看过什么,甚至知道他们是怎么看的:什么时候看的,看了多长时间,在哪里暂停,在哪里反复,在哪里关闭等等,这些行为数据无一不是用户喜好的体现。
通过分析这些行为数据,和解构好莱坞得来的影片数据进行匹配,让Netflix的推荐精度越发准确。
四、推荐新姿势:个性化海报推荐
去年Netflix推出了一项新的推荐功能:个性化海报推荐,具体来说就是“不同的用户看到的同一个电影的推荐海报是不一样的”。如果你喜欢动作戏,则可能你看到的海报是片中的打斗场面,如果你喜欢片中某个主演,那么你看到的是以他为主角的海报。
这一功能的源头同样是对电影内容和用户喜好的解读。认为地去创造更多的“一见钟情”,进一步提高了推荐系统的效率。
五、Netflix的自省
1。从官方文档透露中的信息来看,长久以来Netflix虽然对算法十分依赖,但也意识到它的不足,这种不足可能是所有的算法都躲不开的“越推荐越相似”。因此Netflix的算法中十分关注“不同”(adversity)。新奇、多样性、新鲜度,都是推荐中考虑的因素。
尽力帮用户去“发现”兴趣,这也是Netflix的推荐目标之一。
2。关于前边提到的个性化海报推荐,官方特别地说明了对它的担忧:不希望它变成“骗”用户看电影的功能,也就是说要尽力把这个功能控制在一个度里,说白了就是不“标题党”,为了让用户去看某个电影而强行用海报勾引他。
六、后记
就在我写这篇文章的前几天,Netflix又做出了两个重要改变:1。把五星评价系统改为“喜欢不喜欢”的评价系统;2。取消了影片下的评论功能。
关于这两个改变网上有些解读,但我还没想清楚,就不追这个热点了。
关于Netflix可说的还有很多,最近他们还推出了另一个官方博客:NetflixResearch,加上原有的theNetflixTechBlog,有兴趣的各位可以关注一下。
参考资料:
:https:medium。comnetflixtechblognetflixrecommendationsbeyondthe5starspart155838468f429
:https:medium。comnetflixtechblognetflixrecommendationsbeyondthe5starspart2d9b96aa399f5
HowNetflixReverseEngineeredH:https:www。theatlantic。comtechnologyarchive201401hownetflixreverseengineeredhollywood282679
:https:www。washingtonpost。comnewsartsandentertainmentwp20150611netflixtaggingyesitsarealjob?utmterm。51f470d15c18
投诉 评论
《网络信息内容生态治理规定》来了!发布这些内容将会被封号!国家互联网信息办公室发布的《网络信息内容生态治理规定》(以下简称《规定》)自2020年3月1日起施行。以下为规定内容:第一章总则第一条为了营造良好网络生……
疫情之下,互联网教育跨界激战当中小学校与高等院校开学之日来临,但疫情仍未退散,互联网教育成了这些学校进行远程教学的不二之选,各种互联网教育产品潮涌而来,开启了激烈的用户争夺战。前不久,钉钉成为教育部……
视频号多余吗?微信一直秉承着它的初心,就是做一个工具,所以视频号想要完善的就是它的工具属性。再小的个体,也有自己的品牌。微信价值观昨天收到了微信视频号内测的邀请,非常开心,……
如何用互联网思维解决“流浪动物”问题?假如这是一道面试题,你会怎么回答呢?是不假思索给出一个看似无误的答案吗?还是仔细思考什么是“互联网思维”以及什么样的回答能体现“互联网思维”呢?如果你是后者,恭喜你离正确答案又……
深度盘点:在线教育3大主流变现模式,帮你把握创业红利就变现模式而言,尤其是面向C端,在线教育有三大主流模式,即一对一模式、训练营体系和直播课体系。本文按照作者的分类标准,详细说明各种变现模式的优劣势与适用赛道。01前言……
抖音发布通告:这3类商业广告行为将被禁止!3月29日,抖音安全中心发布通告,禁止发布和传播不符合抖音用户协议的商业广告行为,如有广告营销需求,可认证企业号和电商号获得更多权益。据悉,官方禁止部分商……
三百六十行,行行出网红?360行行行有网红,普通人想借网络成为网红,平台要借普罗大众扩大影响力,本都无可厚非。有些梦想,终究比没有强。只不过有一句话说得对:认真,你就输了。“您好,可以麻烦您帮我……
后网红时代,直播电商该何去何从?后网红带货时代,主播和MCN机构真的还有机会?头部主播占据大量流量和资源,市场格局渐明,后网红带货时代,主播们如何突围?虽然“神”如李佳琦也有翻车事件,但这些失误丝……
微信正在进行灰度测试订阅号付费能力,你有被到吗?微信公众号步入内容付费阶段,你的公众号有资格成为第一批吃螃蟹的吗?注册超过3个月、近3个月内无严重违规记录、已发表至少3篇原创文章的订阅号可以开通付费功能。目前付费功能正……
我在四线城市喝奶茶,发现奶茶店水挺深。。年轻人的“快乐肥宅水”生意,真的那么好做吗?最近,有个朋友要开一间奶茶铺子,他看重小鹿茶。给不给加盟不清楚,但我跟他两人,喝遍了这个小城能喝的大部分奶茶,找了一波又……
内容传播十条黄金定律:为何一篇文章能引爆朋友圈?2016年2017年注定会是一个载入媒体发展史册的年份,“内容创业者”和内容付费,成为新的焦点。许多内容创业者在这一年获得资本青睐,也有许多内容创业者慢慢摸索出了新的内容……
2020,线上演出元年?线上演出,究竟是昙花一现还是真风口?疫情防控当头,以音乐、现场为主的线下演出遭遇沉重打击,转而向线上寻求突破。一时间,云蹦迪横空出世。有人在深夜里给自己倒上一杯酒,……