童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

以头条为例:谈谈推荐策略

1月13日 不回头投稿
  关于机器在用户画像和内容画像精准构建出来之后,如何做推荐呢?本文以今日头条为例,跟大家谈谈推荐策略。
  关于推荐
  首先,为了方便读者更好的理解本文,笔者将以今日头条(建议在手机上下好“今日头条”APP,且最好注册一个头条号并登陆到后台)这款产品为例输出一些内容推荐(分发)相关的“干货”。
  回到标题,何为推荐?
  简言之:“物以类聚,人以群分”。
  那何为物,何为人呢?
  答:物为内容(文章图文视频等),人为用户(刷今日头条的用户)。
  那么机器怎么知道内容和人属于什么类别(断物识人)呢?
  再答:“内容画像”和“用户画像”的构建,而推荐的过程其实就是完成用户和内容的匹配。
  那么什么是“内容画像”和“用户画像”呢?机器是如何对两者进行精准构建和匹配呢?
  内容画像
  内容画像,简单来说就是内容的特点。如果具象化内容,笔者更倾向于假设是一个内容漏斗(类似于倒三角形用户漏斗,不过所示关系不一定为层级关系,见图1)。第一层通常表示内容的一个垂直领域(大类别)而后面几层可以大致表示为标签关键词主题词等小类别。
  (图2:百度图片,仅图示忽略文字)
  考虑到内容漏斗有很多层,为了便于理解,笔者简单说一下用户可以直观看到的几层。最显眼的可能就是第一层了,在头条(指今日头条)内部通常指的就是垂类(垂直领域),如:科技、娱乐、体育等。
  举个栗子:笔者昨天发布的一篇软广,被机器识别成了“科技”领域的文章。那这个内容第一层就是科技,通常为机器标注(涉及NLP技术:文本分类、命名实体识别等)、人工手打(传说中“打tag”的一种主要形式),或PUGC创作者(统称:头条号)在发布内容时进行领域选择,不过,现在发布内容已不需要进行选择。
  显然,光知道内容的大类并不能给用户精准的推荐感兴趣的内容。这里再讲一层,其实也是一种打tag的形式(涉及NLP技术:文本主题关键词抽取),只是平台根据用户的喜好对内容做更进一步的更细化了。还是上面举例的这篇文章,对应的一些细分tag就有vivo、手机、科技等。
  当然,这个内容漏斗远不及这两层,细分其实有很多种,比如接着上文举例的文章来说,漏斗可能是这样的:科技手机Avivo旗舰机vivoNEXvivoNEX双屏版。而细分的惊喜,内容画像也就越清晰,推荐才越精准,当然,技术难度也是同样提高的。
  因此,像头条比较强悍的竞品之一,一点资讯号称365万个个性化订阅频道,可想后面支撑的一个推荐算法团队是有多强。
  当然,除了内容的特点之外,内容画像还包含内容的质量、热度、原创度、所发布用户的权重等。而这个权重指的就是头条对头条号所发布文章的推荐权重(更多的是内容冷启动推荐数量,以及后续推荐的加成幅度)。
  说到推荐权重,就不得不提一下之前平台为了让头条号作者们过新手评原创有一个量化的指标,即头条号指数(如图6所示),而这个头条号指数其实可以理解为平台对于头条号的一个打分,决定了头条号所发布内容的推荐权重。而头条号指数的评定标准有5大方面(如图7):原创度、垂直度、关注度、健康度、传播度。不过,现在头条号Web端后台已经看不到了,不过手机端还可以看到。
  (图7:2017年6月26日笔者头条号后台)
  用户画像
  什么是用户画像呢?简而言之就是你(显式隐式)的基本特征(比如:性别、学历、年龄、常驻位置等)和兴趣爱好(篮球迷、数码控、动漫迷等)所构建出来的一个“属性图”(技术通常称为“知识图谱”)。
  举个栗子:我们通常被机器标注成一个数据组合(如图9):科技20、体育10、娱乐30、养生5。。
  (图9:用户画像实例,来源《内容算法》)
  那么问题来了,机器如何知道一个用户的画像呢?
  首先,用户分为新用户和老用户两类。针对前者就涉及到了用户画像构建的一个常见且难点(策略产品面试比问)(用户)冷启动,通常面试官会问你,如何做用户冷启动?
  那么笔者告诉大家一个常见的答案:
  首先,新用户打开APP会让选择喜欢的领域;
  其二,绝对的冷启动并不存在,用户在其他APP的行为其实也会被监督到,比如:你在淘宝看球鞋,打开头条刷新闻就能刷到你刚看的那款球鞋的广告,也就是说在你打开APP那一刻,你的一个比较明显的属性体育篮球已经被获取了。
  其三,机器通常会给你推荐当前热点内容比如科技领域iPhone发布新品,娱乐领域汪峰上头条等,通过你在这些内容下的用户行为(点击,点赞,转发,跳出,停留时长等),机器会对屏幕前面的你有一个“初印象”。
  通过你在不同领域内容的用户行为,判断你对内容的兴趣度,从而构建你的一个初步用户画像(这是当前常用的一种用户冷启动方式)。比如:打开头条,给你冷启动推送了12条内容(3条NBA3条娱乐3条科技3条美食),然后你点击了3条体育,2条数码,1条娱乐。。。
  那么,最开始的用户画像(V1。0)可能为体育30,数码领域20,娱乐领域10,其他领域20,目测是一名男性,爱好运动,科技宅等。然后,还发现里面2条体育内容都是和科比有关的,那么你大概率是个男性科密数码控。
  后来,你变成了老用户,随着你使用头条的次数越多,你产生的用户行为数据越多,背后的模型就会被训练的越“聪明”。随着你“刷”的越多,你的用户画像也会随之发生不断的变化,变得越来越细化,越精准。
  如何推荐
  最后,关于机器在用户画像和内容画像精准构建出来之后,如何做推荐呢?
  事实上,这其实就是一个匹配(match)的操作。当然,简单说匹配笔者认为还是不够恰当,因为除了这2个用户画像和内容画像(相关性特征)之外,机器在训练模型时还会考虑热度特征(全局热度、分类热度等)、协同特征(相似用户、兴趣分类用户等)、环境特征(时间、地理位置等),详见图10。
  (图10:来源文章“今日头条算法原理(全)”)
  那么,机器学习到了这些如图6的这些特征之后,推荐模型就会被不断的更新(准确的说是模型的参数在发生更新,如:神经网络在做后向传播时会在每一次迭代时发生相关权重参数的变化),最后机器呈现给不同用户的内容也会因为这些特征的不同而不一样,甚至同类型的用户,也就是所谓的“千人千面”(最早用在电商平台)。而作为内容“消费”平台,这里主要指的是内容分发。
  那么如何让内容分发变得更加精准呢?
  这里不得不提这两个名词,即:召回和排序。这里难讲,简言之,召回比较依赖于内容和用户的标签匹配度,而排序则涉及到一个用户兴趣倾向性,或者是一个更加细粒度的匹配问题上,因为要保证合适的内容放在合适的位置。
  比如:笔者是一个数码控,那如果推送12篇内容给我,我更倾向于第一篇是关于数码的而不是娱乐的。而排序也往往能够反映出推荐策略的优秀程度。因为只有让用户最快的触达你感兴趣的内容才会产生更多的留存,才会激活,才能进行转化(才能更便于平台推送广告等商业化操作)。
  当然,AI时代,决定模型表现,或者说我们这里的推荐系统(也可以理解为是一种机器学习模型)的表现,除了算法本身,还有算力(指的是计算机运算能力,这方面头条和竞品无法拉开差距,因为这是钱能够解决的问题),还有另外一个关键项就是数据(高质量的数据)。
  关于数据的重要性,让我想到了带我做科研的一位博士师兄(目前在Amazon做推荐)说过的一句话:“Garbagein,Garbageout”,而这句话更适用于AI产品落地上。简言之,数据对于推荐结果(或者说内容分发)的好坏起着十分根本性的作用。
  说到这,请大家跟着笔者思考一个问题,头条DAU(日活)据说2。4亿,而每个用户日均使用时长70min,假设用户阅读一篇内容(文章视频)的平均时间是2min,那么用户阅读内容数据得有2。4亿70284亿(条)!。
  所以,回到最开始的问题,为啥说头条推荐如此牛逼呢?
  那是因为推荐算法的3个核心壁垒,头条都属于业内前列(甚至可以称得上是国内NO。1)。
  OneMoreThing
  以上,皆为笔者粗鄙之见,所讲内容只是今日头条推荐算法里的极少部分,背后的Model和Data十分庞大与强大,纰漏难免,还望谅解并给予批评指正。
  另外,笔者认为机器(计算机)再厉害,也是人类所“赋予”的,机器越来越聪明的背后反映的应该是人(如:推荐算法团队MDataprocessing)在不断的进化变强!
  参考:
  闫泽华《内容算法》
  今日头条曹欢欢博士今日头条算法原理(全):http:h5ip。cnmgq9
  DietmarJannach等著,蒋凡译《推荐系统〔Recommendersystems:Anintroduction〕》
  项亮《推荐系统实践》
投诉 评论

2019不能错过的这6个趋势2018年已经过去,接下来的2019年,都会有怎样的趋势,我们需要如何应对?看看作者给我们的解读。2018年最让人伤感的是告别,告别了太多儿时崇拜的大师。霍金、李敖、单田……告别2018:回顾互联网企业的转变与发展2018即将离我们而去,网上出现了很多回顾2018年的文章,这其中有趋势分析也有商海浮沉。本文将从更长的时间线来讲讲这些年互联网企业的发展和变革。都说风口上的猪也能飞,那么互联……粉丝经济,其实是一场精心设计的“骗局”?国内饭圈接连爆发的舆论冲突引来众多圈外人的负面评价,饭圈文化是如何形成的呢?对比国外的粉丝文化,又有何差异呢?近几年,粉丝经济逐渐成为中国娱乐产业的核心商业模式。前有《偶……短视频,钱途无量2018年短视频迎来爆发式增长,众多短视频媒体涌入行业中,基于短视频平台的营销玩法也在不断地丰富、翻新,并逐渐走向成熟。这次来聊聊营销。随着移动时代下短视频媒体平台……农资零售店,要如何赋能成为互联网农业落地的入口?农资零售店作为渠道终端,直接面向C端农户,是整个渠道的主要农资出口(全国预计8000亿农资市场规模),本文以农资零售店展开进行分析,理出农资零售店赋能的基本逻辑。一、概述……Supreme,如何从潮味变土味?Supreme,曾经一度被视为高端潮牌,却在自我作死的路上越走越远,再到质量低下的山寨、层出不穷的A货,跌下神坛并非没有理由。吃不到葡萄那就把葡萄变酸!这句话拿来说形容S……不止旅行,微博旅游为何能实现社交赋能?我们有没有思考过这么一个问题:为何微博能实现社交赋能,成为旅游内容的消费高地?马尔克斯在其著作《百年孤独》中写道,生命从来不曾离开孤独而独立存在。社交之于人类的重要意义不……2019,新媒体会更艰难吗?在永恒的流动中,从来不存在简单的答案。在商业的竞合中,实践仍然是检验真理的唯一标准。未来可以预测,但未来终归是创造出来的。近十年来,没有一个冬天比今年更冷。创业圈,……以头条为例:谈谈推荐策略关于机器在用户画像和内容画像精准构建出来之后,如何做推荐呢?本文以今日头条为例,跟大家谈谈推荐策略。关于推荐首先,为了方便读者更好的理解本文,笔者将以今日头条(建议……一份年终总结:2018,我的改变与成长人生很长,长到需要提醒自己不忘初心,不要在漫漫长路中迷失方向;但人生也很短,需要确立目标使自己不留遗憾。时间过得太快,一转眼离2018就要结束。年初的时候,立了些f……Vlog元年,没有爆款Vlog元年,没有任何一条Vlog成为刷屏爆款。“Vlog是一种很小众的记录生活方式。它的覆盖面很有限,也许只有美食、旅游、时尚美妆学习等几个领域。总体成本很高,并不值得……总结、展望:我的20182018年即将结束,2019年即将开始,岁末年初,特备适合总结过去,展望未来,以下是自己的一点总结。我所总结的工作大家的工作中,最主要的事就是要解决问题,因为我们不……
亚洲货币,正面临一波“贬值潮”?近期,日元、韩元、菲律宾比索等亚洲新兴货币表现得很糟糕。近期日元大幅贬值。今年以来日元对美元贬值幅度超过17。韩元也大幅贬值,今年韩元对美元贬值了9左右。菲律宾比索本月到……巴菲特“最后的午餐”,1。28亿元!获拍者W是谁?1。28亿天价午餐说起巴菲特的午餐,相信大家并不陌生,毕竟这已经是第21届了。巴菲特的午餐是从2000年开始,这个创意是由巴菲特第一任妻子苏珊提出的,直到2019年……从直播带货到直播带岗,快手玩的是什么?辛巴原本休息到八月的计划被打破了,他接到一场很重要的直播。6月29日晚,快手主播辛巴开启直播带岗,联合多家企业,提供超过10万个岗位。这场直播涉及企业包括奇瑞汽车、沃尔沃……百度全资控股集度汽车,吉利退出6月30日消息,6月28日,集度汽车有限公司发生工商变更,吉利旗下上海华普汽车有限公司退出股东行列,百度关联公司达孜县百瑞翔创业投资管理有限责任公司持股比例升至100。此外,该……全国“摘星”上热搜,旅游出行引爆市场在跨省游开放和暑期游的加持下,全国旅游市场迎来一个向上的“拐点”,旅游市场复苏之势正如火如荼。我们认为旅游板块的投资逻辑正逐渐从困境反转向业绩修复。一、跨省游管控全面放开……5家企业上榜全国科创独角兽百强,南山摘得赛迪百强城区之首《赛迪科创独角兽百强(2022)》发布,凭借5家科创企业上榜优势,南山区位列赛迪科创独角兽百强(2022)城区第一,分别拥有4家和3家上榜企业的杭州市滨江区、深圳市福田区位列第……高考报考的市场乱象:花280元买假证,收9800元给建议“如果你高考没考好,不要担心,只要有我在,能够弥补你50100分的差距!”在《叮咚上线!老师好》节目中,考研界“网红老师”张雪峰的这番高考填报志愿言论,一下子击中了高考考生和家……流量红利没有消失,只是转移了一段时间以来,我们似乎有个共识:新消费赛道的红利消失了。无论是资本红利,还是流量红利,似乎都已离我们而去。但其实事实是,移动互联网的流量目前还没有完全见顶,甚至还在增长之……天然呆被起诉,关晓彤急撇清,幕后“推手”浮出水面这两天,因为艺人关晓彤冠名店长,一家名为“天然呆”的奶茶店成为舆论关注的焦点。据报道,因非法开放加盟,关晓彤、天然呆奶茶店等被加盟商告上法庭。温州讴歌餐饮管理有限公司(下……刘德华方面否认代言郑酒师白酒,将调查追责6月30日,刘德华官方粉丝平台“华仔天地”发表侵权声明函,针对市场上有关刘德华代言一款白酒的广告与讯息予以否认。称刘德华从未而且无计划代言该品牌白酒,且没有授权任何公司、个人在……投1亿美元浮亏5600万,萨尔瓦多又“抄底”比特币萨尔瓦多总统纳伊布布克利(NayibBukele)发推,宣布该国又购买了80枚比特币,总计花了152万美元。在当地时间周四晚发布的一条推文中,布克利分享了6月30日一系列……跨界艺术,将普洱茶玩出新花样抢占市场茶行业虽然历史悠久,但始终面临着一个挑战:有品类,无品牌。大多数传统茶企在用农产品和文化产品的方式卖茶叶。据农业部数据,90以上的茶企年销售额不足500万元这种现象的出现……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界