童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

从技术之战开始,信息流大战的赛点发生轻微的变化

8月4日 龙凤殿投稿
  算法推荐直观上造成了用户层面的“信息茧房”现象,更深层次看,则引发了内容生产者的“创作茧房”问题。
  半个月前还沉浸在“抖音”高速增长的喜悦中的今日头条,最近却有点焦头烂额。央视、人民日报、第一财经周刊等央媒和核心财经媒体,在上周对今日头条及旗下的抖音产品进行了一轮违规发布广告的曝光以及价值观的批判。
  在相关的许多报道中,媒体都或明或暗的强调了一点:信息流推荐技术本身早已被国内外论证了是一个成功的移动互联网产品,但之所以出现劣币驱逐良币的问题还是因为使用这个技术的企业出了问题。
  也正因此,不少媒体在引述相关报道的时候都会强调,去年初,今日头条创始人张一鸣在接受《财经》杂志专访时提出的,不认为今日头条应该有价值观这一论调。
  这在一定程度道出了今日头条的核心问题,但事实上更为关键的是,如今这个阶段的基于人工智能算法的内容之战,已不仅仅是打破“信息茧房”这么简单。从技术之战开始,这场信息流大战的赛点,已发生了轻微的变化。
  一、推荐准确性的PK,仍将决定于数据而非算法的技巧
  对信息流来说,算法准确性是竞争重点,但真正的决胜点,却是数据。
  1、数据热启动是百度实现奇袭的根源
  首先需要明确一个理论,推荐算法的准确性并不是被计算出来的,而是被统计出来的(这一点在后文底层技术分析会详细说明),这意味着数据量越大、越相关,越能得出准确的推荐效果。
  而且,由于复杂网络向量关系的存在,一个向量特征的准确性影响是呈几何扩散的,数据对推荐准确性的影响是非线性增长的关系。在足够多的数据量情况下,会快速提升,直到准确率接近100开始变缓(毕竟100准确十分困难,越接近越难)如图:
  也就是说,在算法准确性这里,数据热启动的价值将变得更为重要,足够丰富的数据,一旦介入信息流推荐算法,就可以马上实现高的准确率,追赶间距很窄。
  以百度为例,其老本行搜索业务与内容直接相关,在内容大数据方面有直接优势,官方对外宣称整合了千亿特征、百亿样本的数据体系,构建了囊括大到科文史哲,小到一个冷僻的小游戏的特征数据。这为其数据热启动做好了充分的准备,而且,主动搜索表达出的用户向量特征,比通过被动点击总结的向量特征可能更为准确有效。从这样的技术角度看,百度信息流可以只用一年时间完成其他公司三五年才达成的目标,在较短的时间内“杠住”今日头条并不意外。
  2、只有足够大的试验平台才能让准确率“朝上走”
  另一个算法准确性的问题是推荐试算的问题,即通过推荐的实践来反馈当前算法的准确性,从而实现所谓的模型迭代。
  例如,平台通过各种方式得出某类用户可能喜欢李娜,但推送李娜比赛新闻后效果很差(点击、停留等指标低),就证明这个推断可能是不准确的,需要返回调整。这样的反复试验能够让推荐逐渐接近真相。
  而这些,说来说去都是硬实力的比拼,比的是谁的平台大、空间足够广阔,这会让UC这样早期没跟上的信息流平台越来越落后(如果试验环境不够充分,下一次迭代的准确性未必比这次好,准确率呈现反复波动而非一致提升),而百度这样本来就凭借搜索页面占据用户眼球的平台“庙大好念经”。
  也即,算法准确性可能不是什么奇巧淫技,比来比去还是看谁的膀子粗。
  二、技术下一程,要从冰冷的统计学走向有温度的内容尊重
  上文准确性所行之事,从宏观层面都是统计学的“花招”。而信息流的下半场竞争,则将更具有尊重内容本身的人文色彩。也即从“量”的上半场进入“质”的下半场。
  1、算法不带价值观,但产品要有温度
  张一鸣“算法不带价值观”被广为诟病,但从上文的技术推导本身而言,算法可能真的没有价值观,这些冰冷的统计学数据不关注也不可能关注到内容本身。
  但同样是推荐系统,网易云音乐在QQ音乐、虾米音乐等一众软件中独树一帜,被广为赞誉。好听的冷门歌曲、年少时听过的磁带、收音机播过的音乐,在恰当的时机跳上来给予用户惊喜。“有温度”的产品收获用户粘性是一种必然,有温度的产品也一定是企业长久发展的必要。
  同样是内容产业,信息流莫不如是。
  2、“人人平等”要变成“生而不平等”
  这里的转化有双重含义,首先是推荐机制不再只局限于“博眼球”的统计学需求指标,从而丢掉了优质内容。其次是打击套路写作,让上百万的内容创作者们实现真正的创作丰富化,而不是束缚于推荐机制的茧房中。
  想要实现这种转化,完全寄希望于人工不太现实(虽然百度这些平台都在强调自己的人工投入),最终还是要通过技术本身去甄别内容,打入内容的“内部”,自主判断什么是好文章、什么是好图片、什么是好视频、什么是好音乐、甚至什么是好人(内容源)。
  今日头条在公开算法末尾就如何判断内容好坏做了一个章节,但该章节并没有太多骄傲的“技术”宣扬,说明它仍在发力被社会期许的“好内容”。因此,如果说百度或者其他信息流平台下一阶段要彻底超越今日头条,“好内容”将是最合适、最必要的角力点。
  百度发力“人工智能皇冠上的明珠”NLP(自然语言处理)或许就是在走这条路。虽然同时强调自己的AI技术,但百度作为综合性科技公司相对头条,在AI的宽度、深度上公认更有优势,在利用自然语言处理技术,对内容的质量、新颖度、情感倾向等进行深度理解和挖掘方面,较今日头条可能更有先机。
  百度先于今日头条搞出的“创作大脑”,表面上是为了更好地留住作者,而深层次可能更在于百度想在理解、区分内容好坏方面更先一步。毕竟,AI辅助写作首先需要的就是对知识、对图像的理解,将是锤炼内容识别技术的恰当机会。
  无论如何,信息流的技术竞争一定要回到尊重作者、尊重内容的“供给侧竞争”(相对于只关心用户需求的需求侧竞争,它本质上文提及的统计指标集合)上来,让每一个内容个体“生而不平等”,由他评走向自我价值认同。
  如果”澳网出线局势深度分析”与“李娜3岁时干的事你绝对不知道”这样的文章不再被同等对待,最终所谓“信息茧房”等表面问题也将迎刃而解。
  而这方面,虽然百度已经占得先机,但头条、天天快报甚至手握公认优质内容的微信入局,必将引致一场新的技术恶战。
  三、算法流派众多,但一切归于贝叶斯
  基于前文,我们能发现,在信息流推荐中,数据仍然是决胜点,而信息流也必然要更加尊重内容。而从底层技术角度,当我们回到算法的起源,也同样可以印证这些。
  以目前主流的算法为例归类分析:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于社会化网络分析的推荐等,用通俗的语言即可解释。
  1、基于内容的推荐算法
  即用户喜欢什么东西,推荐一些相似的东西。该推荐算法简单有效,推荐结果符合人们的认知;无须用户的历史评分信息。但是,该算法必须知道内容的特征,界定“什么才是相似”,比如体育里的篮球、NBA、耐克如果不能得到足够的信息,则推荐效果较差、结果较单一。
  2、协同过滤技术
  即把兴趣差不多的用户群体归类,然后给他们推荐相同偏好的内容。它通过协作的方式分析用户之间的喜好,避免特征提取不完全的情况。但存在冷启动问题,无法准确对新用户进行推荐,存在数据稀疏性问题。有从用户出发和从内容出发两种协同,如图所示:
  图:从用户出发和从内容出发的协同过滤推荐(来源:CSDN“数据挖掘工人”博客)
  3、关联规则推荐
  即通过某些技术挖掘大数据,建立内容之间的关联规则,起初用在实体零售,比如经典案例尿不湿与啤酒的搭售。在信息流领域中,主要是用统计学的方式发掘那些表面上看不出关联的内容与内容之间的某些相关性,及相关程度。
  4、社会化网络分析
  即身边的人喜欢什么,就给该用户推荐类似的内容。例如亲戚、朋友、同学等双边关系,微博关注、微信公众号订阅等单边关系,织就一个由用户组成的节点网络,探索与分析各节点、边的重要程度,利用这些重要关系来进行推荐。
  图:社会化网络分析(来源:知乎“社会网络分析”专栏)
  上述这些主要的推荐算法,都源于贝叶斯理论。其主要解决的就是根据已发生的事实推断关联事件发生的概率。
  而信息流算法核心推荐系统正是通过利用用户的历史行为数据,分析用户的兴趣爱好并构建相应的用户模型,从待推荐的项目中选择与其兴趣偏好相符的项目进行推荐。例如,在一个极简化的模型中,已知一个喜欢李娜的用户喜欢网球的概率为x,那么就可以得出喜欢网球的用户喜欢李娜的概率y,藉此推荐内容。这
  种推断的准确性,就是信息流算法能够达到的准确性,其基础框架就是贝叶斯理论。可以看出,不管是基于何种类型的推荐,在算法前的机器学习层面都是由贝叶斯推断一层层、一步步堆积、衍生而来。不管最终构筑成多么庞大的体系,但它们开始的基点却是一样的,这也使得算法推荐容易陷于“信息茧房”的怪圈。
  “人人平等”造就信息流“创作茧房”
  在业务层面,贝叶斯的特性也不可避免地造就了“创造茧房”现象。而打破“创造茧房”,就唯有跳出当下的贝叶斯框架,靠的就是上文所言的内容尊重,从“人人平等”变成“生而不平等”,最终也给出信息流算法技术演化的应有方向。
  1、概率统计基础上的算法,都是“他评体系”
  主流算法,就是通过推断个体与个体之间的关系(方式可以有上文提到的多种),参考热度等评价指标,从而有目的进行推荐。例如,对一个喜欢李娜的用户推荐澳网的资讯,在推荐时就已经根据复杂的计算(基础是贝叶斯)。由一个预期的点击率、停留时间、点赞、评论情况计算,计算不达标的,就不会推荐出去。
  在今日头条算法发布会上,曹欢欢在讲到今日头条的数据量时,称其有几十亿“向量特征”。所谓向量,指的是带方向,例如喜欢李娜和喜欢网球是两个“原始特征”,而“喜欢李娜喜欢网球”才构成一个向量特征(带概率数据)。
  但事实上,向量不过就是从一个点到另一个点,是点与点之间的数据关系,每一个内容个体(一篇文章、一个短视频等)都被当作一个点存在。是否被推荐,是由各种外围向量关系决定,是典型的“他评体系”(数学上,点已经不可再分割)。
  2、“人人平等”后,“创作茧房”成信息流顽疾根源
  这意味着,内容和内容,在算法这里是“人人平等”的,一篇精心编撰的图文与一个拼凑热文会被一视同仁,都依据向量特征进行推荐。但这也造成了内容质量的“参差不齐”。
  可以说,在当下的算法体系下,内容个体真正缺乏的是“自我认可”,高质量内容源不被重视;算法更多地是“世俗评价”,算法为上,人人都在追求曝光量。
  于是,在当前算法模式下,创作导向被冰冷的统计学规则限制,越来越收敛到某些高推荐、高曝光、高点击的范围内(褥羊毛有意为之,或者被环境胁迫),最终形成“创作茧房”。
  算法推荐直观上造成了用户层面的“信息茧房”现象,更深层次看,则引发了内容生产者的“创作茧房”问题。
  诚然,他评体系确实对增强推荐内容与用户的匹配有重要意义,提升准确性仍然是算法的重要任务,但解决“创作茧房”问题,不再把内容个体当做一个不能分割的点,而把算法扩展到内容的内部,尊重每一个内容,会是下一阶段信息流技术突破的重点。
投诉 评论

微信、微博、Facebook们,到底从你身上榨取了什么?如果你是从早到晚手机不离身,且每小时刷好几遍知乎微博微信YouTube和Instagram不妨读一读这篇文章,enjoy科技公司搜刮你的注意力在那本著名的ElonM……滴滴VS美团:一场关于焦虑的战争滴滴外卖,美团打车,这场由两家独角兽主导的战争背后,是处在“死局和困局”中的垄断者的焦虑。美团做打车。一边在年会上打出“除饿灭滴”的口号激发士气,另一边从南京开始高调试水……三个月过去了,曾经让我们兴奋不已的刷屏级风口们怎样了?一个风口不火了,往往不是本身不行了,而是因为出现了新的风口、进而被人们遗忘了。一、刷屏级风口转眼间,2018年已经过去四分之一。也许是求新求变的时候到了,头三个月的……从技术之战开始,信息流大战的赛点发生轻微的变化算法推荐直观上造成了用户层面的“信息茧房”现象,更深层次看,则引发了内容生产者的“创作茧房”问题。半个月前还沉浸在“抖音”高速增长的喜悦中的今日头条,最近却有点焦头烂额。……传统贷款中介:如何在互联网金融创新中突围“贷款中介”这类游走于法律灰色地带通过收取客户贷款佣金的人群,是怎么存在的,又是为什么能存在这么久?如何在互联网金融创新的冲击下获得新生?本文主要通过贷款中介、贷款机……小程序,就是新零售的未来。。场景驱动化、业态多样化、体验极致化,对产品和技术平台提出了新的要求,而“微信社会”中的小程序,凭借着离消费者一指之遥的距离,开放的解决方案能力,原生级的体验,是最适宜的新零售创……思路清晰的秘诀:结构化思维(从下往上)面对海量信息时,我们该如何利用结构树从下往上总结?上一篇文章《思路清晰的秘诀:结构化思维(自上而下)》阐述了以下几点:结构化思维的原理;结构化思维是什么;……阿里收购饿了么:外卖战局将如何变化?阿里巴巴在今日收购了饿了么,这场巨额交易背后,阿里收购饿了么意图何在?交易完成后,外卖战局又将如何演化?中国互联网最大全现金收购今日诞生。今日上午,阿里巴巴集团、蚂……算法也有价值观,取决于你想用来做什么算法也有价值观,前提是你想用来做什么。被央视点名之后,快手CEO宿华做出了不同于其他人的反应,没有极力为算法辩护,而是发表了《接受批评,重整前行》的声明,“社区运行用到的……北京线下活动总结:这一次,我们来聊聊“区块链”!“区块链最重要的作用是能够让互相不信任的个体之间相互协作起来。”王武佳区块链技术作为数字经济的重要基础设施,可以构建全新的商业模式,实现团队的分布式运作,分享技术创新红利……这样都拿不到产品offer,你尽管过来找我对于产品小白来说最鸡冻人心的时刻莫过于收到心仪公司发来的产品offer那意味着进入CEO学前班走上前景一片光明的行业离改变世界又迈进了一步……美团真的需要跟滴滴抢份额吗?美团和滴滴的战争正如火如荼的开展着,可美团真的需要跟滴滴抢份额吗?最近美团也算是树了不少敌人,全面开花,网上频现美团和滴滴的针锋相对。其实美团真正的敌人,从来都是只……
津同仁深陷“同仁堂”字号抢夺战,销售费用率畸高或存商业贿赂?说起百年老字号“同仁堂”,你第一时间想起的是哪家企业?是已经在AH股上市的北京同仁堂(600085。SH),还是正在计划IPO的天津同仁堂集团股份有限公司(以下简称“津同仁”)……全国122家村镇银行为高风险机构1。银保监会:全国1651家村镇银行,122家为高风险6月23日,据银保监会数据,截至2021年末,全国村镇银行数量为1651家,占全国银行业金融机构总数……麻袋财富逾期小花钱包涉嫌违规向学生放贷近日,多位投资人表示曾在麻袋财富进行投资,而上月到期后,平台却未如期兑付本息。麻袋财富表示由于正在执行清退工作,无法正常退出回款。麻袋财富实际控制人中信产业投资基金管理有限公司……33岁中国女富豪买豪宅:100个篮球场大、和普京最信赖商人当昨晚的热搜,让大家看到了富豪的世界。33岁的中国神秘女富豪,没有丝毫犹豫,一口气花了5。6亿买入了意大利南部撒丁岛一座超级豪宅,和普京最信赖的商人当上了邻居。她的身……南方洪水凶猛,对多家A股上市公司有什么影响?据水利部消息,6月23日15时27分,广东省水文局继续发布洪水红色预警,影响范围涉及广州市、佛山市、清远市、中山市。此外,江西省水文监测中心6月22日19时继续发布洪水蓝……刘强东缺钱?套现66亿6月24日消息,据美国证监会披露数据显示,刘强东于6月17日减持京东A类普通股450万股,价值约2。79亿美元,约合人民币18。71亿元。刘强东。此前,他还通过其控……史上最诡异创业骗局:去年IPO今年破产,跟他比贾跃亭就像弟弟创业1年融资几十亿美元,上市又圈走一波资金跟他们比,贾跃亭简直像个“弟弟”。拜腾、云度、绿驰之后,美国汽车界也出现魔幻一幕。被华尔街鼓吹的“特斯拉对手”,去年刚上市……刘强东忙着套现66亿元,马云现身西班牙悠闲打球一场618大促后,没想到中国最大的两家电商平台的创始人相继有了新动态,一个忙着套现,一个悠闲打球。从年龄上来说,刘强东比马云整整小了10岁,比马云的接班人张勇还小2岁。马……巴菲特继续加仓西方石油由于国际石油价格今年以来大幅攀升,美国的油气公司股价也在节节攀升。美股上市公司西方石油的股价近期虽然较高点回撤了25,但是今年以来该公司的股价仍然累计上涨超过80。“股神……蔚来,亲手把坠车悲剧变成一次品牌危机导语:汽车行业的公关专家,也有同样的疑问,蔚来为什么一定要在声明中加上“与车本身没有关系”?这两天,全网都在骂蔚来(NIO。US)对坠车事故的回应太冷血。事件本身很……人民币国际化再迈坚实一步国际清算银行建立人民币流动性安排人民币国际化“大棋局”又落下关键一子。6月25日,国际清算银行(BIS)宣布,与中国人民银行共同制定了人民币流动性安排(RMBLA),通过储备资金池计划,在金融市场波动时……这个科技公司CEO的“离职感言”火了,医药创投圈都在反复看2002年,蜜月旅行中的美国大药厂高管JohnMaraganore收到了一份offer,邀请他担任一家生物技术初创公司Alnylam的CEO。Alnylam位于波士顿郊区……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界