童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

内容审核形势严峻,Facebook、YouTube和今日头条

11月19日 拭朱砂投稿
  在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出问题(举报率和负面事件)的内容平台审核管理,提出了巨大而严峻的挑战。
  时间来到2019年年中,Facebook全球月活已经突破22亿,Youtube是19亿,微信也超过10亿,可以说互联网已经覆盖了全球大部分人口,而随着使用人口同步激增的还有用户时长,以及内容的生产消费量级也呈指数级井喷,这海量的内容无论对大平台还是小公司都形成了巨大的管理难度和审核挑战。
  2018年Facebook上每天上传的照片超过3亿张,每分钟发布51万条评论,30万条新状态;每天在Instagram上的照片和视频分享量为9500万次;而在微信朋友圈,每天有10亿张图片被上传。
  截止2018年,每天约有2。5万亿字节的数据被创建,过去两年里生成的数据占到了全球总数据的90,而预计到2022年,全球互联网流量将达到每秒7。2PB。
  在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出问题(举报率和负面事件)的内容平台审核管理,提出了巨大而严峻的挑战。
  包括Facebook和Youtube在内的国际顶级UGC平台,如今在这类老生常谈的问题上依然十分吃力,尤其是发达国家最为在意的低龄内容、种族歧视和跨国文化多语言等问题,它俩其实一直未能交出一份让各方满意的答卷。
  而国内今年比较知名的互联网内容社区类产品里,下架甚至关停的已经不下于10余款,尽管它们各自都有各自的问题,比如色情内容、微商、内容涉政等等,但归根结底,这还是用户激增带来的日益增长的内容生产量和无法跟上的审核措施和效率之间的矛盾。
  一、Facebook:用AI和算力应对海量内容
  Facebook在整个2018年遭遇过巨大的信任危机,除了数据接口和用户隐私的处理不当,平台上的内容审核政策也受到严重质疑。
  但其实,它背后的核心问题是,这家公司本就是世界互联网内容吞吐量最大的平台。
  而这些内容并不只在Facebookapp发布和消费,还在这家公司旗下月活15亿的Whatsapp、13亿的FacebookMessenger和10亿的Instagram上面传播和推广,所以这家公司承受的内容审核压力才会如此之大。
  那么Facebook拿出的应对措施是什么?
  在去年那场著名的美国国会听证会上,扎克伯格在一小时内提及AI三十余次,坚称AI是平台内容审核的答案,他的原话是:“未来的五到十年,AI将成为世界上最大的社交网络的捍卫者,在全球范围内解决其最紧迫的问题,同时也帮助公司回答有关审核、公平和人类无节制等棘手问题。”
  小扎自称,Facebook上99有关ISIS和基地组织的内容,都在人们看到之前被人工智能系统标记,并且被删掉。
  但AI想要和内容审核结合并落地,必须拿出一些具体的手段来。Facebook现在的审核分为文字审核、图片和视频审核,以及大量的人工配合。
  文字审核方面,Facebook推出了DeepText(深度文本)引擎,利用深层神经网络架构去理解那些帖子的内容,据称它能够以近乎人类的精确度、每秒同时理解数千篇文章的文本内容。
  相比国内的各大平台的审核体系来说,它的优势除了速度更快,另一方面是Facebook作为一个全球化的社区,DeepText能够审核超过20多种语言的文字。
  DeepText甚至能实时通过用户发送的内容分析用户的想法,通过对意图、情绪和实体(人物地点事件)的提取,结合文本、图片,并自动移除垃圾信息的干扰,这一能力在FacebookMessenger上已经被测试验证。当然这个AI技术也并不只被用来审核一些可能发生的危险(针对青少年的犯罪),它还可以改进用户体验,帮助广告商进行有目标的宣传活动。
  Facebook为这些实时而海量的信息编目录、并让其被搜索是件很困难的事情,所以他们才转向了人工智能。
  同时,NewsFeed作为短小而高频的内容素材,恰好就是众多开展深度学习活动的有效场所之一,因为每个Feed的背后,包含了人们希望看到哪些与他们相关的内容。
  而Facebook的图片和视频审核系统名为Rosetta,利用光学字符识别系统来处理图片和视频内容,每天可以实时地从超过10亿张图像和视频帧中提取信息并识别多种语言背后的含义。
  另外,Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型:ResNext101。这是一个在Instagram的图片标签上预训练,并在ImageNet上微调的模型。
  ImageNet是由知名人工智能专家李飞飞教授团队于2009年发布,包含了超过两万类物体共计一千四百多万张图片,后来的很多计算机视觉任务模型都以此为基础进行训练。
  而ResNext101更上一层楼,利用了Instagram上的35亿张图片(比ImageNet的1400万多了200多倍)进行了预训练,并以人们为图片添加的话题标签(hashtag)为类别,研发出来的有着超强特征提取能力的图像识别模型。
  在这两大系统的背后,其实是Facebook的人工智能研究院FAIR(FacebookArtificialIntelligenceResearch)在发挥功劳。
  比如其物体识别技术(Objectrecognition),以含有数十亿参数和数百万案例训练的神经网络为基础,给了挑战最大的图片和视频审核有力的支持。
  另外它们也使用自我监督学习(SSL)探索大量数据,让机器可以通过分析未标记的图像、视频或音频来学习世界的抽象表达,这也是FAIR将AI能力规模化的努力之一。
  FAIR还在研究用户头像的面部识别、上传照片的环境识别等,它承担Facebook所有AI相关的基础研究、应用研究和技术开发。
  比如它推出的刚刚获得了国际视觉模型挑战赛冠军的MaskRCNN,这个系统可以将计算机视觉世界的物体检测与语义分割结合到了一起,不但可以检测劣质视频内容,甚至可以帮助视障人士自动替代文字。
  不过,你可千万别以为世界上最大的社交网络和内容平台,光靠AI和审核系统就搞定了一切。截止目前,Facebook聘请了超过2万人(是的你没看错),来辅助内容筛查,并配合监测和删除争议内容。
  二、YouTube:版权审核系统的升级之路
  YouTube的内容审核系统名为ContentID,会监测并直接删除涉及色情、低俗和暴力等违规内容。不过,这个系统的诞生一开始仅仅是为了解决YouTube上内容的版权问题。
  早年间YouTube以草根内容起家,后来出现了大量的搬运号,主要以盗版电视台的精品内容为主。虽然平台的数据因此飙涨,但也因此陷入了旷日持久的官司里。
  2007年至2009年,包括维亚康姆(美国第三大传媒公司),Mediaset(意大利的传媒集团)和英超联赛(英国最大足球联赛)等在内的组织对YouTube提起诉讼,声称它在用户上传侵权内容方面毫无作为。
  维亚康姆要求其作出10亿美元赔偿金,他们声称已经在YouTube上发现超过15万条版权内容片段,累计播放量超过15亿次。在耗时耗力的多年诉讼和公关战之后,直到2014年,双方才最终协商解决了争议,但具体条件并未公开。
  所以当年在被Google收购之后,YouTube从2007年开始就逐步投入巨资建立起ContentID版权系统,慢慢帮助版权所有者能够识别平台上的侵权行为,并让版权所有者在平台上能够获直接获得收入。截止2018年,谷歌为该技术研发共计投入超1亿美元。
  后来,ContentID的内容监测能力在不断改进后,比如使用哈希算法标记有风险视频,阻它们被次上传,也获得了显著的成效。以2017年Q4为例,平台删除了800万条“令人反感”的视频,有670万条都由监测软件自动标记。大约75被标记的视频,在被用户观看之前就被下架。
  人性化的是,YouTube于2014年9在前端增加了受限模式(RestrictedMode),用以过滤情暴内容,但是户可以自己选择开启还是关闭。依据户举报以及其它识别规则,受限模式可以直接为用户过滤部分不当内容。
  当然,YouTube的这些内容审核能力有赖于谷歌的深度学习技术GoogleBrain作为支持。GoogleBrian拥有一个收集用户信息(如观看历史和用户反馈)的神经网络,以及一个用于对所显示部分视频进行排列的神经网络,通过引入机器学习工具,自动标记暴力、色情和低俗等极端视频,并将违规内容报告给人工审核员进行验证。
  和Facebook类似的是,就算有了Google多方面的技术支持(包括资金、人才、算法、云和服务器等),YouTube的AI标记、内容审核与识别技术也并不完美。2018的时候YouTubeCEO苏珊沃西基承诺,未来会雇佣至少一万名人工审核员,以补足算法的局限。
  因为更早之前英国政府和一些广告公司发现,自己的广告被推荐到了紧挨着极端主义分子上传的视频内容的旁边,造成了许多恶劣的影响,多方政府和广告主们联名宣布将因此撤下自己在YouTube账号上的内容。
  不过,Google对YouTube的帮助也不会仅仅限于内容审核,GoogleBrain的技术已经被应用在安卓系统的语音识别、Google的图片搜索、以及YouTube的智能推荐。
  所以,现在的YouTube早已从一个视频UGC社区,到慢慢成为拥有海量内容、搜索驱动的视频综合网站,到拥有了视频推送能力的应用。如今,占据用户在YouTube上观看视频总时长70的内容,是由推荐算法引擎驱动的。
  三、头条:审核系统对外开放会带来哪些变化?
  如今的今日头条已经拥有海量的用户和多种形式的UGC内容,尽管体量上还颇有不如,但在内容审核方面遭遇的挑战同脸书和Youtube已经十分类似。
  头条在这方面的一个创举是,经过多年的技术储备和经验积累后,它开放了内部反低俗系统的一个简化版本“灵犬反低俗助手”,希望普通创作者、社会公众更了解和关注反低俗。截至2019年6月,灵犬反低俗助手的外部使用人次已经超过了300万。
  用户只需要在灵犬的小程序内输入一段文字或文章链接,灵犬就可以帮助其检测内容健康指数,返回一个鉴定结果。对于用户输入的内容(文字或者图片),“灵犬”会先进行提取、分词和语义识别,然后根据相关规则,输出对应的分数、评级和结论。
  在文本识别领域,头条同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。
  最近新版的灵犬3。0发布,重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别和文本识别,后续,灵犬还将支持难度最大的语音识别和视频识别。
  不过,今日头条的人工智能实验室王长虎也提到,AI暂时还是有缺陷的,今日头条现在有将近万余人的审核团队在辅助AI的审核。
  比如对于低俗内容,它的定义本来就相对笼统难以精确,这项工作即使对人来说也不容易,交给机器做更难实现。
  比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。
  Facebook曾经因为“裸露”,误删了一张著名的越战新闻照片,内容是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑,事件发生后引起了美国新闻界的巨大争议。
  但是,在当前内容创作和消费规模海量增长的趋势下,如果依然纯靠人工去解决所有问题,那么必然效率低的同时还无法满足用户需求。
  所以,AI人工的内容审核方式在相当长的时间内都会是一种常规手段,这也是Facebook和YouTube等国际头部内容平台采用的处理方式。
  四、结语
  未来,随着用户和内容数量的继续增长,内容审核的挑战会越来越严峻,政策相关的监管也会越来越严格,图文的内容识别问题虽然逐步被克服,语音和视频的内容理解更加任重道远,人工和机器检测都更为不易,尤其是当需要联系具体的用户使用场景和政治社会语境时,难度会成倍提高。
  比如邓丽君的歌曲,早年被认为是低俗情色歌曲,如今早已被普遍接受并传唱大街小巷;比如内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;而正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。
  这就是由于时代背景、使用场景、用户人群不同而导致审核标准可能大幅变动的案例。
  海量数据的产生、不断变化的标准,这都要求大公司在这方面的投入必须越来越多,而这本质上就成了一场资本丰厚的对手之间的军备竞赛。
  今年卡耐基梅隆大学(CMU)和Google合作研发的XLNet模型,在Bert模型的基础上更进一步,在足足512块TPU上训练了两天半时间。以GoogleCloud的计价标准,只是训练一次XLNet模型就需要人民币一百六十多万。
  若再考虑上整个模型研发过程中的不断试错和调参验证等过程,XLNet的开销简直天文数字。未来中小团队将难以竞争,这就是一个巨头独霸的竞技场。
  不过好在,随着人类进入社会的数字化程度越来越高,新一代的移动互联网原住民们在享受技术带来的便利的同时,也对技术可能的负面在耐受度和适应性上不断提高。
  毕竟自工业革命之后起,就有无数人曾对技术会带给社会的冲击抱有极端负面和悲观的预期,认为技术可能会加速崩坏我们数万年来自然形成的人类社会结构,但是哪一次,人类社会不又是顺利转型成功、发展出与技术相匹配的职业和生活模式、并且越走越好了呢?
投诉 评论

营销和运营、销售之间,究竟有什么区别?什么是营销?什么是运营?什么是销售?这三个概念老是傻傻分不清楚?来看看笔者是怎么说的吧。伟大的彼得德鲁克说过:企业存在的目的在于引导消费、创造顾客。如果没有消费者愿……无印良品的中国式崛起与溃败无印良品的发展过程中,到底忽视了哪几次危机信号?无印良品的溃败,仅仅因为企业品牌定位出现偏差吗?为何无印良品做不好中国化、本土化?无印良品在中国的地位岌岌可危。连续……拆解饿了么的超级会员体系在阿里巴巴线上线下一体化生态系统中,饿了么已经成为最后一公里的核心组件。在这个左手通过生态赋能连接数以百万计商户,右手通过“超级会员体系”紧握2亿消费者的平台中,饿了么走出了一……线下课程转化不到千分之一、日活百万跌至两万。。。效果惨淡背后0118万的曝光量总转化不到千分之一“来来回回铺渠道,越做效果越差,年中大促活动18万曝光量,效果惨淡,总转不到千分一”,一电商运营经理如是抱怨,“问题具体出在哪,……我研究了《长安12时辰》的望楼系统,惊呆了最近《长安12时辰》大热,笔者作为剧粉科技宅,深挖了一下,这个剧里的通讯设定望楼。豆瓣8。6分的《长安12时辰》,害人不浅啊!是的,我已经消失一个月了,就因为我去追……文案在前,时代在后01人头马一开,好事自然来“人头马一开,好事自然来”黄霑眉头紧锁,盯着纸上这句广告语出神。显然他并不满意,于是又苦思冥想了好久,努力尝试了……内容审核形势严峻,Facebook、YouTube和今日头条在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出……七夕借势合集,微信又赢了?又是一年七夕节,你的朋友圈开始虐狗了吗?听说不少朋友已赶回老家躲“狗粮”了,然而,营销人的还得写完方案,干完活啊!今年营销人们又给出了哪些答卷,一起看看吧!甜蜜爱情篇……挤水互联网:流量游戏的覆灭与重生流量至上的信仰,看似终将因为用户对互联网的认知水平的提高,而惨遭覆灭。但,我们都知道这是一场永无终局的“猫鼠游戏”。一、互联网流量之怪现象去年,共有7部电视剧播放量……叫好不叫座,老品牌如何巧用营销思维焕发活力?一、营销套路失灵,品牌叫好不叫座很多在企业做营销的同行,有这样的苦恼:产品很好,进入市场后,就卖不动了;翻来覆去,该说的特色都说了,文案仍旧转化效果弱;……饱受诟病的微商,其实也可以是正经职业你有没有在朋友圈看到过类似这样的文案:“真子小姐加入微商三个月,喜提爱车和谐号,左手事业,右手家庭”有没有觉得莫名熟悉?虽然“喜提爱车和谐号”有些夸……微信支付新广告来啦在生活中有很多平凡而不起眼的工具就像一根火柴、一把剪刀、一支笔很普通的一件小物品好像听起来也不是很重要但重要的是我们可以用它们的能力去……
多维度解读Keep为什么必须做智能硬件在接近两年的沉寂之后,Keep在今年先后发布了两项举动,第一家线下店Keepland的开业和硬件产品Keep智能跑步机的面市。紧接着在2018年7月发布D轮1。27亿美金的融资……写给03岁产品经理的第5封信:项目管理能力做项目管理,也像是打游戏升级一般,从青铜到王者,漫漫升级之路。虽然可能一路踩坑,但是也在一路成长。亲爱的各位胖友:展信佳!从青铜到王者只有一条路可走,就是青铜白银黄……如何看待子弹短信的没落?子弹短信在之前的短短十几天时间内用户量过400万,而后又好似昙花一现般逐渐淡出公众视野,大家纷纷开始猜测,究竟发生了什么?本篇文章介绍了国内当前社交产品的市场环境,从而分析子弹……中国综艺格局变化:大众体育文化内容的十年变迁大众体育文化内容十年来的变迁,也是中国观众审美趣味不断提高,中国节目制作能力不断提高的过程,也是对“纯娱乐”节目进行反思的开始。加拿大人麦克卢汉曾经如此吐槽美国上世纪50……【天天问每周精选】第53期:你准备剁手了吗?来聊聊双十一的需下周就是双十一啦,今年天猫的集赞活动玩得风风火火,你参与了吗?为什么双十一让人忍不住剁手,复杂的规则又让人何去何从,开脑洞给双十一想想新玩法?本期天天问整理了关于双十一的精选回……为什么阿里亏钱也要卖88VIP会员?做这个会员,阿里是需要往里面贴钱的。又到一年双十一,低价打折做促销的造节运动行进到第十年,到底是买大衣还是羽绒服,囤卫生纸还是洗手液,久经沙场的消费者心中早已做好决策。在……以退为进的设计模式库进化论在设计工作中你是否会花时间来思考现有的流程和体系是否真的有效?当意识到其中仍有改进空间时你是否会立即进行改进呢?在本文中,作者将和各位分享他的团队是如何处理这些问题的。之……科技发展给保险行业带来了什么改变?互联网思维下的保险的本质?科技发展给保险行业带来了什么改变?怎么评价用户体验的好坏?这篇文章隶属于数字化转型科技对保险业影响新技术对行业的影响,是行业数字化转……三个关键词背后的腾讯20周年变革逻辑20年前,腾讯还是一家小软件公司,而今,腾讯已经成为中国中数一数二的互联网公司。在这二十年中腾讯都经历了些什么呢?大人虎变,小人革面,君子豹变。对于任何一家公司而言……曾鸣:面对这样的对手,几乎毫无还手之力在智能商业的时代,如何让自己的企业获得成功?本篇文章为阿里巴巴集团学术委员会主席曾鸣对当前知名互联网公司的分析,对其三个重要方向的创新做了总结,并告诉大家如何为企业创造价值。……腾讯2B亡羊补牢腾讯比阿里晚5年进入2B市场,技术上的不足和B端用户的缺失使得腾讯2B之路蹒跚,腾讯真的不适合做2B吗?腾讯2B前景如何?看文章一一阐述。“接下来,腾讯将扎根消费互联网,……科技赋能保险业:科技驱动保险公司数字化转型中国的所有问题,都要放在世界的格局下寻找出路,保险行业也不例外。目前的中国,正在从世界工厂的角色转型到全球科技创新引领者的角色,而这一转变才刚刚开始,趋势不可阻挡。请思考……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界