童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

大数据时代的数据价值迷思:新闻媒体的数据真的不如社交媒体?

5月9日 艮山观投稿
  社交媒体平台巨大、更新速度快、内容多样,以致于人们都误以为其承载的数据肯定也是庞大而又有价值的,新闻媒体的数据权威性在社交媒体时代遭受质疑。但是,事实真的如人们所想的那样吗?社交媒体数据的价值真的比新闻媒体还要大吗?其实不然。
  由于为全球范围内的对话提供了广泛的可能性,社交媒体如今成为“大数据”的代言人。平台巨大的规模、超快的更新速度和多样的内容被视为大数据时代教科书级的范例。
  但是,当人们对社交媒体的数据价值格外重视,或许也该反向思考社交媒体上的数据,真的比新闻媒体这样的传统数据更多,更有价值吗?
  在互联网数据领域深耕超过20年的互联网企业家,及学者KalevLeetaru,以Twitter为例撰文指出:社交媒体的数据价值可能被人们高估了,而新闻媒体则被低估。
  本期笔者跟随KalevLeetaru的视角,以严格的数据计算为支撑,破解大数据时代的数据价值迷思。
  KalevLeetaru:乔治华盛顿大学(GeorgeWashingtonUniversity)网络与国土安全中心高级研究员,曾任谷歌云平台开发专家
  社交媒体“大”数据,没有想象中那么大
  在今天,人们把社交平台看作大数据的缩影。
  但是,值得注意的是:这些平台对外部的透明度不高,意味着它们的印象构建,实际上都是基于这些公司自己向公众披露的数据,和创造的美好概念,比如:“活跃用户”。
  这些数字一直在变化,概念也在不断演变,但唯一的目的都是反映整个社交媒体生态最美好的一面。
  人们对社交平台的崇拜之情主要基于一个信念:它们的服务器拥有一个难以想象的大型全球人类行为档案。
  但是,与过去作为数据来源的传统媒体相比,社交媒体拥有的这个档案真的大得多吗?
  就最近的事件来看,Facebook在去年开放了一个大型数据集,为学者研究提供材料,其中包括:“1PB(千万亿字节)的数据,储存着全球Facebook用户,点击过的几乎所有公开链接、点击发生在何时、以及点击的用户是什么类型的。”。
  但在专业人士的分析中指出:该数据集尽管是PB级别,但其在公布时预计仅包含300亿行,大概是每周从3亿帖子中生成200万个数据的增长速度。
  Facebook与SocialScienceOne建立合作伙伴关系,向其开放PB级别的用户数据,搭建业界与学界的桥梁。
  对于许多研究人员来说,300亿行听起来像是他们一生都分析不完的海量数据。然而,按照现代标准,300亿条记录是一个相当小的数据集,而PB级数据在大数据时代早已见怪不怪。
  作为对比,KalevLeetaru提出:自己的开放数据项目GDELT已经编制了一个数据库,该数据库自2018年3月以来已经从全球新闻媒体主页中收集超过850亿个外链。换句话说,它只用了一半的时间,却是Facebook数据集的2。8倍。
  由KalevLeetaru创建的GDELT是有史以来最大,最全面,最清晰的关于人类社会的开放数据库,每日监控世界各地的新闻媒体更新。
  社交媒体与新闻媒体相比,其数据方面的差距并不一定像人们想象得那么大。
  之所以产生错误的想象,仅仅是因为历来缺乏将新闻媒体视为大数据工具的习惯。而相比之下,社交媒体从一开始就积极地将自己与大数据挂钩,并在建设上最大限度地与数据分析靠拢。
  Twitter的“大”数据库,研究价值有限
  既然社交媒体在数据量上,并没有人们想象得那样无敌,那么,在数据的研究价值层面表现又如何呢?
  社交媒体巨头Twitter虽然只成立了短短13年,但数千亿条推文赋予它厚度,每天成千上万人发推赋予它速度,而文字、图像和视频的混合则丰富了它的维度。在全球范围内,Twitter都绝对称得上这场大数据革命重要的注脚。
  大量学者使用Twitter的数据进行研究,而KalevLeetaru指出:在Twitter的海量数据中,有研究价值的部分其实有限。
  Twitter本身不定期公布推文数量的相关数据。然而,根据先前的研究推断,可以合理地估计:自13年前该平台成立以来,推文数量已累计超过一万亿条。
  乍一看,一万亿是个非常庞大的数字,但从内容的角度考虑,推文实际上很小。因为毕竟它只是一个最多包含140个字符的文本。
  这意味着:即使推文总量大,但每条推文传递的信息其实很少。
  进一步来看,甚至很少有推文是接近140个字符的,每条英语推文平均包含34个字符,而日语推文平均仅包含15个字符。
  此外,虽然Twitter的原始数据非常大,但其中只有4是推文文本数据。由于大多数针对Twitter的分析是关注推文的文本,所以对社会分析有用的数据量其实非常小。
  一万亿条140个字符的推文,也只产生140TB(太字节)的数据。而实际情况是,在2012年,Twitter上的推文平均长度为74B(字节)。
  这意味着:那万亿个推文的文本转化为数据,只有74TB。
  而根据2012到2014年的状况推断,可以估计:在这万亿推文中有35是转推。
  那么,有价值的数据可能要缩减到48TB。此外,这些文本中还包含着超链接、提到其他用户(XXX)等内容,这些文字是也缺乏分析价值的。
  1TB约等于15个64GB的手机存储数据量。
  社交媒体VS传统媒体,谁掌握着大数据?
  TwitterVS数字化书籍:十三年的文本超越两个世纪的书籍?
  2010年的GoogleBooksNGrams中囊括了所有已出版书籍的4,总计5000亿字,估计大小约为3TB,比Twitter的数据量小24倍。InternetArchive(互联网档案馆)的英语公共领域书籍文本总计约450GB,比Twitter小约85倍。
  GoogleBooksNgramsViewer:开放数据库,可以查询任何一个或几个词在过去500年内在书籍中的出现频率变化趋势。
  图中为“life,liberty,happiness”三词的结果。
  InternetArchive是一个非营利性的数字图书馆组织,提供数字数据,如:网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。
  但是,Google和InternetArchive的数字化图书馆藏书只包含每本书的一个副本。因此,将它们与转推无数的Twitter相比是不公平的。
  通过过滤转发可以发现:Twitter的数据量只是GoogleBooksNGrams的16倍,是InternetArchive的公共领域书籍的54倍。
  按照数据量来看:仅仅发展了13年的Twitter的数据量,已经比今天研究人员可用的两个世纪的数字化书籍更大。
  但不可忽视的两个因素是:首先,数字化时代改变了出版的逻辑,以前出版一本书的成本太高;而在Twitter时代,个人“出版”的数量仅受限于敲键盘的速度。其次,数字化的书籍只是人类历史上极小的一部分,从本质上讲,这是将Twitter在13年内的文本总数与两个世纪的书籍的4进行比较。
  TwitterVS在线新闻:差距只有8倍
  考虑到社交媒体与传统出版业的较大差别,更有代表性的比较需要找到具有类似特性的媒体。
  上文中提到:GDELT的新闻数据集在一半的时间内,成为Facebook数据集的三倍。
  那么,Twitter与新闻间的数据差异又是怎样?
  从2014年11月至今,GDELT项目监控了大约3TB的新闻文章文本,该数据仅计算文章文本本身。
  在同一时期,可以根据Twitter的先前趋势估算:其推文总量应该在6000亿左右。
  假设转发量随时间逐渐增加,那么,估计其中3300亿条不是转推。
  如果按照每条140个字符计算,那么将达到大约84TB;按照平均每条74个字符计算,就是44TB,但如果不包括转推,这将降至仅24TB。
  由GDELT检测发现:假设2006年至今发送的数万亿条推文都是140个字符,Twitter的数据量也仅是2014年至今全球在线新闻量的47倍。使用更为现实的平均推文长度来计算,Twitter的数据量是新闻的25倍,移除转发后则只是16倍。
  值得注意的是:这是跨度13年和4年的比较。
  如果将两者都放在4年的时间内比较,那么Twitter的数据量只是新闻的15倍,移除转发后就只有8倍了。
  因此,如果有人可以访问2014年至今完整的Twitter消息,那么在同一时间段内,其文本总量可能只是在线新闻内容总量的8倍左右。
  从这个角度来看,Twitter是一个很大的平台,但它和全球新闻相比也不是天差地别。这也提醒了人们,每天在世界各地发布了多少新闻。
  对学术研究而言,新闻比社交媒体更有价值
  在现实中,只有极少数研究人员可以获得Twitter上所有的推文,最大的学术研究通常是使用TwitterDecahose进行的,其中仅包含每日推文的大约10。
  2014年至今,Decahose上的数据仅为新闻的1。5倍。如果排除转发,新闻则会反超成为Decahose的1。2倍。
  很少有大学有足够的财力支持去订阅TwitterDecahose,因此,绝大多数基于Twitter的学术研究都是通过Twitter的搜索API(应用程式界面)进行的,该API仅提供每日推文的大约1。在此情况下,新闻实际上是其数据量的6。7倍。如果排除转发,新闻将成为其的12。2倍。
  TwitterDeveloper为学者研究提供开放数据
  因此,就大多数学者所使用的这1数据而言,Twitter在过去四年中实际上比同一时期的全球在线新闻输出的数据小几倍。而那些有幸与Decahose合作的学者,获取的数据实际上也少于他们能从新闻中得到的内容。
  更极端地假设:一个人可以获取Twitter上所有的信息,数据量也只是新闻的8倍。过滤掉所有超链接和提到别的用户(XXX)的内容,该数字将进一步缩小。
  简而言之,Twitter是一个庞大的数据集,这一点毋庸置疑。但就大多数分析所关注的实际文本内容而言,由于单条推文的字符有限,一万亿条推文实际上并没没有人们想象的那样有价值。
  在许多方面,与传统的内容平台相比,Twitter更偏向于行为数据。
  最重要的是:即使在平台信息完全可接触的前提下,Twitter实际上也并不比新闻媒体这样的传统数据集大得多。
  就大多数研究人员使用的Decahose和API而言,新闻媒体实际上提供了更大量的可分析内容,并且信息出处更明确,稳定性更高,历史背景更清晰。
  大数据时代,社交媒体巨头在数据领域占优势已经成为共识,甚至塑造了对大数据工作的定义。然而,一万亿条推文可以迅速转化成几十TB的数据,这样快速而巨大的信息流通量中,有研究价值的部分其实很少。
  而相比社交媒体,传统媒体却是巨大的未开发数据源。Twitter肯定符合大数据的所有定义,但通过仔细观察,结论是传统新闻业并不落后。唯一的不同只是:社交媒体积极突显自己与大数据的关系,而新闻业却未能在数字时代重塑自己。
  通过社交媒体与书籍、新闻的对比,最重要的启示是:当我们不遗余力地,将社交媒体神话化为大数据的集大成者时,实际上更重要的是:创造性思考如何利用围绕着我们的未开发数据,并将其带入大数据时代?
  
投诉 评论

大数据时代的数据价值迷思:新闻媒体的数据真的不如社交媒体?社交媒体平台巨大、更新速度快、内容多样,以致于人们都误以为其承载的数据肯定也是庞大而又有价值的,新闻媒体的数据权威性在社交媒体时代遭受质疑。但是,事实真的如人们所想的那样吗?社……社区团购的二维模型社区团购这个商业模式很难成为寡头经济,但会呈现区域分层、人群分层、产业分层的不同消费圈的多玩家并存的格局。我在2018年研究的最重要的知识体系商业维度,基本上能够解释许多……抖音红人美少女小惠,身为模仿者如何做到“后来者居上”?新晋的沙雕的文化当道,大家在哈哈大笑过后,开始卸下了固有认知的束缚,逐渐将本质和表现分开来。经过了一段时间“精致”风气的洗礼后,观众似乎对“粗糙”的内容回归了兴趣。谁能想……保险需求的智能分析:智能保顾互联网平台建设(十四)本文主要包括“智能投顾”这个投资顾问到底智能吗、马格维茨的投资组合理论、国内的智能保险顾问与用户在既有服务中存在转化障碍、智能保顾能够为用户带来的价值、存在的问题、能取代代理人……互联网圈的庙堂与江湖派别之争,满口道理,其实最终只不过是一场权力游戏。自“头腾”大战后,互联网江湖很久不再听闻轰隆隆的炮火声,但是雷军却在前不久打响了2019年“口水仗”的第一枪。在怼……B站还在亏钱,可有的up主已经年入百万了用爱发电的up主,到底能挣多少钱?B站和淘宝怎么合作,又如何盈利?但是目前B站还在亏钱,可有的up主已经年入百万了。2月14日,淘宝宣布入股B站占比8,成为后者第三大股东……除了专业过硬,高级设计师都得掌握的5个能力素养随着阶段的进阶设计相关的能力占比逐渐变少,更多的是其他的能力增长,所以设计师除了设计以外其他能力的重要程度显而易见,那么我们来看看除了设计以外,设计师应该掌握其他什么能力。……“万金油”短视频2018是短视频爆发元年,经过激烈的厮杀,美拍、秒拍等老势力退居二线,抖音、快手、好看视频、微视等新秀快速崛起,迅速占据了网民日常碎片化时间。据QuestMobile发布……拥有极强爆发力Keepland,能扳倒传统健身房吗?随着科技的进步,以及生活水平的不断提高,人们对健身的品质和层次的要求也不断提升,人工智能给健身提供了新的发展方向。随着生活水平提高,健身逐渐成为全民热潮。社交网络上各路达……所有社交背后,都藏着孤独和利益互联网的出现,拓宽了我们的社交面,世界各地的人共同汇聚在这里,但我们的社交圈也缩小了,我们每天面对面的成立那巴掌大小的一方屏幕。人天生就是社交动物。互联网的出现,给……各类移动支付争奇斗艳,谁才是移动支付第三极?当前移动支付首选还是支付宝与财付通,但是随着其它第三方移动支付平台的不断完善,未来移动支付行业将会越来越热闹,第三极即将走进千家万户。“嘀”,“支付成功”,从上海回乡过春……从入口、平台、出口三个视角,重新认识朋友圈线上社交是线下社交的映射,朋友圈是个开放的广场,但它也有自己的范围,本文从入口、平台、出口三个视角认识朋友圈,更好地使用它打造自身形象。距离微信上线已经八年了,2012年……
库存:服饰零售的终极悖论在社会总体消费遇冷的情况下,服饰零售业的库存不断增加,并给企业的利润与生产带来了很大的影响。基于这一背景,服饰零售业应该寻求供应链上的整体转变,破局再生。法国哲学家罗兰巴……车企们为何纷纷加入网约车战场?出行可以说是生活中非常重要的一个支付场景,当前,各大企业都在运用自己手中的资源,组建属于自己的网约车平台,未来或许又将迎来一场网约车大战。2019年快过半了,滴滴还没重新……现金贷系列(一):浅谈行业概况作为一名互金PM,笔者结合自己的行业经验以及知识积累,为我们展开了现金贷的系列文章,而这一篇作为首篇,将为我们重点介绍现金贷的行业概况。嗨,我是yizhe,是一名互金PM……2019银发数字用户娱乐行为分析随着老龄化时代的到来,整个社会的年龄结构发生巨大的变化;不同特征的银发人群对生活需求有相同的一面,也存在差异性;整体来看,银发用户负担更小,注重生活质量,在线娱乐需求增加,但不……两年做到千万用户,你还敢小看名片类产品吗?名片类产品作为商务工具中的一个类别,一直在细分领域默默耕耘。这篇文章,作者从名片类产品的发展,到现阶段几个知名产品的点评,到名片类产品的发展方向和想象空间,都给出了不错的建议,……互联网世界观工业时代的世界观是基于牛顿的时间观建立的,而互联网世界观是基于达尔文世界观和量子世界观。以下,作者详细介绍了三个特性分别的转变。每个时代的经济观、政治观、管理观都必将暗合……知识付费的套路:智商税缴纳总结与启示参加了大大小小的知识付费课程后,笔者总结了知识付费课程的推广与课程套路,同时笔者还强调了如何分辨与选择出优质课程的条件。一位纳税人的自白风和日丽的一天,我幻想着自己……直播、短视频十年回望作为产品,直播和短视频可能会被新产品的声量盖过。而作为视听工具,直播和短视频必然会继续热下去。本文核心观点:短视频和直播本质上是视听工具和渠道,并不代表内容本身,而……用不胜其烦的update,将Windows用户捆绑上未来战车一直以来,WindowsUpdate广为大众诟病,究其原因,还是由于Windowsupdate的“罪”在于过度打扰用户,让用户们在一次次漫长而琐碎的更新升级中等待。网友苦……互动视频不能为了互动而互动互动视频是今年才兴起的一个概念,其剧情走向远比固有的单线剧情要丰富,但是目前来看,互动视频并不成熟,其中还存在诸多问题需要解决。短短一个月,爱奇艺和腾讯视频不断对垒加码互……【天天问每周精选】第76期:你觉得产品经理像什么?打个比喻今天来聊个轻松的话题吧。有人说,产品经理就像是一名司机:要知道什么时候打方向盘,什么时候踩刹车,什么时候踩油门。你觉得呢?我们在天天问讨论了这个问题,大家的回复都很精彩呀,来看……一片蓝海?宠物SAAS行业竞品分析报告随着铲屎官的队伍不断壮大,越来越多的与宠物相关的需求不断涌现,这也形成了宠物店行业不断壮大的原因,而宠物SAAS行业也应运而生。因此笔者根据这种现象,对宠物SAAS行业展开竞品……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界