范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

茫茫大数据,找不到真实的我

  一、从App年度总结想开去……
  这几年每到年末,手机上一堆App就会为你推送各种年度总结回顾,IT之家小编也和大家一样,什么网易云音乐的年度总结啊、支付宝年度账单等等,看得不亦乐乎。
  人嘛,对自我总是有着本能的关注,但尼采又说,"离每个人最远的,就是他自己",说明自我认知是一件困难的事情。
  不过在互联网科技发达的今天,我们有了认识自己的新途径:数据,大数据。实际上互联网厂商们争相做的年度总结,就是大数据帮你认识自己的例子之一。
  然而乐此不疲地刷着各种年度总结H5的时候,IT之家小编又产生了一些新的思考:这些总结真的准确吗?未必,甚至有时候偏差很大。
  例如网易云音乐的总结中,小编在2018年的某天将某首歌连续听了50多次,从这条记录应该能得出一个直接的结论:IT之家小编很喜欢这首歌,但其实小编那天单曲循环这首歌时,人在忙别的,根本没在听歌;例如还是网易云音乐总结,IT之家小编2018年最喜欢的十首歌有七首都是小编不怎么听的,因为小编更喜欢将喜爱的歌下载到本地,也经常会用手机自带播放器听;再如支付宝年度账单,2018年的总结IT之家小编觉得是比较符合自己的估判的,但记得自己2017年看到账单时是有些懵的,全年总消费那一栏里,自己当年压根没那么多收入啊,记得当时网上也有很多网友如此反映。
  当然,IT之家小编说这些并不是否定年度总结存在的意义,只是由此产生了一些思考:大数据的时代,真的能够通过数据准确定义个人或者群体吗? 人是很复杂的动物,记得在哪里看过一句话:"事情可以计算准确,但人是很难计算的",而大数据应用,最核心的还是统计人的行为,这似乎成为悖论。
  如今大数据的重要性被推到很高的高度,已然成为未来大趋势,商业、医疗、教育等各行各业在进行越来越深刻的数据化改造,将来我们各种决策都需要大数据的指引。但人,如何不被大数据支配,这又是一个新的问题。
  二、大数据究竟是什么?
  我们首先要清楚认识大数据,理解它的意义。
  百度百科上的解释是:
  大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  这段解释涵盖了大数据的三个特点:海量、高速变化、多样化,从中可以衍生出另外两个特点:因为海量,所以是低价值密度的;因为海量、高速变化且多样化,所以也是具有真实性的。总结起来就是五个特点:海量、高速变化、多样化、低价值密度、真实 。当然,这不是IT之家小编总结的,是行业的普遍共识~
  ▲图片来源Wikimedia Commons
  但怎么理解这五个特点呢?其实IT之家小编只需说一个例子就可以讲通这五个特点,即对比传统的统计调查数据。在传统统计学中,因为过去我们收集数据处理数据的能力有限,不可能把所有数据都收集到,所以很强调数据样本,样本量的大小、丰富度,以及是否随机,都影响统计分析的结果。通过数据样本,分析数据相关性的规律,总结出一定的理论、模型,这是我们以前做的事情。
  而大数据,则是反其道行之,它要的不是样本,而是追求所有的数据, 所有的数据相信大家都懂的,这是多么庞大,而且是源源不断产生的,每个人做不同的行为,都会产生不同的数据,所以也是多样的,因为没有样本,它的价值稀疏,毕竟不是每个人做得每件事产生的每个数据都是有价值的,但是它很真实,而样本和现实之间,永远存在误差。
  大数据的思路之所以能够实现,是因为在互联网科技强大的今天,我们有能力去收集如此海量的数据,也有能力去处理、分析它们。通过一个大数据的逻辑图,大家可以更好地理解它:
  总体来说,大数据的体系逻辑包含数据收集、数据存储、资源管理和服务协调、计算引擎和数据分析这五个层次。
  数据收集,主要通过互联网数据抓取和客户端、终端推送,例如你在电商网站购买东西,使用手环运动的数据也会上送到数据中心,它的特点是分布式,多样化,源源不断地产生,并且是异构的,即有很多数据源;
  因为收集的数据有这些特性,所以对于数据存储,要求具有可扩展性,容错能力高,并且支持多种存储模型,这甚至体现在数据库设计这种最要求精确的领域,传统的关系型数据库(如MySQL)和文件系统就比较难适应大数据时代的要求;
  资源管理和服务协调,这里涉及到应用的部署,大数据时代,需要将应用部署在公共集群中,这样才能提高资源利用率和实现数据的快速共享,否则那么多数据对应独立的服务器,要被拖死;
  计算引擎和数据分析同理,数据量的极大丰富让应用场景也越来越繁杂,计算引擎越来越多样且专注,数据的分析同样也需要分布式计算方法。
  总的来说,大数据从技术上来说就是因为数据量实在是太大了, 无论是数据的收集、存储还是处理都需要很多机器一起做,这个过程,不得不提的就是云计算。
  所谓云计算,IT之家小编总结就是将庞大集群的虚拟化电脑进行统一调度的能力,它天然满足大数据的需求,所以云计算是释放浩瀚大数据价值的驱动力,两者如同共生,为了不跑题,这里就不进一步讲了。
  三、只求相关,不问因果
  大数据能成为未来的趋势,有两个条件,一是具备颠覆性,二是正面意义大于负面意义。那么大数据颠覆了什么?
  英国牛津大学教授、数据科学家维克托·迈尔·舍恩伯格在他的《大数据时代》这本书中,将大数据的颠覆性凝练为三条:
  首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
  其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
  最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
  从上面IT之家小编的介绍相信你能总结出,大数据带来的各种改变,归根结底在于其数量实在庞大多样,它要的不是样本,而是所有数据,这就造成它必然混杂,难以追求精确性,在大数据里,混乱不是缺点,而是一种必要,这已经是颠覆人的正常思维了;
  再往下,以往我们需要样本,总是需要在样本数据中找到一些既定的因果关系,然后提炼成理论,从样本到整体,然后总结成方法,这是我们做事的基本逻辑,而在大数据时代,你不需要这样了,因为我们有足够多的数据,我们要做的事情是找到目标数据之间的相关关系,然后发现趋势,大数据会告诉我们接下来该干什么,而我们,不需要问为什么,负责决策就行了, 不要小看这个转变,它说明我们认识世界方式的改变。
  2003年,美国计算机专家奥伦·艾奇奥尼(Oren Etzioni)乘坐飞机,和乘客的交谈中发现自己的机票买贵了,内心一万头草泥马奔腾而过后,他萌生了一个想法:能不能有一个工具能够预测机票的波动趋势,帮大家省钱?说干就干,然后他就真的创立了一个系统:通过从旅游网站爬取41天内的12000个价格样本,来判断机票的未来走势,这个小项目后来发展成为科技创业公司Farecast并被必应收购。在后来的系统中,Farecast基于美国一个行业的机票预订数据库,跟踪每一条航线每一架飞机每一个作为一年内的票价记录,从而判断机票价格变动的趋势,然后这个系统大获成功,还被用到其他领域。
  ▲奥伦·艾奇奥尼,图片来源:Wikimedia Commons
  这是大数据应用的一个经典案例,在这个案例中,奥伦·艾奇奥尼明确表示,他不需要弄清楚机票价格波动和时间或者其他因素之间的因果关系,只是要从所有的数据中分析出规律,然后给出可能的结果。你不要问为什么,只需要知道机票接下来会涨还是会跌就行了。
  还有一些例子,如沃尔玛在上世纪九十年代就开始进行将产品记录为数据的工程,2004年,他们对这个庞大的数据库进行观察,发现每当季节性飓风来临,不仅飓风用品销量增加,POP-Tarts蛋挞的销量也随之增加,所以他们把飓风用品和蛋挞放在一起,在这个例子中,你同样不用知道人们买飓风用品的同时为什么还喜欢买蛋挞而不是其他,你只需要发现这个现象,然后做决策就行,而且海量的大数据,能够为这个趋势的准确性提供一定的保证。
  还有德国通过手机家庭太阳能用电的海量数据预测未来2-3个月智能电网需要的电量来降低成本;丹麦的维斯塔斯风能系统通过研究风力和天气、湍流度等数据以及全球数万个受控涡轮机组传感器数据,来判断涡轮发电机设置的位置,从而提高能源产出的效率和数量等等。
  上面这些案例中,大家都不需要考虑事物之间的因果关系,不需要研究背后的原理,不需要建立模型,只需要对海量的庞大数据做分析。 IT之家小编认为,这是大数据最大的颠覆性,如果我们的思维不转变,最终会被大数据时代抛弃。
  四、争议
  谷歌研发总监曾Peter Norvig在2011年的一次讲话中表示,"我们没有更好的算法,我们仅仅是有更多的数据",后来他在一次对自己言论澄清的文章中说:
  如果模型无论如何都有可能出错,为什么不看看你是否能让计算机从数据中快速地学习模型,而不是让一个人费力地从许多思想中推导模型?
  这应该是对大数据很直接的解释了。
  ▲谷歌研发总监曾Peter Norvig,图片来源:Flickr
  比这个更为激进的是《连线》杂志主编克里斯·安德森(Chris Andersen),他在2008年就说过"数据爆炸使科学的方法都落伍了",后来,他又在《The Petabyte Age》这篇文章中提出了"理论的终结"的观点,说
  现在已经是一个有海量数据的时代,应用数学已经取代了其他所有的学科工具,而且只要数据足够,就能说明问题。
  ▲克里斯·安德森,图片来源Wikimedia Commons
  安德森的这篇文章当时引起了很大的争议,数据取代理论,这听起来的确有些荒谬。在《大数据时代》中,舍恩伯格对这个观点进行了辩驳,他表示大数据从来不会叫嚣"理论已死",相反,大数据的方方面面也被理论影响着。 例如在数据分析的时候,我们也需要理论的支持。
  五、愿问东西,且问因果
  2009年,谷歌流感趋势研究团队(GFT)在《自然》杂志上发表论文,展示了分析数十亿搜索中45个与流感相关的关键词,从而能比疾病预防控制中心提前两周预报2007-2008季流感发病率的过程。这在当时引起了震惊,这说明人们不需要等待疾控中心的报告,就能及时知道未来医院的就诊人数,从而提前预防,显然这将让很多人避免痛苦,免受巨大的损失。这成为谷歌运用大数据最早和最经典的案例之一。
  然而,后来有学者发现,2009年,谷歌没有准确预测到非季节性流感A-H1N1,而在2011年8月到2013年8月的时间里,谷歌有100周高估了CDC报告的流感发病率,到2013年,谷歌调整算法后仍然存在高估的现象。
  又回到文章开头:有时候,大数据可能也不那么准,甚至可能离谱。
  IT之家小编认为,存在这种情况的原因,可能恰恰就在于大数据最大的颠覆性:只追求数据的相关性,而不关心因果关系。 所以,这就像硬币的正反两面,如果使用不当,也可能带来严重的危害。特别是在风口期,大数据被鼓吹以至被滥用时,风险更大。
  IT之家小编在文章开头所说的App年度总结和你实际状况不符合的案例,其实只是大数据最细枝末节的应用,现在到未来,毫无疑问大数据会被运用在更多的行业,风口也会越刮越强,但如果你没有理智运用大数据,只是一昧的迷信,那么后果可能也会惨烈,例如金融企业在数据量没有达到标准的情况下就自以为通过大数据判断个体的信誉程度而对外放贷,后果可想而知;再例如教育方面,未来你真的敢于完全听凭大数据的分析结果来决定报考哪座院校和规划职业生涯方向,而不是遵从自己的兴趣?还有利用大数据相亲的,则更不消说了。
  你真的敢相信大数据里描绘的你的画像,就是真实的你?即便它与你有90%以上的相似度,你真的敢将自己的所有决策放心交给大数据?
  所以,IT之家小编认为,在大数据时代全面到来之前,我们首先需要探讨的,是大数据运用的边界在哪里?
  当然,这个边界不是IT之家小编一人就能划定的,但小编认为,大数据之外,"小数据"仍然重要,"大小结合"是一种更可取的方式,我们既要判断趋势,也需要深究原理。
  还有就是,在讨论到和自我相关的问题时,永远要遵从内心的自我,就像在大数据里,混杂比精确更重要,在现实里,对自己的感觉,往往比数据更重要。
  总之,愿问东西,且问因果,则幸甚。
  本文参考资料:
  芯联天下,2018-06-21,《终于有人把云计算、大数据和人工智能讲明白了!》
  CSDN,2017-03-14,《从谷歌流感趋势谈大数据分析的光荣与陷阱》
  维克托·迈尔·舍恩伯格,2012,《大数据时代》
  董西成,2018,《大数据技术体系详解:原理、架构与实践》

上市在即,小鹏汽车将港股IPO价格定在165港元股IT之家6月30日消息小鹏汽车6月23日通过港交所上市聆讯。最新消息显示,小鹏汽车将港股IPO价格定在165港元股。IT之家了解到,小鹏汽车成立于2014年,总部位于广州,是广州橙华为胡厚崑AI普惠的瓶颈在开发效率上,而非技术和应用上7月8日上午消息,2021世界人工智能大会期间,华为轮值董事长胡厚崑在开幕式上发言表示,人工智能让城市服务的效率和温度提升了。去年疫情期间,上海12345的热线平均一个月处理60多英特尔10nmIceLake笔记本芯片图形性能提升2倍IT之家5月27日消息英特尔的IceLake笔记本处理器将于今年晚些时候出货,这将是第一批大批量生产的英特尔10nm芯片,也是英特尔第10代Core系列的第一批成员,并且也将是第一台积电张忠谋半导体要全靠未来的努力才能维持领先10月24日下午消息,据中国台湾地区媒体报道,台积电创办人张忠谋23日接受电台专访时表示,他很习惯现在的退休生活,但并不是完全退休,因为忙于写自传下册。谈到台湾地区半导体产业往后的AMD季度业绩不及预期股价下跌22四年中最惨10月25日消息,据美国媒体报道,由于公布的第三季度财报不及分析师预期,而且第四季度展望依然疲软,当日AMD股价大跌。AMD称,第三季度实现营收16。5亿美元,同比增长4,每股收益苹果CEO库克要求彭博社收回涉中国芯片报道北京时间10月20日早间消息,苹果CEO蒂姆库克(TimCook)周五表示,彭博社应当收回关于苹果内部计算机系统被中国植入恶意芯片进行渗透的报道。彭博社则表示,坚持本月早些时候发布电商巨头,谁将征服印度?像印度的许多社区商店一样,SriLakshmiVenkateshwaraKirana(kirana,印度的私营小店)又小又挤袋装洗发水和薯片被挂在天花板的挂钩上,柜台上的罐子里装满用户笑了第三方商家哭了,亚马逊免费试用服务动了谁的奶酪?两年前,亚马逊通过禁止购物者直接从商家那里获得免费商品以换取刷单评论来打击虚假评论。这是这家世界上最大的在线零售商的一个重大转折点,此前,他们将激励性评论视为消费者发现新产品的关键新西兰不排除禁止华为参与5G建设的可能性据外媒报道,在澳大利亚秘密间谍机构负责人MikeBurgess发表了如果华为和中兴通讯被允许建设澳大利亚的5G网络,那么国家的电网和供水将得不到充分保护这样的言论后,新西兰通信部长高通8核新U现身GeekBench跑分看齐麒麟980IT之家10月31日消息之前,一款基于ARM64的高通msmnile设备出现在GeekBench4跑分网站,从跑分情况来看,该款芯片单核跑分3697,多核跑分10469,这要比高通调查华为在英国品牌知名度显著上升YouGovBrandIndex的数据显示,华为在英国的品牌知名度近两年来从45上升至60,有越来越多的英国人愿意购买华为智能手机。分析师指出,华为最新机型Mate20Pro将有助
抖音测试通讯录功能,向微信看齐感谢IT之家网友肖战割割的线索投递!IT之家12月28日消息,据Tech星球报道,抖音在近期测试了类似于微信的通讯录功能,用户可以在该界面查看所关注的抖音好友,并发起聊天,另外还能相爱相杀,消息称马斯克2015年曾把特斯拉CEO职位让给现任大众CEO北京时间4月13日晚间消息,据报道,早在2015年,特斯拉曾计划任命赫伯特戴斯(HerbertDiess)为公司CEO。戴斯现为大众汽车CEO。报道称,2015年,在戴斯从宝马汽车快手打击网络招嫖,处置此类违规账号34768个IT之家5月19日消息,快手发布关于打击招嫖的处罚公告,表示,近期,平台接到举报,发现有不法分子在直播间内隐晦发布网络招嫖暗语及联系方式,诱导用户添加其微信QQ等社交账号进行线下交快手打击不良直播行为,严厉打击诱导未成年人打赏IT之家5月19日消息,昨日晚间,快手发布关于开展直播专项治理的公告称,持续加大对不良直播行为的打击力度,全面清理色丑怪假俗赌等各类违法违规内容。快手在公告中表示,本次专项行动将进消息称快手电商成立房产业务中心,探索直播卖房业务感谢IT之家网友蓝海岸Nibiru航空先生LLJ的线索投递!IT之家5月8日消息,据界面新闻报道,从知情人士处获悉,快手电商今年4月发内部信宣布成立消费业务中心和房产业务中心,两个隆基股份公布专利纠纷进展,荷兰法院判其六款组件侵犯韩华专利IT之家3月7日消息,昨日,隆基股份发布关于韩华起诉公司专利侵权的进展公告称,荷兰海牙法院判决荷兰隆基不得实施涉及HiM03HiM03mHiM04HiM04mHiM05HiM05m国产AG60轻型运动飞机首架批产机验收交付IT之家3月2日消息,据航空工业通飞所消息,2月24日,航空工业通飞所属浙江通飞野马飞机制造有限责任公司AG601016架机在建德千岛湖通用机场成功完成生产验收和客户验收试飞。图源EA正式以12亿美元收购F1尘埃开发商CodemastersIT之家2月24日消息本月初,IT之家就报道EA将以12亿美元收购F1尘埃开发商Codemasters,现在这项收购已经达成。EA战略增长执行副总裁表示,Codemasters的工赛博朋克2077被黑客盗取数据泄露,开发商CDPR承认了北京时间6月11日下午消息,据报道,波兰视频游戏发行商CDProjekt今日表示,目前无法证实网络上流传的黑客数据的确切内容,但相信这些数据与其游戏承包商,以及现任和前任员工有关。ATampT将以430亿美元与Discovery合并媒体资产,剑指Netflix北京时间5月18日早间消息,HBO华纳兄弟母公司ATampT与探索频道(Discovery)准备将内容合并,建成独立的全球娱乐媒体平台。探索频道CEO大卫扎斯拉夫(DavidZasNetflix高管付费订阅用户增长不及预期是受疫情影响北京时间4月21日早间消息,美国视频流媒体服务提供商Netflix今日公布财报称,该公司2021年第一季度营收为71。63亿美元,比去年同期的57。68亿美元增长24。2净利润为1