众所周知,算法、算力与数据是人工智能(AI)发展的三驾马车,吴恩达等学者也常说:以数据为中心的AI,或数据驱动的AI。 由此可见,近年来激增的数据量是AI腾飞的源动力之一,数据在AI中扮演重要角色。那么,人们口中常说的大数据,规模究竟有多大呢? 出于好奇心,一位意大利物理研究者LucaClissa调查了2021年几个知名大数据源(谷歌搜索、Facebook、Netflix、亚马逊等等)的规模大小,并将它们与大型强子对撞机(LHC)的电子设备所检测到的数据做了对比。 地址: https:arxiv。orgpdf2202。07659。pdf 毫无疑问,LHC的数据量是惊人的,高达40kEB。但商业公司的数据量也不容小觑,比如,亚马逊S3存储的数据量也达到了大约500EB,大致相当于谷歌搜索(62PB)的7530倍。 此外,流数据在大数据市场中也占有一席之地。Netflix和电子通信等服务产生的流量比单纯的数据生产者要多一到两个数量级。LHC的数据量 根据LucaClissa的调查,2021年各大知名数据源的体量大约如下: 图注:2021年的大数据规模 右上角(灰色部分)是欧洲核子研究组织(CERN)大型强子对撞机(LHC)实验的电子设备所检测到的数据,规模最大。 在上一次运行(2018年)中,LHC在四个主要实验(ATLAS、ALICE、CMS和LHCb)中的每一个实验里,每秒产生大约24亿次粒子碰撞,每次碰撞可以提供约100MB数据,因此预计年产原始数据量约为40kEB(10亿千兆字节)。 但根据目前的技术和预算,存储40kEB数据是不可能的。而且,实际上只有一小部分数据有意义,因此没有必要记录所有数据。记录的数据量也降低到了每天大约1PB,2018年的最后一次真实数据只采集了160PB,模拟数据240PB。 此外,收集的数据通过WLCG(全球LHC计算网络)不断传输,2018年产生了1。9kPB的年流量。 不过,欧洲核子研究组织(CERN)正在努力加强LHC的能力,进行HLLHC升级。这个过程预计生成的数据量将增加5倍以上,到2026年,每年估计产生800PB的新数据。大厂数据量对比 大公司的数据量很难追踪,且数据通常不会公开。对此,LucaClissa采用了费米估算法(Fermiestimation),将数据生产过程分解为其原子组成部分,并做出合理的猜测。 比如,针对特定数据源,检索在给定时间窗口内产生的内容量。然后通过对这些内容的单位大小的合理猜测来推断数据总量,例如平均邮件或图片大小,1小时视频的平均数据流量等等。 他对谷歌搜索、YouTube、Facebook等等数据源进行了估算,结论如下: 谷歌搜索:最近的一项分析估计,Google搜索引擎包含30到500亿个网页。根据WebAlmanac所提供的信息,假设谷歌的年度平均页面大小约为2。15MB,截至2021年,Google搜索引擎的数据总规模应约为62PB。 YouTube:根据Backlinko的数据,2021年用户每天在YouTube上上传的视频时长为72万小时。假设平均大小为1GB(标准清晰度),2021年YouTube的数据大小约为263PB。 Facebook与Instagram:Domo的DataNeverSleeps9。0报告估计,2021年Facebook与Instagram每分钟上传的图片数量分别为240k和65k。假设平均大小为2MB,则总共大约为252PB和68PB。 DropBox:虽然Dropbox本身不产生数据,但它提供了云存储解决方案来托管用户的内容。2020年,公司宣布新增用户1亿,其中付费订阅用户达到117万。通过推测免费和付费订阅的占用率分别为75(2GB)和25(2TB),Dropbox用户在2020年所需的存储量约为733PB。 电子邮件:根据Statista的数据,从2020年10月到2021年9月,用户大约传送了近131,000亿次电子通信(包含71,000亿封电子邮件和60,000亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为75KB和5KB,我们可以估计电子邮件的总流量约为5。7kPB。 Netflix:Domo估计,2021年Netflix用户每天消耗1。4亿小时的流媒体播放,假设每小时1GB(标准定义),总计大约51。1kPB。 亚马逊:亚马逊网络服务(AWS)的首席布道师JeffBarr称,截至2021年,亚马逊S3(SimpleStorageService)中存储了超过100万亿个对象。假设平均每桶的对象大小为5MB,那么存储在S3中的文件的总大小则约等于500EB。 总的来说,科学数据可以在数量上与商业数据源相媲美。 参考链接: 1。https:towardsdatascience。comhowbigarebigdatain20216dc09aff5ced 2。https:firstsiteguide。comgooglesearchstats 3。https:backlinko。com 4。https:mms。businesswire。commedia20210929005835en9113945dataneversleeps9。01200px。jpg?download1 5。https:backlinko。comdropboxusers 6。https:www。statista。com 7。https:aws。amazon。comcnblogsawsamazons3s15thbirthdayitisstillday1after5475days100trillionobjects 8。https:atlas。cern