范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

在大数据面前,每个人都是赤裸的

  ​
  「我的女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,这是在鼓励她怀孕吗?」
  一个男子冲进一家商店,要求经理出来见他,并怒不可遏地说出了上述这句话。
  几天后,经理打电话向这个男人致歉时,他的语气却变得平和了起来:「我跟我女儿谈过了,她的预产期是8月份。是我完全没有意识到这个事情的发生,说抱歉的人应该是我。」
  ——《大数据时代》
  上面这段内容讲的是美国一家零售商通过分析大量女性的消费记录,根据购物的内容变化来推测怀孕的月份乃至预产期,据此来精准投放购物广告。
  结果表明,拥有大量数据的机器比粗心的父亲更早知道女儿的身体状况。这无疑是让人汗颜的。
  这个例子仅仅只是大数据应用的一个缩影。事实上,在这个大数据时代,万事万物产生的海量数据之中蕴藏着丰富的信息,把握好了就是无数的商机。
  什么是大数据?
  从字面的意思来看,大数据就是大量的数据。业界一般认为数据量达到普通的设备存不下,算不动的程度,就可以称之为大数据了。
  「大数据又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。」
  —— 维基百科
  「大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。」
  —— 百度百科
  「大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。」
  —— MBA智库
  从上面的几种定义可以看出,首先,数据量要大到常规方式无法处理的程度;再者,大数据作为信息资产,需要通过处理从中获取价值信息。
  大数据到底有多大?
  普通个人电脑所能存储的数据,一般是几百个GB到几个TB的级别。
  例如,常见的固态硬盘,512GB就已经比较大了;常见的机械硬盘,可达1TB/2TB/4TB的容量。
  表达数据容量的KB,MB,GB和TB之间的关系,大家应该都很熟悉了:
  KB(Kilo Byte)— 千字节,也就是1024B
  MB(Mega Byte)— 兆字节,也就是1024KB
  GB(Giga Byte)— 吉字节,也就是1024MB
  TB(Tera Byte)— 太字节,也就是1024GB
  而大数据是什么级别呢?PB/EB级别。其实就是在TB的基础上每一级接着乘以1024。
  PB(Peta Byte)— 皮字节,也就是1024TB
  EB(Exa Byte)— 艾字节,也就是1024PB
  ZB(Zetta Byte)— 泽字节,也就是1024EB
  YB(Yotta Byte)— 尧字节,也就是1024ZB
  上述的这些大的单位在日常生活中几乎接触不到,而且常人也已经无法直观地感受到这些单位能大到什么让人吃惊的程度。下面我们举个简单的例子来说明。
  一本《红楼梦》:纯文本(未压缩),约2MB
  一张1200万像素的照片(未压缩):约34MB
  一部90分钟的电影(H.264编码):约2.5GB(也就是2500MB)
  这样算下来,一块1TB的硬盘大约可以存储50万本电子书,3万张图片,400部电影。假定三天时间看完一本书,这50万本就需要4000多年才能看完。
  1PB的容量大约可存储5亿本书,3千万张图片,或40万部90分钟的电影。看书的时间过于夸张就不说了,这些电影也需要持续近140年时间才能看完。
  1EB这个单位的庞大已经超乎了人们的想象,仅仅存放这些数据需要大约2000个机柜的存储设备。
  如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
  真的有企业会产生如此海量的数据吗?
  事实上,阿里、百度、腾讯这样的互联网巨头,因为其拥有数亿的用户,这些海量用户产生的数据量早已超越PB级,接近EB级。
  大数据是怎样产生的?
  随着互联网,物联网的发展,万事万物皆可连接,皆可源源不断地产生数据,从涓涓细流汇聚成汪洋大海。
  经过移动互联网的大爆发,中国的上网用户数已经约等于智能手机的用户数,通过4G网络随时连接,实时在线。
  这些用户在手机上的每一次滑动和点击,都会被各式各样的APP上传并存储,以及在微博,微信,知乎,抖音等各种社交或者UGC类APP上创作的文本,图片和视频,形成海量的数据。
  物联网方面也不遑多让。据GSMA智库预测,到2025年全球将会有18亿移动物联网连接(总共31亿蜂窝物联网连接),以及138亿工业物联网连接,其中63亿在亚太地区和中国,占总数的65%。
  如果放在以前,计算机的硬件(存储,计算)等资源还很金贵的情况下,这些数据只能是经过简单汇总之后就被丢掉。
  然而随着技术的发展,计算机硬件的存储和计算能力越来越强,越来越不值钱,这些原本被认为食之无肉弃之有味数据才能被大量存储和处理,并挖掘价值。
  目前微信拥有11亿的用户,每天发送数百亿条消息,还有朋友圈,支付,扫一扫,摇一摇等多种行为都存储在微信的后台。
  如果要从这些海量数据中分析所有微信用户的行为习惯,比如每天的使用时长,偏好发语音还是文字,对哪些类型的公众号感兴趣等数据就没有那么简单了。这就是各种大数据技术诞生及发展的驱动力。
  大数据有哪些特点?
  由于大数据的描述众说纷纭,4个V,5个V,乃至8个V的说法都有。本文就简采用IBM的4V说:大量(Volume),高速(Velocity),多样(Variety),价值(Value)。
  1、大量:这一点是大数据最基础的属性,前面讲过了。也就是说:大数据分析的是所有样本,不是随机抽样,因此可进行多维度,更详细的分析。
  2、高速:数据产生地快,对分析和使用的速度要求也很高。如果像刻舟求剑一样,分析地虽然精确,但耗时过长,以至于结论早已过时,终究是没有用处的。
  试想一下,在网上买书的时候,系统会根据目前浏览的书来智能推荐用户还可能感兴趣的其他书,这个是要求秒级响应的。如果过了半小时才算出结果来,用户很可能早都购物结束了。
  3、多样:数据的来源多种多样,格式不一,既有传统的结构化数据,更多的则是非结构化数据。
  结构化数据就是可以按照预定义的关系模型来存储的数据。
  非结构化数据指的那些没有固定格式,内容需要分析识别才知道的数据,一般就是网页,图片,音频,视频等数据。这些数据占比可达80%以上。
  也就是说,大数据不是精确性,而是混杂性,只要这些数据拥有可供挖掘的信息,就都来者不拒。
  4、价值:数据虽多,但价值密度很低,必须经过大量的分析和提取,才能较为准确地发现其中蕴藏的规律。
  据不完全统计,公安机关全国每年需要存储的数据量高达3.3EB,结合视频监控和人脸识别,实现犯罪嫌疑人的快速识别和实时布控。
  中国的犯罪率是很低的,收集并存储如此多的数据,就是为了进行大海捞针,可见大数据的价值密度之低。
  并且,大数据的价值体现在对数据内部的相关性的挖掘,而非对因果性的求索。这个世界是复杂的,有相关性的事件之间不一定有直接的因果关系。
  我们不必纠结于事件之间具体的前因后果,只要知道它们之间是有正向或者负向联系的,只需照着做就能体现数据分析的价值了。这是一种实用主义的态度。
  举例来说,沃尔玛超市发现把啤酒和尿布放在一起时,啤酒的销量会大幅增加。此时摆在老板面前两个选择:是继续研究苦苦研究这个现象内在的因果关系呢,还是赶紧所有门店都如此配置起来好更快地赚钱?
  答案显然是后者。大数据分析是用来发现相关性来创造价值的,而非探索因果关系进行科研。
  大数据有哪些用处?
  1、用户画像
  「千万人撩你,不如一人懂你。」在现实世界里,唯一懂你的TA就是默默关注着你的大数据。
  你的一举一动,都被各种APP记录下来并进行分析,找出典型特征,并据此跟你打上各式各样的标签。这些标签汇聚起来就是你这个人在网络上的化身,美其名曰「用户画像」。
  通过搜集并分析多维数据,这些用户画像可以包罗万象,每一个用户在大数据面前都是一丝不挂的。基于对用户的了解,各种各样的精准营销就可以高效进行了。
  如此一来,你打开购物APP,醒目位置显示的都是自己想要买的东西;打开资讯APP,头条里面推荐的都是自己偏好的内容;打开搜索引擎,搜出来的东西都正好是自己想要找的。
  亚马逊技术专家曾经说过:「如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。」
  2、决策支撑
  在移动通信领域,所有用户产生了海量的信令交互,网络测量报告,以及各种各样的业务数据。
  这些信息都是被记录下来的,除了可以用来追踪用户,解决故障之外,还能用来了解自身的网络覆盖,容量,用户满意度等指标,并能和对手进行对比分析。
  基于这些大数据的分析结果,网络优化,用户体验提升等操作都可以有的放矢,更为方便高效。
  在医疗领域,大量患者产生的海量数据可以用来进行临床治疗对比,药品研发,疾病诊断,甚至还能作为医保政策,额度等调整优化的依据。
  除了上面的例子之外,大数据还在互联网,金融,以及各种垂直行业内部都有着丰富的应用场景。总结起来就是「知己知彼,百战不殆」,「运筹帷幄,决胜千里」。
  大数据和云计算,人工智能及5G之间有什么关系?
  由于大数据分析需要对大量的数据进行分解,统计,汇总,一台机器肯定搞不定,于是就有了分布式计算的方法。
  也就是说,将大量的数据分成很多的小份,每台机器只处理其中的一小份,多台机器并行处理,处理速度得以大幅提升。
  例如著名的Terasort对1个TB的数据排序,如果单机处理,怎么也要几个小时,但并行处理,仅需要209秒即可完成。
  在分布式计算框架下,大数据的处理,可以分为数据收集,数据存储,数据处理(资源管理与服务协调,计算引擎),数据分析,数据可视化这几层。
  大数据需要大量的服务器资源,但这些资源可能并不是随时都满负荷工作的。例如使用大数据来分析公司的财务情况,可能只需一周分析一次,但把这成千上万台机器放在机房里,每周用一次是非常浪费的。
  这正是云计算诞生的初衷。如果能在不同的时间,把这些闲置机器提供的网络,存储以及计算能力共享给其他公司使用,资源的利用率将大大提升。
  云计算通过硬件资源的虚拟化,相当于平台的提供者,而大数据是海量数据的高效处理,相当于云计算平台上的大型应用。
  那大数据和人工智能有没有关系?实际上,大数据是人工智能发展的前提。
  目前人工智能的主流算法是深度学习,其能够大展身手需要两个条件:强大的计算能力和高质量的大数据。其中最具有代表性的系统,就是著名的「谷歌大脑」。
  这是一个庞大的深度学习计算框架,拥有数万台高性能的计算机和顶级图形处理器组成的计算单元,可以完成大规模,多维度,多层次的深度学习模型训练。
  据悉,在谷歌大脑建立不久,谷歌就使用了一个拥有16000的CPU组成的超大规模计算机集群,让机器用深度学习模型自己「看」了一千万段视频,终于把人工智能训练地学会了如何从视频中辨认出一只猫来。
  因此,没有大数据所提供的足够的学习样本,深度学习系统搭建得再完美也没用。可以这么说,深度学习算法是灵魂,云计算是肉体,大数据则是粮食。
  没有粮食,肉体和灵魂就都成了空中楼阁。只有这三者合力,才能揭开人工智能应用的新篇章。而5G提供的万物互联,正是人工智能的粮食——大数据产出的肥沃土壤。
  这就是大数据和云计算,人工智能,以及5G之间剪不断理还乱的联系。
  好了,本期的内容就到这里,希望对大家有所帮助。
  —— 全文完 ——
  参考文献:
  1、《大数据时代》,维克托•迈尔•舍恩伯格,肯尼思•库尼耶
  2、《看懂"大数据",这一篇就够了!》,鲜枣课堂
  3、《大数据技术体系详解,原理,架构与实践》,董西成

新家宿舍没宽带,用华为移动路由Pro帮你解决无论是新房子或者一些公寓宿舍也好,经常都没有可用宽带网络的,尤其那种新建的楼盘,宽带网络都是三网统建的,三个运营商同时接入,而施工和维护都是楼盘来做的,所以你报了宽带,可惜你的那个5元100M宽带广电的宽带会更好吗?说起宽带,大家第一反应就是三大运营商了。但很多人往往记不起甚至还不知道广电其实也有固网宽带业务。如今,在5G时代,广电这个第四大运营商也要在宽带业务领域再度发力了。不过,广电的宽带特发服务2021年营收16。91亿新增字节跳动蚂蚁集团等项目观点网讯4月25日,深圳市特发服务股份有限公司发布2021年年度报告。据观点新媒体了解,报告期内,特发服务实现营业收入16。91亿元,较上年同期增长52。54实现净利润为1。17亿设立省级科研基金优化科技信贷风险补偿机制河南省财政厅全力支持科技创新大河财立方消息4月25日,据河南省财政厅消息,近年来,河南省财政坚持把支持实施创新驱动发展战略摆在重要位置抓牢抓实,持续完善科研经费保障机制,充分调动各方资源力量,不断拓宽经费投入你对移动公司有什么意见和看法这里的移动公司,应该是可以理解成中国移动,中国移动一直以来凭借着优秀的信号覆盖,众多的服务网点,准确的费用计算,这些特点而广为大众所知。毫无疑问地占据了中国三大运营商之首的位置。在Filecoin和Arweave的区别在哪里?谁更有前途?有很人不清楚AR和FIL,不知道它们有什么区别,今天来聊一下这个话题,抛砖引玉,如果有错漏,欢迎指正。AR宣称的是一次交费,永久存储,这个是其最大的亮点。我们知道,每年有大量数据丢高度有序晶态金刚石结构纳米线首次合成(记者赵路)北京高压科学研究中心毛河光院士与郑海燕李阔课题组,首次在高压下合成出高度有序的晶态金刚石结构纳米线,并确定了其具体结构,详细研究了从三嗪单体到金刚石纳米线的反应路径,揭极蜂A306超薄对讲机上手轻巧实用,10公里通话距离110小时待机手机的功能虽说早已非常强大,但却因网络信号的限制,像户外运动人群众多的大型活动中,手机却会因为无信号或网络不佳,导致不能正常跟队友同事随时保持联系,所以拥有抗干扰能力强声音清晰洪亮汽车行业的基本工具FMEA是什么?有什么功能?回答这个问题之前,先来看一组数据图2020年缺陷涉及总成召回数量分布这组数据是今年市场监管总局发布的关于2020年全国汽车和消费品召回情况。从数据上可以看出,车辆召回的原因来自于不重新审视炸窝app的爆品要素爆品战略这本书,开始主要是从公司电商业务角度去看的,也可以完全审视炸窝app。最后一章,爆品干掉爆品,人人网曾经是电脑时代的一款爆品,是大学生必上的社交网站,也被称为中国版的Fac旗舰影像,出众表现,vivoX80系列带来顶级影像表现现代年轻人几乎人手一台手机,手机已经成为我们日常生活中重要的工具,给我们带来许多便捷服务。近年来,手机的影像技术快速升级,vivo作为移动端影像技术的推动者,给我们带来许多影像创新
从跨境0基础到开店3天就实现盈利的宝妈,她的秘诀竟如此简单?正派速卖通孵化班学员喜报连连!短短几天累计出单60单,每天日出10单的好成绩!!!原来,靠的是这个秘诀。本期正派采访对象人物介绍三位孩子的宝妈38岁的大姐姐一名主要经营产品母婴类产ampampquot万圣节ampampquot超500亿的播放量,如何利用TikTok做好节日营销众所周知,西方的盛大节日都集中在Q4,特别是媲美国内电商618双11的黑五和网一,是属于西方人的购物狂欢。卖好这一季,明年歇半年旺季多爆单,来年换车房这些跨境圈的说法并不是空穴来风阿里巴巴成为杭州亚运会合作伙伴据创见从2022年第19届亚运会组委会获得的消息,2月10日下午,杭州亚运会官方信息技术集成和云服务合作伙伴官方金融科技服务合作伙伴签约发布会在阿里巴巴西溪园区举行。阿里巴巴(中国腾讯新闻未来如何做内容?观众究竟看什么?12月3日,2019腾讯ConTech技术大会在京举办。来自全球的顶尖人工智能学者5G专家投资决策人,与现场近1500位行业人士齐聚一堂,探讨好内容与新科技融合的机遇与挑战。内容行可穿戴设备,苹果2020年的遮羞布本周苹果公布了应用商店(AppStore)的数据情况,其增长速度在2019年严重有所放缓(2019年的增长速度为2。9,2018年该数字为30),这是一个潜在的负面信号,表明受到i腾讯版Switch满满的尴尬与希望12月10日凌晨,腾讯引进的国行正版NintendoSwitch(以下均简称腾讯版Switch在天猫和京东旗舰店以及授权线下店与国内民众见面了。在腾讯版Switch公布会后,舆论引这些是全国最难打车的地点你遇到了吗?在移动出行时代,共享出行作为一种重要的出行方式,让人们的生活变得更加便利。但共享出行市场快速发展的同时,用户需求并未得到充分满足。在全国主要城市,高峰时间拥堵路段的打车难问题,考验Pichai,那个刚刚接了硅谷最糟的工作的人恭喜桑达尔皮查伊(SundarPichai),他刚刚被提升到硅谷最糟糕的职位。美国CNBC一篇报道如此评价道。周二,Google的母公司Alphabet宣布了令人震惊的消息具有传奇ampampquot所有女生,所有女生,导航开始喽ampampquot高德地图官宣李佳琦魔性导航语音将于双12上线所有女生!所!有!女!生!你们的魔鬼导航员李佳琦语音导航即将在今年的双十二上线高德地图!高德地图刚刚发布微博,官宣李佳琦导航语音将于12月12日正式上线。今日起,用户在高德地图搜索搜狗发布了更强大的AI录音笔转写准确率高达982月26日,搜狗公司举办了名为同舟共记的AI录音笔新品线上发布会。此次发布会,搜狗除了正式发布S1E1两款AI录音笔新品外,还与故宫宫廷文化合作推出了S1和C1Pro两款产品的故宫华为挑战谷歌也不是没有机会和希望虽然在巴塞罗那举行的世界移动通信大会因为新冠病毒疫情取消了,但这并不意味着没有新闻。华为还是在巴塞罗那发布华为和荣耀品牌的新款手机平板电脑和笔记本电脑。由于华为被列入美国政府实体名