范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

如何用形象的比喻描述大数据的技术生态(HadoopHiveSpark)

  看了很多人写的,认为都不够通俗,对于很多新人来说,可能连名词都不是很清楚,一些不明觉厉的高深的业内技术恐怕要把他们给劝退吧。
  本帖力争让小白看了之后彻底搞懂大数据技术生态来龙去脉,让一些经验丰富的技术人也能在不同的视角有获得感。
  PS:本文尽量以一个新手小白的角度带大家把这些名词讲清楚,全文会列举很多具象的小例子,尽可能做到通俗易懂。
  在这里也给想入门大数据行业的新人或者想进一步在这个领域深耕的小伙伴奉上一套优质的学习资源。 涵盖了大数据基础、大数据架构、数据仓库、数据治理、bat真实案例,科研绘图与工具、 大厂面试真题附含答案以及简历模板等众多干货 。文末自由获取。
  在写完这篇文章后,我突然有了一个感触,就是技术人在学习一项新技术的时候,会常常习惯于在一个给定的问题场景下,把相关技术越挖越深,优化的也越来越好,希望去更好的解决它。
  但是大家常常忽略这个问题当初是怎么产生的?以及我们为什么要去解决这个问题?
  其实有的时候,一个好的问题定义,要比一个解决方案更重要。希望大家耐心看完!全文很干,大家在读的时候,手边可以准备一杯水!发车! Hadoop、Hive、Spark之间的关系
  首先,大家都知道 Hadoop、Hive、Spark 都是大数据相关的系统和技术,大数据也属于数据管理系统的范畴。
  因而我们可以从数据管理的解决的问题出发展开来讲解一下这个问题。
  任何公司的数据管理系统无非涉及到两个问题:
  1、数据怎么存?
  2、数据怎么算?
  为了让大家从根源上理解大数据技术的演进过程,我们从单机时代开始说起。
  在单机数据管理系统时代,数据量是很少的,一台服务器基本就可以存下所有的数据,计算也不会碰到什么瓶颈,并且这种场景下,数据处理的任务都是 IO 密集型的,也就更谈不上什么分布式系统了。
  以现在一个典型的服务器为例:
  一个普通服务器一般可以配 6 块硬盘(每块硬盘选 4T 的),这样可以有24T的原始容量,再加上一些数据包口径的冗余和一些格式化的损失。所以保守估计,一台服务器至少也能存10T 以上的数据。
  再配上 128g 的内存、2个CPU ,再装个数据库管理系统,微调一下,单表处理 10 亿条的数据就没有什么问题。
  以上就是一个简单可行的单机数据处理方案。
  实际上,这种单机方案目前也并未淘汰,如今也有很多公司都在继续沿用这种单机方案。
  但是问题是,我们早已经进入了信息爆炸的时代,在另外一些场景下,数据量变得越来越大,大到一台机器已经存不下了。
  一台机器存不下怎么办?其实很简单,一台机器存不下,那就用 10 台,10台存不下那就用 100 台。
  所以问题就来了。
  如果有 100 台机器去统一存储数据,那怎么去管理这100台机器呢?
  毕竟人的精力是有限的,一个人怎么可能每天处理100台机器的数据存储任务呢?
  这就好比,一个老板是不可能去直接对 100 个员工发号施令的,他要设立中层岗位,去帮助他管理这 100 个同事,好让大家融合成一个团队。
  在Hadoop生态里面, HDFS就扮演这样一个"中层管理"的角色。
  HDFS 统一管理这 100 台机器上的存储空间,并提供一个接口,让这 100 台机器的存储空间看起来就像是在一台机器上,用户端会感觉这是一个无限大的存储空间,从而可以更方便地在上面写应用程序。
  说完了数据存储,再聊聊数据计算。
  毕竟数据存下来是为了算的,不可能单纯只是为了占硬盘内存。
  那首先,上文说的那100台机器,每一台机器也都有自己的 CPU 内存,一个理想的愿景是,让这些计算资源得到最充分的利用,从而让数据计算可以更快的完成。
  但问题来了。
  如果你是一个程序员,你怎么去写程序,去操作这 100 台机器,然后通过协作完成一个完整的计算任务呢?
  比如说,这些任务该怎么去分配到这些机器上?任务与任务之间怎么去做同步?如果这个过程中有一台机器掉链子了,怎么办?
  为了解决这个问题, HDFS 里面引入了一个模块,这就是大名鼎鼎的MapReduce,MapReduce模块本质上就是提供了一个任务并行计算的框架。
  它可以把并行程序分成两个阶段,一个就是 Map 阶段,是一个是Reduce 阶段。
  这两个阶段,简单来讲:
  如果你有一项任务,工作量很大,你找 100 个帮手把它平均分成 100 份,每人做一份,这就是 Map 阶段。
  这100 个小伙伴把任务完成,然后再把结果汇总到你这,然后从你这再出一个最终的结果,这就是Reduce阶段。
  好了,至此我们可以看到,Hadoop里面有 HDFS 来处理存储,MapReduce来处理计算,一切貌似都齐备了,一切仿佛都很美好。
  但是,技术发展的目标之一,就是要不断降低技术本身的使用门槛。
  大家想象一下,在过去的单机数据库的时代,用户大部分都是可以用 SQL 语言去做数据处理的。
  PS:SQL 真的是一项很伟大的一个发明,它把数据处理的门槛下降了很多。
  但是到了大数据的时代,大家发现不能写 SQL 了,如果要做数据处理,得去写一个 MapReduce 程序,这个MapReduce 程序还得是一个非常专业的分布式处理的程序。
  这其实是相当复杂的,需要大家具备很强的计算机背景和门槛的。
  要是能在Hadoop上,也能通过写 SQL 就能完成数据处理的任务,那该多好啊!
  于是,Hive就应运而生了。
  Hive实际上是一个在Hadoop上进行结构化数据处理的解决方案,为了让用户能够写 SQL 来处理数据,数据就必须要进行结构化处理。SQL 里面的 S 其实就是结构化处理的意思,如果不做结构化处理,我们就没法通过SQL查询数据了。
  Hive 里面的一个核心模块是 metastore, 它用来存储这些结构化的信息。简单来说就是一些表信息,比如说你有多少列?每个列是什么样的数据结构?然后 Hive 里面的执行引擎就会去把一条SQL 语句进行语法分析,最后生成语法树。
  这两个步骤实际上和普通的数据库没有什么区别,区别主要是在执行阶段——Hive的执行引擎会把这个SQL语句翻译成一个 MapReduce 的任务去执行,然后再把执行结果进行加工返给用户。
  这样一来,Hive 就让一部分大数据开发工程师的工作就又变回了SQL了。
  事实上, 从工程的角度来看,效率和灵活性本身就是一对矛盾体。 从 Hive 的这个例子里我们看出,SQL 的出现使得大数据处理任务的开发效率提高了,但是在数据处理的表达力和灵活性上肯定是不如直接采用MapReduce。
  因此,这两个技术也不是互相替代的关系,而是需要根据实际的场景去选择。
  最后,再来说一下 Spark。
  Spark 经常被用来和 Hadoop进行对比,其实准确的说,应该是和Hadoop里面的MapReduce 对比。
  Spark 本身也是一个计算框架,它和MapReduce不同就是 ,Spark 基于内存计算, 而MapReduce 则是基于磁盘的计算。
  因此 Spark的优势就是快!
  毕竟内存读取的速度要比磁盘读取的速度要快得多。
  有多快呢?举一个比较极端的例子,如果你的数据集不大,机器的内存是可以装得下的,在这种极端的情况下,Spark 甚至会比 MapReduce能够快 100 倍。
  即便放到一般场景下,Spark 也会比 MapReduce快2~3倍左右。
  类似MapReduce有Hive可以让用户能够写 SQL,Spark 的生态里面也有Spark SQL 的这个模块,去让用户在 Spark 上写SQL。
  最后, Spark 作为一个纯的计算引擎,还提供了其他的上层的抽象帮助用户去写其他类型的数据处理程序。比如说 Spark 提供了 streaming 的模块,可以让用户去写流处理的程序,提供了mllib 内部的模块,让用户去写机器学习的程序以及图处理的模块GraphX。
  当然这三个模块只是大数据生态里面的非常小的一部分,还有更多的更新的技术等大家自己去发掘。
  最后附上一张结构图,以便于大家对以上内容做理解。
  开头提到的大数据资源,涵盖了大数据基础、大数据架构、数据仓库、数据治理、bat真实案例,科研绘图与工具、 大厂面试真题附含答案以及简历模板等众多干货 。
  需要领取的小伙伴,转发+关注后私信"大数据",联系小编获取资料。

肠道为何容易长息肉?如果得了肠息肉,会对我们身体有哪些影响?肠道为何容易长息肉?如果得了肠息肉,会对我们身体有哪些影响?大家好,我是你们的养生顾问许医生,相信许多人在快节奏的生活当中,难免会发生各种各样的肠胃疾病,通常在不注意的时候,就有可不管阳没阳,吃点这个小果子,润肺化痰强化呼吸道冬季天冷多风,人很容易着凉受寒,尤其是老人和小孩很容易出现咳嗽咽喉不适等情况。面对越发干燥的天气,再加上新冠疫情的影响,我们更应该将保健重点放在养护肺脏之上。药补不如食补冬季养肺,8种好睡食物,来自Menampamp39sHealth美国睡眠医学学会(AASM)研究指出,高达13的成年人会偶尔失眠。生活或饮食习惯不正常都可能导致失眠,咖啡酒精或吃太多糖都会让人睡不着。不过相反地,也有食物可以让你睡个好觉,国外媒发泄几句因为夸了库里,我被踢出了湖人和詹姆斯的球迷群!湖人詹姆斯库里NBA一直自以为是个铁杆的詹姆斯球迷,也早就习惯在网上写文章夸老詹而被詹黑骂了,没想到自己居然会在一个标榜湖人和詹姆斯球迷群的微信群里,因为夸了两句库里,就被人踢了出克罗地亚vs摩洛哥因为这是两匹黑马的第二次碰面,所以三四强的比赛看起来并不那么重要。不过,球道人依然在按着自己的计划,写下了这一战。莫德里奇和其他几个人,也是他们最后一次参加世界杯的机会。首先,这一从希望之星到把板凳坐穿,国产锡安为何不受李春江重用?上海男篮这些年囤积了大量的青年才俊,本赛季更是准备大力启用新人,像刘礼嘉张知垚戴昊等,都是同年龄段球员中的佼佼者。CBA常规赛第二阶段开始后,上海男篮的表现比第一阶段有所好转,尤其30横扫,赵心童轰1350,英锦赛冠军强势爆发北京时间12月16日消息,2022年斯诺克英格兰公开赛继续进行,一场焦点比赛中,英锦赛德国大师赛双料冠军赵心童状态火爆,他轰出一杆破百和三杆50,40横扫安德斯彼得罗夫。斯诺克英格德文布克和多诺万米切尔,谁更强今天太阳对阵快船的比赛中,布克手感依然没有回升,全场仅仅22投6中,其中三分球9中1,罚球1中1,得到14分,4篮板,4助攻,还有两次失误。要不是快船主力都不在,太阳恐怕又要苦吞败华为用户手机桌面下拉,即可获得健康防护手册随着现在疫情放开了,有些小伙伴因为不想阳和不知道什么时候阳变得十分焦虑,很多朋友都把自己困在未知的情绪当中,甚至越陷越深。对于这件事情,我们只有树立正确的科学认知才不会被困扰。很多高性价比甜品游戏本,惠普暗影精灵8Pro锐龙版测评今年年初,AMD发布了基于6nmZen3架构的锐龙6000系列移动处理器,并带来了RadeonRX6000M系列移动显卡的新成员,同时进一步优化了AMD超威卓越平台(AMDAdva再次调侃苹果,三星新视频鼓励iPhone用户换成GalaxyZFlip4IT之家12月16日消息,三星今天再次推出了OntheFence宣传视频,鼓励iPhone用户转向使用三星设备。该系列以调侃苹果为主题,重点突出三星独有而苹果没有的功能,吸引iPh
中国天眼最新研究揭示银河系星际介质前所未见高清细节韩金林领衔国家天文台王绶琯巡天突击队成员右图中国科学物理学力学天文学专题封面。国家天文台供图中新网北京12月10日电(记者孙自法)利用被誉为中国天眼的500米口径球面射电望远镜(F新公链强势崛起,PlugChain开创元宇宙新时代Web2。0向Web3。0过渡的过程中最大的阻碍在于数据通道问题,如果实现Web2。0世界数据向Web3。0的转移,是推动Web3。0世界发展的重要问题。跨链技术的完美演绎,成为当在长沙过周末赏叶季绝美壁纸送给你长沙晚报全媒体记者宁莎鸥贺文兵窗外的风呼啸而过,冰冷的雨滴叩开了寒冬的大门。骤然下降的温度就像是染色剂,唰唰几下,便是一片金黄赤红最美赏叶季来啦,跟随摄影师的脚步去邂逅长沙的缤纷冬新疆是个好地方坎儿井不是井北疆大环线自驾游记之三坎儿井是新疆吐鲁番旅游的一张靓丽的名片。坎儿井是当地各族劳动人民利用掏挖地下暗渠的方式将天山雪水引流至地面进行灌溉和生活的工程,据考证至少有1400年历史,它地方法规不断探索国内自动驾驶松绑已成大势所趋近日,上海北京纷纷放松自动驾驶领域的法规限制。为企业进一步松绑,助力高等级自动驾驶技术在当地落地,成为地方立法的主要方向。当前,阻碍自动驾驶技术发展的,除了技术本身的瓶颈外,法规的靖西鹅泉世外桃源的田园风光虽然地处偏僻,但却天下闻名鹅泉位于广西靖西县新靖镇鹅泉村念安屯,距县城西南约6公里处。鹅泉是靖西著名的八景之一,已有七百多年的历史,是中国西南部的三大名泉之一(大理的蝴蝶泉桂平西山的乳泉),又是亚洲第一大跨新十条之后长沙首个周末,有游客自觉做好防护出游江苏游客立马买票来橘子洲新十条之后长沙首个周末,有游客自觉做好防护出游12月10日,长沙黄兴南路步行街,背着卡通娃娃的游客。组图记者吴琳红12月10日,长沙橘子洲景区,游客在拍摄鸡详解路虎发现运动版P300e英国之宝音响系统,性能表现如何?新能源汽车市场红海不仅有各路造车新势力想分一杯羹,更有老牌豪车品牌路虎等品牌的强势入局,路虎发现运动版PHEV就是其中一个代表车型,定位是插电式混合动力SUV车型。当然,作为一款新iPhone15Ultra渲染图两个大招让果粉欢呼,库克这次豪横了一把苹果公司对于iPhone的设计设计,一直都是挤牙膏式的,每次都是在原来的基础上,增加一点点的变化,有时候甚至就改变一个颜色,就能够算作是新品发布。虽然iPhone14Pro和iPh你可能涉黄了?大数据扫黄将启动,有以下行为的注意了在这个万物互联的时代里,我们正享受着互联网带来的一切便利。与此同时,我们也好像成了透明人。就拿当下的安康码来说,如果一个人被确定感染或者确认为密接,那么这人的行踪将通过互联网大数据特斯拉圣诞节版本更新包括Applemusic和自动转向灯等新功能一年一度的圣诞节马上就到了,对于特斯拉来说,圣诞节的更新必然是重头戏。最近就有消息放出了特斯拉圣诞OTA更新的内容,此次版本更新包括的功能较多,更新的版本号预计是2022。44。2