范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大数据入门MapReduce基本原理

  在围绕Hadoop形成的大数据技术生态当中,MapReduce的地位,在早期是处于核心地位的,但是伴随着数据处理实时性需求的不断提升,更多新的计算框架出现,MapReduce的地位受到压制,但是作为Hadoop原始计算框架,还是需要相应程度的了解和掌握的。今天的大数据入门分享,我们来具体讲一讲MapReduce基本原理。
  一、什么是MapReduce?
  在Hadoop技术生态当中,MapReduce是作为计算引擎出现的,在处理超大规模的数据集上,MapReduce性能可观,通过分布式计算,将大规模数据计算任务分解,分布到不同的计算节点去并行计算,从而使得低成本下的大规模数据计算成为可能。
  MapReduce的原型,公认的说法,是来自Google公司2004年发布的MapReduce论文,而后Doug Cutting根据谷歌的论文,实现了MapReduce,并将其作为Hadoop的一个组件开源。在Hadoop当中,MapReduce也是处于核心组件的地位。 二、MapReduce解决了什么问题?
  互联网、移动互联网的高度发达,为数据存储和数据计算都带来了新的挑战。当数据的规模大到一定程度,单独的机器已经无法负荷。那么能够怎么办呢?首先能够想到的办法,就是增加机器。
  而要想让一定数量的机器实现协同工作,并且工作效率要求还不低,应该怎么去实现呢?这就是MapReduce需要解决的问题。MapReduce作为一个分布式并行计算框架,就是一个把一群机器组织起来工作的编程模型。 三、MapReduce是怎么解决的?
  MapReduce,其实从运行来说,就是分为大的两个阶段的,一个阶段是MapTask(将大任务拆分为小任务),第二个阶段是ReduceTask(小任务计算结果重组),两个阶段之间,有个Shuffle的过程。
  MapTask
  整个MapTask分为Read阶段,Map阶段,Collect阶段,溢写(spill)阶段和combine阶段。
  Read阶段: MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value;
  Map阶段: 该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value;
  Collect收集阶段: 在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中;
  Spill阶段: 即"溢写",当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作;
  Shuffle
  Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。shuffle流程如下: MapTask收集map()方法输出的kv对,放到环形缓冲区中; 从环形缓冲区不断溢出到本地磁盘文件,可能会溢出多个文件; 多个溢出文件会被合并成大的溢出文件; 在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对key进行排序; ReduceTask根据自己的分区号,去各个MapTask机器上取相应的结果分区数据; ReduceTask将取到的来自同一个分区不同MapTask的结果文件进行归并排序; 合并成大文件后,shuffle过程也就结束了,进入reduce方法。
  ReduceTask
  整个ReduceTask分为Copy阶段,Merge阶段,Sort阶段(Merge和Sort可以合并为一个),Reduce阶段。
  Copy阶段: ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中;
  Merge阶段: 在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多;
  Sort阶段: 按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可;
  Reduce阶段: reduce()函数将计算结果写到HDFS上。
  关于大数据入门,MapReduce基本原理,以上就为大家做了一个简单的介绍了。在Hadoop生态当中,MapReduce虽然地位日益尴尬,但是其MapReduce思想,在后来的框架(比如Spark)当中,继续得到了继承。

58同城新华网共建招聘云服务平台促大学生精准就业4月25日,新华网与58同城合作框架协议签订仪式在新华社举办。协议双方将通过跨界融合创新探索,在高校毕业生就业领域实现强强合作,通过打造智慧就业平台,实现数据资源有效整合,促进高校学习,从不晚春日生活打卡季每天早晨坚持学习VBA编程,改善工作能力之今日份中国式排名Function排名(区域,成绩)Application。VolatileDimdicasObject,rnJs基础20运算符24补充算术操作符自增运算符语法数据数据vara10a或者aconsole。log(a)11相当于aa1的结果,实现数据自增1相同点(在结果上)这两种写法,本身的计算结果是一样不同点微信将发新版本,支持朋友圈一键转发,网友评论褒贬不一微信发布了最新的内测版,较之前的主要变化是支持微信朋友圈的一键转发。很多网友对此一脸懵,朋友圈之前不也能转发吗?的确,之前确实能够转发,但没有那么方便,这个新版本可以实现一键转发,骁龙870256GB67W快充,仅2199元,好评率高达97的小米手机为什么越来越多的消费者愿意购买国产手机?主要是因为国产手机近些年进步神速,哪怕就是千元机,很多都已经用上了旗舰芯片,大内存大电池高性能高像素成为了不少千元机的标签。然而,注重体验的台积电或将在2026年初交付首批2nm芯片品玩4月25日讯,据爱集微报道,台积电或将于2025年年底开始使用2nm级工艺量产芯片,预计会在2026年年初交付第一批芯片。据悉,第一批芯片将会交付给苹果和英特尔,不过尚未确定那国家广电总局2021年互联网视频年度付费用户7。1亿音频年度付费用户1。5亿智通财经APP获悉,4月25日,国家广播电视总局公布2021年全国广播电视行业统计公报。公报显示,截至2021年底,全国有线电视实际用户数2。04亿户,同比下降1。45高清和超高清华为手机终于回来了?余承东华为MateXs2是划时代的折叠屏2020年开始,由于众所周知的原因,华为手机的销量遭到致命打击,一路从全球Top2手机厂商,沦落到了Other阵营。而同时华为旗下的nova畅享麦芒等系列,也已出售出去了,仅留下M真相了!为什么OV用户很少会买小米手机,小米用户也几乎不碰OV?您在阅读前请点击上面的关注二字,后续会第一时间为您提供更多有价值的相关内容,感谢您的支持。但前几年国产手机品牌还比较多,但是随着手机市场的发展,国产手机品牌逐渐被小米VivoOPP在头条发布的视频,你们都是怎样去除水印的?将有水印的视频导入剪辑软件,然后找到马赛克特效,根据需要调整马赛克的大小,把不需要的水印用马赛克覆盖就可以了。Pr软件,加上中间值裁剪这两个视频效果就可以了直接用快剪辑来录屏就行了枯燥乏味的生活怎么调节?不妨用唱吧K歌宝把歌唱起来随着生活节奏的加快,压力也越来越大,平时也需要一些活动来放松,如常的生活不仅有诗和远方,也有音乐的美好。有时听听喜欢的歌曲,会让自己浮躁的心静下来,其实每个人都是歌唱家,不妨大声唱
等了个寂寞,第二代长安CS55plus预售价上市昨天(9月6日)晚上,备受关注的第二代长安CS55PLUS正式上市了,消费者满心期待最终的价格能够稍微降一点的愿望泡汤了。长安汽车公布了正式价格预售价格。这波操作好像也是比较少见的白猫,黑猫,好猫,欧拉多款彩贴亮相工信部目录,太漂亮了今天,工信部公布了第347批道路机动车辆生产企业及产品公告,长城旗下电动车品牌欧拉汽车的白猫,黑猫,好猫多个彩贴现身其中,给广大的女性消费者更多的选择。首先看看欧拉好猫。欧拉好猫自行业首家!徐工通过国家智能制造能力成熟度四级评估7月30日,徐工重型通过由工业和信息化部组织制定的智能制造能力成熟度四级认证,成为中国首家达到这一标准的工程机械企业。据悉,目前全国已通过正式评估的企业最高水平为四级,通过数量不足希尔助力客户西南地区首个智能化灯塔工厂竣工投产2021年7月,卧龙电驱旗下工业自动化业务为客户布局的西南地区首个智能化灯塔工厂在重庆两江新区正式竣工投产。在海上,灯塔是船舶航行的指路明灯在企业,灯塔工厂是能够提供指导性范例的引百分之百国产化!东方风电成功研制全新一代海上集成式变桨系统8月12日,东方风电自主研发的全新一代海上AP150C型集成式变桨系统在测试中心顺利通过全部型式试验,成功下线。该型变桨系统实现了元器件级百分之百国产化,将应用于东方风电全国产化7最便宜的骁龙888旗舰?卢伟冰宣布RedmiK40售价最近手机圈非常热闹,本来2021年的旗舰,这都好,都2020年末发布了,比如小米11,当然除了这个,很多手机也开始预热,非常激烈,不过打得这么激烈,对于用户来说是个福音,毕竟多个选大数据开发Spark的几种部署方式作为大数据的第二代代表性框架,Spark在大数据生态圈的地位,不必特意强调,大家也能看得清楚。Spark在学习初期,进行部署配置是非常关键的一个环节,今天的大数据开发分享,我们就主苹果专利提出用超声波检测定位ARVR环境中的镜子存在查看引用信息源请点击映维网防护系统(映维网2021年10月19日)在使用VRAR时,重要的是允许用户感知周遭的环境。知晓对象在现实世界中的位置与明白虚拟对象并不存在于现实世界中一样燥起来!iQOONeo3被确认144Hz屏幕UFS3。1!最近还是有很多小伙伴思考自己该换一部什么样的手机,甚至有些人还在思考买4G手机还是5G手机,都2020年了,如果没有一部5G手机,真的有点拿不出手,当然iPhone用户除外,毕竟目vivo首款5G手机宣布双卡1G速度在现如今的手机市场中,我们会越来越觉得有那么一家手机厂商,太过于低调,做起事来,确实有些惊人。vivo今天突然宣布,iQOO的首款5G手机已经领证,并且表示下个月发布。低调!为何说堪比5G,激光电视将掀起全新的电视革命5G时代已经来临,很多手机厂商都发布了5G的年度旗舰,为了让更多的人体验科技的乐趣,那种速度是4G无可比拟的。其实电视也一样,似乎身边很多小伙伴都已经开始嫌弃了电视,甚至不愿意打开