范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

带你了解大数据入门(四)分布式资源调度YARN框架

  1 YARN产生背景
  YARN是Hadoop2.x才有的,所以在介绍YARN之前,我们先看一下MapReduce1.x时所存在的问题:单点故障节点压力大不易扩展
  1.1 MapReduce1.x时的架构
  ​
  可以看到,1.x时,即 Master/Slave 主从结构,在集群上的表现就是一个JobTracker带多个TaskTrackerJobTracker负责资源管理和作业调度TaskTracker定期向JobTracker汇报本节点的健康状况、资源使用情况以及作业执行情况接收来自JobTracker的命令,例如启动任务或结束任务等。
  1.2 该架构存在的问题整个集群中只有一个JobTracker,就代表着会存在单点故障的情况JobTracker节点的压力很大,不仅要接收来自客户端的请求,还要接收大量TaskTracker节点的请求由于JobTracker是单节点,所以容易成为集群中的瓶颈,而且也不易域扩展JobTracker承载的职责过多,基本整个集群中的事情都是JobTracker来管理1.x版本的整个集群只支持MapReduce作业,其他例如Spark的作业就不支持了
  互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群: 740041381就可以找到组织学习 欢迎进阶中和进想深入大数据的小伙伴加入
  由于1.x版本不支持其他框架的作业,所以导致我们需要根据不同的框架去搭建多个集群。这样就会导致资源利用率比较低以及运维成本过高,因为多个集群会导致服务环境比较复杂
  ​
  在上图中我们可以看到,不同的框架不仅需要搭建不同的集群
  而且这些集群很多时候并不是总是在工作,如上图可以看到,Hadoop集群在忙的时候Spark就比较闲,Spark集群比较忙的时候Hadoop集群就比较闲,而MPI集群则是整体并不是很忙
  这样就无法高效的利用资源,因为这些不同的集群无法互相使用资源
  除此之外,我们还得运维这些个不同的集群,而且文件系统是无法共享的
  如果当需要将Hadoop集群上的HDFS里存储的数据传输到Spark集群上进行计算时,还会耗费相当大的网络IO流量
  所以我们就想着要把这些集群都合并在一起,让这些不同的框架能够运行在同一个集群上,这样就能解决这各种各样的问题了.如下
  ​
  正是因为在1.x中,有各种各样的问题,才使得YARN得以诞生,而YARN就可以令这些不同的框架运行在同一个集群上,并为它们调度资源Hadoop2.x的架构图:
  ​
  在上图中,我们可以看到,集群最底层的是HDFS,在其之上的就是YARN层,而在YARN层上则是各种不同的计算框架。所以不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度,进而提高集群资源的利用率,这也就是所谓的 xxx on YARN2 YARN 架构
  2.1 概述YARN是资源调度框架通用的资源管理系统为上层应用提供统一的资源管理和调度
  2.2 核心组件
  2.2.1 ResourceManager(RM)整个集群同一时间提供服务的RM只有一个,它负责集群资源的统一管理和调度还需要处理客户端的请求,例如:提交作业或结束作业等并且监控集群中的NM,一旦某个NM挂了,那么就需要将该NM上运行的任务告诉AM来如何进行处理。
  2.2.2 NodeManager(NM)
  整个集群中会有多个NM,它主要负责自己本身节点的资源管理和使用,以及定时向RM汇报本节点的资源使用情况。接收并处理来自RM的各种命令,例如:启动Container。NM还需要处理来自AM的命令,例如:AM会告诉NM需要启动多少个Container来跑task。
  2.2.3 ApplicationMaster(AM)
  每个应用程序都对应着一个AM。例如:MapReduce会对应一个、Spark会对应一个。它主要负责应用程序的管理,为应用程序向RM申请资源(Core、Memory),将资源分配给内部的task。AM需要与NM通信,以此来启动或停止task。task是运行在Container里面的,所以AM也是运行在Container里面。
  2.2.4 Container
  封装了CPU、Memory等资源的一个容器,相当于是一个任务运行环境的抽象
  2.2.5 Client
  客户端,它可以提交作业、查询作业的运行进度以及结束作业3 YARN 执行流程
  官网
  ​
  ​
  1.client向yarn提交job,首先找ResourceManager分配资源,
  2.ResourceManager开启一个Container,在Container中运行一个Application manager
  3.Application manager找一台nodemanager启动Application master,计算任务所需的计算
  4.Application master向Application manager(Yarn)申请运行任务所需的资源
  5.Resource scheduler将资源封装发给Application master
  6.Application master将获取到的资源分配给各个nodemanager
  7.各个nodemanager得到任务和资源开始执行map task
  8.map task执行结束后,开始执行reduce task
  9.map task和 reduce task将执行结果反馈给Application master
  10.Application master将任务执行的结果反馈pplication manager。
  另外找到两篇关于YARN执行流程不错的文章:【图文】YARN 工作流程Yarn应用程序运行流程剖析4 YARN 环境搭建
  4.1 官方文档指南
  ​
  ​1
  ​
  ​2
  ​3
  ​有1不健康节点
  ​错误解决:从上图中,可以看到有一个不健康的节点,也就是说我们的单节点环境有问题,点击红色框框中标记的数字可以进入到详细的信息页面,在该页面中看到了如下信息:
  ​于是查看yarn的日志文件:yarn-root-nodemanager-localhost.log,发现如下警告与异常
  ​很明显是因为磁盘的使用空间达到了90%,所以我们需要删除一些没有的数据,或者扩容磁盘空间才行。于是删除了一堆,让磁盘空间降低到90%以下了:
  验证
  ​
  到此为止,我们的yarn环境就搭建完成了.5 提交 PI 的 MapReduce 作业到 TARN 上执行
  5.1 提交作业
  虽然我们没有搭建MapReduce的环境,但是我们可以使用Hadoop自带的一些测试例子来演示一下如何提交作业到YARN上执行。Hadoop把example的包放在了如下路径,可以看到有好几个jar包:hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/
  ​在这里我们使用hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar这个jar包来进行演示:
  ​
  5.2 命令说明hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 2 3
  hadoop jar 执行一个jar包作业的命令hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar 需要被执行的jar包路径pi 表示计算圆周率,可以写其他的末尾的两个数据分别表示指定运行2次map, 以及指定每个map任务取样3次,两数相乘即为总的取样数。
  5.3 运行以上命令后,到浏览器页面上进行查看,会有以下三个阶段:
  5.3.1 接收资源这个阶段就是ApplicationMaster到ResourceManager上申请作业所需要的资源
  ​
  5.3.2 运行作业这时候NodeManager就会把task运行在启动的Container里
  ​
  5.3.3 作业完成
  ​

华为P50Pro不支持5G,高价低配,还卖6000多,谁会买?华为有定价的权力,你有买不买的权力。喷华为是因为什么?有任务?还是想买但买不起?说实话,我认可并同情华为,但现阶段华为旗舰大杯版也超出我对手机消费的上限,但我不喷,穷是我的原因,我腾讯系平台下架所有捕鱼类游戏,其他平台暂未跟进11月14日消息,本周五,腾讯工作人员在某开发者群发布公告表示,由于平台策略调整,所有捕鱼游戏今天会完成下架,后继平台将不会收录捕鱼游戏!之前上架的老游戏,会在平台侧下架,但老游戏身份证放在手机钱包更安全吗?苹果被曝将上线数字证件引发争议11月15日,有消息称苹果公司正在与美国多个州政府合作,计划推出iPhone用户的数字身份证或数字驾照等。将数字证件存储于手机钱包中是否会更安全?科技巨头应该如何参与数字证件系统的百度任命前58集团联席总裁何明科为集团资深副总裁雷递网乐天11月15日报道百度今日宣布何明科担任集团资深副总裁,负责智慧医疗和健康等相关业务,向CEO李彦宏汇报。资料显示,何明科于2015年至2021年在58集团工作,曾担任58大陆集团成功开发高度自动驾驶技术解决方案,将在3年内投入使用记者李亦萌编辑科技公司大陆集团11月8日表示,已成功开发一种具有突破性的高度自动驾驶技术解决方案。该方案的核心是一套能够自动执行复杂驾驶操作的智能软件。大陆集团透露,上述解决方案已重装系统不装到硬盘装到优盘里,能正常开机吗使用吗?把系统装进U盘,以后就可以用U盘来为电脑装系统了,或者你甚至可以有另一种想法,即把操作系统装进U盘,直接当移动的系统来使用。这样的想法当然很好,第一种想法可以轻松实现,但第二种想法win11操作系统与win10你觉得哪个更好了?win11操作系统与win10就目前而言,我觉得win10会好一些,想安装win11的朋友不要着急,等一段时间再安装,咱们让子弹再飞一会儿!为什么这么说呢?win11系统刚刚推出,安卓手机系统哪个你用着最舒服?用过华为联想小米和中兴的,说实话,使用体验差别不大。小米和华为的比较臃肿,很多自带软件且不能卸载,这一点不喜欢。小米系统功能比较多,投屏遥控等都自带了,这是比较好的。小米系统推广比目前有什么系统能像IOS一样不卡顿?感谢您的阅读!WP,和IOS一样不卡顿的只有WP!我一直觉得WindowsPhone生不逢时,如果能多些支持,WindowsPhone系统一定可以和IOS系统媲美!我想到最后一款W你用过最舒服的手机,用了多久?我一直用的是小米系列,从红米note4到小米9都用过,现在红米K40用了小米系列有十多年了,我对手机也没有太多要求,一直感觉还不错,性价比高啊,支持国产机。m9p到现在还在用。可能荣耀9的闪存依旧是emmc5。1,大家觉得值得买么?我来扫盲UFS2。0速度350Ms,eMMC5。1是250Ms,除大游戏,一般APP才几十兆,无论哪种闪存理论上秒开。运行游戏等APP时读写速度要求很低,无需UFS。你会说下载,更
美股科技股业绩前瞻FAANG风光不在市场只期待苹果财联社4月23日讯(编辑马兰)随着周五美股暴跌收盘,市场开始对股票市场前景感到沮丧。就连过往两年一直是美股中流砥柱的科技股,也在越来越暗淡的前景下失色不少。好消息是,科技巨头的Q1vivoX80系列本月底发布配置不输xnote蓝厂这个月是真的带给我们很多惊喜,先后发布了首款折叠屏旗舰xfold和首款平板vivopad,七英寸大屏旗舰vivoxnote,和iqooNeo6,如今vivo再放大招将于本月25中国自动驾驶方案一入NVIDIA深似海,从此自研是路人在前不久举办的中国2022年电动汽车百人论坛大会上,全国政协经济委员会副主任前工信部部长苗圩曾发表了这么一段言论中国新能源汽车到处开花,个个都喊着自己有自动驾驶技术,但真正愿意行动欧美暂停中国邮包服务?联邦快递消息不实4月23日,网上有消息称欧美多国宣布暂停中国邮政包裹服务。记者从联邦快递中国公司获悉,暂停中国邮包服务的消息不实,恰恰相反,联邦快递准备从4月25日起恢复部分华东地区的进口服务。网欧美暂停中国邮包服务?联邦快递消息不实4月23日,网上有消息称欧美多国宣布暂停中国邮政包裹服务。记者从联邦快递中国公司获悉,暂停中国邮包服务的消息不实,恰恰相反,联邦快递准备从4月25日起恢复部分华东地区的进口服务。网最全的区块链技术分析和总结(附知识图谱)区块链是与当下与VR虚拟现实等比肩的热门技术之一。区块链是加密货币背后的技术,与基础语言或平台等差别较大,它本身不是新技术,类似Ajax,可以说它是一种技术架构,所以我们从架构设计卢伟冰放狠话,网友他不怕得罪友商吗?安卓阵营与苹果最大的不同在于,新机发布速度和频率甩苹果N条街。每年发布的新机数都数不过来,只有这样才能与苹果相抗衡否则安卓阵营的销量根本上不去。全球排名第一的三星就是靠机海战术打天小米12Ultra确定6月发布联合徕卡新机皇将诞生小米12Ultra手机确定在6月正式发布,这款新机将在下个月开始试产,而且从手机背部的小红标来看,小米12Ultra将和徕卡一同定制摄像头模组,经过徕卡调校的摄像头在影像方面将更加有一种裁员叫毕业前段时间京东给被裁的员工发了一份毕业须知。开头写毕业快乐!恭喜您从京东顺利毕业!感谢一路陪伴!2018年刘强东京东不会开除任何一个兄弟的声音还犹言在耳。我当时困惑难道员工做了该开除failfast的原理解决办法)概要我们以ArrayList为例,对Iterator的failfast机制进行了解。内容包括1failfast简介2failfast示例3failfast解决办法4failfast思考国产手机明知高端机价格高昂,为何还扎堆发不高端机前言2022年的今天你会发现高端机手机市场非常的繁荣,很多手机厂商开始推出了自己的高端手机。不管是我们所知道的华为,还是现在所看到的小米vivoOPPO等一些手机品牌,它们都纷纷推