HADOOP概述
一、Hadoop概述
1.1Hadoop是什么
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决,海量数据的存储和海量数据的分析计算问题。
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文,GFS —>HDFS, Map-Reduce —>MR, BigTable —>HBase)
Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
1.2 Hadoop的优势
高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元 素或存储出现故障,也不会导致数据的丢失。
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处 理速度。
高容错性:能够自动将失败的任务重新分配。
1.3 Hadoop组成(面试重点)
在 Hadoop1.x 时 代:Hadoop 由HDFS、MapReduce组成,MapReduce同 时处理业务逻辑运算和资 源的调度,耦合性较大
在Hadoop2.x时 代,增 加 了Yarn,Yarn只负责 资 源 的 调 度 , MapReduce 只负责运算
Hadoop3.x在组成上没 有变化。
1.3.1 HDFS 架构概述
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。
NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等。
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
1.3.2 YARN 架构概述
Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。
YARN架构概述
ResourceManager(RM):整个集群资源(内存、CPU等)的老大
NodeManager(N M):单个节点服务器资源老大
ApplicationMaster(AM):单个任务运行的老大
Container:容器,相当一台独立的服务器,里面封装了 任务运行所需要的资源,如内存、CPU、磁盘、网络等。
说明:客户端可以有多个,集群上可以运行多个ApplicationMaster,每个NodeManager上可以有多个Container
1.3.3 MapReduce 架构概述
MapReduce 将计算过程分为两个阶段:Map 和 Reduce ,Map 阶段并行处理输入数据,Reduce 阶段对 Map 结果进行汇总
MapReduce架构概述
待分析数据10T => map阶段 => (集群) => reduce阶段 ==> 汇总处理数据
HDFS、YARN、MapReduce 三者关系
1.4 大数据技术生态体系
Sqoop:Sqoop 是一款开源的工具,主要用于在 Hadoop、Hive 与传统的数据库(MySQL) 间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进 到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统, Flume 支持在日志系统中定制各类数据发送方,用于收集数据;
Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;
Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数 据进行计算。
Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。
Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。
Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等
vivoS7月光白时光蜕变后再度引领白色审美时尚无论是艺术还是工业设计中,白色都是极简主义的代表。其实白色是全色光,在可见光光谱内的光都同时进入视觉范围内就能看到。不过白色虽然常见但并不普通,美国艺术家罗伯特莱曼一幅几乎全白的画
摆脱乌贼之名?刘语熙大咖日报中遇天才预言家北京时间6月27日凌晨,世界杯小组赛D组的焦点之战,阿根廷21绝杀尼日利亚,小组出线。比赛之前,国内阿根廷球迷可谓是煞费苦心,想尽一切办法为主队出力,不惜动用东方神秘力量,比如在预
让奔跑成为习惯!毕业刚出来工作的时候,遇到过很多困难,活得很憋屈,在无奈之下,开始了跑步,都说跑步减肥,可几年下来,感觉我也没瘦多少,只是感觉生活状态好了很多!难过的时候跑,开心的时候跑,阴天跑,
人工智能这5年被AI包围这件事你知道了吗?原标题人工智能这5年被AI包围这件事你知道了吗?你日常收到的一些政府部门的提醒短信,其实是AI发的有时接到的银行客服电话,其实上半段是AI语音,你表达希望了解的意愿时才会转到真人,
医疗AI夫妻店数坤科技赴港IPO,毛利率堪比茅台为何还亏损?人工智能会冲击到传统医生的地位吗?作者吴桐编辑丨李逸明来源野马财经简单描述自己的健康问题,机器将自动检索并协调远程医疗资源,确认问题后,患者进入医疗仓,便有一整套的系统进行检查诊断
不良债权新用途,买不良债权抵债!在经济下行的大背景下,超划算的不良资产投资项目看来是越来越多了!据悉2018年11月23日,阿里拍卖资产交易平台上挂出的一则拍卖信息倍受关注,标的物杭州锦绣天地房地产有限公司债权资
梦想照进田园生活丨专访十田仓谷创始人林亚现代人们的生活被各种各样的信息所裹挟,各行业激烈的竞争形势造就内卷,就连小孩的都逃不过鸡娃的规训,迫使人们不得不打起躺平的旗帜加以反抗。在这样一个被快节奏生活推着走的时代,我们更迫
瑞幸升级瑞纳冰系列LOGO年轻人喜爱的色彩allin对于追求刺激的年轻人来说,无冰不夏天,瑞幸的瑞纳冰才是他们的快乐之源。走在街上,办公室里,已经随处可见冰镇杨梅瑞纳冰和哈斯牛油果瑞纳冰等产品。这届瑞纳冰系列产品上市,瑞幸的LOGO
跑分近60万配55W快充iQOO3性能领先小米10作为2020年手机圈的头牌新品之一,iQOO3继续以高配置亮相于广大玩家眼前。而随着25号线上发布会的临近,iQOO3的关键配置也陆续曝光。除了定调的高通骁龙865和LPDDR5内
北京公司申请ICP许可证,最简单?三个细节告诉你原因如果说全国哪个城市的增值电信业务经营许可证ICP最好办,我想北京市才能是第一名,作为首都的北京名汇聚着各大互联网公司,算是互联网比较发达的市场。那么为什么说北京的ICP许可证最好办
北京音乐文网文怎么办理?什么样的企业APP需要它?音乐文网文是网络文化经营许可证中的音乐娱乐产品类别,是指用数字化方式通过互联网移动通信网广电网等信息网络,以在线播放和网络下载等形式进行传播的音乐产品,包括歌曲乐曲以及有画面作为音