目录概念了解集群服务器规划软件安装步骤概述Hadoop安装 1、规划 2、上传解压缩 3、修改配置文件 4、把安装包分别分发给其他的节点 5、配置Hadoop环境变量 6、查看hadoop版本 7、Hadoop初始化 8、启动 9、查看4台服务器的进程 10、启动HDFS和YARN的web管理界面Hadoop的简单使用 创建文件夹 查看创建的文件夹 上传文件 下载文件 运行一个mapreduce的例子程序:wordcount正文概念了解 主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构。 主从结构分类: 1、一主多从 2、多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1、主节点从节点 2、masterslave 3、管理者工作者 4、leaderfollower Hadoop集群中各个角色的名称: 服务 主节点 从节点 HDFS NameNode DataNode YARN ResourceManager NodeManager 集群服务器规划 使用4台CentOS6。7虚拟机进行集群搭建 软件安装步骤概述 1、获取安装包 2、解压缩和安装 3、修改配置文件 4、初始化,配置环境变量,启动,验证Hadoop安装1、规划 规划安装用户:hadoop 规划安装目录:homehadoopapps 规划数据目录:homehadoopdata 注:apps和data文件夹需要自己单独创建2、上传解压缩 注:使用hadoop用户〔hadoophadoop1apps〕lshadoop2。7。5centos6。7。tar。gz〔hadoophadoop1apps〕tarzxvfhadoop2。7。5centos6。7。tar。gz3、修改配置文件 配置文件目录:homehadoopappshadoop2。7。5etchadoop A。hadoopenv。sh〔hadoophadoop1hadoop〕vihadoopenv。sh 修改JAVAHOMEexportJAVAHOMEusrlocaljdk1。8。073 B。coresite。xml〔hadoophadoop1hadoop〕vicoresite。xml fs。defaultFS:这个属性用来指定namenode的hdfs协议的文件系统通信地址,可以指定一个主机端口,也可以指定为一个namenode服务(这个服务内部可以有多台namenode实现ha的namenode服务 hadoop。tmp。dir:hadoop集群在工作的时候存储的一些临时文件的目录configurationpropertynamefs。defaultFSnamevaluehdfs:hadoop1:9000valuepropertypropertynamehadoop。tmp。dirnamevaluehomehadoopdatahadoopdatavaluepropertyconfiguration C。hdfssite。xml〔hadoophadoop1hadoop〕vihdfssite。xml dfs。namenode。name。dir:namenode数据的存放地点。也就是namenode元数据存放的地方,记录了hdfs系统中文件的元数据。 dfs。datanode。data。dir:datanode数据的存放地点。也就是block块存放的目录了。 dfs。replication:hdfs的副本数设置。也就是上传一个文件,其分割为block块后,每个block的冗余副本个数,默认配置是3。 dfs。secondary。http。address:secondarynamenode运行节点的信息,和namenode不同节点configurationpropertynamedfs。namenode。name。dirnamevaluehomehadoopdatahadoopdatanamevaluedescription为了保证元数据的安全一般配置多个不同目录descriptionpropertypropertynamedfs。datanode。data。dirnamevaluehomehadoopdatahadoopdatadatavaluedescriptiondatanode的数据存储目录descriptionpropertypropertynamedfs。replicationnamevalue2valuedescriptionHDFS的数据块的副本存储个数,默认是3descriptionpropertypropertynamedfs。secondary。http。addressnamevaluehadoop3:50090valuedescriptionsecondarynamenode运行节点的信息,和namenode不同节点descriptionpropertyconfiguration D。mapredsite。xml〔hadoophadoop1hadoop〕cpmapredsite。xml。templatemapredsite。xml〔hadoophadoop1hadoop〕vimapredsite。xml mapreduce。framework。name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行。configurationpropertynamemapreduce。framework。namenamevalueyarnvaluepropertyconfiguration E。yarnsite。xml〔hadoophadoop1hadoop〕viyarnsite。xml yarn。resourcemanager。hostname:yarn总管理器的IPC通讯地址 yarn。nodemanager。auxservices:configuration!SitespecificYARNconfigurationpropertiespropertynameyarn。resourcemanager。hostnamenamevaluehadoop4valuepropertypropertynameyarn。nodemanager。auxservicesnamevaluemapreduceshufflevaluedescriptionYARN集群为MapReduce程序提供的shuffle服务descriptionpropertyconfiguration F。slaves〔hadoophadoop1hadoop〕vislaveshadoop1hadoop2hadoop3hadoop4 4、把安装包分别分发给其他的节点 重点强调:每台服务器中的hadoop安装包的目录必须一致,安装包的配置信息还必须保持一致 重点强调:每台服务器中的hadoop安装包的目录必须一致,安装包的配置信息还必须保持一致 重点强调:每台服务器中的hadoop安装包的目录必须一致,安装包的配置信息还必须保持一致〔hadoophadoop1hadoop〕scprappshadoop2。7。5hadoop2:apps〔hadoophadoop1hadoop〕scprappshadoop2。7。5hadoop3:apps〔hadoophadoop1hadoop〕scprappshadoop2。7。5hadoop4:apps 注意:上面的命令等同于下面的命令〔hadoophadoop1hadoop〕scprappshadoop2。7。5hadoophadoop2:apps5、配置Hadoop环境变量 千万注意: 1、如果你使用root用户进行安装。vietcprofile即可系统变量 2、如果你使用普通用户进行安装。vi。bashrc用户变量〔hadoophadoop1〕vi。bashrcexportHADOOPHOMEhomehadoopappshadoop2。7。5exportPATHPATH:HADOOPHOMEbin:HADOOPHOMEsbin: 使环境变量生效〔hadoophadoop1bin〕source。bashrc6、查看hadoop版本〔hadoophadoop1bin〕hadoopversionHadoop2。7。5SubversionUnknownrUnknownCompiledbyrooton20171224T05:30ZCompiledwithprotoc2。5。0Fromsourcewithchecksum9f118f95f47043332d51891e37f736e9Thiscommandwasrunusinghomehadoopappshadoop2。7。5sharehadoopcommonhadoopcommon2。7。5。jar〔hadoophadoop1bin〕 7、Hadoop初始化 注意:HDFS初始化只能在主节点上进行〔hadoophadoop1〕hadoopnamenodeformat ViewCode 8、启动 A。启动HDFS 注意:不管在集群中的那个节点都可以〔hadoophadoop1〕startdfs。shStartingnamenodeson〔hadoop1〕hadoop1:startingnamenode,loggingtohomehadoopappshadoop2。7。5logshadoophadoopnamenodehadoop1。outhadoop3:startingdatanode,loggingtohomehadoopappshadoop2。7。5logshadoophadoopdatanodehadoop3。outhadoop2:startingdatanode,loggingtohomehadoopappshadoop2。7。5logshadoophadoopdatanodehadoop2。outhadoop4:startingdatanode,loggingtohomehadoopappshadoop2。7。5logshadoophadoopdatanodehadoop4。outhadoop1:startingdatanode,loggingtohomehadoopappshadoop2。7。5logshadoophadoopdatanodehadoop1。outStartingsecondarynamenodes〔hadoop3〕hadoop3:startingsecondarynamenode,loggingtohomehadoopappshadoop2。7。5logshadoophadoopsecondarynamenodehadoop3。out〔hadoophadoop1〕 B。启动YARN 注意:只能在主节点中进行启动〔hadoophadoop4〕startyarn。shstartingyarndaemonsstartingresourcemanager,loggingtohomehadoopappshadoop2。7。5logsyarnhadoopresourcemanagerhadoop4。outhadoop2:startingnodemanager,loggingtohomehadoopappshadoop2。7。5logsyarnhadoopnodemanagerhadoop2。outhadoop3:startingnodemanager,loggingtohomehadoopappshadoop2。7。5logsyarnhadoopnodemanagerhadoop3。outhadoop4:startingnodemanager,loggingtohomehadoopappshadoop2。7。5logsyarnhadoopnodemanagerhadoop4。outhadoop1:startingnodemanager,loggingtohomehadoopappshadoop2。7。5logsyarnhadoopnodemanagerhadoop1。out〔hadoophadoop4〕 9、查看4台服务器的进程 hadoop1 hadoop2 hadoop3 hadoop4 10、启动HDFS和YARN的web管理界面 HDFS:http:192。168。123。102:50070 YARN:http:hadoop05:8088 疑惑:fs。defaultFShdfs:hadoop02:9000 解答:客户单访问HDFS集群所使用的URL地址 同时,HDFS提供了一个web管理界面端口:50070HDFS界面 点击Datanodes可以查看四个节点 YARN界面 点击Nodes可以查看节点 Hadoop的简单使用创建文件夹 在HDFS上创建一个文件夹testinput〔hadoophadoop1〕hadoopfsmkdirptestinput查看创建的文件夹 〔hadoophadoop1〕hadoopfslsFound1itemsdrwxrxrxhadoopsupergroup02018030311:33test〔hadoophadoop1〕hadoopfslstestFound1itemsdrwxrxrxhadoopsupergroup02018030311:33testinput〔hadoophadoop1〕 上传文件 创建一个文件words。txt〔hadoophadoop1〕viwords。txthellozhangsanhellolisihellowangwu 上传到HDFS的testinput文件夹中〔hadoophadoop1〕hadoopfsputwords。txttestinput 查看是否上传成功〔hadoophadoop1〕hadoopfslstestinputFound1itemsrwrr2hadoopsupergroup392018030311:37testinputwords。txt〔hadoophadoop1〕 下载文件 将刚刚上传的文件下载到data文件夹中〔hadoophadoop1〕hadoopfsgettestinputwords。txtdata 查看是否下载成功〔hadoophadoop1〕lsdatahadoopdatawords。txt〔hadoophadoop1〕 运行一个mapreduce的例子程序:wordcount〔hadoophadoop1〕hadoopjarappshadoop2。7。5sharehadoopmapreducehadoopmapreduceexamples2。7。5。jarwordcounttestinputtestoutput 在YARNWeb界面查看 查看结果〔hadoophadoop1〕hadoopfslstestoutputFound2itemsrwrr2hadoopsupergroup02018030311:42testoutputSUCCESSrwrr2hadoopsupergroup352018030311:42testoutputpartr00000〔hadoophadoop1〕hadoopfscattestoutputpartr00000hello3lisi1wangwu1zhangsan1〔hadoophadoop1〕