范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

2。大数据技术之HDFS

  HDFS是Hadoo平台的核心,其全称是Hadoop Distributed File System,即分布式文件系统。 HDFS是一个高容错性的系统,适合部署在廉价的服务器上,从而可有效降低了数据的存储成本。同时,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
  1.HDFS的技术架构
  HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。
  HDFS技术架构
  (1)NameNode
  NameNode就是HDFS集群的master,其主要存储Fsimage、Edits、fstime等信息。其主要作用如下:
  1) 负责管理HDFS的名称空间,维护文件系统树以及整个树的所有文件和目录;
  2) 负责配置数据存储的副本策略;
  3) 管理数据块信息;
  4) 处理客户端读写请求。
  Fsimage即镜像文件,它是HDFS系统元数据的一个永久性的检查点,其包含了HDFS文件系统的所有目录和文件inode的序列化信息(如:id、类型、目录、所属用户、用户权限、时间戳等内容)。
  Edits是编辑日志文件,其存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到edits文件中。
  fstime是保存最近一次checkpoint的时间。
  (2)SecondaryNameNode
  SecondaryNameNode主要是定时对NameNode进行数据快照备份,这样尽量降低NameNode崩溃之后,导致数据的丢失,其实所作的工作就是从NameNode获得镜像文件和edits把二者重新合并然后发给NameNode,这样既能减轻NameNode的负担又能保险地备份。
  (3)DataNode
  DataNode是HDFS的数据节点,其主要存储实际的数据信息,并根据客户端的操作执行数据的读写信息。
  2.HDFS的特点
  (1)HDFS的优点
  支持海量的数据存储 :HDFS可支持TB级甚至PB级的数据存储。
  高容错性 :HDFS的数据存储都采用多副本机制,其中一个数据节点出现故障或数据丢失,系统会自动执行其他节点的数据副本。
  可构建在廉价的服务器上 :HDFS的运行不需要昂贵且高可靠的机器上,一般商用机器即可满足HDFS运行。
  (2)HDFS的缺点
  不适合低延时数据访问 : 由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟数据访问,不适合hadoop。
  不适合存储小文件 : 由于NameNode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于NameNode的内存容量。根据经验,每个文件、目录和数据块的存储信息大约占150字节。因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要30OMB内存。如果是上亿级别的,就会超出当前硬件的能力。
  不支持并发写入 :  同一时间内,只能有一个用户执行写操作。
  不适合做文件修改 : 对于上传到HDFS上的文件,不支持修改文件。Hadoop2.0以后虽然支持了文件的追加功能,但是还是不建议对HDFS上的文件进行修改。因为效率低下。HDFS适合一次写入,然后多次读取的场景。
  3.HDFS的读写流程
  (1)HDFS读取数据流程
  HDFS读取数据流程
  HDFS读取数据的具体流程如下:
  1.客户端通过Distributed FileSystem向NameNode请求读取文件;
  2.NameNode通过查询元数据信息,获取文件所在的DataNode节点地址;
  3.HDFS客户端根据NameNode返回的数据地址向DataNode发起请求读取文件数据;
  4.DataNode开始传输数据给客户端。
  (2)HDFS写入数据流程
  HDFS写入数据流程
  HDFS写入数据的流程如下:
  1.客户端通过Distributed FileSystem模块向NameNode请求写入数据文件;
  2.NameNode收到请求后会进行校验:a.校验是否有写权限;b.校验路径下是否有同名文件;根据校验结果,NameNode返回是否可以上传。如果校验失败,会直接报错;如果成功会给客户端返回一个信号,表示可以上传;
  3.客户端请求第一个Block块上传到哪几个DataNode节点上;
  4.NameNode返回存储文件数据的DataNode节点;
  5.客户端通过FSDataOutputStream模块请求向DataNode上传数据,DataNode收到请求会建立各数据节点和客户端的通信管道;
  6.DataNode应答客户端的请求,并向DataNode上传第一个Block;当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器,之后重复执行4-6步。
  4.SecondaryNameNode和NameNode的区别
  HDFS已经有了NameNode,还要再另外增加个SecondaryNameNode呢,它们之间的区别和联系是什么呢?
  区别:NameNode负责管理元数据和文件信息; SecondaryNameNode主要用于定期合并fsimage和edits。
  联系:SecondaryNameNode中保存了一份和Namenode一致的fsimage和edits。在Namenode发生故障时,可以从SecondaryNameNode恢复数据。SecondaryNameNode的fsimage和edits可能不是最新的,因为SecondaryNameNode从NameNode下载fsimage和edits文件的时候,新的更新操作已经写到edit.new文件中去了,但是通过SecondaryNameNode的数据恢复可以将损失减小到最少。
  那么,NameNode和SecondaryNameNode的工作机制是怎么样的呢?
  NameNode和SecondaryNameNode的工作机制
  NameNode和SecondaryNameNode工作机制主要包括两个阶段,NameNode启动阶段和SeconaryNameNode工作阶段。
  NameNode启动阶段工作如下:
  1.加载Fsimage和Edits文件到内存中,如果是第一次启动NameNode格式化后,系统首先创建Fsimage和Edits文件;
  2.客户端发起对元数据进行增删改的请求;
  3.NameNode记录操作日志,更新滚动日志;
  4.NameNode在内存中对数据进行增删改查。
  SeconaryNameNode工作阶段如下:
  1.SecondaryNameNode向NameNode发起请求,是否需要checkpoint;
  2.SecondaryNameNode请求执行checkpoint;
  3.NameNode滚动正在写的edits日志;
  4.NameNode将滚动前的Fsimage和Edits文件拷贝到SecondaryNameNode上;
  5.SecondaryNameNode加载Fsimage和Edits文件到内存,并合并;
  6. SecondaryNameNode生成新的镜像文件Fsimage.checkpoint;
  7. SecondaryNameNode上的Fsimage.checkpoint复制到NameNode上;
  8.NameNode将Fsimage.chkpoint重新命名成Fsimage。
  NameNode和SecondaryNameNode工作机制详解:
  NameNode启动时,先滚动Edits,并生成一个空的edits_inprogress,然后加载Edits和Fsimage到内存中,此时NameNode中就持有最新的元数据信息。Client开始对NameNode发送增删改的请求,这些请求的操作首先会被记录到edits_inprogress中(查询元数据的操作不会记录到Edits文件中,因为查询的操作不会更新元数据的信息),如果此时NameNode挂掉,重启后会从Edits中读取元数据的信息。然后,NameNode会在内存中执行元数据的增删改操作。由于Edits中记录的操作越来越多,Edits文件会越来越大,导致NameNode在启动加载Edits时会变慢。所以需要对Edits和Fsimage文件进行合并。所谓合并就是将Edits和Fsimage加载到内存中,按照Edits文件中的操作逐步执行,最终形成新的Fsimage。
  SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并。SecondaryNameNode会首先询问NameNode是否需要CheckPoint(触发CheckPoint需要满足两个条件中的一个:1)Edits文件中数据写满了;2)定时时间到了。),并返回NameNode是否需要CheckPoint检查结果。SecondaryNameNode执行CheckPoint操作,首先会让NameNode滚动Edits,并生成一个新的edits_inprogress文件,其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地,然后将拷贝的Edits和Fsimage加载到内存中进行合并,生成Fsimage.checkpoint,然后将Fsimage.checkpoint拷贝到NameNode,重命名为Fsimage,并替换原来的fsimage文件。
  NameNode在重新加载的时候只需要加载之前未合并的Edits和Fsimage即可,因为合并过的Edits中的元数据信息已经被记录到Fsimage。
  5. HDFS文件操作 方式
  HDFS文件操作常见的有两种方式,即HDFS shell命令行操作和javaAPI方式。今天我们先了解下基于客户端的HDFS shell命令行的操作。HDFS shell可以对文件进行创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等操作。HDFS shell的操作命令类似于lLinux的shell对文件的操作,如ls、mkdir、rm 等。 可以执行命令hadoop fs,来查看HDFS的shell操作的所有命令。常见的HDFS shell操作命令如下:
  选项名称
  使用格式
  含义
  -ls
  -ls <路径>
  查看指定路径的当前目录结构
  -lsr
  -lsr <路径>
  递归查看指定路径的目录结构
  -du
  -du <路径>
  统计目录下各文件大小
  -dus
  -dus <路径>
  汇总统计目录下文件(夹)大小
  -count
  -count [-q] <路径>
  统计文件(夹)数量
  -mv
  -mv <源路径> <目的路径>
  移动
  -cp
  -cp <源路径> <目的路径>
  复制
  -rm
  -rm [-skipTrash] <路径>
  删除文件/空白文件夹
  -rmr
  -rmr [-skipTrash] <路径>
  递归删除
  -put
  -put <多个linux上的文件>
  上传文件
  -copyFromLocal
  -copyFromLocal <多个linux 上的文件>
  从本地复制
  -moveFromLocal
  -moveFromLocal <多个linux 上的文件>
  从本地移动
  -getmerge
  -getmerge <源路径>
  合并到本地
  -cat
  -cat
  查看文件内容
  -text
  -text
  查看文件内容
  -copyToLocal
  -copyToLocal [-ignoreCrc] [-crc] [hdfs 源路径] [linux 目的路径]
  复制到本地
  -moveToLocal
  -moveToLocal [-crc]  
  移动到本地
  -setrep
  -setrep [-R] [-w] <副本数> <路径>
  修改副本数量
  -mkdir
  -mkdir
  创建空白文件夹
  -touchz
  -touchz <文件路径>
  创建空白文件
  -stat
  -stat [format] <路径>
  显示文件统计信息
  -tail
  -tail [-f] <文件>
  查看文件尾部信息
  -chmod
  -chmod [-R] <权限模式> [路径]
  修改权限
  -chown
  -chown [-R] [属主][:[属组]]路径
  修改属主
  -chgrp
  -chgrp [-R] 属组名称 路径
  修改属组
  -help
  -help [命令选项]
  帮助
  如查看HDFS下/warehoue/ods/abc的目录结构,即执行命令:hdoop fs -ls /warehoue/ods/abc;其他命令类似。

小超梦被黑粉喷了半年,却一点也不生气!情商比FakerUzi高多了对于所有喜欢玩英雄联盟和看比赛的观众来说,2022年最让人无法接受的事情,莫过于Uzi的先复出再退役,以及被捧上神坛的Faker,因为在MSI冠军季中邀请赛期间的各种双标言论,一下入伏后吃生姜有讲究,3种吃法安利给你,也许有好处可能很多小伙伴听过这样一句民间俗语冬吃萝卜夏吃姜,不劳医生开药方。如今正值炎热的夏天,也是吃生姜的好季节,但是关于生姜这种食物,大多数人却不怎么爱吃。生姜是我们厨房中经常见到的一种刚刚,利空消息落地,明天,股市走势预测截止于收盘的时候,可以看到,上证指数全天下跌了0。04,报收于3404点,创业板指数全天下跌了0。34,报收于2825点,深成指全天下跌了0。41,报收于12973点。可以说,今天有钱不去两地,没钱不求两人,老辈人的经验之谈,有道理吗?曹雪芹诗里说世人都晓神仙好,惟有功名忘不了!世人都晓神仙好,惟有金银忘不了,这世上的人活着,大多都是为名为利活着,这或许就是人活着的欲望,也有像林黛玉那样为情活着的人,只是太少了,男人的黄金十五年31岁到45岁,一定要控制情欲,享受孤独,努力赚钱。千万不要把宝贵的时间浪费在不必要的人身上,推掉不必要的酒局和饭局,不要虚度光阴贪图享乐。这宝贵的15年,将决定你下半生的生活质量截至七月初,这3款千元机性价比最高,用到2025年毫无压力今年7月,如果你打算换手机,但是预算不是很高的话,今天我们要聊的这3款千元机你就不能错过了。今天要说的千元机不仅性能很强,性价比也很高。红米K50Pro红米K50Pro搭载了三星2张学友被网暴别用攻击他人来彰显自己的爱国张学友早前就香港回归25年接受央视新闻采访,他在采访片段中用广东话说大家好,我是张学友。香港过去25年经历过好多高高低低起起跌跌,但是因为我是和这个城市一起成长的,我从这里出生,在主播肖晓琳55岁退休,仅5个月后去世,临终前25字遗言让人泪目文丨柠一编辑丨娱阿姨肖晓琳是央视著名的节目主持人。55岁就退休了,然而,退休后仅仅5个月,她就因病离世了。临终前,丈夫,儿子和儿媳妇一直守在她的病床前。肖晓琳在说完25字遗言之后,绿军2新援不如1老将!他才是争冠密码1特质专克勇士凯尔特人连续引入2名新援之后,球队的实力得到了进一步的提升,而他们也被视作新赛季有望夺冠的球队之一。不过,作为一名总冠军级别的球队,凯尔特人在新赛季所要面对的对手要更多,同时也更加国产旗舰高光时刻!vivoX80Pro全面升级,带来无短板体验提起vivoX系列产品,相信不少朋友都很熟悉。作为vivo旗下最重要的旗舰产品线,其总是会率先应用vivo研发的各种先进技术,因此使用体验极佳,受到了广大用户的认可和青睐。vivo赵丽颖当选副主席,跟大家合影稳站C位,旁边可是央视主持方琼方琼赵丽颖当选影视家协会副主席,通过网络这个平台,大家都知道赵丽颖虽然说岁数比较小,但是他整个人还是比较有魅力的那一种,这一次她当选了副主席,而且跟大家合影的时候,她是站在中间的位
舍弃开放世界的真三国无双8帝国变得更好了吗?该评测游戏由今日头条提供一鸭三吃的真三国无双与三国志异曲同工,在三国无双系列大获成功后,光荣就开始极力挖掘这个IP的所有潜能,在本传的基础上添加新武将新剧本新关卡以及各项调整和优化18个月淘特吸引超2。4亿县域消费者下沉市场攻守易形淘特驶入了发展快车道。11月18日晚间,阿里公布Q2新财报。财报显示,主打性价比的淘特继续保持高速增长,年度活跃消费者(AAC)超2。4亿,淘特的独占会员DAU比例已接近50。从上用小米watchs1对标华为watchGt2pro亦或是watchgt3?基本上是同样的功能以及内置ui外形都不尽相同,但是小米却比华为便宜了很多,而且在各项功能上S1都要优于GT2最新出的华为watchGT3压力很大啊华为watchGT2Pro在拼夕夕杯赛的神!天霸单局狂砍58分,新人强势霸榜,顾居居都被抢了风头喜欢看和平精英赛事的小伙伴们应该对黄金大奖赛十分熟悉了,这是由斗鱼举办的国内最具含金量的杯赛之一,近日S3赛季战火重燃,国内各大顶尖战队齐聚一堂,争夺黄金大奖赛的最高荣誉。在经过第芯片系统,完全国产的电脑杀出来了国产自研,一直大家最为关心的话题。除了在尖端核心软硬件上的技术突破,也是为未来手机PC等电子产品逐渐走向全面国产化做准备。以大家熟悉的手机为例在近几年,软件领域我们见证了华为鸿蒙系望眼欲穿,iphoneSE3要来了,搭载A15处理器,支持5G网络自2020年4月15日发布iphoneSE2后,果粉们整整等了1年,iphoneSE3还是没有出现。苹果的SE系列机型机身小巧,价格实在,性能强悍,很受小屏爱好者的青睐。iPhonSteam玩家在线峰值逼近2800万人再创新高迈入2022年,Steam在线人数峰值再创新高,逼近2800万人。根据SteamDB的数据,Steam在线峰值数近日达到了27942036名,Steam官方的数据显示为279424ofo退押新套路被骂上热搜!俞敏洪斥资近千万港元增持新东方在线1,拉好友还是拉仇人?ofo退押新套路被骂上热搜充10元退押2。5元拉好友退押金,近日,ofo又因退押金套路被骂上热搜。记者实测发现,目前ofoAPP界面已不见充10元退押2。5元2021年最受读者欢迎的科研成果来了闯入太阳系的奇异天体奥陌陌的艺术假想图疫情的延烧没能阻止人类文明的脚步。2021年科学家展示了很多有趣的科研成果。以下是2021年最受读者欢迎的部分科研成果。奥陌陌之谜获解2017windows系统究竟要不要更新?有人常问我一个问题系统要不要更新补丁?今天咱在这里就聊聊关于系统更新方面这个话题。首先说下这个更新补丁的作用修复系统中的一些bug优化系统的运行效率以及一些新功能的添加。当然这些修跟我学安装最纯净原版windows10之系统启动盘制作跟我学安装最纯净原版windows10之系统启动盘制作阅读过笔者从微软系统镜像下载站或httpsnext。itellyou。cn下载完毕纯净原版Windows10系统镜像的朋友,现