范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

HDFS为何在大数据领域经久不衰?

  HDFS1 概述1.1 简介Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HDFS 源自于Google的GFS论文,发表于2003年,HDFS是GFS的克隆版
  大数据中最宝贵、最难以代替的就是数据,一切都围绕数据。
  HDFS是最早的大数据存储系统,存储着宝贵的数据资产,各种新算法、框架要想得到广泛使用,必须支持HDFS,才能获取已存储在里面的数据。所以大数据技术越发展,新技术越多,HDFS得到的支持越多,越离不开HDFS。 HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术 。
  HDFS是如何实现大数据高速、可靠的存储和访问的呢?
  Hadoop分布式文件系统HDFS的设计目标是管理数以千计的服务器、数以万计的磁盘,将大规模的服务器计算资源当作一个单一存储系统进行管理,对应用程序提供数以PB计的存储容量,让应用程序像使用普通文件系统一样存储大规模的文件数据。 1.2 设计目标
  文件以多副本的方式进行存储:  filel:node1 node2 node3  file2: node2 node3 node4  file3: node3 node4 node5  file4: node5 node6 node7
  缺点: 不管文件多大,都存储在一个节点,在进行数据处理时,很难进行并行处理,节点可能就成为网络瓶颈,很难进行大数据的处理 存储负载很难均衡,每个节点的利用率很低
  优点: 巨大的分布式文件系统 运行在普通廉价的硬件 易扩展、为用户提供性能不错的文件存储服务 2 如何设计一个分布式文件系统
  HDFS的大容量存储和高速访问的实现。
  RAID将数据分片后,在多块磁盘上并发进行读写访问,提高了存储容量、加快了访问速度,并通过数据冗余校验提高了数据可靠性,即使某块磁盘损坏也不会丢数据。将RAID的设计理念扩大到整个分布式服务器集群,就产生了分布式文件系统,这便是Hadoop分布式文件系统的核心原理。
  和RAID在多个磁盘上进行文件存储及并行读写的思路一样,HDFS是在一个大规模分布式服务器集群上,对数据分片后进行并行读写及冗余存储。因为HDFS可部署在一个大的服务器集群,集群中所有服务器的磁盘都可供HDFS使用,所以整个HDFS的存储空间可以达到PB级。
  HDFS是主从架构。一个HDFS集群会有一个NameNode(命名节点,简称NN),作为主服务器(master server)。 NameNode用于管理文件系统的命名空间以及调节客户访问文件 还有多个DataNode(简称DN),数据节点,作为从节点(slave server)存在 通常每个集群中的DataNode,都会被NameNode所管理,DataNode用于存储数据
  HDFS公开了文件系统名称空间,允许用户将数据存储在文件中,就好比我们平时使用os中的文件系统一样,用户无需关心底层是如何存储数据的。 在底层,一个文件会被分成一或多个数据块,这些数据库块会被存储在一组数据节点中。在CDH中数据块的默认128M。 在NameNode,可执行文件系统的命名空间操作,如打开,关闭,重命名文件等。这也决定了数据块到数据节点的映射。
  HDFS被设计为可运行在普通的廉价机器上,而这些机器通常运行着一个Linux操作系统。一个典型的HDFS集群部署会有一个专门的机器只能运行 NameNode  ,而其他集群中的机器各自运行一个 DataNode  实例。虽然一台机器上也可以运行多个节点,但不推荐。
  DataNode存储用户的文件对应的数据块(Block) 会定期向NN发送心跳信息,汇报本身及其所有的block信息和健康状况
  负责文件数据的存储和读写操作,HDFS将文件数据分割成若干数据块(Block),每个DataNode存储一部分Block,这样文件就分布存储在整个HDFS服务器集群中。
  应用程序客户端(Client)可并行访问这些Block,从而使得HDFS可以在服务器集群规模上实现数据并行访问,极大提高访问速度。
  HDFS集群的DataNode服务器会有很多台,一般在几百台到几千台,每台服务器配有数块磁盘,整个集群的存储容量大概在几PB~数百PB。 NameNode负责客户端请求的响应 负责元数据(文件的名称、副本系数、Block存放的DN)的管理
  负责整个分布式文件系统的元数据(MetaData)管理,即文件路径名、数据块的ID以及存储位置等信息,类似os中的文件分配表(FAT)。
  HDFS为保证数据高可用,会将一个Block复制为多份(默认3份),并将多份相同的Block存储在不同服务器,甚至不同机架。当有磁盘损坏或某个DataNode服务器宕机,甚至某个交换机宕机,导致其存储的数据块不能访问时,客户端会查找其备份Block访问。 3 S副本机制
  HDFS中,一个文件会被拆分为一个或多个数据块。默认每个数据块有三个副本,每个副本都存放在不同机器,而且每一个副本都有自己唯一的编号:
  Block多份复制存储的示意图
  文件/users/sameerp/data/part-0的复制备份数设为2,存储的BlockID分别为1、3: Block1的两个备份存储在DataNode0和DataNode2两个服务器上 Block3的两个备份存储DataNode4和DataNode6两个服务器上
  上述任一台服务器宕机后,每个数据块都至少还有一个备份存在,不会影响对文件/users/sameerp/data/part-0的访问。
  和RAID一样,数据分成若干Block后,存储到不同服务器,实现数据大容量存储,并且不同分片的数据能并行进行读/写操作,实现数据的高速访问。 副本存放策略
  副本存放:NameNode节点选择一个DataNode节点去存储block副本的过程,该过程的策略是在可靠性和读写带宽间权衡。
  《Hadoop权威指南》中的默认方式: 第一个副本会随机选择,但是不会选择存储过满的节点 第二个副本放在和第一个副本不同且随机选择的机架 第三个和第二个放在同一机架上的不同节点 剩余副本完全随机节点 合理性分析可靠性:block存储在两个机架 写带宽:写操作仅穿过一个网络交换机 读操作:选择其中一个机架去读 block分布在整个集群
  Google大数据"三驾马车"的第一驾是GFS(Google 文件系统),而Hadoop的第一个产品是HDFS,分布式文件存储是分布式计算的基础。
  这些年来,各种计算框架、各种算法、各种应用场景不断推陈出新,但大数据存储的王者依然是HDFS。 5 HDFS的高可用设计5.1 数据存储故障容错
  磁盘介质在存储过程中受环境或者老化影响,其存储的数据可能会出现错乱。
  HDFS对存储在DataNode上的数据块,计算并存储校验和(CheckSum)。在读数据时,重新计算读取出来的数据的校验和,校验不正确就抛异常,应用程序捕获异常后就到其他DataNode上读取备份数据。 5.2 磁盘故障容错
  DataNode监测到本机的某块磁盘损坏,就将该块磁盘上存储的所有BlockID报告给NameNode,NameNode检查这些数据块还在哪些DataNode上有备份,通知相应的DataNode服务器将对应的数据块复制到其他服务器上,以保证数据块的备份数满足要求。 5.3 DataNode故障容错
  DataNode会通过心跳和NameNode保持通信,如果DataNode超时未发送心跳,NameNode就会认为这个DataNode已经宕机失效,立即查找这个DataNode上存储的数据块有哪些,以及这些数据块还存储在哪些服务器上,随后通知这些服务器再复制一份数据块到其他服务器上,保证HDFS存储的数据块备份数符合用户设置的数目,即使再出现服务器宕机,也不会丢失数据。 5.4 NameNode故障容错
  NameNode是整个HDFS的核心,记录着HDFS文件分配表信息,所有的文件路径和数据块存储信息都保存在NameNode,如果NameNode故障,整个HDFS系统集群都无法使用;如果NameNode上记录的数据丢失,整个集群所有DataNode存储的数据也就没用了。
  所以,NameNode高可用容错能力非常重要。NameNode采用主从热备的方式提供高可用服务:
  集群部署两台NameNode服务器: 一台作为主服务器提供服务 一台作为从服务器进行热备
  两台服务器通过Zk选举,主要是通过争夺znode锁资源,决定谁是主服务器。而DataNode则会向两个NameNode同时发送心跳数据,但是只有主NameNode才能向DataNode返回控制信息。
  正常运行期,主从NameNode之间通过一个共享存储系统shared edits来同步文件系统的元数据信息。当主NameNode服务器宕机,从NameNode会通过ZooKeeper升级成为主服务器,并保证HDFS集群的元数据信息,也就是文件分配表信息完整一致。
  软件系统,性能差点,用户也许可接受;使用体验差,也许也能忍受。但若可用性差,经常出故障不可用,就麻烦了;如果出现重要数据丢失,那开发摊上大事。
  而分布式系统可能出故障地方又非常多,内存、CPU、主板、磁盘会损坏,服务器会宕机,网络会中断,机房会停电,所有这些都可能会引起软件系统的不可用,甚至数据永久丢失。
  所以在设计分布式系统的时候,软件工程师一定要绷紧可用性这根弦,思考在各种可能的故障情况下,如何保证整个软件系统依然是可用的。
  ## 6 保证系统可用性的策略 冗余备份
  任何程序、任何数据,都至少要有一个备份,也就是说程序至少要部署到两台服务器,数据至少要备份到另一台服务器上。此外,稍有规模的互联网企业都会建设多个数据中心,数据中心之间互相进行备份,用户请求可能会被分发到任何一个数据中心,即所谓的异地多活,在遭遇地域性的重大故障和自然灾害的时候,依然保证应用的高可用。 失效转移
  当要访问的程序或者数据无法访问时,需要将访问请求转移到备份的程序或者数据所在的服务器上,这也就是 失效转移 。失效转移你应该注意的是失效的鉴定,像NameNode这样主从服务器管理同一份数据的场景,如果从服务器错误地以为主服务器宕机而接管集群管理,会出现主从服务器一起对DataNode发送指令,进而导致集群混乱,也就是所谓的"脑裂"。这也是这类场景选举主服务器时,引入ZooKeeper的原因。ZooKeeper的工作原理,我将会在后面专门分析。 降级
  当大量的用户请求或者数据处理请求到达的时候,由于计算资源有限,可能无法处理如此大量的请求,进而导致资源耗尽,系统崩溃。这种情况下,可以拒绝部分请求,即进行 限流 ;也可以关闭部分功能,降低资源消耗,即进行 降级 。限流是互联网应用的常备功能,因为超出负载能力的访问流量在何时会突然到来,你根本无法预料,所以必须提前做好准备,当遇到突发高峰流量时,就可以立即启动限流。而降级通常是为可预知的场景准备的,比如电商的"双十一"促销,为了保障促销活动期间应用的核心功能能够正常运行,比如下单功能,可以对系统进行降级处理,关闭部分非重要功能,比如商品评价功能。 总结
  HDFS是如何通过大规模分布式服务器集群实现数据的大容量、高速、可靠存储、访问的。
  1.文件数据以数据块的方式进行切分,数据块可以存储在集群任意DataNode服务器上,所以HDFS存储的文件可以非常大,一个文件理论上可以占据整个HDFS服务器集群上的所有磁盘,实现了大容量存储。
  2.HDFS一般的访问模式是通过MapReduce程序在计算时读取,MapReduce对输入数据进行分片读取,通常一个分片就是一个数据块,每个数据块分配一个计算进程,这样就可以同时启动很多进程对一个HDFS文件的多个数据块进行并发访问,从而实现数据的高速访问。关于MapReduce的具体处理过程,我们会在专栏后面详细讨论。
  3.DataNode存储的数据块会进行复制,使每个数据块在集群里有多个备份,保证了数据的可靠性,并通过一系列的故障容错手段实现HDFS系统中主要组件的高可用,进而保证数据和整个系统的高可用。

家用空气净化器前十名,家用空气净化器排名家用空气净化器前十名,位列第一的是冰尊家用空气净化器,为了保护自己和家人的呼吸健康,很多家庭选择在家里使用家用空气净化器,使用家用空气净化器,最好选择知名大品牌,我们可以参考下文的空调选购推荐海尔洗空气在意你的健康,更懂你的心思夏天最幸福的生活,莫过于待在空调房里了。进入七月,热浪一浪高过一浪,空调选购成为当下颇为热门的话题。大多数用户对一台空调的选购需求既要高颜值,又要实用功能,还要兼顾健康。针对大众的会说话的空气循环风扇竟然如此方便一什么是空气循环风扇?与普通风扇区别?空气循环风扇是什么?空气循环风扇可以让风沿着一定的方向呈螺旋形吹出,伴随着扇叶的搅动,形成螺旋形的柱状风,其主要用途就是搅动勇气,让空气形成对不用烤箱,不用黄油,用电饭锅做无糖咸面包,松软拉丝关注大胖友图图,每天都能看到新奇,简单,美味又实用的食谱哦。今天我们来用电饭锅做面包。无黄油无白糖,咸香松软特别好吃。没有烤箱也可以自己在家做面包了。你需要准备的材料有高筋面粉25为什么孩子都喜欢抠or钻洞洞?背后藏着我们不知道的小秘密你家孩子喜欢抠or钻洞洞吗?周末,我带DD去闺蜜家串门,恰逢赶上她家孩子调皮捣蛋的现场。原来啊,她家孩子把地上铺的爬行垫抠出了很多个洞洞,闺蜜说,这次这个还没用到一周呢!显然这已经北京市2022年养老金调整,养老金在6250元以下的,多涨养老金?视频加载中根据京人社养发202227号文件规定,北京市2022年养老金调整主要包含五个方面。第一定额调整每月增加36元。第二缴费年限挂钩,缴费年限满10年及以上的,每满1年增加3元京媒国安联合北京市体育局等部门召开协调会,恢复主场意愿强烈直播吧7月14日讯据北京晚报报道,国安俱乐部已于7月13日联合北京市体育局在内的20余个市区两级职能部门召开协调会,明确表达了恢复主场的强烈意愿。由于此前的主场工人体育场仍处于升级线上打卡,中国大运河博物馆研学大运河云平台上线现代快报讯(记者庄剑翔)为让更多的青少年参与研学活动,近日,中国大运河博物馆开辟线上研学路径,上线了研学大运河云平台,统筹线下研学活动,发起云端研学项目,使研学变得便携通达快人一步通州极乐园公墓环境好,风水佳通州极乐园公墓咨询电话王经理13699184268(参观请提前电话预约)北京市通州区潞城镇极乐园公墓,始建于2010年,坐落在北京市通州区运河旁森林公园中央区,环境秀丽,藏风聚气。强烈推荐!通州发布十大骑行线路!全部依河而建,一路皆美景(附地图)了解到通州区十大骑行线路通州河流众多,在城市副中心建设中,各条河流已成为一道道靓丽的风景线。日前,通州区体育局在发布了十大跑步线路的基础上,再次发布十大骑行线路。其中,最长线路22养老金即将补发,北京市养老金4500的人,上涨金额能达到240元吗今年退休人员的养老金再一次迎来上涨,大家也都非常高兴。近期我们在整理私信的时候呢,发现有一位北京的朋友给我们留言,他说他今年73周岁,他为了退休后能够多领一些养老金,在之前工作的时
领头羊位置不稳一队已露冠军相卫冕冠军内忧外患新军只差一人到来cba第二阶段在本月末结束,各支球队的排名逐渐明朗。有的球队遥遥领先,有的球队异军突起,有的球队没落掉队,有的球队暗自鼓劲等待爆发。各球队还有不同的问题,让我们来看看各球队的问题有果然是哈登筹码西蒙斯又涨价了!76人一心想要哈登2。7亿顶薪都给据ESPN记者爆料,76人关于西蒙斯的交易涨价了,他们想要更多的选秀权或者更多的年轻球员,另外一种交易方法就是除非获得即战力更强的球员,可以球队获得总冠军可以考虑交易。76人管理层国足新星闪耀欧洲!梅开二度坐稳主力,10场7球率队高居联赛第二提起中国留洋球员,大家首先想到的是武磊,许多人也只能想到武磊,但并不意味着,中国没有其他留洋球员。据统计,目前有51名中国球员在欧洲联赛效力,包括男女足,这还不算前段时间加盟拜仁的推荐欧洲人文地图美洲人文地图来一场文化之旅从前那些游历过的国家在机翼下方依次闪现就像一串故友的名字被一位陌生人逐一提及而大海如同久违的母校培养出了众多杰出的人才那些散落在岸边的港口给世界带去了温暖和繁盛蔡天新读书与旅行,都运输1。1万吨钢铁,中国远赴北极建造极光大桥,竣工后令欧洲佩服图为哈罗格兰德大桥如今中国的基建实力已经受到了全球多国认可,包括此前盛气凌人的西方国家,这是因为近年中国团队远赴北极建造的一座极光大桥,竣工后令整个欧洲都佩服,它就是位于挪威境内的苏格兰的荣耀,爱丁堡圣吉尔斯大教堂(英国)说明由于标题限制文字不能超过30个字,故此教堂系列文章将列出副标题。欧洲经典教堂(西欧2)。入选理由苏格兰宗教改革领袖约翰诺克斯的安葬地。圣吉尔斯大教堂(St。GilesCathe收获真爱事业到达顶峰,焦作勒布朗即将复出,赛季后何去何从最近有消息说,北控的焦作勒布朗李根恢复不错,北控第二阶段应该可以上场比赛,这对于北控来说也许是个不错的消息。至于为什么用也许呢?李根已经33岁了,运动能力大不如前而且他的手术虽然说中国自由搏击废了?一龙方便相互诋毁,邱建良落败,拳手都失业了2021年已走近尾声,国内各类体育项目也到了盘点回顾的时间,作为前些年备受国内热捧的项目,自由搏击在这一年里继续走低,也是过去十年最低的一年,不禁让人发出一声叹息。回顾这一年,国内王曼昱一个月工资多少?球迷知道后不淡定,向刘国梁提出最新要求每当提起中国乒乓球,国人就会有慢慢的自豪感,作为国球,这项运动虽然在全世界得到了高速发展,但是中国乒乓球球队却始终没有丢掉世界第一的位置,无论是男队还是女队,一代又一代人才的涌现,体坛名将林丹成老赖,他像是没钱的人吗?世风日下还是另有隐情?2021年12月14日,中国家喻户晓的体坛名将林丹被列为失信人员名单,成为了被执行人。事情的起因还得追溯到2018年,当年由林丹参股的万国城(广州)国际商贸公司和广州西敏旅运票务公3。8亿美元!美体操队前队医性侵案受害者达成和解(观察者网讯)12月13日,由美国女子体操队前队医拉里纳萨尔(LarryNassar)性侵案所引发的,长达5年的法律拉锯战终于告一段落了。根据法庭文件,共有超过500名受害者寻求赔