专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

Hadoop之HDFS架构设计

  Hadoop之HDFS架构设计简介特点前提和目标硬件故障数据流访问大数据集一致性模型移动计算比移动数据更便宜跨异构硬件和软件平台的可移植性NameNodeandDataNodes文件系统命名空间数据复制副本放置副本选择安全模式文件系统元数据的持久化怎样是系统变得稳定数据磁盘故障、心跳和重新复制简介
  Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商品硬件上运行。它与现有的分布式文件系统有许多相似之处。然而,与其他分布式文件系统的区别是显著的。HDFS具有高度容错性,设计用于部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。HDFS最初是作为ApacheNutchweb搜索引擎项目的基础设施构建的。HDFS是ApacheHadoop核心项目的一部分。项目URL为http:hadoop。apache。org。特点容错性
  硬件成本
  低高吞吐量前提和目标硬件故障
  硬件故障是常态,而不是例外。HDFS实例可能由数百或数千台服务器机器组成,每个服务器机器存储文件系统的部分数据。事实上,有大量的组件,每个组件都有非常小的故障概率,这意味着HDFS的某些组件总是不起作用的。因此,故障检测和快速自动恢复是HDFS的核心架构目标。数据流访问
  在HDFS上运行的应用程序需要对其数据集进行流式访问。它们不是通常在通用文件系统上运行的通用应用程序。HDFS更多地是为批处理而设计的,而不是用户的交互使用。重点是数据访问的高吞吐量,而不是数据访问的低延迟(HDFS的缺点)。POSIX提出了许多针对HDFS的应用程序不需要的硬性要求。一些关键领域的POSIX语义已经被用来提高数据吞吐量。关键词:
  高吞吐量:某一时间内写入大量的数据。
  低延迟:以毫秒级读写数据。大数据集
  在HDFS上运行的应用程序具有大型数据集。HDFS中的典型文件大小为GB到TB。因此,HDFS被调整为支持大型文件。它应该提供高聚合数据带宽,并扩展到单个集群中的数百个节点。它应该在单个实例中支持数千万个文件。一致性模型
  HDFS应用程序需要文件的一次写入多次读取访问模型。文件创建、写入和关闭后,除了追加和截断外,无需更改。支持将内容追加到文件末尾,但不能在任意位置进行更新。这一假设简化了数据一致性问题,并实现了高吞吐量数据访问。MapReduce应用程序或web爬虫应用程序完全适合此模型。
  总结:一次写入,多次读取。一旦写入,不能更改,只能追加。移动计算比移动数据更便宜
  如果应用程序请求的计算在其操作的数据附近执行,则效率会高得多。当数据集的大小非常大时,尤其如此。这将最小化网络拥塞并增加系统的总吞吐量。假设将计算迁移到更接近数据所在的位置,而不是将数据移动到应用程序运行的位置。HDFS为应用程序提供接口,使其更接近数据所在的位置。跨异构硬件和软件平台的可移植性
  HDFS被设计为可从一个平台轻松移植到另一个平台。这有助于广泛采用HDFS作为大型应用程序的选择平台。NameNodeandDataNodes
  HDFS具有主从架构。HDFS集群由一个NameNode组成,这是一个管理文件系统名称空间并管理客户端对文件的访问的主服务器。此外,还有许多DataNode,通常是集群中的每个节点一个,用于管理连接到它们运行的节点的存储。HDFS公开了文件系统命名空间,并允许用户数据存储在文件中。在内部,文件被分割成一个或多个块,这些块存储在一组DataNode中。NameNode执行文件系统命名空间操作,如打开、关闭和重命名文件和目录。它还确定块到DataNode的映射。DataNode负责处理来自文件系统客户端的读写请求。DataNode还根据NameNode的指令执行块创建、删除和复制。
  NameNode和DataNode是设计用于在商品机器上运行的软件。这些机器通常运行GNULinux操作系统(OS)。HDFS使用Java语言构建;任何支持Java的机器都可以运行NameNode或DataNode软件。使用高度可移植的Java语言意味着HDFS可以部署在各种机器上。典型的部署有一台只运行NameNode软件的专用计算机。集群中的其他每台机器都运行一个DataNode软件实例。该体系结构并不排除在同一台机器上运行多个DataNode,但在实际部署中很少出现这种情况。NameNode:
  1。看成一个数据中心执行文件系统命名空间,打开、关闭和重命名文件和目录
  2。负责管理DataNode,控制DataNode创建、删除、复制文件
  3。管理文件系统命名空间及属性
  4。存储文件的副本数
  5。周期性的接收DataNode心跳和区块报告,收到心跳意味着DataNode正常,收集到块报告,更新块列表,随时掌控DataNode中的块信息
  DataNode:
  1。存储数据
  2。处理来自客户的的读写请求首先要经过NameNode同意文件系统命名空间
  HDFS支持传统的分层文件组织。用户或应用程序可以创建目录并在这些目录中存储文件。文件系统命名空间层次结构与大多数其他现有文件系统相似;可以创建和删除文件,将文件从一个目录移动到另一个目录,或重命名文件。HDFS支持用户配额和访问权限。HDFS不支持硬链接或软链接。然而,HDFS体系结构并不排除实现这些功能。
  虽然HDFS遵循文件系统的命名约定,但一些路径和名称(例如。reserved和。snapshot)是保留的。透明加密和快照等功能使用保留路径。
  NameNode维护文件系统命名空间。对文件系统名称空间或其属性的任何更改都由NameNode记录。应用程序可以指定应由HDFS维护的文件副本的数量。文件的副本数称为该文件的复制因子。此信息由NameNode存储。数据复制
  HDFS旨在在大型集群中跨机器可靠地存储非常大的文件。它将每个文件存储为一系列块。复制文件块以实现容错。每个文件的块大小和复制因子是可配置的。
  文件中除最后一个块外的所有块都是相同的大小,而在添加了对可变长度块的支持以追加和hsync之后,用户可以启动新块,而无需将最后一个填充到配置的块大小。
  应用程序可以指定文件副本的数量。复制因子可以在文件创建时指定,以后可以更改。HDFS中的文件只写一次(除了追加和截断),并且在任何时候都只有一个写入器。
  NameNode做出关于块复制的所有决定。它周期性地从集群中的每个数据节点接收心跳和区块报告。收到心跳信号意味着DataNode运行正常。Blockreport包含DataNode上所有块的列表。
  副本放置
  副本的放置对HDFS的可靠性和性能至关重要。优化副本放置将HDFS与大多数其他分布式文件系统区分开来。这是一个需要大量调整和经验的特性。机架感知副本放置策略的目的是提高数据可靠性、可用性和网络带宽利用率。副本放置策略的当前实现是朝着这个方向迈出的第一步。实施此策略的短期目标是在生产系统上验证它,了解更多有关其行为的信息,并为测试和研究更复杂的策略奠定基础。
  大型HDFS实例运行在通常分布在许多机架上的计算机集群上。不同机架中的两个节点之间的通信必须通过交换机。在大多数情况下,同一机架中机器之间的网络带宽大于不同机架中机器间的网络带宽。
  对于常见情况,当复制因子为3时,HDFS的放置策略是,如果写入程序位于数据节点上,则将一个副本放置在本地计算机上,否则放置在与写入程序相同的机架中的随机数据节点上;另一个副本放在不同(远程)机架中的节点上,最后一个副本则放置在相同远程机架中的不同节点上。此策略可减少机架间写入流量,从而通常提高写入性能。机架故障的几率远远小于节点故障的几率;此策略不会影响数据可靠性和可用性保证。然而,它不会减少读取数据时使用的总网络带宽,因为一个块只放置在两个唯一的机架中,而不是三个机架中。使用此策略,块的副本不会均匀分布在机架上。两个副本位于一个机架的不同节点上,其余副本位于其他机架之一的节点上。此策略在不影响数据可靠性或读取性能的情况下提高了写入性能。总结:复制因子为3时
  第一个副本放置在本地计算机
  第二个副本放置在相同机架的其他数据节点
  第三个副本放置在其他机架的任意节点
  优点:减少了机架间写入流量,提高写性能
  如果复制因子大于3,则随机确定第四个和后续副本的位置,同时保持每个机架的副本数量上限((副本1)机架2)。由于NameNode不允许DataNode具有同一块的多个副本,因此创建的最大副本数是当时DataNode的总数。副本选择
  就近原则,如果HDFS集群跨越多个数据中心,则驻留在本地数据中心的副本优于任何远程副本。安全模式
  启动时,NameNode会进入一种称为安全模式的特殊状态。当NameNode处于安全模式状态时,只接收读请求,不接收写入修改删除等操作,不会复制数据块。NameNode从DataNode接收心跳和块报告消息。Blockreport包含DataNode中活动的数据块列表。每个块具有指定的最小副本数。当数据块的最小副本数已通过NameNode检查时,该数据块被视为安全复制。NameNode检查到安全复制数据块达到了设置的百分比(默认99。9),在此基础上再等待30秒,NameNode将退出安全模式状态。然后,它确定仍然具有少于指定数量副本的数据块(如果有的话)的列表。然后,NameNode将这些块复制到其他DataNode。
  安全模式命令开启安全模式hdfsdfsadminsafemodeenter查看安全模式hdfsdfsadminsafemodeget退出安全模式hdfsdfsadminsafemodeleave
  文件系统元数据的持久化
  HDFS命名空间由NameNode存储。NameNode使用名为EditLog的事务日志持久地记录文件系统元数据发生的每个更改。例如,在HDFS中创建一个新文件会导致NameNode在EditLog中插入一条记录,表明这一点。同样,更改文件的复制因子会导致将新记录插入到EditLog中。NameNode使用其本地主机OS文件系统中的文件来存储EditLog。整个文件系统名称空间(包括块列表信息,系统文件属性)存储在一个名为FsImage的文件中。FsImage也作为文件存储在NameNode的本地文件系统中。
  NameNode在内存中保存整个文件系统命名空间和文件块映射的映像。当NameNode启动或到达检查点触发时(检查点触发阈值可配置),它从磁盘读取FsImage和EditLog,将EditLog中的所有事务应用到FsImage的内存表示,并将此新版本刷新到磁盘上的新FsImage。然后,它可以删除旧的EditLog,创建一个新的EditLog,因为它的事务已应用于持久的FsImage。此过程称为检查点。检查点的目的是通过拍摄文件系统元数据的快照并将其保存到FsImage,确保HDFS具有文件系统元数据一致的视图。尽管读取FsImage很有效,但直接对FsImage进行增量编辑并不有效。我们没有为每次编辑修改FsImage,而是将编辑保存在Editlog中。在检查点期间,Editlog中的更改将应用于FsImage。检查点可以在以秒为单位的给定时间间隔(dfs。namenode。checkpoint。period,默认3600,即1小时)触发,也可以在累积了给定数量的文件系统事务(dfs。namenode。chockpoint。txns,默认1,000,000)后触发。如果设置了这两个属性,则要达到的第一个阈值将触发检查点。
  总结:NameNode启动或者触发检查点时,它从磁盘中读入fsImage和editLog,将editLog事物合并到fsImage中,合并成功将最新fsImage刷新到磁盘中,同时删除旧的editLog,创建一个新的editLog。
  fsImage:保存了最新的元数据,主要包括数据块映射信息、修改时间、访问时间等等
  editLog:NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中
  为什么要机型checkpoints:
  如果每次写操作都记录在editLog,那么editLog就会越来越大,NameNode启动时将editLog中的事物都操作一遍,时间会很长,所以需要SecondaryNameNode定期checkpoint将editLog合并到fsimage中
  checkpoint过程:
  怎样是系统变得稳定
  HDFS的主要目标是即使在出现故障时也能可靠地存储数据。三种常见的故障类型是NameNode故障、DataNode故障和网络割裂。数据磁盘故障、心跳和重新复制
  每个DataNode定期向NameNode发送心跳消息。网络分区可能会导致DataNode的子集失去与NameNode的连接。NameNode通过缺少心跳消息来检测此情况。NameNode将没有最近心跳的DataNode标记为已停止,并且不会向其转发任何新的IO请求。已注册到失效DataNode的任何数据对HDFS都不再可用。DataNode死亡可能会导致某些块的复制因子低于其指定值。NameNode不断跟踪需要复制的块,并在必要时启动复制。重新复制的必要性可能有多种原因:DataNode可能不可用,副本可能损坏,DataNode上的硬盘可能出现故障,或者文件的复制系数可能增加。
  将DataNodes标记为dead的超时时间保持地很长(默认情况下超过10分钟),以避免DataNodes的状态波动导致的复制风暴。对于性能敏感的工作负载,用户可以设置更短的时间间隔来将DataNode标记为过时节点,并通过配置避免读取和或写入过时节点。

心灵的振撼,灵魂的拷问旅游走过了许多的地方,对我影像最深刻的地方,就是云南省的腾冲市。记得那是2019年的9月份,我与朋友游览了西双版纳,昆明,大理,丽江。最后从丽江乘车去腾冲,在车上结识了旅居腾冲的东恩比德回归,76人10088击败太阳,他和哈登到底能不能共存?今日NBA常规赛,费城76人主场10088击败了菲尼克斯太阳。恩比德在缺阵三场后回归,面对艾顿缺阵的太阳再次上演了大帝出征寸草不生。全场比赛恩比德21投8中罚球16投16中,拿下3广州无症状新增1800多例,海珠加油东起新洲码头,西至洲头咀,广州大桥纵穿珠江前航道,将海珠区一分为二。往西是蕴藏浓厚历史的老居民区,同福西南华西,骑楼小巷老广市井往东是厚积薄发的国际创新区,广州塔琶洲西,广州之窗门没火起来的云南虫谷,用新方式为腾讯赚到了钱长短视频相互倾轧,最终局面只能是三输。长视频失去了重要的传播窗口,短视频失去了优质的内容资源,用户失去了多元的内容生态。作者小满编辑原野微信公众号略大参考(IDhyzibenlun11月8日024时,辽宁省新增18例本土无症状感染者11月8日024时,辽宁省无新增新冠肺炎确诊病例新增18例本土无症状感染者,其中沈阳市报告1例丹东市报告6例锦州市报告5例营口市报告1例葫芦岛市报告5例新增2例境外输入无症状感染者这件别人避之不及的事,腾讯居然做了十年没有间断十年前,马化腾在首届WE大会上种下一颗种子,希望助力基础科学普及。WE大会历经十年,展现了人类科学的前沿突破,见证了中国科技十年的历史性跨越。11月6日,2022腾讯科学WE大会十行走的血压计你用过吗?didoE40S气泵式血压智能手表评测近年来,随着人们生活节奏的加快以及人口老龄化的加剧,我们的健康问题在不同年龄段呈现了不容乐观的表现。比如城市生活节奏快,工作压力也很大,由此给个人乃至家庭都造成一些负面情绪,随之而张继科带新女友疑似公开恋情!还曾让景甜替他还巨额的赌债近日,有媒体拍到张继科带着张蕊与多位朋友聚餐。两人当日都穿着白色上衣,情侣氛围十足。说起来张继科和张蕊,其实这几年已经被不少媒体拍到过很多次同框的视频了,2021年底的时候就有媒体NBA交易动态戴维斯提出交易申请篮网打算交易西蒙斯布朗力挺欧文工会副主席杰伦布朗在采访中表示,篮网提出的欧文回归6大条件,简直太苛刻了,这对欧文不公平,虽然他犯错了,但他只是发布了不恰当的东西,这不能说明他是反犹主义,他也从来没有张继科与二婚女友感情甜蜜!2人深夜同回豪宅,34岁依旧不结婚最近一段时间,国乒上下可以说是相当忙碌,十月份先后经历了三大赛事,而在十一月份刚刚开始,国乒队员又回到了各自所属的省队,代表省队参加在湖北黄石进行的全国乒乓球锦标赛。在忙碌的十月,选秀前史密斯比班凯罗更被人看好为何现在两人的差距越拉越大北京时间11月8日,火箭在客场以134127战胜魔术队,终结了本赛季最长的6连败,送给魔术2连败,这场东西部排名倒数第一的球队正面较量中,火箭队笑到了最后。本场比赛,火箭队得分最多
444743!感谢欧文,恭喜杜兰特,托马斯成NBA历史第一人欧文被交易,新援丁威迪和芬尼史密斯无法登场,这对篮网的比赛也是造成了很大的影响,在今天主场与太阳的比赛中,22岁的小将托马斯再次被委以重任,此前与奇才和快船的比赛中,托马斯分别轰下国安点燃清洗老将的第一把火!四大功勋被列入离队名单,朴成在列日前,国安在新赛季中超开打前,已经正式点燃清洗功勋的第一把火。国安功勋中卫于洋因此被迫离队,他在接受媒体采访时,就确认了这个消息。于洋透露自己跟国安上赛季续约一年,当时俱乐部有优先还真有这种奇事!开学首日萌娃被送错学校,原是初上岗的奶奶搞岔了扬子晚报网2月7日讯(通讯员江景轩记者梅建明)我是幼儿园的老师,今天有名4岁大的小朋友被错送到我们幼儿园来了。2月6日上午9点多,正在值班的民警朱永宁接到一位老师报警,称小朋友上学腿型粗,胯骨宽的女生,如何穿才更好看?这么穿很流行博主都爱穿已经到了春天,我们该怎么穿更时髦一些?应该是女生喜欢讨论的话题之一,在职场女性更加需要把自己打扮的清爽干净一些,换季等于换衣橱,不知道该选择什么样的衣服单品,我们不妨看一下时尚博主欧盟对俄石油限价生效,俄专家不会对俄造成大损失来源环球时报环球时报综合报道自2月5日起,欧盟和七国集团(G7)国家对俄罗斯石油产品实施禁运和价格上限措施正式生效。这是自俄乌冲突以来,欧盟第三次在石油领域对俄施加制裁。俄专家指出重庆钢铁的翻身仗文法人杂志全媒体记者李韵石编者按在推进全面依法治国不断深入的大背景下,企业法治建设持续发展。对关键领域和核心技术的知识产权保护不断加强,对有再生希望的企业进行破产重组,为推动依法合开源节流应对收支紧平衡财政收支紧平衡,意味着收支可以实现或基本实现平衡,但余粮不会太宽裕。在增加财政收入化解收支矛盾的同时,要注重节流。既要把节省出来的资金用在基本民生等紧要处,也要落实减税降费必须不打中国居民收入不到20万抵押债务逾40万在2017年2023中国宏观经济展望和政策取向中,李扬教授是中国社科院学部委员国家金融发展实验室理事长的重点。李扬说,关键问题是居民收入不能来,消费从何而来。李扬说,中国居民的债务业绩受手机市场下滑冲击,高通称向华为供货暂不受影响(编辑吕栋)业绩遭到手机市场下滑冲击之际,高通证实向华为供货许可暂没有受到影响。日前,在2023财年第一财季(2022年四季度)电话会上,高通技术授权(QTL)和全球事务总裁亚历克理通三迤在有风的地方乘风而上作者师晓佳随着电视剧去有风的地方的播出,大理,这个一生不能不到的地方作为旅游热门城市再次爆火。据央视财经报道春节假期,大理州共接待游客423。93万人次,同比增长219,实现旅游业互联网行业收入近年来首次下降,网络销售服务营收逆势大增近日,工信部运行监测协调局发布2022年互联网和相关服务业运行情况报告。数据显示,2022年,中国规模以上互联网和相关服务企业(以下简称互联网企业)总收入达1。46万亿元人民币,比
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网