范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

面向分布式文件系统的可扩展数据快照科技论文

  引言
  随着信息的全球化,互联网产业得到迅速地发展,其在科学研究、数据挖掘和信息获取等方面的广泛应用,使人类需要存储和管理越来越多的数据,进而出现数据爆炸的现象。2012年12月,IDC公司的全球数据分析报告如图1,预计2020年全球数据总量将由2012年的2.72ZB增长至40ZB,并且40%的数据需要保证其安全性。然而,受硬件设备失效、火灾、地震自然灾害等因素的影响,数据的安全性和可靠性受到严重威胁。在这个数据即信息,数据即价值的大数据时代,如何保证数据的安全性和完整性成为当前存储领域越来越重要的问题。
  1 目前主流快照技术
  本章首先介绍目前主流的快照创建技术,包括镜像分裂、按需复制、指针重映射和增量快照技术,并分别分析其优缺点;然后介绍目前基于增量快照的快照恢复方法;最后为了降低空间、时间开销和提高系统可扩展性,提出快照创建和快照恢复需要改进的问题。
  1.1 快照创建1.1.1 镜像分裂快照技术镜像分裂技术在快照时间点到来之前需要为源数据卷创建并维护一个完整的物理镜像卷,同一数据的两个副本分别保存在由源数据卷和镜像卷组成的镜像对上。快照操作到来时,镜像操作停止,镜像卷转化为快照卷,得到一份数据快照,快照卷在完成数据备份后,与源数据卷再次同步,重新成为镜像卷。镜像分裂技术虽然在短时间内(断开镜像对所需的时间)就可以得到一个完整的物理副本,但其缺乏灵活性,需要预先为源数据卷创建镜像卷,无法在任意时间点为任意的数据卷创建快照,并且其占用大量的存储资源,会造成存储空间的浪费。
  1.1.2 按需复制快照技术[12-14]按需复制技术在快照时间点之后开始建立源数据卷的完整物理副本。系统接收到快照请求,暂停上层应用,接着为源数据卷创建快照卷,并为其分配大于或等于源数据卷容量的存储空间,同时建立一个控制位图,该控制位图的每一个控制位表示源数据卷的一个单位(通常为数据块)是否已经复制到快照卷,快照操作完成,恢复上层应用。快照建立之后,后台复制程序开始运行,将源数据卷的数据块复制到快照卷,并将对应的控制位图位置1,表示该数据块完成复制。在此过程中,当源数据卷上某数据要被更新时,若该数据块尚未完成复制,则这些块将执行写前复制COW(首先被复制到快照卷,同时将对应的控制位图置1,然后才能更新源数据卷的数据);若该块已完成复制,则直接更新数据。按需复制快照技术的工作原理如图2所示: 图2 按需复制快照技术工作原理写前复制技术确保复制操作发生在更新操作之前,使快照时间点之后的数据更新不会出现在快照卷上,保证了数据的完整性。通过后台复制和写前复制技术,最终源数据卷的数据会被复制到快照卷,得到源数据卷的完整物理副本。
  1.1.3 指针重映射技术[12-14]指针重映射技术建立一份快照时刻源数据卷的逻辑副本,不会产生完整的物理副本。该技术只需分配少量的快照空间,存储快照时间点之后被更新的数据,每个源数据卷都有一个数据指针表,该指针表中记录的数量等于源数据卷的数据块数量,每条记录保存着指向对应数据块的指针。快照创建时,为源数据卷的指针表建立一个副本,作为快照卷的数据指针表,快照时间点结束时,快照卷和源数据卷通过各自的指针表共享同一份物理数据。 图3 指针重映射技术工作原理快照创建之后,当源数据卷中的`某数据将要被更新时,使用写前复制技术,将要更新的数据写至预先分配的存储空间,然后修改快照卷的数据指针表使其指向该存储空间的数据块。指针重映射技术工作原理如图3所示:指针重映射技术的备份窗口只需几秒钟,为快照卷分配的存储空间却大大减小。
  但因为快照卷仅仅保存了源数据卷中被更新的数据,快照技术无法得到完整的物理副本,且若更新的数据数量超过预先分配的存储空间,快照将失效。
  1.1.4 增量快照技术增量快照是基于按需复制的快照技术,因此能够产生各个连续时间点的完整物理副本,同时结合重映射技术只复制更改数据块的思想,减少了数据的物理复制工作量。在第一个快照时间点,除了分配一个大于或等于源数据容量的快照卷并建立控制位图之外,同时还建立一个增量位图,增量位图用于记录自上次时间点的快照创建之后,源数据卷上被更新的数据块的位置。通过查询控制位图,执行后台复制和写时复制,同时利用增量位图记录快照时间点之后源数据卷上被更新的数据块位置。当需要创建B时间点的快照时,用前一快照时间点的控制位图与此时的增量位图进行XOR操作,产生快照时间点B的控制位图,同时将增量位图置0,开始记录时间点B之后被更新的数据块,其工作原理如图4所示: 图4 增量快照工作原理快照时间点A时一部分数据已经拷贝至快照卷,同时增量位图记录了自快照时间点A后源数据卷被修改的数据块,当创建时间点B的快照时,可以通过查看增量位图,然后与A的控制位图XOR,即得B处的控制位图,即B时间点需要存储的数据,同时增量位图置0,记录时间点B后被更新的数据块。
  1.1.5 快照技术总结如表1所示,镜像分裂技术虽然备份窗口仅为断开镜像对的时间,但每次需要完全复制数据,浪费存储空间,且缺乏灵活性。按需复制技术虽然可得到完整的数据副本,但空间开销大并且后台复制影响系统性能。指针重映射技术虽然只复制被更新的数据块,但无法得到完整的物理副本。增量快照技术可以实现连续时间点的快照,并且在快照时间点只需要复制更改的数据块,从时间和空间的角度综合考虑,明显优于其他快照技术。然而,在分布式文件系统中,增量快照的空间开销随着系统规模的增大,仍然会比较大,因此需要进一步改进,以节约空间开销,提高系统可扩展性。表1 快照技术总结
  1.2 快照恢复快照恢复与快照创建具有一一对应关系,对主流在分布式文件系统中,随着数据量的增大和快照版本的增多,需要恢复的数据块数也急剧增多,因此,递进式地恢复特定时间点快照所需要的时间也会相应增多。为了提高数据失效时快照的恢复效率,对增量快照恢复方法的研究也是十分必要的。
  2 基于数据压缩的增量快照技术
  2.1 增量快照的空间开销问题数据快照的创建主要包括两方面:第一,决定需要备份的数据块;第二,将需备份的数据块快速写入快照空间。其中决定需要备份的数据块有两种情况,全部备份或者部分备份,目前的数据总量急剧增长,如果全部备份,所需的快照空间将随数据总量的增加急剧增加,因此我们采取部分备份,即只备份更新的数据块。传统的创建数据快照的技术镜像分裂、按需备份、指针重映射和增量备份技术中,在空间和时间方面,增量备份有相对低的开销,并且可以创建连续时间点的快照。
  2.2 基于数据压缩的增量快照技术随着系统规模的增大,被更新的数据块逐渐增多,快照所占的存储空间仍然比较大,因此需要对增量快照作进一步的改进,使其在大规模的分布式文件系统中具有较小的空间开销和较高的可扩展性。压缩技术是按照一定的算法对数据进行重新组织,以减少数据的冗余性和存储空间开销,因此本文将增量快照和压缩技术相结合,实现了基于数据压缩的增量快照技术,即在将需要备份的数据块复制于快照空间之前,首先将这些数据块进行一定的压缩,然后再将其存入快照空间。本文拟采用Huffman压缩算法[16-17],并对其做进一步改进,Huffman压缩算法的流程如图6:图6 Huffman压缩算法Huffman压缩算法首次遍历数据块,分别统计每个字符出现的次数,按字符出现次数进行降序排序并构造二叉树,出现次数较多的数据在树的最顶层,较少的数据在树的最底层,然后从根节点到每个数据的路径来对其进行相应的编码得到编码位,最后用编码位替换原数据块中的字符,即可得到压缩后的数据。但是,源数据块中可能存在多个连续的相同字符,如果用编码位将相同的字符都进行替换,会出现一定程度的空间浪费,可以考虑将连续出现的相同的字符只替换一次,然后增加标志位,用于记录该字符连续出现的次数,以此节约更多的存储空间。
  2.3 基于数据压缩的增量快照开销分析因为增量快照只是复制更改的数据块,当数据块较大时,每次虽然只更新了数据块中的小部分数据,仍然需要将整个数据块复制至快照空间,造成存储空间的浪费。而当数据块较小时,若更改的数据较多,则每次需要复制多个数据块,导致快照创建和恢复的操作复杂。因此,数据块大小的选择也是一个比较关键的问题,还需要做更多的测试来比较验证,以选择合适的大小
  3 恢复链路缩减技术
  3.1 快照恢复的开销问题在采用增量快照的基础上进行研究,增量快照在首次创建快照时完全备份,之后仅备份自上次快照时间点之后更改的数据块。因此,当恢复指定时间点的快照时,需采用递进式的恢复方法,当快照版本增多时,恢复快照的开销也会相应的增大,因此,需要在原有快照恢复方法的基础上作进一步的改进,以控制快照的恢复开销。
  3.2 恢复链路缩减算法针对上述问题,本文在已有的基于增量快照的快照恢复方法基础上,提出了恢复链路缩减的快照恢复技术,即在从特定时间点至首次快照时间点之间的快照链路上,将对同一数据块的多次递进式恢复缩减为一次。在首次创建快照时,同时建立一个日志文件,该文件包括快照创建时间、需备份的数据块地址和该数据块在快照空间的地址三个字段
  4 总结语
  在大数据时代,保证数据的安全性和完整性具有重要意义,因此,越来越多的存储系统采用快照技术来保证数据的安全性。然而在分布式文件系统中,快照创建的空间开销随着系统数据量的增大急剧增大。并且随着快照数量的增多,存储快照所占用的空间和系统失效时恢复快照的开销也会增大,从而严重影响分布式文件系统的性能和可扩展性。

大学英语语言教学中的文化因素的发展论文对于大多数中国学生来说,英语一直被视为学习的难点。很多英语学习者不能很好地理解英语语言结构表达方式以及行文方式,大都是以自己国家的文化和思维方式为基础去理解它。究其根本,是所受的文研究生学位论文开题报告的规定第一条本规定根据中华人民共和国学位条例和中华人民共和国学位条例暂行实施办法及南京师范大学授予学位工作细则有关精神,结合本校的实际情况而制定。第二条学位论文开题报告是研究生培养过程中个性化包装设计语言特点研究论文摘要随着时代的发展,当下包装设计的语言方面朝着个性化的方向发展着,本文我们就针对当代个性化包装设计的特点展开深入的探究工作,提高包装设计的个性化,制造出更多符合市场需要的现代化包装年轻律师如何走好专业化发展道路论文摘要经济飞速发展,市场不断变化,导致以往律师处理业务的方式已逐渐不再适应,专业化道路逐渐成为律师发展的大势所在。律师专业化分工已不是新鲜话题,但放眼实践,我国目前律师专业化道路走的抗肿瘤血管生成药物研究的弊端论文1抗血管生成机制研究较少目前,大部分有关抗肿瘤血管生成中药的研究多集中在药效学方面,而对中药抗血管生成机制的研究比较少。肿瘤血管的生成涉及一系列形态学和生物化学的改变。形态学改变包高中文言文自主探究性学习探索论文高中文言文教学历来是中学语文教学的重点与难点,尤其是新教材中出现古诗文大量增加,美文不断增多的情况,如何把自主探究性学习与文言文教学有机结合,是改革文言文教学的关键之一。一个恰当且社会网络环境的信息组织与共享模式论文摘要当前互联网已经成为人们相互传递信息的快速渠道,网络中产生的信息量十分巨大,在社会网络环境下,信息的组织是一个十分重要的过程,对信息进行组织才能实现信息的有效利用,促进信息共享。指导学生进行有效预习论文摘要树立终身学习的观念,培养学生终身学习的能力已成了当前的中心问题,培养学生终身学习能力的有效方法之一,就是学生有效预习能力的培养。本文对如何培养学生的有效预习能力进行了探讨。关键试论农村学校管理的误区与对策教育论文摘要农村学校是教育阵地的最前沿,但由于较差的办学条件和紧缺的师资力量,凸显出一系列管理问题,已成为遏止这类学校发展和进步的障碍。探索一条适合农村学校管理的可行之路,是解决当前学校管乡镇综合卫生院建筑节能设计的论文摘要现代综合医院建筑设计,是一门跨学科跨专业的综合性建筑学。相对于一般的公共建筑来讲,是公共建筑设计中一项内部功能相当复杂专业性极强又高能耗的建筑,首先要注重医院建筑功能的重要性,大学生就业抉择论文毕业生的就业问题牵动着无数应届毕业生的心,下面就是小编为您收集整理毕业生就业抉择论文的的相关文章,希望可以帮到您,如果你觉得不错的话可以分享给更多小伙伴哦!篇一匠人精神对毕业生就业
气候变化对第三极的连锁效应公开发表的有关大喜马拉雅地区(包括青藏高原)气候变化的文章多认为该地区的气候变暖将会导致以下一些长期影响?冰川的减少,并伴随着水源的减少?洪灾和冰湖溃决等自然灾害频发?对上游和下游探析水利工程生态环境效应随着国家水利工程的大量兴建,水利工程对生态环境的破坏和影响也逐渐突显出来,生态环境效应评价便应运而生。通过研究生态环境效应,对环境效应做出科学的评价,能够有效预防水利工程对生态环境对于黄河水利工程维修养护质量管理的研究1前言随着社会快速发展,科技水平也在不断提高,在水利工程的质量水平也有了很大保证。在对水利工程质量进行维修养护的过程中已经有了相关体制来对其进行管理和约束。本篇文章结合黄河水利工程酵母菌对三价铬的生物吸附简介本文简要说明了铬污染的来源及危害,以及处理三价铬的主要方法着重阐述了生物吸附技术根据实验结果,得出其最佳的运行参数为当PH值为6时,吸附效果最好,振荡60min吸附基本可达平衡无汞开管法快速测定工业废水中的COD摘要采用无汞开管法快速测定COD,以硫酸磷酸为介质重铬酸钾为氧化剂硫酸银为催化剂,并采用硝酸银和硫酸铬钾排除氯离子的干扰,在玻璃试管中对样品进行消解(反应温度为160165,加热时物理处理法处理印染废水模式的研究前言在现实生活中,我们可以发现大规模印染生产工艺的应用,对于水的消耗是非常大的,并且其在使用过程中,也会产生各种废物,这些废物包括各种化学助剂废弃物等,为了提升日常工作的应用效益,臭氧BAF用于印染废水处理的成功实践研究1工程概况该项目污水主要来源于企业生产的梭织染纱针织染纱染棉后整理工序和洗水车间及少量生活污水。2012年实施新标准要求出水CODcr小于80mgL后处理厂可能出现超标风险。鉴于上对重金属废水中含镍废水处理技术的几点思考1前言伴随化工行业的不断发展,为人们的生活带来便利的同时,也对环境造成了巨大的污染。基于我国的水资源十分紧张这一基本国情,减少重金属废水对水资源的污染是当今首要解决的问题。重金属一哥本哈根只是救赎的起点哥本哈根将成为应对气候变化的历史性转折点,在此可以而且必须达成一个新协议我们所要寻找的那个共同点,就是凝集着京都议定书和巴厘路线图的基本共识和框架谈判是否能够形成全球共识,是否达成中国应对全球气候变化前言前言气候变化是21世纪人类发展面临的最不确定的重大挑战,其规模之大范围之广影响之深远史无前例。为应对气候变化而达成的全球减排协议是涉及全人类的最大全球性公共产品,也是影响未来世界经黄河流域水沙变化研究新进展黄河是一条多泥沙河流,其河床冲淤演变对流域来水来沙有着高阶的非线性响应关系。河流健康状况主要取决于气候和下垫面因素的变化。不同的气候和下垫面条件,将在河流水系中形成不同的水沙条件(