范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

分布式存储系统ApacheHBase的现状和发展

  导读: Apache  HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。全文将围绕以下几个方面展开:  HBase是什么  HBase社区的发展  HBase2.0  HBase未来规划  如何成为Committer
  01
  HBase是什么   HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。   它有以下特征: HBase仍然是采用行存储的,采用松散表的结构来获得动态列的功能; 原生海量数据分布式存储。在单个数据库中可以存档GB甚至上pb。在一行中也可以存储上百万列。任何大小的数据量都适合采用HBase; 不仅支持随机查询,还支持范围查询; 高吞吐,低延迟。一个集群可以有上千万个dps,平均的延迟可以做到一毫秒之内; 在线NOSQL数据库; 多版本,增量导入,多维删除。   1.HBase的四大基因   (1)自动分区   最开始的时候,我们的数据库是单机的数据库。慢慢的我们发现单机的数据库无法承受数据和访问的爆发式增长。因此就出现了分库分表的方案。将数据库和表拆分到多个服务器上,然后利用中间件作为一个路由。这里就会遇到一个问题,随着数据的增加,中间件就会成为一个瓶颈。如果请求量爆发式增长的时候,要加载新的进去,整个物理的变化需要进行搬迁之后才能够进行使用。   而在HBase中,使用的是自动分区功能。当访问量和请求量增加的时候它可以自动的进行数据分片,以应对数据和请求的爆发式增长。   (2) LSM-Tree   LSM(Log Structured Merge)Tree,它的一个重要的功能就是随机写变成顺序写。   现在LSM模型是大数据库的标配。它主要包括如下几个特点: 写吞吐量高 不受hdd随机写瓶颈和ssd随机写入放大干扰 超强数据导入能力   (3)存储计算分离   HBase本身不会存任何数据。数据都是存储在底层的HDFS中。存储计算分离有以下好处:负载均衡更高效、资源扩容更节省、存储优化更便捷。   (4)HBase生态   HBase有一个非常强大的朋友圈。具体见下:   2.场景   HBase是几乎可以满足所有的大数据场景需求。比如说对象存储,比如说推荐系统。比如说用来存储订单,用来存储聊天记录。高性能推送的朋友圈应用的场景。针对一些其他的场景,我们可以利用HBase加上组件能力来实现这些场景的应用。比如说HBase加Linux,来实现NEWSQL的数据库。比如说HBase加上geomesa来实现时空数据的存储,滴滴就是采用这种方案来存储他们的轨迹数据。在物联网场景,可以采用HBase加openjsdb来存储海量的时序数据。   3.使用HBase的商业公司   基本上每一个大型的公司都在使用HBase。   4.HBase特性总结   HBase,为大数据而生,有LSM树:离线导入效率巨高 、实时写入吞吐大、增量导入隔离性强;伸缩性强;TTL:数据时效性,系统自动处理、时效性的个性化设置;多版本:数据的第三维度、高效删除方式;动态列:数据发散的利器;协处理器:数据校正、高效适应个性化;异构介质多副本存储:海量与实时的性价比满足;Erasure Code:因大而生。   --   02
  HBase社区的发展   1.HBase的起源   HBase于2006年诞生于Powerset,一家从事自然语言处理和搜索的创业公司(后被微软收购)   HBase的实现基于Google发布的BigTable论文,用来解决 Hadoop中随机读写效率低下的问题。HBase最初的开发人员是MichaelStack和JimKellerman。2007年4月,HBase做为一个模块提交到Hadoop的代码库中,代码量~8000行,2010年5月HBase成为Apache的顶级项目,同年,Facebook把HBase使用在其消息平台中。   2.HBase项目现状   目前HBase的代码已经超过100万行,HBase仍然是最活跃的Apache项目之一,拥有76个Committer,42位PMC,共有328位Contributor,其中14位 Committer/PMC 来自中国。   3.HBase目前版本   HBase目前版本众多。见下图:   --   03
  HBase2.0   1. HBase2.0版本发布历史   HBase2.0的发布是一部血泪史,因为在四年前已经有这个版本了,由于一些因素,造成了没有人管理。最后花了一年多的时间才稳定他的版本发布出来,他的Release Manger多次更换,才把他发布出来。由此,我们吸取了这次教训,我们以后会做好版本控制,把控好发布的节奏。   2. 新功能   (1)Region Replica   Region Replica这个功能在1.2版本中已经存在,但是为什么叫做新功能呢?是因为之后修改了很多bug,在1.4版本才稳定下来,然后1.4和2.0是同时发布的。在CAP理论中,HBase一直是一个CP系统,遵循强一致的读写语义,所以Server宕机后需要一定的恢复时间,如果宕机了,客户端可以从另外的副本中去读取数据,Region Replica为数据分片Region准备了多个副本,host在不同的RegionServer上,同时,客户端也可以做到,对多个副本同时发请求,然后做到选择最快速的那个副本,提供高可用读,宕机0影响,规避抖动,毛刺,降低P999延迟;缺点是需要额外耗费CPU/Memory资源,但不会占用额外空间。   (2)读写链路Off-heap   第二个新功能是全链路Off-heap,意思就是读写链路数据端到端Off-heap,减少java GC带来的停顿,进一步降低P999延迟,提高吞吐。这个功能我们从两方面来实现的:写链路Off-heap,我们使用在RPC层使用Netty的Off-heap ByteBuffer,使用支持Off-heap的Protobuf。同时使用Off-heap的Chunk 来存储Memstore中的KeyValue。   在读链路Off-heap方面,使用Off-heap的Bucket Cache,HBase自己管理内存的,我们从Bucket Cache读取数据的时候,先要从Protobuf做一次拷贝,因为可能读取的时候,发生内存不够了,再次分配的情况。在读取对Bucket Cache进行引用计数,保证读取的时候,内存不会被回收掉,读取时不再需要先拷贝到heap,对Bucket Cache进行了一系列性能优化。   后面这是HBase官方放着阿里巴巴在双十一对HBase优化之后的对比图,可以看到优化之后他的请求的曲线更加平稳,吞吐量增长了30%,这个案例大家可以去HBase的官方去看一下。   (3)In Memory Compaction   在HBase2.0中另外一个重磅的功能就是In Memory Compaction,以前我们知道HBase中使用的数据结构是java中原生的跳表,但是跳表依然是一个松散的结构,这样的话,虽然内存不断的在增大,但是刷到之后,会造成通过In memory的flush不会到hdfs上,反而回转到更加紧凑的CellArrayMap这个结构,同时多个CellArrayMap会在内存中做compaction,使内存的使用更加紧凑。然后通过In memory的flush和compaction,在内存中可以存储更多的数据,因此可以提高读性能,同时减少磁盘IO,减轻compaction小文件造成的写放大。这个功能社区也有介绍。   (4)小对象存储MOB   之前我们建议在HBase上不要存很大的KV值,但是MOB(Moderate Object Storage) 功能使HBase能高效地存储那些100k~10M 中等大小的对象。这使得用户可以把文档、图片对象保存到HBase系统中,用户写入的小对象flush成一个独立文件,原有的KV中的value只存这个对象的引用路径,对于存储对象文件,更少地进行compaction来减少写入放大效应。   (5)Assignment MangerV2   这是一个非常重要的模块,HBase中的状态流转,建表删表,都需要在Assignment MangerV2上进行,之前旧AM系统参与角色多,状态更新混乱,效率低,无事务保证,容易出现RIT问题。所以AM V2使用ProcedureV2来保证 Table/Region状态转换在master重启后仍然能恢复执行,然后去除了Zookeeper做为中间角色,Master/RegionServer直接交互,Region assign/unassgin速度大大提升。   (6)其他   在HBase2.0中,还有非常多的新功能,具体如下:   3.兼容性和升级建议   建议如下:   --   04
  HBase未来规划   1. HBaseConAsia & 开发者圆桌会议   HBase众多开发者也会参加这个会议,参与讨论它的未来发展方向。   2. 更加易用   HBase已经提供了,Java的API,但是这个案例不太友好,我们目前打算提供Native的SQL接口,能够做到轻量级的SQL支持、内置的二级索引方案、与Spark SQL更好地结合等功能。   3. 更高性能   在以后的版本中,不用在对HBase的性能担心了,我们在以后的版本中准备从Use CCSMap to improve HBase YGC tim、全链路异步化、基于非易失存储的WALLess方案等方面努力成为LSM模型下性能最好的Java存储引擎。   4.更强扩展性和稳定性   这个方面我们以下几个方面来解决:   --   05
  如何成为Committer   今天的分享就到这里,谢谢大家。   阅读更多技术干货文章、下载讲师PPT,请关注 微信公众号"DataFunTalk"。   分享嘉宾:杨文龙 阿里巴巴 技术专家,HBase社区Committer&PMC   内容来源:HBase MeetUp《Apache HBase的现状和发展》   出品社区:DataFun   分享嘉宾:   杨文龙,阿里巴巴技术专家 。 HBase社区Committer&PMC,Ali-HBase内核负责人 ,对分布式存储系统的设计、实践具备丰富的大规模生产的经验。   活动推荐:   关于我们:   DataFun: 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。   欢迎转载分享评论,转载请私信。

江西省吉安市峡江县玉笥山(11)20201124峡江玉笥山位于江西省吉安市峡江县水边镇何君村西,东临105国道和京九铁路穿腹而过,原名群玉山。大诗人李白江南之行,从匡庐游至群玉山时,见峰峦连绵不绝。位于峡江县城西郑宇绵古寺佛光郑宇绵(燕山居士)云居寺始建于隋大业年间(公元605年)。座落在离北京城70公里的石经山东麓。整个寺庙规模宏大,依山就势,步步登高,五进院落,六重正殿。众多配殿。文物丰厚,底蕴悠长帮助消化清热解毒的好物一萝卜萝卜属十字花科类植物,是北方秋冬季节常见的一种根茎类蔬菜,其形状多样,营养丰富,可生食,也可做菜,还可以腌制泡菜酱菜,民间有冬吃萝卜夏吃姜,不用医生开药方的说法。萝卜含有蛋白质碳水广州市番禺区有一条洋气的网红街,到处是英文,游客都来打卡这里是刘小顺的旅行和生活研究所。最近,我和朋友一起来到了广州市的番禺区,在厦滘地铁站附近,发现了一条网红街,名字叫OMG,不禁引起了我们的好奇心。据说,这条OMG网红街以前是一个大我,湖北人,29岁创业开2家店,39岁历经一夜破产,现自驾游全国这是我们讲述的第1170位真人的故事我是铁牛铁牛旅行记,年少通过努力学习,跻身于城市,并在自己的领域里混得风生水起。一场股灾,让我跌入人生低谷。沉淀之后,我选择自驾旅行,一路领略河蒋振远我在老家建了个房蒋振远我在老家建了个房我的老家,在山东省滕州市微山湖(古镇)红荷水镇,也就是滨湖政府的驻地岗头。今年,我在老家建了个房。我建的这个房子,是按村里的排房规划,盖得个两层小楼。一些同学买债券基金都会亏损?银行理财产品还能够买吗?按照一般人正常的理解,买债券基金应该是比较稳定的赚钱成立,因为有债券利息兜底,所以正常情况下债券是不会亏损的。无论是国债企业债可转债还是其他债券,在债券发行时都有规定票面利率,且票这一国家级工程,布局四川这些城市11月24日,2022天府数字经济峰会在成都天府国际会议中心开幕。开幕式上,四川全面启动全国一体化算力网络成渝枢纽节点建设。四川本土数字虚拟人伊拾七现场互动将建设1N全省一体化数据我的理想我的理想,小时候长大当工人,为祖国添砖加瓦结果是当了一名养路工人年轻时得一个不言多做事之妻,结果实现了中年时盼孩子能生存,结果不错而今老了,其理想是不在时长而无痛而终。我的理想,不品读九首禅意诗词,一念心清净,万般皆自在尘世中,总有我们看不透的风景,也总有我们无法忘怀的昨天,也许没心没肺,才能过好每一天,也许不动声色,日子才能如行云流水。将岁月的风霜,前行的风尘,全部煮进一壶闲茶,静静地品味岁月静思想的冲突意识树个人的成长过程中,因着各自独特的生活环境,基础意向会独特化的构建各种类型的思想与信念,有些是主体的核心信念,是作为内在认知的主体宏观框架被默认,构建我们对自身以及对世界的宏观
这一次,或许该领会了如果我没见过你,那也没有关系,如果我们偶然见过,那么谢谢你,祝愿每一个陌生的你,一切安好。最近我想起了一个很奇怪的事情,苏格拉底和孔子活在同一时代,一个在欧洲,一个在亚洲,在两片日人民日报藏了多少好句今天想要分享给大家的是,人民日报里一些可以直接封神的句子。相信文字的力量,一起来看看好句天花板吧唐人用汉字演算着未知,计算着千年万里,计算着一年一月,却计算不出人心的距离。觉追求的善待慢慢老去的自己我的生活也是头条头条创作挑战赛靠山山会倒,靠人人会跑,最可靠的还是自己,善待慢慢老去的自己,自己好了才有能力去做自己喜欢的事,去爱自己的家人。时间是最公平的,有钱人会老,穷人也会老想说爱你不简单,如何最内涵文艺地表达我爱你夏目漱石有一次问他的学生如何翻译ILOVEYOU,学生说我爱你,夏目说,未必要这样说,今夜月色很好就足够了。起初不懂,只觉得是文学大师在玩含蓄罢了。不过后来有一天,我看天边低垂的皓高段位女人都掌握的四个原则我发现身边高段位的女人,都掌握了这四个原则,但凡你能够做得到,你的人生将非富即贵。第一,高段位的女人,她们从不计较,更不会在意别人的看法。有些人,别人说了几句就受不了,被两句话干扰趣闻大理融媒呼吁丈母娘们认领帅气的董宇辉女婿!无论你去大理旅游还是追爱,我们依然喜欢听你讲书看你卖菜。属于彼此的期待,不管别人如何埋汰,跨越山海,初心不改。鸟儿自由自在,那是你的未来。北漂生涯漫漫征途,你吃过了太多的苦,无人倾如何养成好习惯并且持之以恒坚持下去?你之所以无法养成好习惯,并不是你本身的错,而是你采用的策略出了问题。其实只要用对了方法,养成好习惯简直易如反掌。首先来看看你是怎么培养习惯的确定目标制订计划执行感到吃力逐渐放弃。这人生有低谷是必然的酸甜苦辣都是人生必须经历的感受,所谓的低谷都是必然的。只要心中有希望,低谷期很快可以渡过!光阴似箭日月如梭,转眼之间自己已经来到了四十不惑的年纪。回想起小时候经常觉得时间过得太慢,搞特殊!韩国球员黄喜灿为何拒绝穿中文球衣?主要原因有2点备受瞩目的男足世界杯已经落下帷幕,阿根廷队在梅西的带领下,时隔36年再度捧起大力神杯。与此同时,来自亚洲的6支球队均有上佳表现,其中韩国队在小组赛第3轮落后一球的情况下,以21爆冷唏嘘!广州队正等许家印是否参赛的决定球员已纷纷寻找下家!中国足协推迟的清理欠薪和联赛准入关键节点在明天就将到来,在这个截止日前,仅有武汉长江俱乐部主动宣布了解散退出的决定,然而,不少知名球队也仍然处于危机之中,甚至没有确定是否继续参赛。006专业球员为什么射丢点球?2022年世界杯刚刚落幕,而每届世界杯赛场上,最让人揪心的部分之一,就是点球大战。不仅是因为过程简单刺激,更是因为这个事戏剧感太强了。不到最后一刻,你永远不知道谁输谁赢。还记得在巴