范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

干货关于云原生数仓存算分离的15个问答

  存储是数据的持久化载体,也是数据库系统重要的基础设施。高质量的存储系统设计,对数据库的性能有着至关重要的影响。
  随着云计算技术的发展,数据库也开始拥抱云原生时代,"存算分离"的概念逐渐为大家所熟知。
  "存算分离"不仅能节约成本,还可以让资源根据业务需求弹性伸缩。HashData为了追求极致的弹性和扩展性,计算集群和持久化存储严格实行物理分离:计算集群由类似AWS EC2的虚拟机组成,持久化存储则使用对象存储。
  在上次的直播中,HashData数据库内核研发工程师刘晓宇与杉岩数据售前技术专家申国斌介绍了HashData在存算分离、对象存储优化等方面的技术探索与实践,并围绕大家关注的问题进行了深度解答。
  HashData利用云存储作为数据持久存储层,并与计算资源物理上分离、逻辑上集成。由于自身的高可用性和近乎无限的可扩展性,云存储大大简化了数据仓库系统错误恢复、多维度扩缩容、备份恢复等流程,同时使得不同集群间共享同一份数据、统一的数据存储平台成为可能。
  以下为直播问答文字实录摘选:
  1.相比本地化存储,远程访问是否会带来性能上的下降?
  刘晓宇:远程访问一般来讲会带来性能的下降。通常磁盘的读写速度可以达到100-200M/秒,而网络带宽通常达不到这样高的速率。如果频繁远程操作,会对系统造成很大的影响。
  HashData通过在计算节点和对象存储中间增加缓存层,可以大幅降低访问对象存储的频率,缓解性能下降的问题。
  传统的MPP架构数据库存储、计算紧耦合,数据存储在本地系统,存储能力的扩展通过增加集群节点实现,这样就会导致计算资源的浪费,无法匹配业务的发展。
  HashData使用的是对象存储,独立于计算节点。利用对象存储技术,可以提供近乎无限的扩展能力,避免了传统数据平台基于成本考虑的归档需求和计算成本浪费。
  通过测试可以看到,HashData在计算节点和对象存储之间增加缓存层之后,相比MPP架构, 几乎没有性能上的损耗 ,同时计算量可以提升近5倍。
  2.缓存层设计理念是在元数据集群和对象存储集群之间,适度增加计算资源和缓存层,具体是怎么实现的?
  刘晓宇:HashData的缓存策略采用目前比较流行的LRU算法,来实现热点数据的识别和保留。LRU本质上是一个固定大小的队列,对于需要频繁访问的数据,会放到队列前面;对于不经常访问的数据,会放在后面。随着队列慢慢的增加,最终经常访问的数据会在最前面,不经常访问的数据会在最后面。最终,不经常访问的数据会被剔除掉。
  同时,对于缓存层屏蔽掉了所有远程文件操作。数据库内核在访问对象存储的时候,对远程操作不会有任何感知。
  3.缓存的优化对象包括哪些?
  刘晓宇:HashData针对高并发、小文件等场景做了大量的优化,进一步降低系统开销,使远程访问的性能可以达到跟本地几乎完全一样。
  针对对象存储,HashData通过批量处理的方式对数据的查改删进行优化,大幅提升了操作效率。
  另外,HashData对数据的写和读做了很多的优化。比如企业业务场景上使用大文件比较多,那么我们采用分片上传方式将大文件传输到对象存储上。对于每个上传的文件,HashData经过测试配置了一个最优的分片大小去做分片上传,将文件在对象存储上合并。
  HashData的缓存系统采用按块缓存,做到了按需下载需要的数据,避免下载整个文件。比如使用缓存系统去读取数据,将每个块设置8M,对于64M的文件会被切分为8个块,如果用户需要的数据分布在其中的一个块内,那么我们数据库在读取数据时只需要取其中一个块即可,不需要把整个数据全都下载下来,这样做到了按需下载。
  4.计算节点使用的是SSD吗?
  刘晓宇:目前大多数用户使用的都是SSD。当然也有使用普通存储。SSD读写速度远远优于普通存储的性能。
  5.通过网络获取到数据是否会导致网络IO的压力过大?
  刘晓宇:网络IO压力大有两方面。一方面是对象存储压力过大。另一方面是集群本身随着主机和业务增多会更多地去访问对象存储,由此会带来集群整体和访问对象存储的网络开销越来越大。
  对于对象存储压力过大我们通过多bucket方式来解决。将文件分散存储到其他的bucket上以此来分流对象存储上的压力。
  对于集群因为业务增多出现网络压力过大,我们采用动态算法让系统根据当前的压力调整发送请求的间隔。再者可以通过调整参数降低集群发送网络请求次数。
  6.缓存需要多少容量?一批数据量需要多少缓存?
  刘晓宇:缓存容量由本机配置来决定,根据不同场景去定制缓存的大小。一般我们会配给系统的10%左右用于缓存,但具体的容量还要根据系统的情况去做调整。
  如果大文件数量比较多,则缓存越大越好。如果碎片化的小文件比较多,缓存容量只需要适量即可满足需求。
  7.缓存也分是不是持久?
  刘晓宇:正常情况下,缓存是持久化存储在磁盘内的。如果遇到集群重启,读写失败或扩容等问题,作为缓存的这些数据,都会存在的。当第二次集群发起的时候,会通过进程把这些持久化的数据重新加载起来。
  8.元数据缓存是在本地存储还是在云端?
  刘晓宇:目前, 缓存元数据留在本地是一个比较好的选择 。如果元数据上云,可能面临的情况会更多更复杂一些。
  9.对象存储的数据要根据业务进行切分吗?还是在缓存层切分?
  刘晓宇:MPP写到对象存储上的数据不需要根据业务进行切分。缓存系统是按照块来缓存的,所以可以根据用户需要的数据按需取相应的数据块即可。
  10.通过网络如果请求没有到达对象存储应该怎么办?
  刘晓宇:如果请求最终没有到达对象存储,会因为超时触发重试机制重新再次发送请求。如果对象存储出来返回码比如http code 500,可能当前对象存储压力过大,产品会做算法上的调整延后发送请求,然后再次重试发送该请求。
  11.如果元数据缓存在本地,怎么能够保证节点间一致性及节点故障的可靠性?
  刘晓宇:元数据缓存到本地,是通过Foundationdb去控制,这部分有可靠的保证,而且缓存是跟着事务去运行,HashData会有一套机制去保证缓存的一致性。
  12.存储层结构是底层采用对象存储,上层对资源进行分片,保障全数据类型的支持、拓展能力、高可用和高持久,能否举例详细说明?
  刘晓宇:首先,因为我们通过缓存层,构建了统一的存储层,存储层可以保证所有的计算集群去访问缓存文件,从一定程度上解决了资源孤岛的问题。
  此外,对于大量集群访问,HashData会根据计算集群的规模进行分片存储,其他节点可以也同时访问这些文件,互相不会影响。
  在底层的存储方面,HashData采用对象存储,支持多集群同时访问一个文件,整个架构能适配更多的云。
  同时,对于对象存储,HashData做了大量的优化,包括对存储数据的格式、多线程、动态调整数据包大小等,这些优化都可以对访问存储层带来更高的性能。
  13.磁盘故障后,对象存储怎样控制数据的恢复速度?
  申国斌:我们的数据重构速度很快。很多人会有疑问,重构速度很快是否会影响业务。我们内置了多种不同的模式,包括自适应、业务优先、恢复优先等。根据不同的场景选择不同的恢复模式,可以在确保业务运行的基础上实现数据的尽快恢复。
  14.基于对象存储的底座构建云数仓的好处是什么,现在是主流趋势吗?
  申国斌:存算分离的架构需要对存储底座做选型。云数仓的特点是规模很大,对扩展性的要求很高。我们的集群可以拓展到4096个点,保证大规模数据存得下。此外,我们在并发访问的支持、前端应用的调用等方面,由于接口间接,以及采用成本可控的分布式架构,相比块存储和NAS存储有很大优势,对象存储因此是云数仓的主流趋势底座。
  15.对象存储相比于HDFS有什么优势?
  申国斌:HDFS默认采用三副本,整体成本更高。对象可以采用纠删方法,可以实现更高的利用率。HDFS适合存储大文件,更适合Hadoop的非结构化场景。数仓中小文件的场景很多,不适合HDFS。数仓通常将HDFS作为数据导入的入口,而不是存储的底座。

茶油里的山茶甙是什么东西?它的作用,超乎你的想象山茶油,是我国特有的一种食用植物油,其历史能追溯到几千年以前,从古至今都是我们生活中不可缺少的食用油,只是因为它地域限制的原因,只能在南方生长,所以北方的朋友才见得比较少。山茶油如这些食物适当多吃一些,有改善贫血的作用一高维生素C水果对于贫血人群来讲,日常生活当中一定要适当的多吃一些富含维生素C的水果,尤其是猕猴桃草莓鲜枣橙子石榴等。这些水果当中含有大量的维生素C,能够将食物中的铁元素还原成二价痘痘口臭油光体内湿热重?中医二味中药的攻破法,请你学习脸上爱长痘痘还爱出油,看上去总是油光满面的,头发也爱出油就算一天洗个几遍头,还是会看起来油乎乎的不干净,嘴巴还伴有异味,可真是让人烦恼啊,这些都是典型的体内湿热的表现,为什么身体会茶籽油有什么功效,值得买吗?茶籽油是山茶树种子中提炼制造出的油,从很早以前就有一些地区的人民在食用这种油。近年来茶籽油被包装成高端食用油,各种广告随处可见,一些商家甚至宣称它有防三高抗炎养颜美容等效果。茶籽油便宜好用的谷维素,可以治疗哪些病?这4大功效被广泛认同随着现在社会的不断发展,人们生活的压力也开始变得越来越大。尤其是在一二线城市生活的年轻人,他们通常都会面临着巨大的生存压力,经济压力。长期以往下去就可能会造成大脑神经系统紊乱,进而读万卷书行万里路很大,才坐过火车。梦想,走千山万水。小时候,读书不认真。荒废多少岁月。长大了,爱书如命。读万卷书,藏书万卷。心想事成。走过千山万水以后。对旅行,不再渴望。有也行,没有也行。心能旅行乌干达是一个怎样的国家,带你了解一下最真实的乌干达现状我曾经在乌干达打过工,对乌干达这个国家还是有所了解的,现在我把我对乌干达这个国家的了解分享给大家!1乌干达国家概括乌干达的全称是乌干达共和国,它和肯尼亚坦桑尼亚卢旺达南苏丹和布隆迪闽乡游武夷山武夷山景区占地70余平方公里,是典型的丹霞地貌,丹霞单面山块状山石柱状山,依山而建,形态各异。三三秀水碧碧,六六奇峰穿天,形成了武夷山山水奇景。此外,还有三千八百多年前的船棺,宋朝新年腊梅有约2022年1月1日,北海公园第一游,我又遇见了它。不对,我们是专程去看它的。我们每年都有约,只是今年迟了些。虽天寒地冻,但热情丝毫不减虽地处偏隅,依旧灿烂如昔。风欺雪压色更艳,零落橙子是甲状腺结节的发物?医生常吃4种食物,或能赶走结节近几年伴随着经济水平的进步,人们的生活也发生了翻天覆地的变化。尤其是饮食方面的改变要更为明显,几十年前可能大多数人都过着吃不饱穿不暖的生活,而现如今餐桌上的食物种类越来越丰富多样。喜欢喝酒的人,防止酒精肝找上门,现在开始做好8件事,还来得及酒精肝是长期过量饮酒所引起的慢性中毒性肝损伤疾病,病情的严重程度和研究量的多少以及时间长短有着密切的联系,当酒精肝发生之后,患者身体上往往会有多个不适症状,例如身体乏力,食欲不振,
科比,詹姆斯的两连冠谁的含金量更高?作为两个时代的Goat,科比和詹姆斯成了无数人的偶像。是球场上的对手,亦为球场下的兄弟。他们引领了一个时代,开创了一个王朝。科比观战湖人在NBA的历史长河中,只有那么几位球员做到了与刘国梁结成同盟,福原爱找到了新工作,伊藤美诚要做出抉择WTT刚刚官宣福原爱成为WTT世界乒联日本区总经理,对此不少国乒的球迷持肯定态度,毕竟福原爱确实比较受国乒球迷的喜爱跟熟悉,算得上是国乒的老朋友了。可是球迷想过没有,为什么要让年轻赵小明从孩子啃手指看,心理学最重要的素养是什么?作者赵小明文字邢娟编辑崔贯利一个人是否善良,是否负责任,首先是看她对待自己的身体是否善良负责,其次看她对待自已的理想是否善良负责,第三看她对待自已的人生是否善良负责。对自已都不善良失误太多,心态崩溃,保罗掩面哭泣,无法面对如此的数据菲尼克斯太阳球星克里斯保罗(ChrisPaul)对自己的失误次数感到失望。菲尼克斯太阳在面对犹他爵士的比赛中以115109取胜,虽然赢得了比赛胜利,但是赛后克里斯保罗在面对媒体是还换手型的阵痛依旧存在!格林需要改变心态和进攻的选择在上周一对阵国王队的比赛中,格林用最后的进攻篮板完成了他在第四节唯一一次触球,当时无论是美国当地的记者,球迷,还是虎扑的JR,还是贴吧,各各体育论坛,都对格林底角抽烟接不到球的现象没有出场机会,香川真司将结束足球生涯,心态太脆弱了没有出场机会,香川真司将结束足球生涯,心态太脆弱了来自欧洲媒体的最新消息,球员香川真司他目前正处在摇摆当中,因为他的出场机会非常的少,所以他已经决定要结束自己的足球生涯了,因为长时枫香瑶寨篝火音乐会唱响雪峰山雪峰山浓情故乡年枫香瑶寨篝火音乐会。湖南著名青年歌手陈湘水倾情献唱。红网时刻1月27日讯(通讯员谌许业)1月24日,雪峰山浓情故乡年枫香瑶寨篝火音乐会举行,湖南著名青年歌手陈湘水倾吴哥繁华落幕是虚无这是一篇记之前的游记的文章在去暹粒之前,我并不了解这座城市,所知道的只是那里有世界文化七大奇观之一的小吴哥以及一座坍塌的古城大吴哥,仅此而已因为不知道才想要去了解,去感受这座城市中研究发现晚餐与寿命息息相关!怎么吃吃多少,今天告诉你答案中华美食多种多样,足以看出我国人民对于吃的方面的重视。而且随着如今我们生活水平的提高,我们对于一日三餐都十分看重,但是由于很多人平时工作比较忙,在晚饭的时候难免想犒劳一下工作了一天过了期的茶叶还能喝吗?春节将至,喝茶要注意3点,养生更健康喜欢喝茶的朋友,一日三餐离不开茶,家里也会存一些茶。因为茶叶中含有多种营养元素,经常饮用对身体有一些好处。有人说茶叶放得越久越好?也有人说,茶叶买回来要尽快喝掉?那么到底是怎么一回除夕年夜饭,这道菜不能少,一蒸一炖,寓意团圆美满春节已进入倒计时了,家家户户都在忙碌着备年货,只为过一个轻松又愉快的新年。年夜饭作为辞旧迎新的一餐,端上桌的菜品不仅要丰盛,还要有一个好的寓意。其中圆圆的丸子在很多地方,是年夜饭必