保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

技术选型OLAP大数据技术哪家强?

  导读:分享不易,可以收藏关注转发。
  随着大数据组件越来越多,很多组件都是为OLAP数据服务的,什么组件或者组件组合最合适可能是我们关注的问题。本文大体分析业内常见的组件特点,给大家挑选组件提供借鉴。
  Lambda架构的核心理念是流批一体化,因为随着机器性能和数据框架的不断完善,用户其实不关心底层是如何运行的,批处理也好,流式处理也罢,能按照统一的模型返回结果就可以了,这就是Lambda架构诞生的原因。现在很多应用,例如Spark和Flink,都支持这种结构,也就是数据进入平台后,可以选择批处理运行,也可以选择流式处理运行,但不管怎样,一致性都是相同的。
  Kylin
  Kylin的主要特点是预计算,提前计算好各个cube,这样的优点是查询快速,秒级延迟;缺点也非常明显,灵活性不足,无法做一些探索式的,关联性的数据分析。
  适合的场景也是比较固定的,场景清晰的地方。
  ClickHouse
  Clickhouse由俄罗斯yandex公司开发。专为在线数据分析而设计。
  Clickhouse最大的特点首先是快,为了快采用了列式储存,列式储存更好的支持压缩,压缩后的数据传输量变小,所以更快;同时支持分片,支持分布式执行,支持SQL。
  ClickHouse很轻量级,支持数据压缩和最终数据一致性,其数据量级在PB级别。
  另外Clickhouse不是为关联分析而生,所以多表关联支持的不太好。
  同样Clickhouse不能修改或者删除数据,仅能用于批量删除或修改。没有完整的事务支持,不支持二级索引等等,缺点也非常明显。
  与Kylin相比ClickHouse更加的灵活,sql支持的更好,但是相比Kylin,ClickHouse不支持大并发,也就是不能很多访问同时在线。
  总之ClickHouse用于在线数据分析,支持功能简单。CPU利用率高,速度极快。最好的场景用于行为统计分析。
  Hive
  Hive这个工具,大家一定很熟悉,大数据仓库的首选工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能。
  主要功能是可以将sql语句转换为相对应的MapReduce任务进行运行,这样可能处理海量的数据批量,
  Hive与HDFS结合紧密,在大数据开始初期,提供一种直接使用sql就能访问HDFS的方案,摆脱了写MapReduce任务的方式,极大的降低了大数据的门槛。
  当然Hive的缺点非常明显,定义的是分钟级别的查询延迟,估计都是在比较理想的情况。但是作为数据仓库的每日批量工具,的确是一个稳定合格的产品。
  Presto
  Presto极大的改进了Hive的查询速度,而且Presto本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询,支持包括复杂查询、聚合、连接等等。
  Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。
  Presto由于是基于内存的,缺点可能是多张大表关联操作时易引起内存溢出错误。
  另外Presto不支持OLTP的场景,所以不要把Presto当做数据库来使用。
  Presto相比ClickHouse优点主要是多表join效果好。相比ClickHouse的支持功能简单,场景支持单一,Presto支持复杂的查询,应用范围更广。
  Impala
  Impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
  Impala使用Hive的元数据,完全在内存中计算。是CDH平台首选的PB级大数据实时查询分析引擎。
  Impala的缺点也很明显,首先严重依赖Hive,而且稳定性也稍差,元数据需要单独的mysqlpgsql来存储,对数据源的支持比较少,很多nosql是不支持的。但是,估计是cloudera的国内市场推广做的不错,Impala在国内的市场不错。
  SparkSQL
  SparkSQL的前身是Shark,它将SQL查询与Spark程序无缝集成,可以将结构化数据作为Spark的RDD进行查询。
  SparkSQL后续不再受限于Hive,只是兼容Hive。
  SparkSQL提供了sql访问和API访问的接口。
  支持访问各式各样的数据源,包括Hive,Avro,Parquet,ORC,JSON,andJDBC。
  Drill
  Drill好像国内使用的很少,根据定义,Drill是一个低延迟的分布式海量数据交互式查询引擎,支持多种数据源,包括hadoop,NoSQL存储等等。
  除了支持多种的数据源,Drill跟BI工具集成比较好。
  Druid
  Druid是专为海量数据集上的做高性能OLAP而设计的数据存储和分析系统。
  Druid的架构是Lambda架构,分成实时层和批处理层。
  Druid的核心设计结合了数据仓库,时间序列数据库和搜索系统的思想,以创建一个统一的系统,用于针对各种用例的实时分析。Druid将这三个系统中每个系统的关键特征合并到其接收层,存储格式,查询层和核心体系结构中。
  目前Druid的去重都是非精确的,Druid适合处理星型模型的数据,不支持关联操作。也不支持数据的更新。
  Druid最大的优点还是支持实时与查询功能,解约了很多开发工作。
  Kudu
  kudu是一套完全独立的分布式存储引擎,很多设计概念上借鉴了HBase,但是又跟HBase不同,不需要HDFS,通过raft做数据复制;分片策略支持keyrange和hash等多种。
  数据格式在parquet基础上做了些修改,支持二级索引,更像一个列式存储,而不是HBaseschemafree的kv方式。
  kudu也是cloudera主导的项目,跟Impala结合比较好,通过impala可以支持update操作。
  kudu相对于原有parquet和ORC格式主要还是做增量更新的。
  Hbase
  Hbase使用的很广,更多的是作为一个KV数据库来使用,查询的速度很快。
  Hawq
  Hawq是一个Hadoop原生大规模并行SQL分析引擎,Hawq采用MPP架构,改进了针对Hadoop的基于成本的查询优化器。
  除了能高效处理本身的内部数据,还可通过PXF访问HDFS、Hive、HBase、JSON等外部数据源。HAWQ全面兼容SQL标准,还可用SQL完成简单的数据挖掘和机器学习。无论是功能特性,还是性能表现,HAWQ都比较适用于构建Hadoop分析型数据仓库应用。

Spring异步实现原理与实战分享前言:最近因为全链路压测项目需要对用户自定义线程池Bean进行适配工作,我们知道全链路压测的核心思想是对流量压测进行标记,因此我们需要给压测的流量请求进行打标,并在链路中……CentOS的继承者AlmaLinux9发布AlmaLinux9是基于RedHatEnterpriseLinux9的最新版本,添加了新的壁纸并进一步增强了性能。如果你一直在关注我们的话,应当知道AlmaLinux9……新型养老模式互联网虚拟养老院我们国家老年人选择养老机构的老人仅占比3,7的老人选择社区依托社区支持养老,90的老人选择居家养老。随着现代社会节奏的加快和经济的发展,老人养老和子女时间、经济能力有限的……可以改变未来的十大新科技,有的正在变成现实1、皮肤再生枪有了这个技术,人们不会再担心意外事故造成的毁容风险。未来就算皮肤被烧伤或严重毁容,都可以由皮肤再生设备通过照射重组再生。不会留下任何永久的伤口和疤痕,人们重……智造讲堂数字孪生的支撑技术和应用场景思琴国际品牌管理咨询收录于话题智造讲堂164个改编自:《智能制造实践》(作者:黄培,许之颖,张荷芳)该书正在编审环节中,即将出版,请关注智造苑即时获取新书出版……北大满哥授权奥迪免费使用文案人教版数学教材插图引争议5。28国内优酷2022财年Q4日均付费用户季度同比增长14据北京商报5月27日消息,5月26日晚间,阿里巴巴集团发布2022财年Q4(2022年1月1日至3月31日)财报……具有超强耐药性!智利科学家在南极发现超级细菌超级细菌,是指那些对多种抗生素具有耐药性的细菌。全球每年有数十万甚至上百万人死于超级细菌感染。一般认为,人类的活动促使细菌不断交流和进化,催生出令人生畏的致命病原菌。而在人迹罕……技术创新模块电热水器的内胆自洁技术模块电热水器29个优势之六:内胆自洁技术模块电热水器是由先舟电器创行业先河研发的电热水器新产品,由蓄热模块和加热控制模块组成,两个模块组合在一起,就是一台性能超越传统电热……WebRTC点对点会话建立过程分析关于WebRTC建立点对点连接的文章很多,其中都提到了如何利用stun服务器获取本机的公网地址,本文侧重局域网(两台设备之间可以直接ping通)下WebRTC点对点连接建立问题……世体登贝莱接近和切尔西达成协议图赫尔是最懂他的教练北京时间5月28日傍晚,《世界体育报》的报道,登贝莱将在6月30日与巴塞罗那俱乐部的合同到期后,以自由球员的身份与切尔西达成协议。世体称,这位法国前锋的未来几个月来一直与……IPO雷达销售依赖大客户,采购要找竞争对手,比特技术的生意有记者曹立CL编辑陈菲遐近日,深圳市中航比特通信技术股份有限公司(以下简称比特技术)向上交所递交了科创板上市申请。比特技术成立于2002年,主要从事军用通信设备……深入浅出Zookeeper中的ZAB协议本文主要内容如下:ZAB协议的全称是ZookeeperAtomicBroadcase,原子广播协议。作用:通过这个ZAB协议可以进行集群间主备节点的数据同步,保证数……
古代娘娘驾当代十三晚上,工作室里天啊!都十点了!啊困死了困死了好累啊蝶恋哈欠连天的抱怨着,顺便看了一下钟:天哪,还有半小时01分钟09秒哪!真是要命啊!甜琴也是的!朋友有难也不来帮帮我!好……太阳系八大行星特立独行的星星太阳系八大行星太阳系中有八颗出名的行星,它们分别是水星、金星、地球、火星、木星、土星、天王星、海王星。离太阳更近的水星、金星、地球、火星都是岩质行星,宇宙飞船可以登陆它们……系外行星很难被直接探测到,人类已经开发了五种方法来寻找它们无数的星球依偎在最后的边界。它们散落在无数的星系当中,质疑着人类在宇宙中无依无靠这一观念。系外行星是存在于太阳系之外的世界,也被称为太阳系外行星。它们通常围绕……泡绿豆品学网专稿未经允许不得转载我很喜欢吃豆芽菜,但不知道它是怎么长的。于是,我便找来几颗绿油油的绿豆小心翼翼地放进杯子里泡。绿豆在水里泡得欢,在水中跳着圆舞曲哩!我想:希望你……初中说明文昆虫的伪装战术昆虫的伪装战术种类繁多的昆虫,之所以能在自然界中长期生存下来,除了具有惊人的繁殖力和丰富的食料外,还因为他们有一套伪装本领。有些昆虫有巧妙的隐身术,比如蚱蜢,它的体……2022年养老金涨幅上限为4,4类人不涨5类人多涨,包括你吗2022年养老金调整水平已经确定。5月26日,人社部和财政部发布了2022年养老金调整的通知,确定今年的养老金涨幅水平,以2021年退休的企业职工和国家机关事业单位退休人员月基……高中作文难忘恩师思念真是种奇妙的东西,让我心碎却又让我心醉初识您转学而来且英语超差的我无疑以光速进入了您的眼中,成为了您的新宠儿。而与您的拉锯战也就此展开,以后英语课便以我单词不会……端午节前,灵活就业人员迎来3个社保好消息,了解一下由于受到疫情的持续影响和冲击,最近两年以来我国产业市场的发展可谓是极为不利,而且这也造成了社会当中非常明显的就业问题。不少社会人群开始选择灵活就业的方式,据悉目前我们国家的灵活……学滑旱冰初中600字作文愉快的暑假过去了,在暑假里,我经历过许多愉快的事,它们就像天上的星星一样多得数不胜数,现在我就摘下最亮的一颗讲给你们听听吧!暑假的一天,爸爸妈妈满足了我很久以来的愿望给我……春游作文200字(共五篇)篇一:今天,老师带领我们到汀棠公园春游。一路上同学们说说笑笑都很兴奋。汀棠公园的水看起来很深,湖面波光粼粼的。公园里的花草都发芽了。这里最著名的景点是玩鞭亭。玩鞭亭……广西上林帮非洲淘金火拼疾病是常事,有人资产暴涨一个亿一直以来,美国淘金热的故事都被许多人津津乐道:在西部大开发时期,一批又一批怀揣发财梦的人去往美国西部。许多人在这次淘金热中一夜暴富,世界知名城市旧金山的名字也来源于此,一……小护士转科实习日记今天都是转科的第二天了,昨天下午专科过去我们什么都没有做,可是今天早上一去就分了带教的老师,今天对于的来说感觉好漫长呀,我现在是真真实实的接触操作了。早上我们就分了六个组……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网