范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

看懂大数据生态完整体系

  随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
  目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。
  一、数据采集技术框架
  数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!
  数据采集技术框架包括以下几种:  Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1:
  Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2:
  Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3:
  Flume、Logstash和FileBeat的技术选型如图2所示:
  Sqoop和Datax之间的技术选型如图3所示:
  Cannal和Maxwell之间的技术选型如图4所示:
  二、数据存储技术框架
  数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。
  数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。  HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。  HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。  Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。  Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。  三、分布式资源管理框架
  在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。
  在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。
  四、数据计算技术框架
  数据计算分为离线数据计算和实时数据计算。  1. 离线数据计算
  大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。  MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。  Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。  Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。  2. 实时数据计算
  业内最典型的实时数据计算场景是天猫"双十一"的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。  Storm主要用于实现实时数据分布式计算。  Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。  Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
  他和Storm、Flink之间的区别见表4。
  Storm、Spark、Flink 之间的技术选型如图6所示。
  目前企业中离线计算主要使用Spark,实时计算主要使用Flink。  五、数据分析技术框架
  数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
  Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。
  表5  Hive的执行效率一般,但是稳定性极高;  Impala基于内存可以提供优秀的执行效率,但是稳定性一般;  Kylin通过预计算可以提供PB级别数据毫秒级响应。
  Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。  Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。  目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。  六、任务调度技术框架
  包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。
  它们之前的技术选型如图8所示。
  七、大数据底层基础技术框架
  大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。  八、数据检索技术框架
  随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。
  在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。
  九、大数据集群安装管理框架
  企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。
  一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。
  如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。
  于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。  HDP:全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装,借助于 Ambari 工具提供界面化安装和管理,并且集成了大数据中的常见组件, 可以提供一站式集群管理。HDP 属于开源版免费大数据平台,没有提供商业化服务;  CDH:全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化,借助于 Cloudera Manager 工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH 属于商业化收费大 数据平台,默认可以试用 30 天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;  CDP:Cloudera 公司在 2018 年 10 月份收购了 Hortonworks,之后推出了新一代的大数据平台产品 CDP(Cloudera Data Center)。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合,并且增加了一些新的组件。
  三者的关系如图9所示。
  以上内容出自于《大数据技术及架构图解实战派》一书。

赣深高铁开通啦,赣州都有什么好吃的好玩的?翘首以盼心心念念的高铁终于开通了。身为赣州崽子,常年在深圳打拼感触太深了。咱赣州好吃好玩的多了去了,非要推荐的话就是从小吃到大的那片齐云山南酸枣糕。优越的地理条件孕育出的南酸枣做原精子离开男人的身体后能活多久?现在有大量不育患者选择做试管婴儿,而做试管前或婚前检查时,男性需体外排精检查精液质量。精液体外检查时会在体外暴露很久,还有些夫妻房事之后,女性阴道里有大量的精子流出体外,暴露在空气打算让一辈子没出过远门的老母亲坐上独轮车,然后推着她环球旅游,你们觉得如何?我不虚伪所以我做不到,因为我现在必须努力工作才能支撑一个家,做这个事不是嘴上说说要有一定的经济基础还的有时间所以我做不到,不管你认不认同历史没有未来重要,夕阳没有朝阳重要,我这样说串口服务器的通讯模式有哪几种?串口服务器,一个为RS232485422到PCIP之间完成数据转换的具有强大功能的方便快捷的通讯接口转换器。串口服务器通过作为服务器端,提供RS232485422终端串口与TCPI买大银行收股息,比买银行理财产品更靠谱吗?长期来看确实如此,短期来看并不是这样。我以工商银行的股票为例给大家讲讲其中的逻辑。每股五年共计分红1。252元为什么选取工商银行呢?因为工商银行不仅全国还是全球规模最大的银行,市值为什么美国人和法国人互相瞧不起?在当代国际关系中,法国人为什么总是和美国对着干?这个问题实际上要从两个角度来理解,第一个角度指的是法国当权者在国际关系国际经贸交往中对美国的抵制抗衡第二个角度指的是为什么一般而言,只狼有哪些让游戏变简单模式的逃课打法?自然是有的,AKA我经历了近30小时,现在就剩苇名一心最后一个boss了,这过程中有逃过课,也有正常打过铁,就分享一下我所知的逃课方法。武士大将山内典膳这是流程中第一个卡住我的精英为啥台湾很难找到正经的餐厅,全是小吃?楼主所言差矣啊,台湾当然不只有小吃这个选项,台湾各国美食餐厅或是台菜的高级餐厅四处林立,价格从人民币几百块到一两万的人均消费任君选择,以下提供一些资讯欢迎您下次到访台湾时可以亲临品进入大学要不要购买电脑?为什么?要。虽然很多985大学明确规定大一新生不需要带电脑,但是,在家庭经济条件许可的情况下,我认为大学生拥有属于自己的电脑是需要的。一经济因素考量电脑的配置不同,价格差异还是蛮大的,但是途观L新能源和唐DMi,哪个更具品价比?上个月刚入手的唐DMi,我也推荐楼主选择唐DMi,对比过途观L新能源,不但价格高,产品力也和唐DMi有不小的差距,根本不值得考虑。如果买油车,途观L还算是一个不错的选择,买插混还考为什么散户被割韭菜还是乐此不彼地进入股市?我觉得散户被割韭菜还乐此不疲的进入股市的原因,是由于股市的巨大的吸引力造成的。股市的吸引力有多大呢?这个吸引力与地球的吸引力差不多。地球上的万物,只要被地球吸住,不借助外力是跑不掉
中国女排功勋退役!里约奥运会最佳自由人,2016职业生涯巅峰北京时间10月24日晚,中国女排功勋球员林莉在个人社媒发文,林莉写道总是要说再见的,我的排球运动员生涯划上句号了。此言不言而喻,就是自宣退役,多年的职业排球生涯就此走到终点。林莉于杨文钰科技兴农确保中国碗装中国粮四川农业大学教授杨文钰科技兴农确保中国碗装中国粮光明日报记者周洪双党的二十大报告对加快建设农业强国作出战略部署。党的二十大开幕会上,四川农业大学教授杨文钰代表现场聆听了习近平总书记想说想对先生说的一番话遇见你是故事的开始,走到最后是余生的欢喜。能有一个喜欢的人是无比的开心的。在我的世界正在崩塌的一瞬间,心里想着为了你再努力一下。因为你,我觉得是人间值得。你是幸运的,你有权利选择喜我听过最毒的鸡汤是圈子不同,不必强融按理说,这个话题我是不太敢说的,因为在过去,我在交朋友这件事上是最没底气的。以前我的朋友极少,因为性格极度内向,不敢主动结交,所以导致在人情世故这方面几乎是一窍不通。从未想过刻意经成年人焦虑的本质是什么?看完惊醒米苏在人生没有太早和太晚,一切都刚刚好一书中写过一段话我与你们分享这个真实的故事,就是想告诉你们,杏如人生,先苦后酸,再由酸变甜杏如万物,长在阳地开花早,长在背地结果迟杏又同人一样有些人越长大越孤单年轮一圈圈的增加,岁月凋零了多少年华。年少时的伙伴,年长时的朋友,联系得越来越少,甚至很多早已断了联系。大家都很忙,忙生活,忙工作。身边的朋友却是显得越来越多,表面上相互说着客气的成年人的绝交,都是安静的想要了解更多精彩内容,快来关注欢淇语01hr我们常说能说出口的绝交都不是真正的绝交,说不出口的绝交才是真正的绝交。人越大越发现,很多人走着走着就散了,渐行渐远,直到再也不见。没有说天安门每天升起的国旗都是新的,更换下来的国旗,都去了哪里?你知道吗?天安门广场每天升起的国旗都是崭新的,从清晨到傍晚,出场不到二十四小时便功成身退,而那些更换下来的国旗,究竟去了哪里?天安门的国旗又为何一天一换?1949年10月1日,伟大世界国旗雅趣(九)朝鲜民主主义人民共和国国旗,通称红蓝五角星旗。该红蓝五星国旗由金日成主席主导设计,1948年9月9日朝鲜民主主义人民共和国成立后启用。朝鲜国旗呈横长方形,长与宽之比为21,旗面中间我想暂时退出国家队埃格努背锅世锦赛成绩遭种族歧视女排世锦赛上周顺利落幕,今年斩获世界女排联赛首冠的意大利女排,最终在世锦赛上获得季军。不料队内场场得分最高的王牌接应埃格努不断受到网络攻击,让她在颁奖典礼后崩溃地说,我累了,这是我林志玲夫妇和杨祐宁聚餐!脸泛油光五官略变样,日本老公打扮儒雅近日,演员杨祐宁在个人社交平台晒出一组家人和林志玲夫妇吃饭的照片,并表示欢迎林志玲夫妇来店内相聚,还称赞志玲姐姐美丽依旧,身边有了姐夫陪伴幸福美满,从而引起网友们的热议。大合影中,