专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

看懂大数据生态完整体系

  随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
  目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。
  一、数据采集技术框架
  数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!
  数据采集技术框架包括以下几种:Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1:
  Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2:
  Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3:
  Flume、Logstash和FileBeat的技术选型如图2所示:
  Sqoop和Datax之间的技术选型如图3所示:
  Cannal和Maxwell之间的技术选型如图4所示:
  二、数据存储技术框架
  数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。
  数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。三、分布式资源管理框架
  在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。
  在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。
  四、数据计算技术框架
  数据计算分为离线数据计算和实时数据计算。1。离线数据计算
  大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。2。实时数据计算
  业内最典型的实时数据计算场景是天猫双十一的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。Storm主要用于实现实时数据分布式计算。Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。
  他和Storm、Flink之间的区别见表4。
  Storm、Spark、Flink之间的技术选型如图6所示。
  目前企业中离线计算主要使用Spark,实时计算主要使用Flink。五、数据分析技术框架
  数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。
  Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。
  表5Hive的执行效率一般,但是稳定性极高;Impala基于内存可以提供优秀的执行效率,但是稳定性一般;Kylin通过预计算可以提供PB级别数据毫秒级响应。
  Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。六、任务调度技术框架
  包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。
  它们之前的技术选型如图8所示。
  七、大数据底层基础技术框架
  大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。八、数据检索技术框架
  随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。
  在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。
  九、大数据集群安装管理框架
  企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。
  一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。
  如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。
  于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。HDP:全称是HortonworksDataPlatform。它由Hortonworks公司基于ApacheHadoop进行了封装,借助于Ambari工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。HDP属于开源版免费大数据平台,没有提供商业化服务;CDH:全称是ClouderaDistributionIncludingApacheHadoop。它由Cloudera公司基于ApacheHadoop进行了商业化,借助于ClouderaManager工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH属于商业化收费大数据平台,默认可以试用30天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;CDP:Cloudera公司在2018年10月份收购了Hortonworks,之后推出了新一代的大数据平台产品CDP(ClouderaDataCenter)。CDP的版本号延续了之前CDH的版本号。从7。0版本开始,CDP支持PrivateCloud(私有云)和HybridCloud(混合云)。CDP将HDP和CDH中比较优秀的组件进行了整合,并且增加了一些新的组件。
  三者的关系如图9所示。
  以上内容出自于《大数据技术及架构图解实战派》一书。

理财亏损23万元全额获赔,银行为何担责?判决书显示,在法院认定银行未尽适当性义务,致投资者购买与其风险等级严重不匹配的产品之时,银行需就投资者的损失承担全部赔偿责任作者财经记者严沁雯编辑袁满花费百万买理财,不仅没有回本还家有新生儿宝宝,万一阳了怎么办?新生儿万一感染怎么办?要不要送医院?宝宝感染后,会不会有后遗症?看着小小的娃,许多新手爸妈变得焦虑起来,总担心刚出生的小宝宝也会被传染。家有小宝贝的爸妈们,需要知道哪些呢?图片来源全家已经阳转阴,彻底恢复,亲身经历分享给大家怎么做先说结论娃娃38。5以下,没必要吃药。娃娃发烧,要提升室温,脱掉衣物散热,持续物理降温。多喝水,大量喝水,只要不吐,就喝水,尿液可以带走大量的热量。去药店买电解质补液粉,避免饮水过老一辈的家庭教育家庭教育对孩子的人格塑造极其重要我发现我们家的上一辈,其实也是代表了许许多多的家长们,从我这一代人去看他们,会感觉他们都挺奇怪的,每次当他们的孩子遇到一些问题,他们的第一时间不是帮找到自己的动力一hr老婆孩子都放假了,他们呆在家里,哪也不去。爱人在家里先是忙着抢药,然后听四面八方关于羊了的消息,以及如何治愈等等。每天在群里发各种各样的讯息,搞得大家紧张兮兮。老婆说,在家里刘恺威与小8岁女友起争执?知情人曝杨幂女儿不喜欢李晓峰刘恺威女友李晓峰近日毫无预警删光所有视频,知情人士称小两口起争执闹翻,更爆料杨幂女儿不喜欢李晓峰。杨幂前夫刘恺威日前曝出与小8岁的李晓峰的恋情后,李晓峰就被网友挖出过去曝出出的霸道岳丽娜不顾一切嫁给穷小子,在6平米的地下室连生三子,她怎样了谁都不能阻拦我和郭靖宇在一起,父母也不行!说话的人是演员岳丽娜,她是家境优越的小公主,被父母捧在手心里长大。然而25岁的岳丽娜非要和要钱没钱要名没名的穷小子郭靖宇结为连理。当时大家被指插足锦绣妃子张嘉倪婚姻当小三!21岁网红失控轻生遭送医35岁的中国优质女星张嘉倪因在延禧攻略饰演顺嫔一角而爆红,被封为为锦绣妃子称号,7年前与前夫买超结婚,婚后育有2子,一家四口幸福美满。万万没想到,21岁的网红邵晴竟被爆出插足张嘉倪曝朱小伟做婚前财产公证,陈萌骗别墅被发现,朱之文质疑儿媳居心大衣哥的家事一直备受争议,他用金钱为儿子娶到了两任媳妇。但这两人的风评却都不怎么好,前者对朱小伟一点感情都没有,嫁给他就是为了学习大衣哥的直播技术,甚至在离婚后还诋毁朱家。而后者从和赵本山反目成仇的6个徒弟如果小品要颁发最佳表演奖,那么赵本山绝对榜上有名,从1990年到2001连续21年的连续登台使其名声越来越大,2003年6月成立本山传媒,致力于培养新人,吸收了大量优秀的喜剧演员。杨幂刘恺威离婚四年,才看出,分开才是最好的结局!刘恺威曾经说第一次见到杨幂的时候,那是一个饭局,刚洗完澡的杨幂头发还没擦干就出来了,头发湿湿的杨幂真实的迷人,让刘恺威怦然心动!而两人的情起缘与电视剧如意!那是两人的第一次合作,作
美联社发布杨紫琼奥斯卡荣获大奖的推文,涉嫌色情遭网友炮轰头条创作挑战赛杨紫琼在95届奥斯卡颁奖典礼上摘取了影后桂冠,这个消息瞬间就传到了国内。各大媒体甚至个人的社交账号都纷纷竞相报道,向杨紫琼表示祝贺,称赞他为华人之光。与此同时,外媒也中国队11战平吉尔吉斯坦挺进8强,看到中国足球希望吗?当中国足球处在都不信任的情况下,中国青年队以一种弱旅姿态参加比赛,他们的目的也很简单,踢出自己训练水平就行,成绩并不重要,正是这种放松心态,让大家踢得很放松,首战小负日本队,次战胜独特的苏州风情(187)苏州举办第十二届马拉松比赛原创党凤山3月2日上午,苏州市气温下降,细雨蒙蒙,因疫情而终止的十二届马拉松比赛,在美丽的金鸡湖举办。8点30分,随着一声枪响,参加比赛的三万多人不顾淅沥小雨的阻挡,意气风发的蜂拥中国足球8名球员被带走,国脚被曝组织赌球,或终身禁赛入狱10年头条创作挑战赛文少川北京时间3月17日,中国足球的恶性事件全面升级。目前一个下午的时间,已知的消息表明已经有8名球员被带走,真的是令人感到相当无语,其中还包括当红的国脚。在下午3点官宣!法国队最新大名单出炉,3位悍将首次入选,世界杯2人遭弃用在北京时间3月25日以及28日,法国队将迎来2场欧洲杯预选赛,他们的对手分别是荷兰队跟爱尔兰队。为了备战重要的欧预赛,法国队已经向外界公布了球队阵容。官宣!法国队最新大名单出炉,3食品电商零售与线下零售的结合将持续助力于食品行业快速发展?近年来,受疫情不稳定趋势造成的出行限制或出行意愿下降的影响,速食自热食品方便食品罐头食品等保质期长的食品销量大幅上升。随着人们消费水平的提高,居民的食品消费支出也在稳步增长。据分析深耕中东非!一带一路版图上海尔智家再添生态园2000多年前,驼铃声声的古丝绸之路上留下了中国瓷器的美名,21世纪的今天,在一带一路沿线上,中国智造散发出越来越耀眼的光芒。作为中国家电领域的一张响亮名片,海尔智家正逐渐深入一带稳增长促发展强信心丨湖南9个明星村上榜全国特色产业亿元村湖南日报3月16日讯(全媒体记者李孟河通讯员田湘麻煜新)农业农村部日前公布2022年全国乡村特色产业产值超亿元村名单,我省湘西土家族苗族自治州古丈县默戎镇牛角山村郴州市临武县舜峰镇资深媒体人李梦这事去年就在女篮国家队人尽皆知直播吧3月18日讯中国女篮国家队主力,即将代表华盛神秘人征战WNBA的李梦今日突然空降微博热搜第一。前女篮领队妻子爆料,李梦插足前女篮领队张隆的婚姻。资深媒体人和谐社会自觉闭嘴小能当问ChatGPT哪些国家教育比较好?看它如何回答导读在推出两个月后,ChatGPT的月活跃用户超过1亿,成为有史以来增长最快的消费应用程序。今天我们来询问下它哪些国家教育比较好?Chatgpt使用图当询问在你看来哪些国家的教育比高通推出开创性物联网和机器人产品,扩展智能网联边缘生态系统高通技术公司日前宣布推出全球首款为支持四大主要操作系统而设计的集成式5G物联网处理器两个全新机器人平台,以及面向物联网生态系统合作伙伴的加速器计划。这些全新的创新将赋能制造商参与到
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网