范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大数据图解常见的大数据平台架构设计思路

  常见的大数据平台架构设计思路
  本文主要包括以下几个章节: 本文第一部分介绍一下大数据基础组件和相关知识。 第二部分会介绍lambda架构和kappa架构。 第三部分会介绍lambda和kappa架构模式下的一般大数据架构 第四部分介绍裸露的数据架构体系下数据端到端难点以及痛点。 第五部分介绍优秀的大数据架构整体设计 从第五部分以后都是在介绍通过各种数据平台和组件将这些大数据组件结合起来打造一套高效、易用的数据平台来提高业务系统效能,让业务开发不再畏惧复杂的数据开发组件,无需关注底层实现,只需要会使用SQL就可以完成一站式开发,完成数据回流,让大数据不再是数据工程师才有的技能。
  一、大数据技术栈
  大数据整体流程涉及很多模块,每一个模块都比较复杂,下图列出这些模块和组件以及他们的功能特性,后续会有专题去详细介绍相关模块领域知识,例如数据采集、数据传输、实时计算、离线计算、大数据储存等相关模块。
  二、lambda架构和kappa架构
  目前基本上所有的大数据架构都是基于lambda和kappa架构,不同公司在这两个架构模式上设计出符合该公司的数据体系架构。lambda 架构使开发人员能够构建大规模分布式数据处理系统。它具有很好的灵活性和可扩展性,也对硬件故障和人为失误有很好的容错性,关于lambda架构可以在网上搜到很多相关文章。而kappa架构解决了lambda架构存在的两套数据加工体系,从而带来的各种成本问题,这也是目前流批一体化研究方向,很多企业已经开始使用这种更为先进的架构。
  Lambda架构
  Kappa架构
  三、kappa架构和lambda架构下的大数据架构
  目前各大公司基本上都是使用kappa架构或者lambda架构模式,这两种模式下大数据整体架构在早期发展阶段可能是下面这样的:
  四、数据端到端痛点
  虽然上述架构看起来将多种大数据组件串联起来实行了一体化管理,但是接触过数据开发的人会感受比较强烈,这样的裸露架构业务数据开发需要关注很多基础工具的使用,实际数据开发中存在很多痛点与难点,具体表现在下面一些方面。
  缺乏一套数据开发IDE来管理整个数据开发环节,长远的流程无法管理起来。没有产生标准数据建模体系,导致不同数据工程师对指标理解不同计算口径有误。大数据组件开发要求高,普通业务去直接使用Hbase、ES等技术组件会产生各种问题。基本上每个公司大数据团队都会很复杂,涉及到很多环节,遇到问题难以定位难以找到对应负责人。难以打破数据孤岛,跨团队跨部门数据难以共享,互相不清楚对方有什么数据。需要维护两套计算模型批计算和流计算,难以上手开发,需要提供一套流批统一的SQL。缺乏公司层面的元数据体系规划,同一条数据实时和离线难以复用计算,每次开发任务都要各种梳理。
  基本上大多数公司在数据平台治理上和提供开放能力上都存在上述问题和痛点。在复杂的数据架构下,对于数据使用方来说,每一个环节的不清晰或者一个功能的不友好,都会让复杂链路变得更加复杂起来。想要解决这些痛点,就需要精心打磨每一个环节,将上面技术组件无缝衔接起来,让业务从端到端使用数据就像写SQL查询数据库一样简单。
  五、优秀的大数据整体架构设计
  提供多种平台以及工具来助力数据平台:多种数据源的数据采集平台、一键数据同步平台、数据质量和建模平台、元数据体系、数据统一访问平台、实时和离线计算平台、资源调度平台、一站式开发IDE。
  六、元数据-大数据体系基石
  元数据是打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。元数据包含静态的表、列、分区信息(也就是MetaStore)。动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;提供个人或BU的资产管理、计算资源消耗概览等。
  可以认为整个大数据数据流动都是依靠元数据来管理的,没有一套完整的元数据设计,就会出现上面的数据难以追踪、权限难以把控、资源难以管理、数据难以共享等等问题。
  很多公司都是依靠hive来管理元数据,但是个人认为在发展一定阶段还是需要自己去建设元数据平台来匹配相关的架构。
  关于元数据可以参考饿了么一些实战:https://www.jianshu.com/p/f60b2111e414
  七、流批一体化计算
  如果维护两套计算引擎例如离线计算Spark和实时计算Flink,那么会对使用者造成极大困扰,既需要学习流计算知识也需要批计算领域知识。如果实时用Flink离线用Spark或者Hadoop,可以开发一套自定义的DSL描述语言去匹配不同计算引擎语法,上层使用者无需关注底层具体的执行细节,只需要掌握一门DSL语言,就可以完成Spark和Hadoop以及Flink等等计算引擎的接入。
  八、实时与离线ETL平台
  ETL 即 Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。一般而言ETL平台在数据清洗、数据格式转换、数据补全、数据质量管理等方面有很重要作用。作为重要的数据清洗中间层,一般而言ETL最起码要具备下面几个功能:支持多种数据源,例如消息系统、文件系统等支持多种算子,过滤、分割、转换、输出、查询数据源补全等算子能力支持动态变更逻辑,例如上述算子通过动态jar方式提交可以做到不停服发布变更。
  九、智能统一查询平台
  大多数数据查询都是由需求驱动,一个需求开发一个或者几个接口,编写接口文档,开放给业务方调用,这种模式在大数据体系下存在很多问题:这种架构简单,但接口粒度很粗,灵活性不高,扩展性差,复用率低.随着业务需求的增加,接口的数量大幅增加,维护成本高企。同时,开发效率不高,这对于海量的数据体系显然会造成大量重复开发,难以做到数据和逻辑复用,严重降低业务适用方体验。如果没有统一的查询平台直接将Hbase等库暴露给业务,后续的数据权限运维管理也会比较难,接入大数据组件对于业务适用方同样很痛苦,稍有不慎就会出现各种问题。
  通过一套智能查询解决上述大数据查询痛点问题
  十、数仓建模规范体系
  随着业务复杂度和数据规模上升,混乱的数据调用和拷贝,重复建设带来的资源浪费,数据指标定义不同而带来的歧义、数据使用门槛越来越高。以笔者见证实际业务埋点和数仓使用为例,同一个商品名称有些表字段是good_id,有些叫spu_id,还有很多其他命名,对于想利用这些数据人会造成极大困扰。因此没有一套完整的大数据建模体系,会给数据治理带来极大困难,具体表现在下面几个方面:
  数据标准不一致,即使是同样的命名,但定义口径却不一致。例如,仅uv这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?造成巨大研发成本,每个工程师都需要从头到尾了解研发流程的每个细节,对同样的"坑"每个人都会重新踩一遍,对研发人员的时间和精力成本造成浪费。这也是目标笔者遇到的困扰,想去实际开发提取数据太难。没有统一的规范标准管理,造成了重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重。
  因此大数据开发和数仓表设计必须要坚持设计原则,数据平台可以开发平台来约束不合理的设计,例如阿里巴巴的OneData体。一般而言,数据开发要经过按照下面的指导方针进行:
  有兴趣的可以参考阿里巴巴的OneData设计体系。
  十一、一键集成平台
  很简单的就能将各种各式数据一键采集到数据平台,通过数据传输平台将数据无缝衔接到ETL平台。ETL通过和元数据平台打通,规范Schema定义,然后将数据转换、分流流入到实时与离线计算平台,后续任何针对该数据离线和实时处理,只需要申请元数据表权限就可以开发任务完成计算。数据采集支持多种各式数据来源,例如binlog、日志采集、前端埋点、kafka消息队列等
  十二、数据开发IDE-高效的端到端工具
  高效的数据开发一站式解决工具,通过IDE可以完成实时计算与离线计算任务开发,将上述平台全部打通提供一站式解决方案。数据开发IDE提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,通过数据IDE完成对数据进行传输、转换和集成等操作。从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其他数据系统。通过高效率的大数据开发IDE,基本上让大数据工程师可以屏蔽掉各种痛点,将上述多种平台能力结合起来,让大数据开发可以向写SQL一样简单。
  关于数据开发工具可以参考阿里云的DataWorks。
  解决端到端难点还需要其他若干能力辅助,这里就不再叙述,有兴趣的同学可以自行研究。
  十三、其他
  完整的数据体系研发还包括告警与监控中心、资源调度中心、资源计算隔离、数据质量检测、一站式数据加工体系,这里就不再继续讨论了。
  文章来源:https://www.bemore.cn/常见的大数据平台架构设计思路

珍稀鸟类相约保康越冬极目新闻记者周萍英通讯员杨韬向宗涛入冬时节,成群结队的候鸟相约保康县清溪河迁徙越冬,碧波鸟群,相互交织,构成一幅美丽和谐的生态画卷。12月20日,在保康县清溪河一桥至二桥水域,几只阳了没有退烧药的第二天阳了自己隔离的第二天,晚上发烧没睡好觉。今天白天烧至38。8度,头疼脖子疼内脏疼。好像什么地方都疼,就是那种神经疼的感觉。嗓子里有痰,不敢咳嗽,一咳就疼的厉害。以我的经历看,这病绝远离牙龈炎,科普口腔护理上的19大危害禁忌!在我国,90的人的都患有牙病,而牙龈炎正是其中最普遍的口腔问题,而牙龈炎早中期不疼不痒的特性,也让很多人乐观地以为自己口腔健康,对于口腔护理不是很上心,只是每天草草刷两次牙,这无疑吃鸡蛋别再扔蛋黄了!这种功效太珍贵鸡蛋是生活中常见的食品,但许多人不知道鸡蛋黄还是一味中药。滋补好物鸡子黄鸡蛋黄又名鸡子黄鸡卵黄,在中医经典著作伤寒论和金匮要略中多次出现,如黄连阿胶汤百合鸡子黄汤和排脓散中均含有鸡扩散阳过之后如何恢复状态?天津疾控这样建议!现在大家都有一种感觉整个朋友圈的人都阳过了所以如何安然渡过阳过后刚刚康复的日子确保身体恢复原来的状态?天津疾控微信公众号今天发布阳过之后几点生活方式建议一摄入营养丰富且清淡的食物,如何预防变成小阳人新冠阳性是指新型冠状病毒核酸检测为阳性,提示患者感染新型冠状病毒,患者要多吃富含维生素的水果,如富含维生素A的水果富含B族维生素的水果富含维生素C的水果,能够为身体健康提供营养物质人在发烧时,坚决不能吃鸡蛋?建议别做毫无意义的事情鸡蛋是发物,发烧时坚决不能吃!你是不是也听说过相关说法,那么应不应该相信呢?鸡蛋作为日常生活中的平民食物,但它一点也不普通,虽然个头小小的,但营养丝毫不比其他食物差,无论蛋白还是蛋冬至进补不能不吃鸡,这3种鸡肉家常做法好吃又简单,一学就会家庭美食大赏一年一度马上又到冬至了,这个寒冬会比以往的冬天都要冷,相信大家都懂我的意思,做好进补和加强免疫力是重中之重,往年冬至大家有吃鸡吗?当然也有不少地方是冬至吃饺子的习俗,不全聚德烤鸭酒,越喝越有?斑马消费范建沾酒即涨的成例,在全聚德身上也得到了应验。一则看似不经意的卖贴牌酱酒的消息,已让全聚德连续三个交易日涨停,炒作的氛围浓厚。酒只能让全聚德锦上添花,要想挽救公司颓废的业绩黑色,深冬不可撼动的时尚感!一到冬天,黑色就成了80男人衣柜里的钉子户。黑色被大家厚爱,得益于它低调不挑人又挺容易穿出质感的优势。图片来源pinterest不同于其它颜色,黑色所包含的特性很复杂。它可以是严肃做你心目中的最美女孩时尚穿搭摄影技巧1。曾经有一份真挚的爱情摆在你面前,可是没有好好珍惜,等到后来女孩子走了你才追悔莫及,如果能有机会重来的话,那就好好学习时尚穿搭和摄影技巧吧!让她做你心目中的最美女孩!(文中图片均
当红男星张子健带着女儿再婚,怒砸继子电脑,现在过得怎样了?点击关注,每天都有名人故事感动您!张子健张子健是深受观众喜爱的著名演技派男星,主演了白眉大侠神探狄仁杰系列猎鹰1949飞虎神鹰借枪孤岛飞鹰大漠枪神平原烽火石敢当之雄峙天东热血津门飞孝顺父母心疼太太,与父母同住多年,宋小宝将处理家事当成乐趣说起我国的小品演员,老一辈的宋丹丹冯巩巩汉林等早已经慢慢地淡出了大众视野,新一批的小品演员张小斐贾玲等人每年都能给大家带来许多优秀的作品,不管是小品还是影视剧作品,那都是好评不断。阮玲玉16岁成名,25岁喝下毒粥,死后5位影迷自杀,30万人送葬1935年3月8日凌晨,一个饱受争议的女人被丈夫掌掴之后,在粥里放了3瓶安眠药自杀身亡,而丈夫为了自己的声誉不敢声张,眼睁睁的看着她死去。她的离世震惊了整个上海滩,随后有5位影迷跟人前过气明星,人后商业大佬!这7位明星身家亿元起步文阅栀编辑阅栀只见新人笑,不闻旧人哭,对于娱乐圈来说,早已是家常便饭。有那么一部分人,他们也曾是顶流,只不过在时间的冲刷下,渐渐地没落,而那些过气的明星,有人泯然众人,也有人在另一小米开始卖苹果手机了?就在这几天小芳打开小米京东自营店的时候,突然发现小米官方自营店在卖苹果手机了。大概情况是这样的,在小米京东自营店类出现了大量红米note系列和小米11青春版绑定苹果13的手机套餐。一边倒!杜兰特和伯德谁更强?美媒全方位对比,6作为80年代联盟的门面人物,伯德与魔术师约翰逊这对黑白双煞之间的对决,是NBA能够逐步成为世界范围内最好篮球联赛非常重要的一环。伯德一度也被视作联盟历史第一小前锋,直到詹姆斯的出现去浙江必点的6道浙菜,是浙菜之魂,老板还以为你是浙江人众所周知,咱们中国有八大菜系,每一个菜系都有着不同的特点!比如鲁菜被誉为是宫廷菜,用料讲究粤菜则是讲究夏秋清淡,冬春浓醇等等今天要和大家说的同样是八大菜系之一的浙菜!浙菜讲究的食物灰熊力克篮网欧文砍下438杜兰特砍下35118灰熊首发琼斯贝恩亚当斯杰克逊布鲁克斯篮网首发欧文布朗爱德华兹杜兰特德拉蒙德前情回顾篮网目前战绩38胜34负,排名东部第8,目前两连胜,最近10场比赛6胜4负。灰熊目前战绩49胜23特斯拉老板马斯克,SpaceX星舰从没飞出地球大气层马斯克公布旗下太空公司SpaceX星舰(Starship)升空计画最近进展,有望在5月进行首次轨道飞行。从没飞出地球大气层!SpaceX星舰将进行首次轨道飞行马斯克在推特上表示我们网曝山西57岁煤老板,雷打不动每天喝2两白酒,现今身体如何?对于喝酒对健康的影响,民间有民间的说法,医生有医生的说法,甚至中医的观点跟西医的观点也不能保持一致,唯一可以肯定的是长期过量喝酒,肯定是有害无益的。医学是科学严谨的,但也是主观排他乔治娜身份被认可,C罗母亲接纳她进豪门,历时6年终于熬出头遇到一个性格强势的婆婆是一种什么样的体验?相信C罗现任女友乔治娜非常有体验,因为在她和C罗产生感情之后,就一直备受网友和男方母亲的质疑。而乔治娜也心理强大,一直细心的照顾着C罗的家