专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

数据库传统行业数据架构发展变化

  背景介绍
  传统行业在本文中是指在国内有一定体量,较为基础的一些行业企业,此类企业有几个特征:企业体量较大业务变化不大客户群体大客户数量变化不大
  此类行业近几年随着数据中台、人工智能、数字孪生等等概念的不断洗刷,也因为本身业务发展的实际需要,数据体量连年增长。
  随着国内开源软件生态逐步成熟,面向传统行业的软件企业交付的数据架构,也以开源软件为主构建,逐步的发展变化。本文主要介绍在开源的背景下,传统行业数据架构近几年的发展变化,以及每一步的掣肘和突破,作者总结下来感觉有一定的代表性,希望分享出来能够提供一些思路。数据架构的发展变化
  作者所经历的数据架构分三个阶段:单一数据库集群、TP和AP分离、大数据的引入,现在正在经历HTAP云原生这一阶段。单一数据库集群
  作者所经历的单一数据库集群阶段,大约是在18年开始的,现在也会在项目开始阶段较多的采用。架构图如下:
  单一数据库并不是指就一个数据库实例,而且整个架构的主体采用了一个数据库产品,例如架构图中是以Mysql官方分发版本为主体,通过MHA方案,搭建的高可用Mysql集群,为了应对数据的增长,中间加了一个数据库访问代理,我们采用的是mycat,分库分表、读写分离都通过mycat做出来。
  此架构模式下,数据量增长的一定规模之后,出现了一些问题:跨分片访问性能不佳汇总性能不佳、宽表支持较差分析类需求支持不好,与实时业务争抢CPU和IO
  这些原因搞过数据架构的都会很容易总结出来,归根结底,是过多的把AP的需求让Mysql来解决了。TP和AP分离
  基于项目越来越多的离线汇总需求和在线分析需求,整个项目引入了AP类型的数据库。由于开源的GreenPlum在国内的火热,企业内部多采用了GreenPlum数据库,有较多的技术积累。
  参考:Greenplum中文官网
  集成了GP的数据架构如下:
  参考:bireme
  我们从Mysql到Greenplum构建了两个通道,一个通道是通过kettle构建ETL任务批量抽取数据到Greenplum,一个通道是通过birememaxwell实时同步数据到Greenplum。从架构图上可以看到,kettle写入数据,实际上是与Greenplum的Segment(primary)节点打交道,效率比较高;birememaxwell是通过master写入Greenplum集群的,效率不高,特别是一些更新较频繁的表,大量占用IO。
  kettle支撑了我们很久,birememaxwell由于IO问题没有彻底解决也就放弃了这条路线。20年Greenplum官方出了streamingserver组件,这个环节的问题得到了很好的解决,但那个时候我们换了方案,也就没在实际生产中使用。
  参考:streamingserver
  随着数据量的增长,我们面对几个棘手的问题,始终解决的不好,引起了客户大量的投诉:随着业务发展和数据量增长,ETL过程越来越长,ETL的窗口越来越短,抽数与正常业务逐渐的交叠在一起因为Greenplum当时的几个BUG,ETL之后的汇总任务不太稳定,汇总失败之后的重算,又占用白天的查询IO,AP业务基本不可用
  基于以上原因,考虑从两个方面解决问题:放弃ETL,改用binlog同步引入专业离线计算工具
  综合考虑当时的情况,决定引入Hadoop,采用HDP分发版本,结合HDF的一些思路,构建一个准实时的数据平台。大数据的引入
  引入Hadoop后,架构如下:
  HDP、HDF已成为过去,不再提供连接供参考。
  数据经过NIFI,采用binlog回放的方式,实时写入Hbase,定时启动Spark任务,进行汇总计算,计算结果输出到GreenPlum中。
  整体数据架构的职责划分如下:
  技术组件
  服务能力
  存储期限
  Mysql(集群)
  交易(核心)
  1个月
  Hadoop
  离线计算、明细查询
  全部
  Greenplum
  在线分析
  半年
  此架构的优势是:采用binlog回放,不存在ETL过程,对业务库影响最小采用Spark进行汇总计算,计算性能、稳定性都有大幅度的提升汇总计算和在线分析物理隔离,重算、验算、模型计算等任务使用Hadoop集群,不影响在线分析业务的稳定性对于需要实时的业务,采用FlinkElasticsearch的方式满足。
  但同时这一套架构也有其局限性:Mysql的ddl变更,扩缩容非常繁琐,需要寻找停机时间,也牵扯到大量人工操作数据链路过长,实时业务需求存在开发门槛,不能提供实时AP业务支撑部分业务计算完成后,需要回写Mysql,效率很差,调优空间很小资源需求起点高,部署组件多,运维难度大,运维人员要求高
  本身团队人员少,仅仅维护一个集群尚能保证可用性,产品复制推广后,运维和本地开发存在极大的困难。HTAP云原生
  在Hadoop引入过程中也在不断尝试简化整个架构。先后研究过cockroachlabs、yugabyte、citusdb等多款分布式数据库。也阅读过很多TiDB的技术文章,参考:HTAP会成为数据库的未来吗?。
  经过对比,我们认为TiDB比较适合我们:使用Mysql协议,兼容Mysql5。7,迁移成本很小所有的HTAP数据库中,对接Spark是最好的中文资料详实、国内支持较好
  OceanBase因开源时间较晚,开源时生态并不丰富,对多租户的模式需求不高等多种原因没有深入进行相关测试。
  引入TiDB之后的架构:
  其中:整个架构以TiDB为核心,不再关注分片、无法执行ddl变更、离线扩缩容等等一系列问题轻度的AP工作,不需要额外的ETL动作,扩展TiFlash副本就可以Spark上我们做了大量的离线计算的封装,TiSpark的回写效率不错,我们做了一些适配工作,降低了离线计算这一块的改造难度Spark、Api、Presto等我们都跑在了k8s上,极大的降低了计算资源的管理与运维难度从架构上去掉了Flink,是因为Flink原来进行的计算在TiDB能够通过实时的查询解决
  其中最关键的我认为是TiSpark,Spark在离线计算领域的效率、稳定性不可替代。我们仍然在路上
  HTAP云原生我们仍然在改造过程中,或许有一些认知错误,但HTAP云原生这条路给我们的开发、运维都极大地减轻了工作量,我们会不断走下去。
  文章来源:TiDB社区干货传送门https:zhuanlan。zhihu。comp536517345

巴媒中国过去五年发展成就鼓舞人心参考消息网10月14日报道巴基斯坦观察家报网站10月12日发表题为中巴经济走廊一带一路倡议和中国共产党的百年奋斗目标的文章,作者是巴基斯坦学者马哈茂德哈桑汗。文章摘编如下政治和经济专访瑞信中国区CEO胡知鸷继续强化中国平台,搭建中国机遇与国际资本的桥梁我们深受二十大报告的鼓舞,也对二十大为中国发展所绘制的新蓝图充满期待。10月17日,瑞信中国区首席执行官兼瑞信证券(中国)有限公司董事长胡知鸷在接受第一财经专访时表示我们相信,中国21!世界杯刺激一夜冷门红牌点球,中国女足变第3U17女足世界杯迎来小组赛第2轮的对决,C组的中国女足对阵哥伦比亚女足,结果我们的铿锵玫瑰以02的比分输球,下滑到小组第3位。另外一场比赛,法国队制造超级冷门,12的比分输给了坦桑丁俊晖41誓夺第15冠,中国斯诺克军团12人晋级,携手冲击冠军北京时间10月16日消息,2022斯诺克苏格兰公开赛资格赛结束。在名将吕昊天以42战胜阿尔非伯顿之后,共有12名中国选手晋级正赛。此前,中国一哥丁俊晖在资格赛中,以41战胜艾利特斯2022年双十一,华为仅推荐三款手机,其他的不用多看一转眼双十一就已经马上就要到了,又是一年一度的换手机好时节,在这个时候想必很多朋友都已经看好了准备入手的新机,但或许还有些朋友想要换机,但是还不知道该选什么样的手机。华为应该是大家泡馆自习云科普中国民众热衷花式充电虽然是休息日,但家住吉林长春的周超依然早早起床,带着编程书籍和水杯赶赴图书馆。稍微晚到,座位就很难寻了,又是泡馆学习的一天。32岁的周超从事互联网行业。在他看来,中国各行各业的发展上海男篮这样打下去季后赛恐危矣,是时候把郭昊文召回了?88比121,今晚上海男篮不敌浙江男篮,本赛季前三轮遭遇两场失利。赛后上海男篮主帅提到两点给记者很深的印象,队员的投入不够磨合还差很多很多两支上赛期排名前八的球队相遇,这原本应当是朱婷将回归!只待张常宁,李盈莹不再孤军作战,蔡斌帅位或将稳固北京时间10月16日,女排世锦赛落下了帷幕,最终塞尔维亚女排30击败巴西队,本次世锦赛以12战全胜的战绩成功实现卫冕,巴西女排四次闯入决赛四次无缘冠军,意大利则击败美国女排夺得第3都体布雷默预计伤停23周,小基耶萨本周末有望进入参赛大名单直播吧10月17日讯据都灵体育报报道,布雷默预计将伤停2至3周时间,而小基耶萨有望在本周末复出进入尤文参赛大名单。在都灵德比战中尤文10小胜,但布雷默左大腿屈肌受伤被换下。都灵体育GLORY荣耀格斗Rivals日本站12月举行佩帕侬VS山田洸誓扎卡里亚佐格加莱VS原口健飞武者网讯GLORY荣耀格斗与日本RISE和Shootboxing合作的Rivals比赛,将于12月25日在日本东京举行,目前官方公布了安卓阵营竞速折叠屏2024年翻盖式可折叠手机将率先降至600美元左右每经记者王晶每经编辑董兴生受多种因素影响,今年8月,中国智能手机市场创下2015年以来最差的单月销量。但终端市场需求持续低迷的同时,折叠屏这一概念正在升温。目前,除苹果外,包括三星
无题文孤独与快乐无题文孤独与快乐在每一个寒冷的夜晚身体像一处战场我用尽生命的洪荒之力却咳不岀那段体内的硬伤感觉生命正在重组体内存在着正邪两股力量一边是早晨明亮的太阳一边是冬夜寒冷的星光生命罹患病毒这项耗时75年研究发现,长大后活得幸福的孩子,往往有这3大特征在生下孩子那一刻起,作为家长,我们最大的愿望就是娃能幸福快乐地过完这一生,千金不换。但你知道,是什么在影响一个人的幸福感,什么人活得最幸福吗?哈佛曾耗费75年时间,追踪724个人的WOW信号,来自人马座疑似外星文明的无线电,到底代表了什么?1977年,大耳朵射电望远镜接收到了一组来自遥远太空的信号。经过破译后,科学家们发现了信号的含义WOW,这就是天文史为止最著名的一组地外信号WOW信号。Ww信号的接收轰动了整个学界NASA开始检查刚从月球返回的猎户座飞船阅读文章之前,请点击关注,方便您回来查看内容,以及参与大家的互动,感谢您给予我码字动力!工程师们已经开始对阿特米斯1号太空舱进行检查,以了解它在月球旅行和重返大气层时的状况猎户座在NASA航天员夫妻,是否在太空私密接触?关系到人类的命运综述有人说人类的终点无疑就是灭绝或者成为一个更为强盛的太空文明。毕竟地球和太阳系并不是一个永远安全的居住地。如果这个星系内突然出现变故,那么我们就必须要掌握星际旅行的能力,才能够致亚当斯空砍27分易建联167广东6人得分上双轻取福建送对手3连败北京时间1月9日11时,202223赛季CBA常规赛第二阶段,广东队对战福建队。历经一番角逐,广东队11099战胜福建队。数据统计广东队赵睿14分4篮板5助攻2抢断易建联16分7篮快讯马国栋狂砍43分!长沙湾田勇胜134比97石家庄翔蓝NBL联赛,长沙湾田勇胜VS石家庄翔蓝。图NBL联赛官方平台红网时刻新闻1月10日讯(记者符洹雨宋沛珊)1月10日晚,NBL联赛展开常规赛第九轮的角逐,最终,长沙湾田勇胜134比9光是如何达到光速的?谁给它的动力?综述光速是这个宇宙中最快,也最神秘的速度,自从人们提出光速这个定义之后,对于光速的有关研究就一直没有停止过。有些人甚至认为,如果我们人类能够把自己加速到光速以上,就可以实现所谓的时定段八次战绩216的边缘职业女棋手战鹰为什么火了首先,战鹰这个名字确实是真名,因为战鹰的爸爸曾是歼6的飞行员,故取名为战鹰。每年成为职业棋手的位置只有30位左右,围棋职业九段连笑当初花了四年才成功定上段,成为职业棋手这条路竞争是早安美图心语,拥抱阳光,心身温暖,快乐无忧,平安健康我,宁与微笑的自己做搭档,也不与烦恼的自己同住。我,要不断地与太阳赛跑,不断地穿过泥泞的路,看着远处的光明。林清玄早安美图心语,拥抱阳光,心身温暖,快乐无忧,平安健康!开心微笑向着你怕不怕面对这个问题我的这些努力,有什么意义?01hr努力,有意义吗?一个人越努力,越容易遇到这个问题,而且这个问题对他越有杀伤力我的这些努力,有什么意义?我有过这样的体验。就是在努力一阵之后,突然就开始怀疑,我这么做,有什么
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网