范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

时序性能提升5倍,三一重工从HadoopSpark到MatrixDB架构变迁

  工业设备互联采集是数字化工厂建设的基础,设备在运行的过程中会产生大量有价值的数据,例如:新泵车运行状态、搅拌压力、总泵送方量、异常报警信息等,为后续的数据分析挖掘提供最可靠的数据来源。
  MatrixDB 专门针对工业互联网、物联网及车联网等场景设计,为设备多、指标多和数据量大的场景特别优化,支持数据快速写入、查询和计算。在工业领域设备采集的实时数据,不仅用于设备状态监控和预警,还能满足批量数据复杂分析要求,指导生产决策,提高效率和质量,大幅度降低数据存储和存储系统运维成本,做到高吞吐、低延时,实时处理流数据及海量历史数据。
  01 关于泵诵云平台
  三一重工专注于以"工程"为装备的制造业,泵诵云平台是三一集团泵送研究院建设的集分布式存储、数据建模与部署、可视化展示于一体的工业大数据平台。
  通过工业大数据的挖掘,实现混凝土机械设备主要性能指标的智能巡检,形成千车千面的设备画像,达到设备的预测性维护,并打通工厂数据与经营数据,实现设备全生命周期管理,构建设备全生命周期最优模型,优化资源利用与配置效率,提升设备可用率。
  平台覆盖超过两万台混凝土机械设备。通过量化分析"抖、堵、高、转、效"五大关键性能约268项指标,提供单设备的全面体检报告和故障预警,为智能运维出谋划策。同时,基于历史的多设备、多维度统计和对比分析,为研发产品定义、优化、跟踪提供数据决策支撑;全面支撑数据决策、新品跟踪、技改验证、精准排故四大场景。 02 当前业务挑战
  为了支撑上述功能与业务,泵诵云大数据平台因此应运而生。整个平台接入来自超过两万台设备的近两千个工况参数的数据,数据回传频率最大为2Hz,每日回传数据在5亿条以上,占用磁盘空间1TB以上,实现了每天每台车的指标计算、智能巡检、模型训练和时序数据的展示。
  在早期版本中,我们采用 Hadoop + Spark 架构, 在这四个方面遇到比较大的挑战: 1. 架构复杂导致数据冗余与运维困难
  传统的 Hadoop + Spark 架构需要搭建 CDH 等大数据全家桶,包括 Hadoop(负责存储原始数据)、Spark(负责每日任务)、Hive(负责临时离线任务)、HBase(负责数据展示),构成复杂的技术栈。
  为了满足不同服务的需求,我们的数据同时以不同形式存在不同的组件中,浪费资源也给运维带来了极大的不便,过多的技术栈也不利于团队成员的配置和培养。 2. 工况数据不对齐的问题
  工况数据具有时序性。在设备工作时,由于各种无法预计的情况导致数据无法整齐上传,大量的数据在"行的维度"上不对齐。
  平台是数据的被动接收方,只有等待数据落盘后才能对数据进行清洗等操作,每天的集群有大量的空数据,数据清洗的工作繁琐,正确率也低。 3. 传统架构进行数据分析的 "周期过长"
  数据进行反复的测试对数据分析师来说是十分必要的。在此前提下,需要分析工具能够快速得到结果,分析结果的易得性将快速迭代分析程序,使数据分析人员在思维上连续,有利于算法的产出。
  传统架构中数据计算引擎 Spark 计算需要将存在 HDFS 的数据移动出来,归集的过程中非常消耗资源和时间,严重影响我们的计算速度。 4. Python 面向过程语言缺乏良好的支持
  在工业场景中,类似于 Python 的过程语言是数据分析师们必要的分析手段之一。传统架构中,在采用 Spark 计算引擎中的 pandasUDF 功能来批量运行 python 代码,这导致了本身代码中大量的胶水,拖慢了算法开发的周期。 03 MatrixDB 解决方案
  为改善当前遇到的业务挑战,我们将泵诵云平台的底层架构切换成以 MatrixDB 为主体的架构上,MatrixDB 相比于 Spark 有着四大明显优势: 1. One for ALL,超融合时序数据库
  MatrixDB 将不同的场景需求融合到数据库中,满足了数据存储、实时计算、离线计算以及数据展示的功能,避免了 Hadoop 全家桶式的尴尬。同时,MatrixDB 的界面化安装与 Grafana 监控使运维工作难度大大地降低,是我们理想中的 "One for all"。 02. MatrixGate 支持 upsert
  实时数据入库采用 MatrixDB 的实时数据写入工具 mxgate,支持 upsert 功能,可以将同一时刻的不同行数据进行合并更新。这对我们机械设备上传的时序数据是十分友好的。同时,我们可以将部分清洗数据的工作前置到入库前,简化了数据清洗的过程。 3. 独创的 MARS 将查询速度提高约5倍
  MatrixDB 是一款 OLAP + OLTP 性的数据库,数据本身就存储在 MatrixDB 中,计算时无需移动数据。借助其独创的 MARS 表功能,将查询与计算速度综合提高了约5倍,使算法人员在查看原始数据的时候更加方便。
  在每台物理机配置相同的情况下,两代集群性能的整体对比情况表,如下图:
  可以看出 MatrixDB 仅使用了一半的机器数量,并且算法运行时间从2.5小时减少到1小时。 4. 与Python更好的兼容性
  MatrixDB 友好的支持了基于 Python3 的自定义函数编写,所有接口的定义和调用被结构化的存储于集群中,Python 代码的迁移、调用与管理更加方便,这是只有程序员才懂的优点,非常有利于我们后续数据的分析与算法结构化迭代工作。 04 数据应用
  从营销、研发和服务的日常工作场景出发,面向用户持续深化服务体系,高效支撑工作和决策。 >>>> 营销场景
  泵送指数分析
  分析各地域市场的开工率和泵送方量等情况,判断整体市场情况及客户盈利能力,辅助分析全国各级市场盈利能力情况及施工需求类型(如地铁、高架、高楼等),再进一步具象挖掘重点市场。
  营销决策支撑
  不同地域设备的用户使用习惯及各性能维度表现,找准各地域重点的设备需求。通过臂架长度、底盘类型、设备型号、出厂时间等多维度分析,助力营销更针对性的指定市场策略。 >>>> 研发场景
  技改对比
  基于设备技改工作进度,实时分析对比技改前后设备数据表现情况,量化技改前后的指标表现,直观展现技改效果。从原始的线下电话跟踪反馈转化为线上数据统计分析,极大提高工作效率和结果可靠性。
  故障定位
  远程通过实时查看(或回看)故障发生时的设备工况数据表现,快速定位故障原因,提高故障解除效率,减少因设备故障而产生的出差约60%。
  产品创新支撑
  通过臂架长度、底盘类型、设备型号、出厂时间等多维度的分析,助力研发更细致的对比、了解产品表现,进而掌握市场真实需求。 >>>> 服务场景
  全国-地区-重点城市-重点设备的分析
  全区域设备健康情况扫描,明确全区域设备的整体表现,找到表现好的设备用来做技术分享;找到表现差的设备,做重点跟进。对26项预测故障和297项故障自诊断问题的跟进闭环。
  基于CRM的务闭环
  将泵诵云平台和服务小助手集成,以微服务的方式助力服务效率提升,最终减少因设备堵管、发动机故障、液压系统故障等造成的客户停机损失。 05 结语
  当前各类业务对"海量、实时"数据需求变得更加迫切,实时推荐、精准营销、实时决策成为数字化场景的关键能力,更为敏锐地识别和引导用户需求、提升用户的产品体验将为企业带来持续的竞争优势。MatrixDB 超融合时序数据库是在这种趋势下的最佳选择,一站式数据平台同时解决海量数据和实时分析难题,使得数据价值的变现更高效、简单。
  原文链接:空间节省50%,时序性能提升5倍,三一重工从Hadoop+Spark到MatrixDB架构变迁实现One for ALL
  本文为 yMatrix 原创内容,未经允许不得转载。
  欲了解更多超融合时序数据库相关信息,请访问 "MatrixDB - 超融合时空数据库" 官方网站

2021年新增近百万架机柜,数据中心投建热潮带来哪些挑战?记者徐诗琪近两年云计算市场火爆,其背后的基础建设数据中心(IDC)行业同样引起资本关注,越来越多玩家投入风口。2021年中国数据中心市场报告显示,2021年全国范围内数据中心规划新元宇宙是什么意思元宇宙(Metaverse)一词,诞生于1992年的科幻小说雪崩,小说描绘了一个庞大的虚拟现实世界,在这里,人们用数字化身来控制,并相互竞争以提高自己的地位,到现在看来,描述的还是京东成为中央广播电视总台2022年春节联欢晚会独家互动合作伙伴1月5日,中央广播电视总台2022年春节联欢晚会独家互动合作项目发布会在京举行,宣布京东成为总台2022年春晚独家互动合作伙伴。春节期间,京东将发放总价值达15亿元的红包和实物。中马云果然兑现了承诺本文原创,请勿抄袭和搬运,违者必究虽说马云已经退出了公众视野,也不再担任阿里的实际职位,但马云依然被公众谈论。毕竟马云和阿里,以及蚂蚁集团等等公司企业产品是分割不开的。作为这些公司2022过年换新机,首先避雷这三款手机!高价低配简直是智商税导读2022过年换新机,首先避雷这三款手机!高价低配简直是智商税转眼之间元旦已经过去了,很多朋友在年底都想换一部新手机,无论是送家人还是买给自己的新年礼物,在手机的选择上觉得非常困雷军发狠增销量,16G512G降5000,首批用户表示无法理解在现有的手机产品中,说到最贵的类型,很多人都会想到是折叠屏。确实如此,一般而言,一款折叠屏旗舰机基本上都是一万到两万之间,看到华为和三星的折叠屏大家就更有体会了。不过现在具备折叠屏领克全系PHEV车型开启全新品质生活随着汽车工业的快速发展,尤其新能源汽车在全球电动化浪潮政策推动等催化下,发展之迅猛肉眼可见。各种新能源车型不断被推出,有叫纯电动混动插电式混动增程式电动的,也有叫英文简称EV,HE哈萨克斯坦全境互联网通信中断电话通信大面积被切断当地时间1月5日,Netblocks监测系统显示,哈萨克斯坦全境的互联网通信都出现了中断的状态,另有多家媒体报道,当地的电话通信也大面积被切断。哈萨克斯坦首都进入紧急状态管制措施将他也出事了?最近几天,雷军接连卸任小米多家关联公司的董事长执行董事法定代表人职务,一时间各种猜测四起,继某想老柳之后,同样来自中关村的雷军是不是也出事了?但据我分析,雷军非但没出事,反而是为了华为赛力斯停产,首批用户成最后一批用户,售后问题如何解决?很多人对技术缺乏起码的敬畏之心。几千个上万个零件组装到一起之后,会有各种各样你想不到的问题。每一个零件差一点点,一万个零件累积下来,就会变成大问题。每个零件的生产标准,每个零件的安在OpenHarmony开发板上运行WasmEdge作者翁纯仪在OpenHarmonyOS上运行WasmEdge,能够改善开发者的开体验。Why移动与IoT设备的特点是资源受限,软硬件不统一,用户体验却要求很高。设备要能安全,跨平台
零点有数新阶段城市数字化治理的内涵探索作者零点有数董事长袁岳博士,图源零点有数新阶段中国社会经济的发展强调数字经济的发展和数字化治理,所以全国各地都在探索新阶段城市的数字化建设。今天说数字化,其实数字化这个说法是很早就长安汽车新能源亮剑,阿维塔科技会是它的破局之钥吗?近来最为人所津津乐道地,恐怕要属披荆斩棘的哥哥这个综艺,三十多位个性十足的哥哥,展现出了不同年龄阶段的魅力,让人看得大呼过瘾。在其他节目中嚣张跋扈的rapper们在抱着保温杯的赵文真鲸腔来啦!图拉斯真无线小鲸鱼蓝牙耳机自从某水果手机标配无线蓝牙耳机之后,真无线蓝牙耳机的发展这两年可谓是相当迅猛啊,几十元的街机也比比皆是了,可是真的是要具有独特的设计,能体现出功能的好用性高HI音质,而且又要有国货iPad选择篇学生工作党学生党在不同的价位应该如何选择满足自己日常需求的iPad。iPad分为MiniAiriPadPro四个系列。首先从年份上选择,20142017年阶段的iPad发展停滞不前,也可以理不值得购买的手机系列第一款OPPOFindX2Pro虽然OPPOFindX2Pro在配置方面没有太大短板,手机颜值也很高,但价格确实有点贵了,即使降价以后也还要将近六千元,在这个价位段不如选择新发布的无线吹风机值得买吗?四款吹风机9大项全面对比测评大家好,我是尤呢呢,使用吹风机时最麻烦的就是寻找插座了,如果你没有在洗手间的镜柜处提前设计插座,那么想要使用吹风机就只能顶着湿漉漉的头发出来找插座了。而吹风机之所以需要插座,主要是华为V75Super对比三星QN85A,智慧屏到底哪家强?随着智慧屏技术的不断更新,现在已经慢慢地取代传统电视在行业内的地位,智慧屏可以满足现在用户更多的需求,华为V75Super智慧屏的上市受到了很多消费者的追捧。那么到底智慧屏有什么不一加COOiPhone13有可能和一加9Pro同样搭载LTPO屏幕毫不夸张地讲现在已经进入苹果的iPhone13系列时间,只要iPhone13系列随便有个风吹草动都会成为业内热议的焦点。君不见一个猜测的发布日期都能让热搜,一个外媒的涨价消息大家都除了iPhone13,下半年还有这两款旗舰值得期待2021年也是手机新品百花齐放的一年,在过去的上半年,各家厂商基本都拿出了自己的看家本领,带来了不少的新鲜玩意。而下半年虽然过去不到两个月,但是小米华为荣耀等厂商也已经推出了自家下如何看待小米Mix4公开实测结果吊打友商?前两天,小米官方微博发布一条视频,配文京广线9大高铁站网络实测,小米MIX4网络性能更胜一筹!视频内容讲了这么一个事儿,小米MIX4与两款友商手机进行对比,在京广线9个高铁站进行网诠释什么叫性价比ThinkPad联想R48014英寸轻薄便携商仅售5599ThinkPad联想R48014英寸轻薄便携商务办公手提IBM笔记本电脑i572008GB256G1TB1KCD,目前在京东商城的售价为5599ThinkPad联想R48014英寸