范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

数据质量管理中的数据稽核平台建设

  数据稽核可以理解为数据质量管理的一部分,当然也是属于数据治理的大框架范畴。在主数据管理平台的建设和实践中,往往会构建数据质量管理模块进行相关的数据质量检查等工作。
  由于数据管控和治理工作本身是各个企业信息化建设中都相当关注的内容,而且大部分的业务协同,流程断点等问题往往都和数据一致性和准确性密切相关,因此数据稽核平台的建设也逐渐从主数据管理平台剥离出来,形成一个独立的系统。
  在讲数据稽核前,还是给IT系统建设中的数据稽核一个简单的定义。
  在IT应用建设中的数据稽核往往是指对分散在多个业务系统中的同一类数据进行的数据检查和核对过程,以解决数据准确性和一致性问题。数据稽核概述
  数据稽核是企业进行数据质量管理的一个关键举措。即首先建设数据质量管理部门和管理结构,并设置明确的质量标准和质量管控体系,并基于质量管控体系和管控流程,对数据展开稽查,稽核,比对等各种质量管理工作。
  同时对发现的数据质量问题,通过流程驱动进行数据的修改和修复,在修复后进一步触发后续的持续检查和迭代,以形成一个完整的数据质量管控闭环流程。
  而数据数据稽核系统作为数据质量管控中重要的环节提供技术和数据平台支撑。
  数据稽核是数据质量管控的一个核心内容,重点就是实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。
  我在前面也谈到过,在当前的应用和架构下,企业业务系统间的数据集成模式导致了核心的主数据和跨系统共享的动态数据全部落地,由于本身数据集成的问题或者由于数据源头管理不善等原因导致了大量的数据不一致性。虽然一直在做数据清理工作,但是这种不一致性和问题将持续存在于整个应用架构体系里面。
  数据稽核的核心过程说明
  数据稽核平台核心实现逻辑并不复杂,简单来说就是采集各个业务系统的数据进行分析和比对,得出最终的稽核结果和报表,然后触发问题修改和修正,持续迭代和闭环。
  因此数据集合核心过程可描述如下:
  数据稽核的整个流程首先是数据的采集和适配。
  这个常见方式是通过ETL工具来完成,ETL工具采集到的数据做初步的数据清理和预处理。
  在这个步骤完成后根据预定义的数据稽核和校验规则,对数据进行差异分析和异常分析,对于分析的结果,一方面是实时的预警和通知,一方面是根据预先定义的报表模版生产数据稽核统计报表。以上完全可以配置为一个自动化的流程,当然对于核心的业务对象或实体,我们还可以定义稽核的时间范围,稽核的业务规则进行实时的数据比对工作。
  其次是跨系统的数据比对
  数据比对本身是一个由粗到细的过程,首先是数据表级别的比较,但是这个往往并不需要;然后是数据表中记录层级的数据比较,A系统同步了一条数据到B系统,是否正常成功同步到,首先要比对的就是两个数据表的key值关联是否存在。
  行记录级别比较完成后是字段级别的数据比对工作,字段级的比对分为两个层面,一个是数据表表结构和字段结构元数据的一致性,如相同的表两边字段数量不一致,相同的字段的字段类型或长度不一致等;其次是字段内数据和内容的一致性比对。还有些数据稽核工具会提供数据参考完整性和通用性业务规则校验的功能,但是这个不是数据稽核的重点,更多还是应该是业务系统自身去做好参照完整性控制工作。
  最后谈下数据稽核应该是一个高度可灵活配置的产品平台,其中包括了稽核流程可以配置,ETL和元数据定义,字段映射可配置;数据稽核规则可配置,报表模版可以预定义和配置;预警和通知规则和配置。有了这些灵活的可配置能力后,数据稽核平台基本就可以应用到很多类似数据稽核和比对的场景中。大数据相关技术在数据稽核中应用
  接着谈下大数据或海量数据处理技术在数据稽核整个解决方案中可能的应用场景。
  对于数据采集和ETL部分
  这部分可以基于传统的ETL工具或模式来完成,对于非结构化文件或日志的采集可以通过Flume等分布式开源数据采集平台来完成。对于数据采集部分主要是数据采集和传输效率的提升问题。
  对于数据采集,可以搭建分布式的数据采集集群,如果对于单个ETL不拆分,那么可以对多个数据库,多个数据表的数据采集均衡的分配到多台数据采集和处理服务器上,实现数据的并行采集处理,加快数据的采集速度和降低IO瓶颈。
  对于实时采集方面,可以考虑直接采用类似BinLog日志采集模式,可以实时的采集到变更数据。对于ETL而言,首先对于数据的unLoad和Load过程,最好的方法就是采用适配数据库的原始批量数据文件导出和导入接口,例如Oracle的SqlLoader,Sybase和SqlServer数据库的BCP工具等,这种原生接口对于大数据批量导出性能最好,而且导出的文件还可以在ETL处理过程中进行压缩传输。
  对于上亿条记录的大表,那么单个表的导出本身也是一个相当耗时的工作。在这里我们可以考虑对这种大型表进行行拆分和列拆分操作,将一个任务作业拆分为多个子任务,每个子任务在分配到集群中的多个节点机去运行,最好进行数据的汇总处理。在这块暂时没有做过具体的试验,无法预估实际的效果和性能提升情况。
  对于ETL中的Transfer部分,在Oracle的ODI工具中我们看到,已经将ETL更多的转换为了ELT模式,即在数据采集完成后在目标端数据库再做具体的数据转换和处理等相关工作。在这种情况下将比传统的ETL方法获取到更高的性能。如果仍然是采用类似ELT模式的数据采集和处理,可以考虑将转换规则进行分步骤的拆解,将步骤分解到多台节点机器进行处理再进行最终结果的归并,类似MapReduce的并行计算模式。
  总之,对于数据采集部分我们期望达到的就是并行采集,并行写入,同时在处理环节进行数据分流和数据转换。在传输过程中做好数据的压缩,提升数据采集和写入的性能和速度。
  对于数据处理和分析部分
  对于数据分析部分是另一个很重要的内容,在大数据总体解决方案中也经常谈到数据分析部分的性能问题。在这里有商用的GreenPulm,开源的Hive,也有针对MySQL数据库的开源Infobright等。在这里的几个重点是分布式数据库集群,内存数据库,列式数据库,MPP大规模并行处理,数据库DaaS层,数据查询任务分解和汇聚等关键词。
  对于数据分析部分最关心的还是在海量数据下面的查询效率问题。
  对于数据稽核中存在基于某种规则的实时性的数据分析和一致性比对工作,而这种是典型的海量数据下实时查询和汇总统计过程。因此在我们对目标数据库的考虑上不再是简单的单数据库模式,而应该是一种支撑高性能和线性扩展的数据库集群模式,在这种模式下可以很好的解决数据查询的性能问题。
  对于定时处理的数据稽核任务,也存在数据处理的效率问题,对于电信行业话单和计费结算数据的比对分析往往需要7,8个小时才能够完成。说明在数据处理过程中还有很多具体的性能提升点。包括数据稽核规则本身的分解,将稽核任务分配到多个节点去运行然后再进行数据的聚合。
  个人认为在数据稽核中的数据处理部分MapReduce有很多具体的用武之地,而我们更多的是需要考虑如何对MapReduce框架根据典型的数据稽核规则场景进行更好的二次封装,能够方便规则更加灵活的配置和调度。
  对于实时数据分析和比对
  对于这个有明确的需求场景,即实时采集数据并动态的监控数据差异化和比对情况。这个将是后续数据稽核平台的一个重要发展点。在这种场景下基本基于一种持续的不落地的数据流处理方式。
  实时流处理打破了传统的数据分析和处理的模式,即数据最终积累和落地后再针对海量数据进行拆分处理,然后进行分析统计,传统的模式很难真正达到实时性和速 度要求。而实时流处理模型的重点正是既有类似Hadoop中MapReduce和PIG一样的数据处理和调度引擎,由解决了直接通过输入适配接驳到流的入 口,流实时达到实时处理,实时进行分组汇聚等增量操作。
  在这种模式下一个重点就是前面谈到过的对于数据稽核规则需要进行拆分,形成多个可以并行处理的PE任务,对实时达到的数据流进行处理,形成某种结果信息后再向后续节点推送,最终实时的监控和查询数据比对结果。这是一种实时动态监控的模式,对于在实时性要求高的数据质量监控中可以使用。数据稽核平台构建
  图片来源网络
  对于数据稽核出现的场景,最主要的可以理解为两个方面:
  其一是同样一个基础数据或共享数据在多个业务系统中各自维护,出现数据不一致或者说无法映射的问题;其二是在我们数据集成的实现过程中,将同样一份数据分发和同步到多个业务系统中,同时由于数据集成本身出现问题,或者说目标业务系统本身允许了对数据的CUD操作都会导致随着时间的变化同样的数据变来不一致。
  对于数据不一致或数据缺失带来的最大问题就是影响到跨多个IT系统的也流转。类似的场景有很多,类似项目信息从项目管理系统同步到采购系统后,可能发现项目类型本身不对导致无法根据项目下达采购订单。
  或者说一个完整的采购订单从采购系统同步到ERP的时候会发现因为ERP缺失了某个物料而同步失败。这些都直接影响到我们的业务协同,而我们往往经常的应对就是出了问题才通过IT系统手工从后台修复数据或者进行数据清理后重新导入或同步。
  对于做IT系统日常运维的人员来说,运维中本身硬件环境或服务器宕机的时候往往很少,而更多的时间都在手工后台修改数据,同步数据,解决数据不一致的问题。
  前面刚好谈到过我们经常的思维都是解决问题应该从源头抓起,类似数据不一致的问题应该严格的控制住数据源头并制定相关的数据管理和治理规范,但是实际的情况确是从根源上解决问题的方法看起来很完美,但是短期有诸多业务本身方面的原因而无法落地。
  那么在彻底从根源解决问题和出了问题再手工解决之间就有一个更好的解决方案,即我们可以提前的发现数据不一致的问题并预警,而不是真正到了业务协同出现问题再去临时应急。而一个优秀的数据稽核平台就是基于以上背景条件产生的。
  一个最小化的数据稽核系统核心应该包括三个方面的内容:其一是数据采集和存储,其二是规则引擎,其三是数据分析和展示。而一个高效的数据稽核系统必须具备数据不一致的准实时预警能力,对于准实时的实现本身又包括了数据采集的准实时和数据分析的高效性能。
  首先来谈下数据采集和存储,前面谈到过基于ETL技术来实现数据采集,在ETL方式下要实现数据本身的准实时采集是相当困难的。而真正可以考虑的方式则是类似数据实时复制和同步技术,对于Oracle数据库我们可以采用Logminer实时捕获增量归档日志信息,对于Mysql数据库可以采用Binlog日志分析等。但是这里面一个重点就是需要对业务系统本身的DB数据库开放相关的权限和初始化参数,能否推动业务系统去做这个调整本身存在困难。
  采集回来的数据存储在哪里?
  常规做法是仍然存储在关系型数据库里面,那么我们可以想象下如果对于两张相关结构的有50个字段的数据库表。两张表如果都有1000万条数据,如果我们要比较出两张表存在的数据差异,对于这种大量的全部扫描和比对,性能本身是存在大问题的。
  正是由于这个原因,我们可以考虑将采集来的数据直接导入到HDFS库里面,然后采用大数据分析方法和技术进行数据比对。而数据入到HDFS,当前的Sqoop组件是支持增量数据采集的,即可以通过我们制定的关键字段对源表数据进行增量采集。这种采集方式虽然比不上实时的数据同步复制,但是满足准实时性的要求基本不会有太大的问题。
  其次,我们来谈下数据分析,对于这种数据稽核本身的数据量如果在大数据环境里面本身就是小数据了,你当然可以采用Hive进行数据比对分析,但是性能估计也很难好太多。更好的方法则是采用Spark进行相应的数据比对分析,由于Spark本身是基于内存计算的,对于这种量级在内存中进行不对分析是最合适不过的。同时当前Spark本身就已经支持Spark Sql和Hive集成,也支持直接的JDBC集成等。这些都为数据比对分析上提供了相当的方便性。
  还有一种设想就是是否可以将数据库的变更日志信息直接送到类似kafka的消息中间件中,采用通过spark和kafka的集成即可以实现类似数据采集的流处理和后续的内存计算分析,整个过程中由于数据本身不会二次落地都直接在内存中完成,整体性能的提升应该更大。
  最后,谈下数据稽核平台里面另外一个重要的内容即规则引擎,规则引擎本身就是需要将数据稽核的各种校验方式和规则全部做到可配置化,即任何一个稽核流程都可以通过规则配置出来。比如我们需要检查三个业务系统中三张表数据的一致性,具体的检验规则是如何的,转换规则是如何的,当发现不一致的时候预警规则是如何的都需要做到灵活可配置。
  可配置的数据稽核规则最终需要动态来生成数据稽核算法,或者说动态来生成稽核SQL语句等,这个也是整个稽核平台里面最难的部分,只有实现了该点整个数据稽核系统才谈得上是一个可以灵活可扩展的稽核平台。
  对于数据稽核的结果,稽核平台本身应该提供上层分析报表能力,但是如果考虑到稽核结果的实时性,即数据稽核的结果应该可以通过消息发布订阅的方式向外部发布。只要订阅了某类数据稽核结果的订阅方,都可以实时的收集到最终的数据稽核结果信息。
  将Spark和流处理,消息中间件,规则引擎等技术应用到数据稽核系统绝对不是大材小用,而是大数据技术能够更好的服务于传统业务系统,解决业务系统问题的重要尝试。即并不是我们的业务系统必须到了海量数据存储后才谈得上用大数据技术,而是在业务需求本身在实时性,效率,架构可扩展性等多个方面都可以采用大数据技术来解决真实业务场景下的业务问题。

16位演过展昭的男星,把他们的演绎一对比,差距太惨烈了直到现在,展昭这个IP依然在国剧市场上发光发热。最近的就是前不久播出的一片冰心在玉壶中,青年演员吴希泽就大胆地饰演了展昭。但剧集上线后,吴希泽就引来众多吐槽。无独有偶,前不久杨洋在当淡颜美人遇到浓颜美人,刘亦菲3次输给景甜,蒋勤勤完胜王艳在美女如云的娱乐圈,虽然有各种特色的美人,但大致可以将美人分为两类,一类是淡颜系美人,另一类则是浓颜系美人。淡颜系的美人并不追求五官完美,她们的五官并不符合如今的西式审美,也不适合春晚就是一场视觉盛宴虎年的春晚有人说很好,也有人说不好。说不好的人,大概率是对晚会的小品和相声作品不满意。这是有几分道理的。小品中最为大家期待的是沈腾的表演。然而,百亿影帝的表现却差强人意。其实,这不张杰谢娜被曝买房跳单目前双方工作人员均未回应张杰谢娜夫妇有网友发文称张杰谢娜买房跳单搜狐娱乐讯2月7日,有博主上海房地产观察发文称张杰谢娜买房跳单,绕过中介直接与卖家签约,事后律师还威胁中介不准曝光此事。文中还透露,目前该中你认为代表当今华语乐坛最高水准的男歌手是谁?华语乐坛人才云集,代表当今华语乐坛最高水准的歌手是谁?见仁见智,各有所长!每个人心里都有定义,也就无需再解释什么了!我个人认为周杰伦的嗓音条件一流,音质坚实宏亮具有金属质感,气息稳有哪些因为一首歌而成名的歌手?尹相杰纤夫的爱妹妹你坐船头,哥哥在岸上走,恩恩爱爱,纤绳荡悠悠在1993年的元宵晚会上,尹相杰和于文华合唱的纤夫的爱瞬间红遍大江南北,用现在的话说,真算是当时的洗脑神曲。伴随着KT薛之谦和张杰谁的唱功更好?张杰吊打薛之谦,张音域比薛之谦高了整整18Key,降维打击。唱功三要素音色音域腔体能力,张杰方方面面都能吊打薛之谦。1音色张杰具有的音色技巧为胸声渐强声带边缘化咽音强混金属芯弱混头梦,标准读音是mng,为什么很多歌手唱出来的是mng?这种将歌词中的某个字发音的音调音准的改变是歌者常有的事。主要原因应该还是歌手为了作品的需要有必要将该处字的发音有所调整改变以获得能便于产生一个非常圆润的共鸣音效以达到将歌曲演绎出最孝感有哪些明星式歌手?我们现在就来看看来自孝感的歌手都是谁吧!一刘胜男刘胜男,1997年9月9日出生于湖北省孝感市,中国内地女歌手,女子偶像团体SNH48六期生,SNH48TeamX成员。2016年1月历届上过春晚的港台歌手,谁曾惊艳过你?2000年度春晚,谢霆锋挽着董洁的手,令人眼前一亮惊艳无比!此时此刻成为焦点,将晚会推向高潮。婚姻的喜庆,加上全国人民团聚看春晚!应景令人对幸福向往和祖国繁荣昌盛,振兴中华实现梦想如何评价歌手邓丽君?公众号小一时空201801291354今天,1月29日,是邓丽君的出生日。邓丽君(1953年1月29日1995年5月8日),出生于中国台湾省云林县,祖籍河北省大名县。一代天才歌后,
不得了!重庆大学有位年仅25岁的博导通常来说,在国内,从小学读到大学总共要16年。也就是说,按照现在国家标准入学年龄7岁算起,读到大学毕业至少也要23岁了。如果还要读硕士博士,等到出来工作,往往都在30岁左右了。不过来美国后最好的口语陪练竟是人工客服人到美国,刚下飞机。终于能开启我的美国留学之旅了!OrientationDay啊这学的英语怎么和大家用的不一样?!第一天上课老师的语速也太快了!等等美国大学的persity真不错,EDG拿下S11总冠军!亚运会正式加入电竞项目!行业发展前景一片大好周六晚的英雄联盟S11总决赛,在距离中国7777公里的冰岛,来自LPL的EDG战队以32强势逆转的成绩为中国夺得S11赛季总冠军EDG夺冠后霸屏各大新闻热搜朋友圈也像过年一样热闹还毁掉一个家庭的,不是贫穷,不是出轨,而是家是什么?家是倦鸟归来的巢家是小船避风的港家是黄昏湖边的搀扶家是傍晚灯下的依偎。决定一个家庭幸福的原因,不是贫穷或富有,不是健康或疾病,而是我们与家人相处时的态度,是我们向家人所展被亲生父母抛弃后,4岁的他被流浪狗收养它们具备人类的一切美德,却毫无人性的缺点。狗孩一直以来,我们都知道狗是唯一爱你胜过爱自己的生物,它们不分家养或是流浪,亦无物种之别,只是有了感情,就算付出生命的代价,也无法割舍。他越是无能的人,越爱挑剔别人的错(深度好文)人非圣贤,孰能无过。在遇到问题的时候,我们的第一反应是什么呢?是把责任推卸给环境和他人,还是首先想到的是自己的原因?事情做不成功,遇到了挫折和困难,或者人际关系处得不好,不要怨天尤少年的你易烊千玺周冬雨一吻背后,是2亿被霸凌的少年这片,爆了。明明上映前三天才官宣定档。别说宣传,据说片源都是发行方坐飞机亲自送出去的。听着都捏了一把汗,够悬。结果,上映不到两天,票房就突破三亿,风评几乎是一边倒的叫好。豆瓣开分高刘涛再遭婚变崩溃自杀已婚女人,多的是你想不到的心酸原我想和你好好的,我要和你好好的!什小妹文MISS嘿曾在网上看过一个段子。有一男人发帖炫耀我老婆可独立了,自己睡觉逛街旅游,自己买菜做饭收拾房间,怀孕了自己去体检,生完孩子自己带,自刚刚,华为突然宣布,支付宝傻眼了商场如战场,有些事情稍纵即逝,把握不好时机就会被人超越甚至颠覆!第三方支付从来都是以颠覆者的形象出现,从未想过有一天也可能会被别人颠覆!优秀的企业家,就像天龙八部的段誉,修有北冥神车管所若这2张简易的色盲图都看不出来,你可能是红绿色盲今天就给大家进行一个测试,首先我们进行第1张图片的测试,这一个图片大多是1绿蓝棕黑红城为主要颜色,因为颜色与颜色之间比较相近,所以如果你要是不是色盲的话就能够看到58。如果你要是看15岁,抄砖头狠砸老师后脑勺,9次莫给孩子留下今日之祸根,10月24号,四川省眉山市仁寿县迎来一场小雨。中午12点21分左右,城北实验初级中学的黄老师一边收雨伞,一边从后门走进教室。此时是午休时间,教室里的学生正三五成群捉对聊天。黄老师万