数据增量接入（存储）方案

　　1 前言
　　在数据仓库中，数据的存储方式一般有四种：全量表、增量表、快照表和拉链表，如下表。
　　全量表
　　增量表
　　快照表
　　拉链表
　　数据
　　包含到前一天的全量数据
　　前一天的增量数据(和状态发生变化的数据)
　　包含到前一天的全量数据
　　前一天的增量数据和状态发生变化的数据
　　分区
　　不分区
　　按天分区
　　按天分区
　　按天分区/不分区
　　大数据平台支持增量表和快照表两存储方式。这里将重点讨论增量表存储方式。1.1 现状
　　目前大数据能力平台的增量接入功能较弱，基本不能在实际项目中使用。经测试和验证，主要有以下几个缺点：增量字段匹配少
　　如下图所示，增量字段必须是日期类型，且日期格式只有2种。在实际的项目中，增量字段有可能字符型，且格式有多种，如yyymm、yyyymmdd.....。
　　增量数据初始化方案有问题
　　大数据平台增量接入功能在第一次数据接入时，会进行数据的初始化，但目前的初始化方案很粗糙 ，即：将所有的存量数据写入一个分区。如下图所示。
　　而合理的初始化结果应该是根据增量字段来精准分区，如下图所示。
　　接入策略少，不支持函数的使用
　　平台的增量接入依赖增量字段，如果某个业务系统没有增量标识字段，那么增加接入就无法实现。
　　有些业务表会有[创建时间]和[更新时间]，通常情况下会以[更新时间]字段做增量标识，如果[更新时间]为空，则使用[创建时间]字段做增量标识，即函数nvl( 更新时间,创建时间)或者其他函数，但平台不支持这种使用方法。
　　小结：基于上面的3个缺点，在项目中很少使用增量接入功能，数据接入基本上采用的都是全量快照表的方式存储数据，增量接入功能还需要产品和开发持续完善。1.2 后果
　　由于增量接入存在的缺点，在项目实施过程中，数据接入基本采用的都是全量快照表的存储方式。而这种接入方式会造成如下后果。数据重复计算和处理，浪费宝贵的资源
　　以数据稽核为例(转换、开发、导出......)，每次稽核一个批次的数据，每个批次都会稽核在上一个批次中已经稽核过的数据。如下图，后续的所有数据计算都会存在重复计算。
　　节省宝贵的存储空间
　　如下图所示，增量存储表的数据量明显少了很多。增量接入获益的不仅仅是SRC层，后面的ODS、DW、APS每一层的数据存储量都会相应的减少。
　　2 增量策略
　　基于前期的项目总结，增量接入有四种策略，每种策略对应不同的业务表/应用场景，如下图所示四种策略。大数据平台应根据业务表的实际情况，提供四种接入方法。
　　2.1 有时间戳
　　这里的有时间戳是指业务表字段中有日期格式(日期或字符串类型)的增量字段来标识数据的创建时间或者更新时间，并不是所有的日期格式的字段都可以做增量标识字段。如下图所示，[创建时间]和[最后修改时间(更新时间)]，可以作为增量标识字段，而[出生日期]字段不能作为增量标识字段。
　　在业务系统中，有的表只有[创建时间]字段，有的表有[创建时间]和[更新时间]字段。这2种情况在增量存储时，数据会有些细微的差别，可根据具体的应用场景选择不同的存储策略。创建时间+更新时间
　　如果既有[创建时间]又有[更新时间]字段，在做增量接入时，增量标识字段就有2种选择。[创建时间]作增量标识，如下图所示，增量表中未能反映出[订单状态]更新的数据。
　　2. [更新时间]作增量标识，如下图所示，新增数据和状态发生改变的数据都写入到了增量表。其中，存在订单ID相同的数据(同一个数据分区理论上不会有相同订单ID)，但不是重复数据 (因为状态不相同)，亦是合理的数据。订单ID相同的数据反映了订单的历史轨迹(实现了拉链表的功能 )；如果想要统计订单总数，则根据订单ID去重统计即可，在其他具体应用时，取订单ID最新的状态数据即可(不要纠结重复不重复，针对具体场景来应用数据就行了 )。
　　小结：在实际的项目应用中，优先选择[更新时间]字段作增量标识。如果用户需求不关系数据的状态变化，使用[创建时间]字段做增量标识即可。创建时间
　　参考章节《创建时间+更新时间 ①》2.2 无时间戳
　　无时间戳指的是业务表中没有增量字段记录数据的创建/更新时间，这种业务表实现增量接入在技术上稍 麻烦些。在性能上要比有时间戳的要慢些，会消耗更多的计算资源(总有人纠结这个)。但这种资源消耗是可接受的，因为如果是全量快照的方式接入的话，后续的每一层、每种计算/转换/稽核都是基于全量数据计算的，消耗的资源会更多(每次处理全量的数据比处理增量的数据更耗资源)。有主键
　　如果业务表有主键字段，就可以根据主键值相同，对其他非主键字段(一个或多个)的值进行比对，来判断数据是更新数据还是新增数据。如下图所示，增量表的数据会根据指定的对比字段不同而不同。
　　无主键
　　没有主键的增量接入难办且不灵活，会改变表结构，需要手动给每一条数据增加主键值，主键值等于所有字段相加的HASH值。如下图所示，标红的与标蓝色的的数据因为内容完全一样，所以它们在2个批次的HASH主键值是一致的。
　　有了HASH主键以后，就可以根据有主键的方式对数据进行增量接入了(只要HASH主键变了，就是更新或者新增数据)，如下图所示。
　　一般不建议采用这种增加HASH主键的方式，基本上99%的业务表都会有主键。不到万不得已，不要采用这种方法。2.3 CDC
　　CDC，Change Data Capture,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等。常用的第三方cdc工具有canal、debezium等。
　　如果使用cdc中间件，可以忽略上面的场景。使用cdc实时数据同步：比如我们将mysql库中的数据同步到我们的数仓中。
　　3 技术实现
　　增量策略中的四种方案，目前大数据平台还未能实现(不知道会不会去开发实现)，目前可以采用一种折中的方案实现，即：SRC数据还是采取全量快照的方式进行接入，然后再通过自定义代码的方法处理SRC层最新批次的全量数据，找出增量数据写入ODS层，这样后续的每一层数据都是增量分区的数据，如下图。
　　4 缺点
　　如果有数据在业务系统中已经删除了，那么增量存储的表中还是会存这些数据的。严格来说，这个缺点不是增量存储的缺点，而是Hive的缺点，因为Hive的不可更新机制，导致了历史数据不能删除。如果采用MPP数据库(Greenplum、Vertica)则不会存在这个缺点。

550L超大空间！米家首款高端冰箱发布据小米官方消息，今日，米家首款高端冰箱米家冰箱十字四门尊享版550L正式发布，售价5999元，米粉特权价到手5499元，目前新品已开启预售。小米智能生态官微表示，米家冰箱十字四门尊售价不足Apple妙控的三分之一，雷柏E9350G刀锋键盘开箱体验近期，无线外设厂商雷柏推出了E系列刀锋键盘，主打超薄商务风格，外观算是致敬了一把APPLE妙控键盘。E9050G采用78键布局，官方售价149元，E9350G采用99键布局，官方售传英伟达GeForceRTX3090Ti450W的TDP显存速率21Gbps新供电接口此前流传有关英伟达在明年1月份推出GeForceRTX3090SUPER的消息，不过今天又传出了不同的说法，指新显卡的名字并不叫GeForceRTX3090SUPER，而是GeFonetty系列之使用netty搭建websocket客户端简介在网速快速提升的时代，浏览器已经成为我们访问各种服务的入口，很难想象如果离开了浏览器，我们的网络世界应该如何运作。现在恨不得把操作系统都搬上浏览器。但是并不是所有的应用都需要浏iPhone13mini星光色对比iPhonese白色刚拿到iPhone13mini时候感觉颜色还挺白的，但其实跟二代iPhonese的白色对比来看13mini这个荧光色还是比较偏暖的，个人更喜欢se那种纯白的，苹果真的把颜色这块玩儿Win11正式发布，Surface新品发布会全系列回顾相信早一阵子，大家陆续都收到了系统更新提示，10月5号，微软Windows11正式版（22000。194）终于到来了，变化此前都了解了七七八八，最近还有什么新消息呢？Windows华为Mate9等多款机型也推送HarmonyOS2升级了，更新包3。85GB根据之前华为HarmonyOS官方的预告，HarmonyOS2的第七批机型将在9月底推送更新，这些机型包括了华为Mate9等系列手机，而根据花粉的反馈，目前自己的华为Mate9手机iPhone13PMPK三星GalaxyZFold3，苹果三星年度旗舰强势来袭笔歌科技独报道苹果iPhone13ProMax作为苹果接下来一年周期主打的旗舰顶配手机产品，而备受关注，发布以来大家是各种评测对比，三星GalaxyZFold3也作为本年度的三星旗近期一直考虑入手尼康D850还是索尼a7R3，哪个比较好？近期一直考虑入手尼康D850还是索尼a7R3，哪个比较好？这两部机子可以说都是王者级的相机，一个领先于单反领域，一个在微单领域算是强者。其实选择哪一款都是没任何问题的。机子是一个方什么情况下需要换手机？1。总是出现黑屏死机自动重启大多是因为使用时间太久，手机应用越来越大，运行内存开始紧张，系统反应不过来，就会造成卡顿或者黑屏，严重的还会出现司机或者重启，只能要么限制应用的更新，要8点1氪丨多个视频平台取消超前点播携程回应涉嫌二选一垄断微软正式发布Windows11上市进行时爱奇艺爱奇艺据悉考虑筹集5亿美元，最快今年底在港上市，并考虑将美国银行高盛和法国里昂证券作为其上市承销商。（新浪科技）联想集团10月4日，联想集团在港交所公告，公司已向上

<<<<<<－>>>>>>

北京超15万个家庭申请新能源小客车指标5月25日，北青北京头条记者从北京小客车指标办获悉，按照北京市小客车数量调控暂行规定实施细则（2020年修订）相关规定，5月26日配置新能源小客车指标。据统计，截至2021年3月8如何购买到性价比高的机型？明白这三点技巧很关键自从智能手机全面普及后，各大厂商为了争夺用户也都使出了浑身解数。这几年来也是有很多机型的评价非常不错，例如小米6魅族16th华为P30Pro等等，但是也有很多机型被用户打上了高价低赋能实体经济的通证将逐步显现出来其价值和优势银行大力围堵虚拟币交易在国内和国际大环境下，没有实体价值虚拟货币过度的火热，严重影响了社会资本的流向，影响了实体经济的发展，在这种情况下，国家各各相关的民间与官方部门分别出台相关政小米平板5系列将有三个版本搭载全新骁龙860芯片TechWeb受去年来的疫情影响，近年来一度发展遇到瓶颈的平板电脑品类面对网课和在线办公的需求而迎来了新的机遇。而作为该领域的老牌厂商之一，小米仍然没有放弃平板电脑市场，在离开大家OPPOFindX3Pro上手体验外观设计流畅，影像系统有杀手锏今年的智能手机市场可以用神仙打架一样来形容了，很多手机厂商在产品设计上各具特色。其中，影像与外观手感方面成为旗舰手机所争相追逐的方向。但要说今年哪款手机产品在这两个方面表现比较出色李克强为何与宁波这家公司海外仓视频连线？李克强5月24日考察乐歌人体工学科技股份有限公司。总理体验了一套智能升降办公产品，一边踩动与办公椅相连的健身单车踏板，一边调节办公桌面升降。这款智慧健康办公产品，去年销量134万台喜欢拍Vlog的女生，买Reno6系列可以吗？谢邀！小姐姐，喜欢拍Vlog，买这个Reno6系列就是很明智的选择。首先，OPPOReno6系列会有晶钻3。0，波光粼粼的感觉很闪亮，拿在路上会很吸睛。不过我还是会建议你选OPPO能让手机使用寿命得到延长的8个技巧现在手机是我们日常生活中使用频率最高的工具了，分享一下能让手机使用寿命得到延长的8个技巧。1关闭蓝牙WiFiGPS收音机等。这些都是要耗费电池的，不使用的时候统统关掉吧，这些完全可贪便宜买二手iPhone11ProMax，验机后发现全是问题有没有发现二手iPhone的价格跨度非常大，有的甚至能达到好几千。如果一台iPhone的价格过低，肯定是有问题的，比如今天这台iPhone11Pro，网友几乎就是找的全网最低价格了小米11Ultra背面副屏将加入新功能测试版已支持vlog构图取景前段时间亮相的小米11Ultra旗舰手机在相机方面堆料十足，并且还加入了一个背面副屏功能帮助用户实现自拍或DIYlogo等功能。不过在发布这款手机时，背面的副屏却不支持视频取景拍摄原本为了阻击小米，最后却救了华为红米荣耀2013年，中国智能手机市场风起云涌，这一年可以算作国产智能手机发展的分水岭。当时中国内地的四家主流智能手机厂商，中兴华为酷派和联想，被国内媒体合称中华酷联，因为这四家厂商