范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

数据仓库为什么要用事实表和维度表?3000字干货,面试也能用上

  今天给大家分享一下数据仓库的精髓:维度建模。
  关于数据仓库相关的内容,我们之前分享过《数据仓库基础概述》,时间比较久远,是去年写的文章了。今天和大家分享一下数据仓库中的维度建模,这是数仓的经典内容。
  一、什么是维度建模
  维度建模是数据仓库领域的大师之一Ralph Kimball所倡导,他参与所著的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典著作。建议有时间的朋友可以读一读。
  维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求(也就是我们通常所说的数据分析)服务。它重点解决如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
  因此,说白了,所谓的维度建模就是一种组织数据仓库的形式、模型,用这种方式组织搭建的数据仓库,对快速支持数据分析有着巨大的帮助。目前也是比较主流的数仓模型了。
  二、维度建模基础知识
  下面介绍一下关于维度建模的一些基础知识,主要包括事实表、维度表、切片、钻取等。
  (1)事实与事实表 (Fact Table)
  事实表是指其中保存了大量业务度量数据的表,是数仓最核心的表。
  事实表中的度量值一般称为事实。通常,最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度,决定了数据仓库中数据的详细程度。
  下图为例。中间的表:服装销售明细表,就是一张事实表。其中的销售金额、成本、利润,都是事实,也是我们需要分析的目标数据。
  一般事实表中只存放数字或一些flag用来统计,如:销售金额、成本等。另外,通常事实表中的数据不允许修改,新的数据只是简单地添加到事实表中。
  事实表特点:数据量庞大、列数少、经常变化。这个比较好理解,因为实事表是一张业务表嘛,业务肯定是不断有新的数据加进来的。
  (2)维度与维度表(Dimension Table)
  维度表是用户来分析数据的窗口,比如时间、地区、用户等。
  维度表中包含事实表中记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息。
  例如上图,包括了五张维度表:时间维表、产品维表、地域维表、用户维表、支付维表。每一张维度表对应现实世界中的一个对象或概念。
  每一张维度表利用维度关键字(图中标红字段)通过事实表中的外键约束事实表的中某一行。
  维度表等特点:很多描述性的列,行数较少,内容较固定。这个也好理解,比如地域,省市区县这些内容十几年都不会有啥变化。
  (3)粒度
  粒度是指数据仓库的数据单位中,保存数据的细化程度的级别。简单点来看,在实事表中一条记录所表达的业务细节,就是粒度。
  通常,为了便捷的下钻分析,我们都会使用到最小粒度。比如订单表中,最小粒度就是一条订单的记录。使用最小粒度的优点: 可以频繁的ETL操作 很多数据挖掘需要最小粒度数据 方便向下钻取
  当然,使用最小粒度也有缺点: 存储和维护代价较高 需要进一步构建汇总事实表来支持汇总数据查询
  (4)切片、切块与旋转
  切片与切块主要是用来进行数据分析的。我们以下面的三维(产品、年度、地区)为例。
  切片:从多维数组中选定一个二维子集,切出一个"平面" 。比如选中上图的2011年,这就是一个切片。 切块:从多维数组中选定一个三维子集,切出一个"立方体" 。比如上图中,年度选择了2011、2012,然后看所有的数据内容,这就是一个切块。 旋转:改变一个报告(页面)显示的维方向
  (5)钻取
  根据维层次,改变数据分析的粒度,就是钻取分析,主要包括上钻(也叫上卷)和下钻。其实Excel中的数据透视就是各种上卷和下钻。
  下钻:从汇总数据深入到细节数据进行观察或增加新维 上钻(上卷):从某一维上将低层次的细节数据概括到高层次的汇总数据或减少维数 钻透:直接下钻到最明细的数据。
  三、维度建模的三种模型
  上面介绍了关于维度建模的一些基础知识,下面聊一聊维度建模的几种具体模型:星型模型、雪花模型、星座模型。
  (1)星型模型
  所谓星型模型,具体表现是:事实被维度所包围,且维度没有被新的表连接。如下图。
  每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。
  可以看出,星型模型是比较单纯的模型,像星星一样触角没有延伸了。
  (2)雪花模型
  所谓的雪花模型,是有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上,就像雪花一样。如下图:
  雪花模型去除了数据冗余,更贴近与业务。尽可能降低数据存储量以及联合较小的维表来改善查询性能。
  为啥这么说呢?主要是和星型模型对比而言的。看下面的示例图。如果是星型模型,则需要在【product】表中的【category】把所有的信息都列出来,而雪花模型可以在【product】维度表中继续增加关联即可。
  但是可以想象到,雪花模型分析数据时,操作比较复杂。毕竟需要关联的内容越来越多。但数据的存储量下来了,因为冗余信息进行了提炼嘛。
  (3)星座模型
  无论是星型模型还是雪花模型,都是单事实表的情况。但通常来讲,实践当中大部分情况都是多事实表的。这时就是需要星座模型了。
  所谓星座模型,是多个事实表共享维度表, 因而可以视为星型模型的集合,故亦称星座模型(星系模型)。如下图:
  星座模型是数据仓库最常使用的模型。
  四、相关实践技术
  主要看看实事表和维度表的相关内容。
  (1)实事表
  事实表主要包括以下四种。 事务事实表 :该类型表的一行对应空间或时间上某点的度量事件。与粒度同层次的事实表,可以直接将事实字段进行Sum、Count等聚合操作。 周期快照事实表 :该类型表中的每行汇总了发生在某一标准周期,如某天、某周、某月的多个度量事件。这类表非常适合跟踪长期的过程,如银行账户和其他形式的财务报表。 无事实事实表 :没有度量事实,仅记录一系列某一时刻发生的多维实体。非事实型事实表通常用来跟踪一些时间或者说明某些活动的范围。 累积快照事实表 :行汇总了发生在过程开始和结束之间可预测步骤内的度量事件。管道或工作流过程(履行订单、索赔过程),都可以在此类事实表中被建模。
  (2)维度表
  关于维度表,主要看看缓慢变化维。
  什么是缓慢变化维?在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维。
  比如,在一个零售业数据仓库中,事实表存着销售人员的销售记录,某天一个销售人员从北京分公司调到上海分公司了,那么如何来保存、处理这个变化呢?
  如果我们要统计北京地区或上海地区的总销售情况的时候,这个销售人员的销售记录应该算在北京还是算在上海?当然是调离前的算在北京,调离后的算在上海,但是如何标记这个销售人员所属区域?这里就需要处理一下这个维度的数据,即我们缓慢变化维需要做的事情。
  处理缓慢变化维的三种方式: 直接覆盖原值 :这个比较简单粗暴。但是如果想要做历史分析的话,就比较难了,一般不太覆盖。 增加属性列 :增加一个新列,来记录变化。这种适合变化比较少的情况,如果经常变化,增加无限量个字段明显不合适。 增加维度行 :直接增加一条新纪录,并用一个专门的字段(可以是时间、版本、是否生效等等)进行标识,区分哪个数据是最新的。
  如上图,比较直观的阐述了三种处理方式的差异。
  关于维度建模相关的内容,今天就分享这些。感谢朋友们的关注,后续针对数仓相关的内容,继续进行分享。
  转载/首席数学科学家
  最后,给大家整理了一些我常用的数字可视化大屏素材和模板,使用频率很高。

退休旅居指南云南建水在云南有一座边陲古城满足了大家心目中古城的样子不喧闹不热闹烟火与古朴同在这里有运营百年有余的米轨火车这里有中国第三大孔庙这里有西南边陲大观园这里有比天安门历史还久的朝阳楼这里有见证北京环球度假区大片世界年度体验洞察首发布揭示高品质沉浸乐趣9月20日,北京环球度假区迎来盛大开园一周年。过去一年里,高品质的娱乐体验让万千游客在这里找到情感的连接,在电影世界里释放自我追逐快乐。去北京环球度假区代表着一种全新的生活方式,也走近新疆大巴扎到新疆作一次旅游除了游览北疆的风光南疆的风土人情之外免不了要去大巴扎走走当地的朋友告诉我巴扎在维吾尔语中是集市的意思逛巴扎顾名思义就是逛集市乘夜色降临,华灯初上我们几个结伴走进了大十一旅行趋势休闲度假和周边深度游成刚需本报记者王晶晶十一黄金周进入倒计时,尽管国内部分城市受到疫情影响,但休闲度假和城市周边深度游仍是人们假日生活的刚需。同程旅行日前发布的2022十一假期旅行趋势报告(以下简称报告)显打卡野三坡,开启属于自己的野式假期开启野式假期国庆假期即将到来,省内微旅游城市微度假将是广大市民的出游首选。秋意渐浓的时节里,开启一场属于自己的野式假期,你会心动吗?点击下方音频,了解一下吧!野三坡百里峡是野三坡独中国聊斋文化发源地淄川聊斋城,里面有蒲松龄墓明崇祯十三年(1640年)春天,一个男孩在济南府淄川蒲家庄出生,父亲为这个孩子取名松龄。令蒲家人想不到的是,多年后这个叫蒲松龄的孩子会成为一名文学家,并且写出了一部家喻户晓的小说聊阅读余华,感慨不同文化不同种族的巨大差距前两天刚看完余华的我们生活在巨大的差距里,这本书是一篇精选文集,前半部分收录了余华的旅行笔记,因为他除了写作大部分的时间都在旅行与阅读,书的后半部分夹杂了一些读后感,但整本书的出版柳林军渡村发展旅游产业助力乡村振兴今年以来,军渡村以党建为引领,依托得天独厚的自然区域优势,深厚的历史文化底蕴,制定了以旅游产业为龙头带动打造医养康养特色小镇的发展路线和建设打造沿黄黄金线路集散地的总目标。探索构建千年郡县探马踏山海电白好心之城马踏,一片神奇的地方,早有电白粮仓之美誉。作为电白圩镇,其因数百年郡县历史,有着厚重的一笔。相传古有仙人云游赤岭,登高四望,为青山绿水陶醉,纵马驰骋,在青石留下深深的蹄痕。据说遗迹在莫莫格感受天空之镜的魅力秋日,走进位于镇赉县的吉林莫莫格国家级自然保护区,置身在恬静多姿旖旎迷人的嫩江之畔,蓝天与碧水相映成画,宛若天空之镜,风光绝美。莫莫格湿地是鸟类天然家园,鸟类在这里自由翱翔尽情歌唱文旅部等五部门拟出台新规明确边境旅游团队可灵活选择出入境口岸9月19日,据文旅部官网消息,文旅部会同外交部公安部海关总署和移民局等部门研究起草了边境旅游管理办法(修订征求意见稿)(以下简称管理办法),管理办法明确了边境旅游的出入境手续应当按
弄潮儿赵聪弹着琵琶触碰元宇宙唱着中国故事给世界听这两年,这个地球上最热的话题恐怕就是元宇宙了,几乎覆盖了各个行业。在音乐界,很多音乐人也开始以浓厚的兴趣探索元宇宙与音乐的关系,这其中也包括一直以来践行国乐守正创新的弄潮儿著名琵琶第十二次自驾载人闯天涯灵光一闪今天的我绝对配得上这个酷酷的表情包。台风过后,上海秋高气爽,温度适宜,绝对是一个外出的好季节。小宝昨天请假一天,我想着这么好的季节,不如再请一天假吧,来一个快乐的亲子日。第刘晓庆同框刘嘉玲,一个戴翡翠一个戴珍珠,才发现戴首饰也有讲究一个真正精致优雅的女人,除了懂得利用服装单品去提升自己的气质,还不会忘记首饰带来的影响和重要性,无论是休闲生活还是正式场合,一款复合穿衣风格的首饰搭配,一定能够让你的造型更胜一筹,孩子是不是真聪明,关键看这件小事,父母却最容易忽略孩子是不是真聪明,关键看这件小事,父母却最容易忽略!有人说,牛娃都是钱堆出来的吧!似乎是这几年明星带娃的例子看多了,很多人有这样的感慨。霍思燕家的嗯哼,知识面超过了爸妈黄圣依的儿子73亿拍卖ampampquot落锤ampampquot!参股6年,恒大全面退出东北最大城商行!7家企业合力接盘恒大正式退出东北地区最大城商行盛京银行。9月7日,阿里司法拍卖平台信息显示,恒大集团(南昌)有限公司持有的盛京银行12。82亿股股权拍卖结果于当日出炉,包括3家沈阳市当地国资企业和穆里尼奥紧张吗?老东家实力大增剑指欧联冠军,罗马唯有联赛争四罗马虽然赢得上赛季的欧协联冠军,但是在联赛积分榜仅仅排名第6,因此依然无缘新赛季的欧冠赛事,穆里尼奥留下了不小的遗憾。俱乐部高层迫切希望罗马能够如愿赢得欧冠参赛资格,毕竟这意味着丰SpaceXNASA宣布Crew5宇航员发射日期,一名俄罗斯宇航员同行根据外媒最新消息,SpaceX和美国国家航空航天局(NASA)已确定在10月3日进行该公司的第五次宇航员空间站轮换任务,这同时也是俄罗斯宇航员首次乘坐宇航员龙号(CrewDrago俄罗斯对欧洲断气!俄方有了中国的托底更强硬,欧洲将何去何从?点击右上方关注,第一时间获取每天行情点评炒股技巧时事热点资讯等,有任何问题欢迎留言。俄罗斯与欧洲互相斗气,互相伤害,这是无可避免的!自俄乌开战后,欧盟跟着美国老大的步伐对俄罗斯实施韦德历史选秀大会上除了1人,没有一个人能抢走奥尼尔的状元位韦德在一档节目中认为,如果NBA所有球员参加选秀的话,只有1个人能和奥尼尔争夺状元位,那就是詹姆斯,两个人放在同一年参加选秀的话如果是90那个都挤在内线肉搏的年代毫无疑问选奥尼尔谁2020届最惨新秀?曾预测状元,32顺位才选中,21岁就被交易了如果在2000年左右打球,小弗农凯里会拥有非常出色的职业生涯。甚至,他有挤掉肯扬马丁,自己当选NBA状元的可能性。但很可惜,现实世界里,不存在可以穿梭时空的时间机器。在这个时代,小有个明朝人游完南岳,画了一幅迄今发现最早的南岳手绘图游南岳登衡山,饱览大好河山,现代人往往会掏出手机,记录下这美好一刻。对于没有相机手机的古人怎么办?有个明代人,叫萧云从,崇祯九年,游于潇湘。一路风景秀美,怎么记录大美河山?巧了,他