童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

数据仓库的基本架构

5月13日 艮山观投稿
  数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层源数据、数据仓库、数据应用:
  从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。
  数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra,转化Transfer,装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。
  下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。
  数据仓库的数据来源
  其实之前的一篇文章已经介绍过数据仓库各种源数据的类型数据仓库的源数据类型,所以这里不再详细介绍。
  对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。
  数据仓库的数据存储
  源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下:
  (1)。为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;
  (2)。为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措;
  (3)。为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以方面实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。
  数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。主要包括三个方面:
  数据的聚合
  这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、UniqueVisitors等汇总数据,也可以是Avg。timeonpage、Avg。timeonsite等平均数据,这些数据可以直接地展示于报表上。
  多维数据模型
  多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。所以多维数据模型的应用一般都是基于联机分析处理(OnlineAnalyticalProcess,OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。
  业务模型
  这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如我之前介绍过的用户评价模型、关联推荐模型、RFM分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前期数据的处理也可以在这里完成。
  数据仓库的数据应用
  之前的一篇文章数据仓库的价值中介绍过数据仓库的四大特性上的价值体现,但数据仓库的价值远不止这样,而且其价值真正的体现是在数据仓库的数据应用上。图中罗列的几种应用并未包含所有,其实一切基于数据相关的扩展性应用都可以基于数据仓库来实现。
  报表展示
  报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。
  即席查询
  理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询,即席查询提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据,并提供导出到Excel等外部文件的功能。
  数据分析
  数据分析大部分可以基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。
  数据挖掘
投诉 评论 转载

数据仓库的基本架构数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数……设计模式入门指南想知道设计模式是什么?在这篇文章中,我会解释为什么设计模式重要。我也会提供一些PHP的例子来解释什么时候什么情况下来使用设计模式。什么是设计模式?设计模式是针对我们……新版Flickr照片展示页新在哪里(译)变得更大!照片:照片是这个页面中最重要的元素,所以我们把默认展示尺寸由500像素提升至640像素(最长边)。页面宽度:为了更好展示新的照片尺寸,对于照片展示页面宽度……7条大型网站设计和维护的关键技巧文中最后一段代码Demo在译言的编辑器中转换有问题,可以移步至原文或者我博文项目范围和规模各不相同,他们带来的挑战各不相同一样。作为一个独立的网页设计师,我最大的职责就是……需求是如何变成产品原型的在一个互联网公司的工作流程中,产品经理(主要指偏向产品设计的产品人员)和交互设计师是这个流水线上最起点的环节,也是关系最暧昧的两个环节。说其暧昧,是因为在很多互联网公司里面,这……构建成功web应用的十项黄金法则构建成功web应用的十项黄金法则此文译自FredWilson2010年2月在迈阿密举行的Web未来应用的年会上的演讲谢谢青云推荐了这篇这么好的演说……弹出窗口与切换页面的对比总结分享较早前的一个小总结,关于在选择弹出窗口还是选择切换页面来承载信息时,可用用来判断的几个角度,合适初学者来读。1。弹出窗口与切换页面的区别1)操作的连贯……通过HTML5来改进微博手机版本的体验HTML5引入并加强了一系列功能,包括表单控制,应用程序接口(APIs),多媒体,结构化和语义化。都说html5javascript是flash或者silverlight这类客……有感于“山寨”二字与产品设计最近很多朋友都进了淘宝,跟朋友聊起来,话题大都是,淘宝怎么会这么不争气,基本就搞不出来什么像样的产品出来,甚至经常会被淘宝的新产品雷到。尤其是支付宝的体验,那更是经常性的让人心……产品开发的过程产品从无到有,从一个想法到雏形到上线的产品,都有个过程。不论是产品、运营、开发、测试等都有自己的职责和工作。很多公司都希望将自己的产品流程化,正规化,希望按照一定的流程走下去,……如何量化用户体验很多人都把用户体验看作是网站成功与否的一个总体衡量标准。分析一个网站在提供好的用户体验方面的效果如何,往往会变成一项很主观的事情,仅停留在观点层面,缺乏客观依据。本文描述……Web表单设计之注册表单必须面对的问题有:用户不喜欢提交表单。然我们的目的是让用户愿意提交表单。下面是一个关于web表单设计的调查报告,这个结果来源于100个令人瞩目的网站。注册表单设计调……
从SurfaceStudio聊一聊实体设备上的交互细节深度长文如何输出一份让团队满意的交互设计交付物交互新人的踩坑史:入职个月,我总结了这点经验用户场景化思维,在交互设计中的体现交互设计师,如何建立自己的知识体系?如何利用动效提升用户体验以一个实际项目为例从0到1的产品中,交互设计师如何避免踩坑初级交互设计师的自省:基础知识能力很重要是时候聊聊具有直觉性的UI和交互设计了H5可能会死,但总有人用它带来惊喜从产品需求角度,看设计的5层需求金字塔交互设计的前世今生:了解其产生与发展
送朝鲜使臣李鲁山高兼之金清山圆珠笔的自述防暑降温通知我不希望你迟到去泰国要准备什么证件去泰国要准备哪些证件为什么银行股便宜(好的银行股)对门住的是亲戚,太烦了有啥好办法能阻止她天天带俩孩子来串门?简说人肉搜索是如何做到的。舰艇造句用舰艇造句大全历史上的今天(2月6日)支付宝显示交易金额是100元但实际支付了101元请问这1元是萤火虫与蒲公英六年级作文

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界