专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

数据分类的维度大全

  数据分类概述
  数据天然具备不同的属性和特征,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据采用不同的分类方法。
  不同维度下数据的分类如下:
  1。按数据的结构特征
  l结构化数据
  结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。
  其一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
  l非结构化数据
  非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表或自描述语言来表现的数据。
  它本质上是异构和可变的,可同时具有多种格式,包括:文档、文本、图片、音频、视频等。
  l半结构化数据
  指非关系模型的,具有基本固定结构模式的数据。它一般是自描述的,数据的结构和内容混合在一起,没有明显的区分。例如html、日志文件、XML、JSON、Email等。
  半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
  2。按数据的应用层次
  l第一层:元数据
  元数据是关于数据的结构化数据,用于定义和描述其他数据,便于理解、查找、获取、使用和管理数据。根据其属性的不同,元数据可分为业务元数据、技术元数据、管理元数据。
  l第二层:参考数据
  参考数据,是数据可能的取值范围及其解释,是对其他数据进行分类和规范的数据。
  l第三层:主数据
  主数据也称为基准数据,是用来描述企业内部核心业务对象的、具有高业务价值的、在企业内被多个业务部门和系统之间共享的、且相对静态的数据,被誉为企业的黄金数据。
  l第四层:事务数据
  事务数据,也称为活动数据,指的是记录企业经营和管理过程中产生的事务型数据,比如销售订单,采购订单,报销流程工单等。
  l第五层:分析数据
  分析数据,指的是由各类事务数据组成的数据,比如各种报表,BI分析,审计数据等,是由很多事务型数据,进行组合搭建的。
  l第六层:规则数据
  规则数据是结构化描述业务规则变量的数据(如会员等级评级规则、数据质量校验规则等),是实现业务规则的核心数据。规则数据不可实例化,规则数据的变更对业务活动的影响是大范围的。
  需要说明的是:规则数据,与参考数据、主数据、事务数据、分析数据等并不是严格的层次关系,而是跨越参考数据、主数据、事务数据、分析数据等四层,参考数据、主数据、事务数据、分析数据中,都会涉及到对规则数据的调用。
  3。按数据的生产方式
  l原始数据
  原始数据是指来自上游系统的,没有做过任何加工的数据。
  虽然会从原始数据中产生大量衍生数据,但还是会保留一份未作任何修改的原始数据,一旦衍生数据发生问题,可以随时从原始数据重新计算。
  l衍生数据
  衍生数据是指通过对原始数据进行加工处理后产生的数据。衍生数据包括各种数据集市、汇总层、宽表、数据分析和挖掘结果等等。从衍生目的上,可以简单分为两种情况,一种是为提高数据交付效率,数据集市、汇总层、宽表都属于这种情况。另一种是为解决业务问题,数据分析和挖掘结果就属于这种。
  4。按描述事物的角度
  l状态类数据
  描述客观世界的实体,也即一个个对象,比如人、桌子、账户等等。对于这些对象,各有各的特征,不同种类的对象拥有不同的特征,比如人的特征包括姓名、性别和年龄,桌子的特征包括颜色和材质;对于同一种对象的不同个体,其特征值不同,比如张三男20岁,李四女24岁。有些特征稳定不变,而另一些则会不断发生变化,比如性别一般不变,但账户金额、人的位置则随时可能变化。
  因此,可以使用一组特征数据来描述每个对象,这些数据可以随时间发生变化(数据的变化一方面依赖于对象的变化,另一方面依赖于变化反映到数据上的时间差),每个时点的数据反映这个时点对象所处的状态,因此称之为状态类数据。
  l事件类数据
  描述客观世界中对象之间的关系,它们是怎么互动的,怎么发生反应的。我们把这一次次互动或反应记录下来,这类数据称之为事件类数据。比如客户到商店买了件衣服,这里出现三个对象,分别是客户、商店、衣服,三个对象之间发生了一次交易关系。
  l混合类数据
  混合类数据理论上也属于事件类数据范畴,两者的差别在于,混合类数据所描述的事件发生过程持续较长,记录数据时该事件还没有结束,还将发生变化。比如订单,从订单生成到结案整个过程需要持续一段时间,首次记录订单数据是在订单生产的时候,订单状态、订单金额后续还可能多次变化。
  5。按数据的存储方式
  数据按其存储方式,可以分为关系型数据、键值数据、列式数据、图数据、文档数据等。
  l关系型数据
  采用关系数据模型的数据库系统,关系数据模型实际上是表示各类实体及其之间联系的由行和列构成的二维表结构。一个关系数据库由多个二维表组成。表中的每一行为一个元组,每一列为一个属性,对关系型数据库进行操作通常采用结构化查询语言。
  l键值数据
  是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。
  l列式数据
  是一种非关系数据库,以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。
  l图数据
  是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。比如,社会网络中人与人之间的关系。
  l文档数据
  是NoSQL中非常重要的一个分支,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据。
  6。按数据的产生频率
  l批量数据
  这种方式下,数据每隔一段时间提供一次,把该时段内所有变化的数据都提供过来。批量方式时效较低,大部分传统系统都采用T1方式,业务用户最快只能分析到前一天的数据,看前一天的报表。
  l实时数据
  每当数据发生变化或产生新数据,就会立刻提供过来。这种方式时效快,能有效满足时效要求高的业务,比如场景营销。但该方式对技术要求更高,必须保证系统足够稳定,一旦出现数据错误,容易造成较严重的业务影响。
  7。按数据的使用频率
  l热数据
  热数据是需要被计算节点频繁访问的在线类数据。
  比如可以是半年以内的数据,用户经常会查询它们。热数据适合放在数据库中存储,比如MySql、MongoDB和Hbase等。
  l冷数据
  冷数据是指离线类不经常访问的数据。主要用于灾难恢复的备份或者因为要遵守法律规定必须保留一段时间,比如企业备份数据、业务与操作日志数据、话单与统计数据等。
  冷数据通常会存储在性能较低、价格较便宜的文件系统里,适用于离线分析,比如机器学习中的模型训练或者大数据分析。
  l温数据
  温数据是非即时的状态和行为数据,也可以简单理解为把热数据和冷数据混在一起就成了温数据。如果整体数据量不大,也可以不区分温数据和热数据。
  8。按数据的连续属性
  l连续型数据
  连续数据类型代表着数据的取值是连续不间断的,可以用某种尺度进行连续的测量取值,在可能值的有限或无限范围内都可以无限取值。
  从统计学上讲,范围是指最高和最低观察值之间的差异。连续数据可以分解为分数和小数,即可以根据测量精度将其有意义地细分为更小的部分。
  例如人的身高,商品的价格,水果的重量等。
  l离散型数据
  离散数据是指依赖计数的定量数据类型,仅包括那些只能以整数或整数计算并且是独立的值,这意味着数据不能分解为小数或小数。
  例如,学校的学生人数,停车场的汽车数量,实验室的计算机数量,动物园的动物数量等。
  9。按数据的测量尺度(统计数据的分类)
  l定类数据
  名义级数据,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。
  例如,性别男编码为1,女编码为2。
  定类数据是数据的最低级。
  l定序数据
  用数字表示个体在某个有序状态中所处的位置,不能做四则运算。
  具有内在固有大小或高低顺序,能够对事物进行分类,比较事物之间的大小差异,但不能做四则运算。
  例如,受教育程度,文盲半文盲1,小学2,初中3,高中4,大学5,硕士研究生6,博士及其以上7。
  定序数据是数据的中间级。
  l定距数据
  由定距尺度计量形成的,具有间距特征的变量,表现为数值,有单位,是对事物进行精确描述的数据。
  定距尺度不仅能比较各类事物的优劣,还能计算出事物之间差异的大小,所以其数据表现为数值。
  定距数据可以进行加减运算,但不能做乘除运算,其原因为定距尺度中没有绝对零点(定距尺度中的0是作为比较的标准,不表示没有)。
  例如,每一度的温差都是相同的,为1度;再比如,百分制考试成绩,分值之间的间隔一般为10分,即6070分为一档,7080分为一档,8090分为一档。
  l定比数据
  是有序的数据排列,存在一个绝对的零点,所描述的都是具有零值基准的变量,包括重量、高度和长度等。如商品的销售额。
  定比数据既有测量单位,也有绝对零点(可以取值为0),可以做乘除运算。
  定比数据是数据的最高级。
  不同测度级别的数据,应用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
  一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。
  10。按数据的共享属性
  公共数据按照共享属性分为无条件共享类、有条件共享类和不予共享类三种类型。
  l无条件共享类
  可以提供给所有公共管理和服务机构共享使用的公共数据属于无条件共享类。
  l有条件共享类
  可以按照一定条件提供给有关公共管理和服务机构共享使用的公共数据属于有条件共享类。
  l不予共享类
  不宜提供给其他公共管理和服务机构共享使用的公共数据属于不予共享类。
  11。按数据的开放属性
  公共数据按数据的开放属性,可以分为禁止开放类、受限开放类、无条件开放类等。
  l禁止开放类
  开放后涉及国家安全、公共安全、经济安全和社会稳定的;涉及商业秘密、个人隐私的;因数据获取协议或者知识产权保护等禁止开放的;法律、法规规定不得开放的。
  l受限开放类
  涉及商业机密、个人隐私,其指向的特定公民、法人或者其它组织同意开放,且法律、法规未禁止的;开放将严重挤占公共基础设施资源,影响公共数据处理效率的;开放安全风险难以评估的;依法经脱敏、脱密等处理的禁止开放类公共数据,符合受限开放的,应列为受限开放类公共数据。
  l无条件开放类
  除禁止开放类与受限开放类公共数据以外的其他公共数据;已脱敏、脱密等处理的禁止开放类与受限开放类公共数据,符合无条件开放的,可列为无条件开放类公共数据。
  12。按字段的类型
  l文本类(string、char、text等)
  文本类数据常用于描述性字段,如姓名、地址、交易摘要等。这类数据不是量化值,不能直接用于四则运算。在使用时,可先对该字段进行标准化处理(比如地址标准化)再进行字符匹配,也可直接模糊匹配。
  l数值类(int、float、number等)
  数值类数据用于描述量化属性,或用于编码。如交易金额、额度、商品数量、积分数、客户评分等都属于量化属性,可直接用于四则运算,是日常计算指标的核心字段。邮编、身份证号码、卡号之类的则属于编码,是对多个枚举值进行有规则编码,可进行四则运算,但无实质业务含义,不少编码都作为维度存在。
  l时间类(data、timestamp等)
  时间类数据仅用于描述事件发生的时间,时间是一个非常重要的数据分析维度。
  13。按数据的粒度
  l明细数据
  通常从业务系统获取的原始数据,是粒度比较小的,包括大量业务细节。比如,客户表中包含每个客户的性别、年龄、姓名等数据,交易表中包含每笔交易的时间、地点、金额等数据。这种数据我们称之为明细数据。明细数据虽然包括了最为丰富的业务细节,但在分析和挖掘时,往往需要进行大量的计算,效率比较低。
  l汇总数据
  为了提高数据分析效率,需要对数据进行预加工,通常按时间维度、地区维度、产品维度等常用维度进行汇总。分析数据时,优先使用汇总数据,如果汇总数据满足不了需求则使用明细数据,以此提高数据使用效率。
  14。按数据的归属主体
  l政府数据
  政府数据是指政府所拥有和管理的数据,以及政府因开展工作而产生或因管理服务需求而采集的外部大数据,为政府自有和面向政府的大数据。狭义上的政府数据主要包括公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计及气象等数据。
  l企业数据
  企业数据是指所有与企业经营相关的信息和资料,包括企业概况、产品信息、经营数据及研究成果等,也包括企业的商业机密。
  l个人数据
  个人数据是指以电子或其他方式记录的能够单独或与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址及电话号码等。
  15。按公民个人维度
  按照数据是否可识别自然人或与自然人关联,将数据分为个人信息、非个人信息。
  16。按公共管理维度
  为便于国家机关管理数据、促进数据共享开放,将数据分为公共数据、社会数据。
  17。按信息传播维度
  按照数据是否具有公共传播属性,将数据分为公共传播信息、非公共传播信息。
  18。按行业领域维度
  按照数据处理涉及的行业领域,将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等,其他行业领域可参考GBT47542017《国民经济行业分类》。
  19。按组织经营维度
  分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
  l用户数据
  组织在开展业务服务过程中从个人用户或组织用户收集的数据,以及在业务服务过程中产生的归属于用户的数据。如个人用户信息(即个人信息)、组织用户信息(如组织基本信息、组织账号信息、组织信用信息等)。
  l业务数据
  组织在业务生产过程中收集和产生的非用户类数据。如产品数据、合同协议等。
  l经营管理数据
  组织在机构经营管理过程中收集和产生的数据。如经营战略、财务数据、并购及融资信息等。
  l系统运行和安全数据
  网络和信息系统运维及网络安全数据。如网络和信息系统的配置数据、网络安全监测数据、备份数据、日志数据、安全漏洞信息等。
  20。按组织数据的来源
  按组织数据的来源,分为内部数据和外部数据。
  内部数据自己单位内部产生的数据。
  外部数据指从本单位外部得到的数据。
  21。按数据的业务主题
  企业或组织通常都有自己的业务分类,基于数据所反映的业务主题,可以将数据按业务板块、数据域、数据主题等层次进行分类。
  比如电商企业,按业务域分类,可以分为零售板块、物流板块、金融板块等。
  按数据域划分,通常会包括营销域、销售域、会员域、供应链域、产品域、财务域、人事域等。
  总之,数据分类在数据资产管理中的价值很大,但一定要以业务价值为导向,要么提升管理效率,要么能提升客户体验,不要为了分类而分类。(全文完)
  相关推荐:
  数据、信息、知识、智慧的基本概念及DIKM模型介绍、
  数据治理、数据管理、数据资产管理等相关概念辨析
  万字长文,全面阐述数据治理体系
  基于数据应用层次的数据分类模型
  感恩遇见,如果觉得有用,记得点击右上方的关注哟,定期为您分享实用的干货

前10月全社会用电量同比增长3。8本报北京11月25日电(记者丁怡婷)记者近日从国家能源局获悉1至10月,全社会用电量累计71760亿千瓦时,同比增长3。8。分产业看,第一产业用电量948亿千瓦时,同比增长9。9第吴亦凡一审被判13年,附加驱逐出境法治社会,人人平等作者小浪浪11月25日上午,以强奸聚众淫乱罪,对被告人吴亦凡数罪并罚,决定执行有期徒刑十三年,附加驱逐出境。法治面前,人人平等!曾经的流量王者,因为法治意识的淡泊,公然违反中国的法(社会)美丽乡村路助力乡村兴位于湖北省西部山区的恩施土家族苗族自治州宣恩县,美丽的乡村公路蜿蜒于崇山峻岭间。当地按照通畅洁净美观的标准呵护这些飘落山间的玉带,并形成乡镇通二级路行政村通硬化路的农村路网格局,为安史之乱2000年封建社会之转折点我国封建社会绵延了两千余年,这其中有威震四海的强汉,盛唐时期,也有强敌四伏的宋明两朝,更有甚者,被北方游牧民族所统治的元清两代。今天就来讨论一下,封建社会是从什么时候开始由盛转衰。社招中储粮集团纪检监察组面向社会公开招聘中国储备粮管理集团有限公司是经国务院批准组建的涉及国家安全和国民经济命脉的国有大型重要骨干企业,受国务院委托具体负责中央储备粮油棉的经营管理,同时接受国家委托执行粮油棉购销调存等调老河口市太平街老街访古有人说过,每一座喧嚣的城,或者每一座热闹的镇,都有一条古朴静谧的老街,它沉淀着当地最原始最自然最真实的风土文化民风民情,诉说着历史。距今已有百年历史的湖北省老河口市太平街老街,位于耶稣的诞生基督教的兴起与传播相传在希律王统治时期,玛利亚拿撒勒的一个犹太木匠约瑟的未婚妻生下了一个男孩,同族的人都叫他约书亚,而附近的希腊人则称他为耶稣。后来他的名字传遍世界各地,几乎家喻户晓,他的教义成为世一张图看懂犹太教基督教伊斯兰教3者的联系犹太教,基督教,伊斯兰教三者之间有什么关系?在公元前18世纪,亚伯拉罕抛弃了许多原始的信仰,建立了一个只有上帝的信仰。摩西是犹太人的民族英雄,他在公元前14世纪建立了犹太教,建立了这个世界上最容易的,就是自我感动邻居老黄,年轻的时候,曾经在单位任职一把手,飞黄腾达过,叱咤风云过。说到单位部门的路数,一套一套的。退了休闲暇无事,总是喜欢卖弄,说自己当年如何如何的成功,如何如何的优秀,以博取众这个世界可能并没有天才锋言锋语221123昨天的世界杯球赛,几乎没人能想到沙特队能战胜阿根廷,赛前大家还在调侃曾经0比8输给德国的沙特,今天又要送几个球,结果2比1,沙特获得了一场令人惊愕的胜利。惊愕的请无条件喜欢自己,无条件接受这个世界本来面目我想说你如果是个人,都会有缺点,所以你要怎么办呢?拿起伟大作家的手打自己吗?问苍天问大地,我为什么有缺点?哼,这些伟大的人呀,在虚无缥缈中写作,可惜他们自己偏偏是他们作品里要批评的
还原论与涌现论你只是你的原子吗?(全文约2000字,看完需2分钟)还原论提供了一种狭隘无法解释现实的宇宙观。图片来源NSFLIGO索诺玛州立大学A。Simonnet关键要点还原论认为世界上一切真实的事物都可以用原李少玲大良打造轨道上的文商旅创新融合区顺德两会大良将打造高品质南部都会中心现代魅力之城打造轨道上的文商旅创新融合区让每一位生活工作在大良的市民,都感受到大良的温度和品质在2023年顺德两会期间镇街主官访谈中,顺德区人大代表大良天天早安吉祥天天早安吉祥这几天,寒冬的气温来了一个大逆转,特别是到了中午,炽热的阳光如同俄罗斯特别军事行动一样,呼拉拉地驱走了连日来的霜风雾霾,堂而皇之地炫耀着它的威力。这种突然袭击,确实出乎信用卡如今该怎样改变,才能冲破传统束缚,更好的满足客户!财经新势力新春季现阶段经济发展环境多变,在高度市场化的经济环境中,商业银行信用卡业务发展要对市场发展情况有全面深刻的认识,明确定位目标市场,将客户作为最关键因素,尽量满足客户对信用TVB停播无限超越班,是什么导致观众的期待值越来越低无限超越班是一档演艺类的综艺节目,由浙江卫视优酷和TVB共同出品。并在三个平台进行播放!但最新消息,TVB将不再播放无限超越班,网友认为是截至目前播出的内容质量不佳,而且对TVB的车市发展启动新引擎当前,我国汽车市场正处于转型升级的关键节点。汽车市场稳定增长,对确保我国车市健康长远发展为市场转型升级面临的各种挑战赢得主动权,具有重要意义。我国作为全球最大汽车市场,已连续13年AirPods力推青春版,苹果想搞定下沉市场?近日,海通国际分析师JeffPu透露苹果目前正在研发AirPodsLite,希望与市面上价格更为便宜的其他TWS耳机竞争。据推测,AirPods的Lite版定价可能为129美元,换青春湖南丨刘新结代表希望更多青年回乡创业视频加载中文视频三湘都市报新湖南客户端全媒体记者杨洁规(湖南省十四届人大代表刘新结。记者杨洁规摄)人物档案刘新结,1999年出生,湖南省十四届人大代表衡阳市衡山县吉丰农机合作社法人东方审美?NBA名媛减肥56斤,取体内硅胶,瓦妮莎也效仿流行起来众所周知,东方和西方的审美是完全不一样的标准,从美女的定义来看,东方喜欢那种身材苗条,体型修长纤瘦的身材,比如明星林志玲而西方的审美恰恰相反,他们眼中的美女是丰满类型的,细腰肥臀是中医治疗脑动脉硬化症验方菖葛止眩汤方中石菖蒲具有祛痰开窍之功葛根升清阳通血脉,能引药上达病所,与石菖蒲合用起到化痰活血升清开窍作用僵蚕熄风化痰,天麻善治一切风证,与僵蚕并用起化痰活络熄风止眩作用川芎活血行气,通脉祛步长制药获ESG大奖宣肺败毒颗粒等多款产品入选中药干预指引中国网财经1月11日讯近日,知名药企步长制药在2022上市公司投资者关系水晶球评选中获颁最具社会责任(ESG)上市公司荣誉,步长制药一直以来秉持的共铸中国心的社会责任和企业愿景再度
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软网