数据分类概述数据天然具备不同的属性和特征,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据采用不同的分类方法,今天小编就来聊一聊关于分类数据分析?接下来我们就一起去研究一下吧!
分类数据分析
数据分类概述
数据天然具备不同的属性和特征,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据采用不同的分类方法。
不同维度下数据的分类如下:
1. 按数据的结构特征
l 结构化数据
结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。
其一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
l 非结构化数据
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表或自描述语言来表现的数据。
它本质上是异构和可变的,可同时具有多种格式,包括:文档、文本、图片、音频、视频等。
l 半结构化数据
指非关系模型的,具有基本固定结构模式的数据。它一般是自描述的,数据的结构和内容混合在一起,没有明显的区分。例如html、日志文件、XML、JSON、E-mail等。
半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
2. 按数据的应用层次
l 第一层:元数据
元数据是关于数据的结构化数据,用于定义和描述其他数据,便于理解、查找、获取、使用和管理数据。根据其属性的不同,元数据可分为业务元数据、技术元数据、管理元数据。
l 第二层:参考数据
参考数据,是数据可能的取值范围及其解释,是对其他数据进行分类和规范的数据。
l 第三层:主数据
主数据也称为基准数据,是用来描述企业内部核心业务对象的、具有高业务价值的、在企业内被多个业务部门和系统之间共享的、且相对静态的数据,被誉为企业的“黄金数据”。
l 第四层:事务数据
事务数据,也称为活动数据,指的是记录企业经营和管理过程中产生的事务型数据,比如销售订单,采购订单,报销流程工单等。
l 第五层:分析数据
分析数据,指的是由各类事务数据组成的数据,比如各种报表,BI分析,审计数据等,是由很多事务型数据,进行组合搭建的。
l 第六层:规则数据
规则数据是结构化描述业务规则变量的数据(如会员等级评级规则、数据质量校验规则等),是实现业务规则的核心数据。规则数据不可实例化,规则数据的变更对业务活动的影响是大范围的。
需要说明的是:规则数据,与参考数据、主数据、事务数据、分析数据等并不是严格的层次关系,而是跨越参考数据、主数据、事务数据、分析数据等四层,参考数据、主数据、事务数据、分析数据中,都会涉及到对规则数据的调用。
3. 按数据的生产方式
l 原始数据
原始数据是指来自上游系统的,没有做过任何加工的数据。
虽然会从原始数据中产生大量衍生数据,但还是会保留一份未作任何修改的原始数据,一旦衍生数据发生问题,可以随时从原始数据重新计算。
l 衍生数据
衍生数据是指通过对原始数据进行加工处理后产生的数据。衍生数据包括各种数据集市、汇总层、宽表、数据分析和挖掘结果等等。从衍生目的上,可以简单分为两种情况,一种是为提高数据交付效率,数据集市、汇总层、宽表都属于这种情况。另一种是为解决业务问题,数据分析和挖掘结果就属于这种。
4. 按描述事物的角度
l 状态类数据
描述客观世界的实体,也即一个个对象,比如人、桌子、账户等等。对于这些对象,各有各的特征,不同种类的对象拥有不同的特征,比如人的特征包括姓名、性别和年龄,桌子的特征包括颜色和材质;对于同一种对象的不同个体,其特征值不同,比如张三男20岁,李四女24岁。有些特征稳定不变,而另一些则会不断发生变化,比如性别一般不变,但账户金额、人的位置则随时可能变化。
因此,可以使用一组特征数据来描述每个对象,这些数据可以随时间发生变化(数据的变化一方面依赖于对象的变化,另一方面依赖于变化反映到数据上的时间差),每个时点的数据反映这个时点对象所处的状态,因此称之为状态类数据。
l 事件类数据
描述客观世界中对象之间的关系,它们是怎么互动的,怎么发生反应的。我们把这一次次互动或反应记录下来,这类数据称之为事件类数据。比如客户到商店买了件衣服,这里出现三个对象,分别是客户、商店、衣服,三个对象之间发生了一次交易关系。
l 混合类数据
混合类数据理论上也属于事件类数据范畴,两者的差别在于,混合类数据所描述的事件发生过程持续较长,记录数据时该事件还没有结束,还将发生变化。比如订单,从订单生成到结案整个过程需要持续一段时间,首次记录订单数据是在订单生产的时候,订单状态、订单金额后续还可能多次变化。
5. 按数据的存储方式
数据按其存储方式,可以分为关系型数据、键值数据、列式数据、图数据、文档数据等。
l 关系型数据
采用关系数据模型的数据库系统,关系数据模型实际上是表示各类实体及其之间联系的由行和列构成的二维表结构。一个关系数据库由多个二维表组成。表中的每一行为一个元组,每一列为一个属性,对关系型数据库进行操作通常采用结构化查询语言。
l 键值数据
是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。
l 列式数据
是一种非关系数据库,以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。
l 图数据
是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。比如,社会网络中人与人之间的关系。
l 文档数据
是NoSQL中非常重要的一个分支,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据。
6. 按数据的产生频率
l 批量数据
这种方式下,数据每隔一段时间提供一次,把该时段内所有变化的数据都提供过来。批量方式时效较低,大部分传统系统都采用T 1方式,业务用户最快只能分析到前一天的数据,看前一天的报表。
l 实时数据
每当数据发生变化或产生新数据,就会立刻提供过来。这种方式时效快,能有效满足时效要求高的业务,比如场景营销。但该方式对技术要求更高,必须保证系统足够稳定,一旦出现数据错误,容易造成较严重的业务影响。
7. 按数据的使用频率
l 热数据
热数据是需要被计算节点频繁访问的在线类数据。
比如可以是半年以内的数据,用户经常会查询它们。热数据适合放在数据库中存储,比如MySql、MongoDB和Hbase等。
l 冷数据
冷数据是指离线类不经常访问的数据。主要用于灾难恢复的备份或者因为要遵守法律规定必须保留一段时间,比如企业备份数据、业务与操作日志数据、话单与统计数据等。
冷数据通常会存储在性能较低、价格较便宜的文件系统里,适用于离线分析,比如机器学习中的模型训练或者大数据分析。
l 温数据
温数据是非即时的状态和行为数据,也可以简单理解为把热数据和冷数据混在一起就成了温数据。如果整体数据量不大,也可以不区分温数据和热数据。
8. 按数据的连续属性
l 连续型数据
连续数据类型代表着数据的取值是连续不间断的,可以用某种尺度进行连续的测量取值,在可能值的有限或无限范围内都可以无限取值。
从统计学上讲,范围是指最高和最低观察值之间的差异。连续数据可以分解为分数和小数,即可以根据测量精度将其有意义地细分为更小的部分。
例如人的身高,商品的价格,水果的重量等。
l 离散型数据
离散数据是指依赖计数的定量数据类型,仅包括那些只能以整数或整数计算并且是独立的值,这意味着数据不能分解为小数或小数。
例如,学校的学生人数,停车场的汽车数量,实验室的计算机数量,动物园的动物数量等。
9. 按数据的测量尺度(统计数据的分类)
l 定类数据
名义级数据,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。
例如,性别“男”编码为1,“女”编码为2。
定类数据是数据的最低级。
l 定序数据
用数字表示个体在某个有序状态中所处的位置,不能做四则运算。
具有内在固有大小或高低顺序,能够对事物进行分类,比较事物之间的大小差异,但不能做四则运算。
例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
定序数据是数据的中间级。
l 定距数据
由定距尺度计量形成的,具有间距特征的变量,表现为数值,有单位,是对事物进行精确描述的数据。
定距尺度不仅能比较各类事物的优劣,还能计算出事物之间差异的大小,所以其数据表现为“数值”。
定距数据可以进行加减运算,但不能做乘除运算,其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
例如,每一度的温差都是相同的,为1度;再比如,百分制考试成绩,分值之间的间隔一般为10分,即60~70分为一档,70~80分为一档,80~90分为一档。
l 定比数据
是有序的数据排列,存在一个绝对的零点,所描述的都是具有零值基准的变量,包括重量、高度和长度等。如商品的销售额。
定比数据既有测量单位,也有绝对零点(可以取值为0),可以做乘除运算。
定比数据是数据的最高级。
不同测度级别的数据,应用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。
10.按数据的共享属性
公共数据按照共享属性分为无条件共享类、有条件共享类和不予共享类三种类型。
l 无条件共享类
可以提供给所有公共管理和服务机构共享使用的公共数据属于无条件共享类。
l 有条件共享类
可以按照一定条件提供给有关公共管理和服务机构共享使用的公共数据属于有条件共享类。
l 不予共享类
不宜提供给其他公共管理和服务机构共享使用的公共数据属于不予共享类。
11.按数据的开放属性
公共数据按数据的开放属性,可以分为禁止开放类、受限开放类、无条件开放类等。
l 禁止开放类
开放后涉及国家安全、公共安全、经济安全和社会稳定的;涉及商业秘密、个人隐私的;因数据获取协议或者知识产权保护等禁止开放的;法律、法规规定不得开放的。
l 受限开放类
涉及商业机密、个人隐私,其指向的特定公民、法人或者其它组织同意开放,且法律、法规未禁止的;开放将严重挤占公共基础设施资源,影响公共数据处理效率的;开放安全风险难以评估的;依法经脱敏、脱密等处理的禁止开放类公共数据,符合受限开放的,应列为受限开放类公共数据。
l 无条件开放类
除禁止开放类与受限开放类公共数据以外的其他公共数据;已脱敏、脱密等处理的禁止开放类与受限开放类公共数据,符合无条件开放的,可列为无条件开放类公共数据。
12.按字段的类型
l 文本类(string、char、text等)
文本类数据常用于描述性字段,如姓名、地址、交易摘要等。这类数据不是量化值,不能直接用于四则运算。在使用时,可先对该字段进行标准化处理(比如地址标准化)再进行字符匹配,也可直接模糊匹配。
l 数值类(int、float、number等)
数值类数据用于描述量化属性,或用于编码。如交易金额、额度、商品数量、积分数、客户评分等都属于量化属性,可直接用于四则运算,是日常计算指标的核心字段。邮编、身份证号码、卡号之类的则属于编码,是对多个枚举值进行有规则编码,可进行四则运算,但无实质业务含义,不少编码都作为维度存在。
l 时间类(data、timestamp等)
时间类数据仅用于描述事件发生的时间,时间是一个非常重要的数据分析维度。
13.按数据的粒度
l 明细数据
通常从业务系统获取的原始数据,是粒度比较小的,包括大量业务细节。比如,客户表中包含每个客户的性别、年龄、姓名等数据,交易表中包含每笔交易的时间、地点、金额等数据。这种数据我们称之为明细数据。明细数据虽然包括了最为丰富的业务细节,但在分析和挖掘时,往往需要进行大量的计算,效率比较低。
l 汇总数据
为了提高数据分析效率,需要对数据进行预加工,通常按时间维度、地区维度、产品维度等常用维度进行汇总。分析数据时,优先使用汇总数据,如果汇总数据满足不了需求则使用明细数据,以此提高数据使用效率。
14.按数据的归属主体
l 政府数据
政府数据是指政府所拥有和管理的数据,以及政府因开展工作而产生或因管理服务需求而采集的外部大数据,为政府自有和面向政府的大数据。狭义上的政府数据主要包括公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计及气象等数据。
l 企业数据
企业数据是指所有与企业经营相关的信息和资料,包括企业概况、产品信息、经营数据及研究成果等,也包括企业的商业机密。
l 个人数据
个人数据是指以电子或其他方式记录的能够单独或与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址及电话号码等。
15.按公民个人维度
按照数据是否可识别自然人或与自然人关联,将数据分为个人信息、非个人信息。
16.按公共管理维度
为便于国家机关管理数据、促进数据共享开放,将数据分为公共数据、社会数据。
17.按信息传播维度
按照数据是否具有公共传播属性,将数据分为公共传播信息、非公共传播信息。
18.按行业领域维度
按照数据处理涉及的行业领域,将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等,其他行业领域可参考GB/T 4754—2017《国民经济行业分类》。
19.按组织经营维度
分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
l 用户数据
组织在开展业务服务过程中从个人用户或组织用户收集的数据,以及在业务服务过程中产生的归属于用户的数据。如个人用户信息(即个人信息)、组织用户信息(如组织基本信息、组织账号信息、组织信用信息等)。
l 业务数据
组织在业务生产过程中收集和产生的非用户类数据。如产品数据、合同协议等。
l 经营管理数据
组织在机构经营管理过程中收集和产生的数据。如经营战略、财务数据、并购及融资信息等。
l 系统运行和安全数据
网络和信息系统运维及网络安全数据。如网络和信息系统的配置数据、网络安全监测数据、备份数据、日志数据、安全漏洞信息等。
20.按组织数据的来源
按组织数据的来源,分为内部数据和外部数据。
内部数据自己单位内部产生的数据。
外部数据指从本单位外部得到的数据。
21.按数据的业务主题
企业或组织通常都有自己的业务分类,基于数据所反映的业务主题,可以将数据按业务板块、数据域、数据主题等层次进行分类。
比如电商企业,按业务域分类,可以分为零售板块、物流板块、金融板块等。
按数据域划分,通常会包括营销域、销售域、会员域、供应链域、产品域、财务域、人事域等。
总之,数据分类在数据资产管理中的价值很大,但一定要以业务价值为导向,要么提升管理效率,要么能提升客户体验,不要为了分类而分类。(全文完)
相关推荐:
数据、信息、知识、智慧的基本概念及DIKM模型介绍、
数据治理、数据管理、数据资产管理等相关概念辨析
万字长文,全面阐述数据治理体系
基于数据应用层次的数据分类模型
感恩遇见,如果觉得有用,记得点击右上方的“关注”哟,定期为您分享实用的干货~
,