前言

大数据里面有个专有名词: 数据血缘, 可能很多人很好奇, 不知道这个词什么意思。

数据血缘指的是大数据体系里面,数据经过数据采集 - 入湖 - 入库分析 - 数据清洗转换 - BI展示 等等处理过程中形成的脉络。

简单来说其实就是源数据是同一个,但是衍生了很多数据血脉,用人类生物继承学的观点来说,这一整条数据链路也就形成了某个业务的数据血缘。

数据血缘的特征

1. 归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。

2. 多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工生成的,而且这种加工过程可以是多个。

3. 可追溯性。数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

4. 层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度地描述信息形成了数据的层次。

数据血缘实例

一个简单的数据流转图:

可以看出数据的来源可以是多个,数据处理的过程可以自定义扩展,但是同一个数据是可以依据数据血缘图进行溯源的。

人口大数据分析平台(大数据关于数据血缘)(1)

数据血缘图

上图实际所体现的表:

人口大数据分析平台(大数据关于数据血缘)(2)

数据流转表

,