编辑导语:你是否想要了解企业在传统数据平台使用数据时会遇见哪些常见问题或挑战、什么是数据治理、治理范畴是什么、如何落地数据治理等问题呢?本篇文章的作者将详细地为大家讲解这些问题,一起来看看吧!
在传统信息架构阶段,各个部门根据各自的业务需求的需要,在不同的时期不同的技术环境下建设出各自的信息系统,从而出现了一个个“信息孤岛”式应用。
随着大数据时代的到来,为解决系统孤岛的现象,现如今各行各业都在进行大数据平台的建设,都想通过大数据的能力实现数字化转型,而数据治理作为实现企业数据价值的第一步,也就越来越被重视。
实际上,大数据平台的建设本质还是数据的建设,企业只有保证数据的可见、可用、易用、可运营,才能尽快依靠数据成为重要的生产力。
然而,企业在传统数据平台碰到的所有问题,在大数据平台也有可能遇到。且随着数据量级的变化,大数据平台必然还会产生新的问题。
一、企业使用数据时遇到的常见问题和挑战那么,企业在传统数据平台使用数据时会遇见哪些常见问题或挑战呢?
为帮助你快速理解,下面我将通过一个真实案例进行切入。
数据分析师:“老大,昨天会议上你说的供应商评价场景,我感觉目前数据存在问题。你看 10 年前上的系统与去年上的新系统供应商编码、物料编码、人员编码、数据单位都不一致,根本关联不起来。
就拿其中一个指标来说吧,近 3 年的及时到货量 = 及时到货数量 / 到货数量,目前我们连这个简单的场景都做不了。因为当时编码没有定规则,企业没有制定统一的数据标准,不仅这个场景做不了,涉及需要大量历史数据训练 AI 模型的场景也无法实现。”
老大:“他们没有上主数据系统以此保证主数据的一致性吗?也没有人定义标准?看来这个坑不小呀。下面我们抓紧建立一套数据质量体系吧,针对不符合规范的内容,通过邮件定时发送给业务部门负责人。通知发送后,如果再出现问题那就是业务部门的事情了,要不然老板还怀疑我们的能力不行,这个锅我们不背。”
算法工程师:“老大,要训练的销量预测数据感觉有问题,问了一圈业务领域的人,就没有一个对历史数据全局能说明白的,每个人都只知道自己的那一块数据。我看了一下,营销数据、订单数据、采购数据、供应链数据统计口径都不一致。我已经很尽力地拉了几次会议了,可每次组织会议时,大家都有时间的情况不多,所以这个事情部门之间就推来推去,都想让其他部门改,最后会议都是以不了了之收场。”
研发工程师:“老大,昨天采购那边好像改了什么字段或数据,导致下游的报表数据都出现了问题,今晚又得加班了,主要是现在还不清楚问题到底在哪?”
通过以上这段对话可知,数据治理一般存在以下 4 种挑战:
第一,数据不可知:作为业务人员/企业管理者不清楚数据与业务之间的关系到底是什么,对于数据资产完全不清晰。
第二,数据不可控:现有数据质量不高,导致业务人员的工作琐碎,工作量巨大,且容易出错。
第三,数据不可取:业务人员无法根据真实需求从数据源中快速提取数据,导致业务需求无法快速被满足。
第四,数据不关联:因各个数据之间没有任何关联性,导致数据难以支撑企业实际业务。
也正是因为所使用的数据存在一系列的问题,且问题还在不断涌现,所以企业有必要对数据进行治理,以此提升数据的价值,并为企业实现数字化战略打好基础。
既然数据治理如此重要,下面我们就一起来看看到底什么是数据治理?数据治理的范畴包含哪些?到底如何落地数据治理?
二、什么是数据治理?治理范畴是什么?数据治理是一种带有强烈目的的实践活动,它以数据为核心对象,涉及政府、企业、个人等各类参与主体,覆盖数据全生命周期中的各种过程和状态,利用手段和活动释放、保护数据的价值。
学习了数据治理的概念后,我通过一张数据治理“4W1H”模型图说明数据治理的范畴,以帮助你快速理解。
通过上图,我们已经很清晰地知道数据治理范畴包含了哪些。然而,随着业务不断生成海量数据,并将其转移到云中,数据管理动态的基本方式也在不断发生变化,因此,在提升大数据治理能力时,企业需要额外特别关注以下 5 个管理范畴:
(1)风险管理
人们担心敏感信息可能会暴露给未授权的个人/系统、安全漏洞、已未知人员在错误的情况下访问数据,为此,各组织都在寻求将这种风险降到最低的方法。一旦系统遭遇破坏,就需要使用额外形式的保护方式(如加密)来混淆数据对象的嵌入信息,以此保护数据。
此外,还需要其他工具支持访问管理、识别敏感数据资产,并围绕其保护创建策略。
(2)数据增值
随着企业创建、更新和流化数据资产的速度不断提高,虽然云平台能够处理更高的数据速度、数据容量和数据多样性,却仍需要引入控制和机制以便快速验证高速数据流的质量,这很有必要。
(3)数据管理
采用外部产生的数据源和数据流(包括来自第三方的付费数据)的需求,意味着应该做好不相信所有外部数据源的准备。可能需要引入记录数据血缘、分类和元数据 的工具,以帮助员工(特别是数据消费者)根据他们对数据资产生成方式的了解确定数据可用性。
(4)数据发现
将数据移动到任何类型的数据湖(基于云的或本地的)都有可能失去对已移动的数据资产、其内容的特征和元数据的详细信息的跟踪。因此,评估数据资产内容和敏感性(无论数据在哪里)的能力变得非常重要。
(5)隐私和法规
法规遵从性要求可审计和可衡量的标准和程序,以确保符合内部数据政策和外部政府法规。将数据迁移到云意味着组织需要工具来执行、监视和报告遵从性,并确保正确的人员和服务对正确的数据具有访问和权限。
掌握了数据治理的概念、管理范畴后,那么企业如何落地数据治理呢?下面一一为你揭晓。
三、如何落地数据治理?在落地数据治理过程中,企业往往需要经过如下三个阶段:
1. 整体规划阶段
在这个阶段,数据管理经常使用的两大理论是 DCMM、DMBok,在国内,企业主要采用的是 DCMM 方法论体系。
在数据治理整体规划阶段,企业需要通过 6 步走策略进行落地:
- 现状调研与需求分析:通过收集资料、现场采访了解业务现状、信息化现状等,再通过数据分析,形成现状与差距评估报告。
- 蓝图规划:通过问题盘点,制定愿景使命与目标、治理路线、各类体系。
- 平台建设:实施方案策划、总体推进计划输出、资源规划。
- 摸家底:需要输出各类定准表标准文档。
- 落平台:企业各类数据相关人员需要按照制定的相关标准进行执行。
- 抓运营:通过数据质检平台进行检核,对不满足的数据要求对应部门整改。
2. 调研、定框架、落标准阶段:输出标准阶段产出物
在调研、定框架、落标准阶段,就需要输出各类标准阶段产出物。这类标准产出物主要分为行业标准、国际标准、企业标准、业务标准等,如果涉及技术中、产品中的各个模块时,它们可以再进行具体划分。
如下截图是我给一家大型企业落地数据标准过程中梳理的各类标准文档,如果你想获取对应资料,欢迎关注公众号进行了解:
3. 标准落地阶段
数据标准梳理完了,企业就需要落实到数据开发、数据运营的各个环节,只有这样才能构成一个完整的数据生命周期管理。
(1)主数据开发
在主数据开发过程中,我们需要通过主数据平台进行数据的模型开发、数据采集、收据分发与订阅、主数据的申请、数据接入等。
(2)数仓建设
在数仓建设过程中,我们需要遵循如下标准:
- 数据开发:数据开发实现数据仓库需要遵循数据标准、数据标准规范化文档(见产品人栖息地数仓课程)
- 数据模型架构原则:数仓分层原则、主题域划分原则、数据模型设计原则。
- 数仓公共开发规范:层次调用规范、数据类型规范、数据冗余规范、NULL字段处理规范、指标口径规范、数据表处理规范、表的生命周期管理。
- 数仓命名规范:词根设计规范、表命名规范、指标命名规范。
- 数仓各层开发规范:ODS 层设计规范、公共维度层设计规范、DWD 明细层设计规范、DWS 公共汇总层设计规范。
(3)指标开发
在指标开发阶段,我们需要遵循原子指标、派生指标、复合指标的落地标准。
- 全局设计:用来划分数据总线,这是数据标准,落地成数据总线文档。
- 原子指标:用来定义业务过程中的度量逻辑,比如:SUM、COUNT、MAX、MIN、AVERAGE、STDDEV、VAR 等。
- 派生指标:落地后属于真正业务意义上的 DWS 层指标。
- 复合指标:基于指标之间的计算获得。
在这个阶段,我们需要清晰地知道原子指标、派生指标之间的关系,如下图所示:
当然,我们也需要很清晰地知道指标与数仓之间的关系。指标是模型层的上层应用,在可视化、规范化指标建设中,它反过来可落地成每个主题中的模型。
(4)标签开发
标签根据来源可以划分为原子标签、衍生标签、组合标签、自定义标签、算法标签这几种,如下说明:
- 原子标签:体的原始数据维度,它可以是实体的基本属性,如性别、年龄、性别等,也可以是经过加工的数据,如会员等级、年收入、年消费金额等。原子标签一般来源于离线计算DWS层的一个结果表,读入标签系统中,衍生标签和组合标签基于此计算。
- 衍生标签:可以通过实体的主表、辅表或关系表的基础字段来创建,支持配置规则或写 SQL 两种加工方式。
- 组合标签:属于规则类标签,它是多个标签的组合,由原子标签、衍生标签、自定义标签组合而成。
- 自定义标签:通过导入标签数据的方式创建的标签。
- 算法标签:通过机器学习分类学习得到的标签。
当然,标签也可以根据内容侧和场景主题进行划分。
在实际落地过程中,我们需要清楚地知道标签的分层逻辑:原子标签 ——组合标签—— 业务标签,且要清楚标签也需要遵循一定的规范。
然而,现实中很多企业在给实体打标签时,因为没有遵循一定的规范,使得标签越来越不精准,业务人员也感觉越来越力不从心。久而久之,随着标签越来越多,业务人员也就更加不知所措,标签的维护成本也越来越高……
比如,很多企业给一个实体(用户/企业)打了很多标签,在使用时却并不清楚当初标签是如何定义的,能用于什么场景。此时,如果发生“标签爆炸”,那么这套系统就会被玩坏了。
(5)数据运营
在数据运营阶段,我们需要对任何模型进行数据质检,最终生成对应的数据报告,且报送对应业务线需要对发生问题的数据进行处理,这就形成了一套从标准、制定检核任务、根据质检结果进行 check、对数据进行梳理或者发现缺少的标准进行补充的完善 PDCA 数据治理闭环。
数据运营阶段我们要做哪些事情呢 ?比如数据格式不规范、空值、数据趋势波动趋势、值域等问题,我们可以通过数据质检平台进行质检。
数据质检平台主要包括两方面的能力:技术侧检测规则、数据质量。指定检核规则需要从数据的一致性、唯一性、准确性、有效性、及时性、完整性这 6 个维度进行梳理。
如下图是数据的一致性、唯一性、准确性、有效性、及时性、完整性案例,建议收藏,在其他地方估计你很难再找到这么详细的数据检核规则文档了:
然后,经过定时的任务调度,生成数据质量检核报告。在报告中,我们就可以看到每个数据维度上存在的问题及存在问题的具体数据,再将对应的数据下发到对应的部门进行复盘,该调整的调整,该增加规范的增加。
四、小结
企业从关注技术到关注数据治理和运营,是对数据价值本身的回归。
因此,在大数据时代,企业必须盘活业务数据,并构建一套从数据展示、数据分析、数据挖掘等多场景的高效应用,唯有如此才能在激烈的竞争中脱颖而出。这就要求企业不仅仅需要关注现在数据中台化的能力,还需要基于数据中台在落地数据治理过程中做统一的数据规划。
未来,我相信,随着大数据与人工智能的发展,越来越多的智能场景将被赋能自动化业务。
公众号:产品人栖息地
本文由 @DataSir 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
,