数据治理给我们带来了什么亮点(数据智能平台实践报告)(1)

文 | 爱分析

报告摘要:

数字化转型背景下,企业数据平台面临多重挑战

数据平台是支撑企业数字化转型,实现数据分析和数据应用的底层基础设施。通过应用数据平台,企业能够实现精细化运营,从而降低运营成本、提高运营效率、提升创新能力。

近年来,企业和政府部门对数字化的价值的理解愈加深刻,也纷纷加快数据基础设施的建设,数据应用的广度和深度随之极大地扩展,由此给数据管理与应用带来了一系列挑战。这些挑战包括:数据规模持续膨胀提升了数据资产管理的重要性,数据应用场景持续扩展要求数据平台具备更高的敏捷性、易用性、实时性和智能化能力,对企业的数据安全合规要求也更加严格。

构建新一代数据基础设施:数据智能平台

数据智能平台是企业数字化运营深入阶段的统一数据能力平台,能够对数据资产按统一标准进行管理以方便数据可用,并满足企业对数据应用的敏捷开发、实时响应、简单易用、智能分析等需求,同时具备完善的数据安全机制。

爱分析认为,正在兴起的新一代数据智能平台需要具备云原生、AI增强、敏捷开发与应用、实时数据处理与分析四大核心能力。同时,在平台架构层面,数据智能平台的底层基础设施、存储与计算引擎、数据集成与开发、数据资产管理、数据应用与数据服务等模块相比传统数据平台也提出了更具体和更复杂的要求。

数据智能平台的建设方法论

数据智能平台的构建是一个需要从全局进行规划和建设,并在后续运行中能够持续迭代的系统性工程,因此需要一套科学和完备的方法论指导这一过程。

数据智能平台建设过程中的核心环节主要包括了顶层战略规划、应用场景规划、基础架构设计、数据规范与数据架构设计、组织与人员规划。在顶层规划层面,数据智能平台的建设需要考虑组织的整体目标,合理规划建设路径,并给予相应的资源支持。在应用场景规划层面,组织要首先评估自身的业务需求,明确场景实现的优先级,同时调研和参考外部案例。在基础架构设计层面,数据智能平台需要考虑引入云原生架构、应用多数据处理引擎,并对数据资产和数据应用做统一管理。此外,组织还需根据业务架构对数据架构进行设计,对数据进行统一规范,方便业务人员使用数据。在做组织和人员规划时,需要对组织的业务线复杂度做评估,在集中式和去中心化建设中选其一。

重点行业的数据智能平台典型实践案例

数据智能平台在实际落地过程中,仍然需要根据行业特点和企业组织的具体业务需求、现有数据基础设施等情况对平台的架构和功能做针对性的设计和规划。

为了给需要建设数据智能平台的企业组织提供一定的经验参考,爱分析对金融、政府与公共服务、消费品与零售、工业与能源等重点行业的行业特点,不同行业对建设数据智能平台的需求差异做了分析。同时,爱分析深入调研了上述行业中一批国内领先企业或组织的数据智能平台实践案例,对他们在数据智能平台建设过程中面临的需求与挑战,具体的解决方案,平台落地后的效果,以及相应的建设经验做了详细的研究,并将案例内容呈现在本报告中。

目录:

1. 数字化转型背景下,企业数据平台面临多重挑战

2. 构建新一代数据基础设施:数据智能平台

3. 数据智能平台的建设方法论

4. 重点行业的数据智能平台典型实践案例

1. 数字化转型背景下,企业数据平台面临多重挑战

1.1 数据平台是支撑企业数字化转型的核心基础设施

数据平台是企业进行数据分析和数据应用,从而实现数字化转型的核心基础设施。通常,数据平台包含数据采集与接入、数据存储与计算、数据管理、数据分析与挖掘、数据服务等功能。

图 1: 典型数据平台架构

数据治理给我们带来了什么亮点(数据智能平台实践报告)(2)

从业务的角度,数据平台支撑了企业数字化转型的各项需求,企业因此能够实现精细化运营,从而降低运营成本、提高运营效率、提升创新能力。具体而言,通过数据平台的应用,企业可以在业务中实现数据驱动,从而达成以下目标:

1)准确洞察用户画像和用户需求

2)及时感知市场趋势

3)降低管理和生产成本

4)设计和生产出更符合用户需求的产品

5)更快地推出和迭代产品

1.2 企业数据管理与应用正面临一系列挑战

近年来,面对市场环境的快速变化,以及政府对发展数字经济的促进举措,企业对数字化的价值的理解愈加深刻。在各行业企业或政府部门纷纷加快数据基础设施的建设的同时,数据在企业经营管理中的应用广度和深度也随之极大地扩展,由此带来数据管理与应用的一系列问题和挑战。

1.2.1 数据规模持续膨胀,数据资产管理重要性提升

随着企业业务的快速发展以及全面的数字化,企业内部业务和数据系统会变得众多,当这些数据汇聚之后,需要处理的各种结构化和非结构化数据的数据规模也因此急剧膨胀。这给企业的数据应用和数据资产管理带来了以下问题:

1)不确定数据价值。企业用户往往不能确定系统中有哪些数据,也不知道自己的业务问题可以使用哪些数据来解决。

2)不能共享数据。企业缺少统一的数据管理标准,导致各业务部门之间难以对数据进行汇聚、共享和使用,从而无法发挥大数据的协同价值。

3)难以获取所需数据。用户获取所需数据的过程太长和复杂,且缺乏有效的数据开发工具,导致用户获取和使用数据存在困难。

1.2.2 数据应用场景持续扩展,敏捷性、易用性、实时性、智能化要求提升

为了充分发挥数据的价值,数据驱动的决策和业务应用正逐渐渗透进企业的各个部门和各个业务线。面对数据应用场景的持续扩展,企业对其底层数据平台也提出更高的技术和能力要求,包括了敏捷性、易用性、实时性、智能化四个方面的要求,具体如下:

敏捷性。企业存在大量数据分析,尤其是创新性的数据分析和应用需求。但传统竖井式建设的信息系统修改困难、集成混乱;企业缺乏自有的技术开发能力,无法快速响应业务需求。

易用性。数据平台逐渐由赋能数据部门转向全面赋能业务部门,而使用传统数据平台需要的编程和数据分析能力是大部分业务人员所不具备的,因此需要新一代的数据平台具备低门槛的自助分析能力,适应不同能力的数据或业务人员。

实时性。企业在生产和运营中存在越来越多的实时决策场景,如何快速查找、分析和获得数据洞察是当前数据平台面临的一大挑战,需要从平台的架构设计、计算和存储引擎,以及业务流程优化上满足数据分析的实时性需求。

智能化。在数据应用越来越多的背景下,企业相关的人力配备已不能满足需求,因此需要平台具备智能化的能力,一方面在数据分析环节引入自动化能力,减少人工操作,降低人力成本。另一方面,通过平台的智能预测能力,提高业务决策效率和能力。

1.2.3 数据安全合规要求趋严

数字化时代,数据安全风险已经渗透在数据应用中的各个层面,例如数据采集、数据传输、数据存储、数据共享等,因此企业数据泄漏造成的损失和风险的可能在加大。

与此同时,大众对数据隐私的关注,加上监管对数据安全要求的趋严,都促使企业在搭建新一代的数据平台时,需要在各个层级上都建立完善的安全机制防范数据泄漏的风险。

表1:数据安全重点法律法规

数据治理给我们带来了什么亮点(数据智能平台实践报告)(3)

2. 构建新一代数据基础设施:数据智能平台

2.1 数据智能平台的定义

要定义新一代的数据基础设施,我们首先需要阐明在之前的发展阶段中,不同阶段的数据基础设施产生的原因、应用场景和面对新阶段的需求时的局限性。

数据基础设施经过数十年的发展,已经依次经历了三个阶段:数据库、数据仓库、大数据平台。在数据库阶段,企业对数据的使用需求主要是面向管理层从宏观层面对公司的经营状况做描述性分析,处理的数据为有限的结构化数据。在数据仓库阶段,企业对数据的使用需求从面向管理层拓宽到面向业务人员,主要满足一些业务监测和洞察类的数据查询和分析需求,处理的数据依然以结构化数据为主。在大数据平台阶段,企业需要处理大规模、多源异构的数据,对业务的监测和洞察也更多地偏向诊断性和预测性分析。

而到了2019年之后数字化转型的新阶段中,企业对数据应用的范围从之前的管理层和部分业务人员扩展到了跨部门、跨企业的数据共享,需要进行大量面向业务,实时和智能决策的探索式、自助式分析,并且需要处理超大规模的多源异构和实时数据。如第一章节所述,这些变化对数据管理和应用带来了一系列挑战和需求,传统的数据平台已经无法满足,新一代的数据基础设施即是要解决这些问题。

图 2: 数据基础设施的演进历程

数据治理给我们带来了什么亮点(数据智能平台实践报告)(4)

因此,爱分析认为,新一代的数据基础设施,数据智能平台,可以被定义为企业数字化运营深入阶段的统一数据能力平台,能够对数据资产按统一标准进行管理以方便数据可用,并满足企业对数据应用的敏捷开发、实时响应、简单易用、智能分析等需求,同时具备完善的数据安全机制。

2.2 数据智能平台的核心能力

基于对数字化转型深入阶段,企业在数据管理和应用中需要面对和解决的问题的理解,以及对一些行业领先企业在搭建数据智能平台中的实践案例的调研和经验总结,爱分析认为,正在兴起的新一代数据智能平台需要具备云原生、AI增强、敏捷开发与应用、实时数据处理与分析四大核心能力。

图 3: 数据智能平台的四大核心能力

数据治理给我们带来了什么亮点(数据智能平台实践报告)(5)

2.2.1 云原生

云原生是指在应用的设计阶段就为了云的运行环境而设计,包含微服务、容器化、DevOps、持续交付等特征。云原生架构能够为数据平台带来以下主要能力优势:

1) 云原生架构下大数据组件都是以容器化的形式来部署,企业因此能够快速的开发、测试、迭代和上线大数据应用,并且方便了数据的共享和复用。

2) 快速集成新的开发工具。企业经常需要在数据平台中尝试新的功能组件,由于主流的开源软件基本都提供了容器化部署,因此能够快速集成到云原生架构的数据平台中。

3) 降低系统复杂性和运维成本。在云原生架构的数据平台中,Kubernetes、Mesos等工具能够实现统一的资源管理和调度,这极大提高了系统复杂性,提高了运行效率,并且在数据平台中部署和运行分布式系统也更加便捷。

4) 轻松实现存算分离和弹性伸缩,降低使用成本。云原生架构能够轻松实现计算和存储资源的分离,企业因此可以按照需求分别使用存储和计算资源,这降低了使用成本,也简化了多云和混合云部署。

2.2.2 AI增强

AI增强是指利用机器学习和人工智能技术使数据清洗与准备、数据分析与可视化、机器学习等分析过程中实现部分环节的自动化,从而节省大量的人力成本。AI增强的自动化能力主要体现在数据智能平台运营过程中的以下环节:

1) 数据清洗与准备:自动匹配,联接,分析,标记和注释数据;推荐用于连接、丰富、清洗数据的最佳方法;自动执行重复的转换和集成;自动识别数据沿袭和元数据。

2) 数据分析与可视化:自动查找和描述数据中的相关性、异常、聚类、关键驱动因素和预测等;自动生成图表或报表;可视化或对话界面(NLQ&NLG)查找和分析数据。

3) 机器学习:自动特征工程;自动模型选择和参数调整;自动模型部署和监控。

2.2.3 敏捷开发与应用

数字化的核心目标之一是要能够支撑企业的商业创新,尤其是当数据和数据应用的规模和复杂性越来越大的时候,企业要去尝试各种新的数据应用,就需要数据平台具备相应的敏捷响应能力。数据智能平台的敏捷性主要包括了工具集成的敏捷性、数据开发的敏捷性、数据分析和应用的敏捷性。

1) 工具集成的敏捷性。当企业需要尝试新的数据应用时,经常需要用到一些新的分析框架,如前文提到,云原生架构能够为企业提供快速接入和部署新的工具或组件的敏捷化能力。

2) 数据开发的敏捷性。数据开发的目的是使用各种工具,包括数据建模、数据探索、数据查询、机器学习、数据可视化等,来完成数据分析。要实现敏捷的数据开发,通常需要企业构建一站式的数据集成和开发平台,提供大数据的汇聚、加工、服务、资产管理等全流程能力,并降低其使用门槛。

3) 数据分析和应用的敏捷性。实现数据分析和应用的敏捷性数据平台在底层数据管理和数据分析工具上有相应的功能设计,比如,通过建立标签体系方便用户将数据快速应用于业务,通过提供可视化的分析工具灵活地满足用户的分析需求,通过AI增强能力自动识别有价值的数据并推送给用户等。

2.2.4 实时数据处理与分析

为了应对企业越来愈多的实时性数据分析需求,数据平台需要在以下层面具备实时性的数据处理能力:

1) 实时的数据接入和数据采集。应用Kafka、RocketMQ等工具实现数据的实时采集。同时,对于核心业务系统数据,进行被动采集;对于用户访问行为习惯等数据,则会进行主动采集。

2) 实时的数据计算与查询。基于Flink等实时计算引擎,以及指标计算、规则计算、模型计算等多种计算处理能力,构建数据平台的实时计算和查询能力。

3) 实时的数据分发。通过Kafka实现灵活的数据分发,以承载不同用户的实时业务。

4) 流批一体。由于企业在业务分析中使用的数据范围越来愈多地横跨历史数据和实时数据,需要数据平台具备流批一体的能力,用一套逻辑描述流与批业务,用一个引擎也能处理实时和离线数据。

2.3 新一代数据智能平台的架构

结合前文所述的当前企业在数据管理和应用中面临的挑战,以及对一些领先企业搭建的数据智能平台的架构进行归纳总结,爱分析画出了如下图所示的数据智能平台的典型架构。

图 4: 数据智能平台典型架构

数据治理给我们带来了什么亮点(数据智能平台实践报告)(6)

可以看到,新一代的数据智能平台的架构至少在五个层面具有区别于传统数据平台架构的特征。

表2:数据智能平台与传统数据平台的主要区别

数据治理给我们带来了什么亮点(数据智能平台实践报告)(7)

3. 数据智能平台的建设方法论

类似传统数据平台的构建,数据智能平台的构建是一个需要从全局进行规划和建设,并在后续运行中能够持续迭代的系统性工程,因此需要一套科学和完备的方法论指导这一过程。

爱分析通过对多家领先企业的数据智能平台实践案例进行调研,总结了数据智能平台建设过程中比较共性的最佳实践方法论,涉及的核心环节主要包括顶层战略规划、应用场景规划、基础架构设计、数据规范与数据架构设计、组织与人员规划等方面。他们构成的数据智能平台建设的主要流程,以及具体包含的内容如下图:

图 5: 数据智能平台建设的关键环节

数据治理给我们带来了什么亮点(数据智能平台实践报告)(8)

3.1 顶层战略规划

数据智能平台是支撑企业数字化转型的新一代数据基础设施,是企业各部门各业务线共同的数据平台和数据服务体系,因此,数据智能平台的建设的核心目的是服务于企业的整体战略目标和业务目标。

同时,数据智能平台的建设不仅仅涉及技术架构,还会涉及企业的业务模式和组织架构,因此企业应当以顶层战略为起点,根据业务目标规划数据智能平台的的建设蓝图与路径。

此外,传统企业的部门墙问题明显,要实现各部门间的沟通协作,共建数据智能平台,需要企业决策层在组织架构和资源方面给予统一的调配和支持。

3.2 应用场景规划

数据智能平台的价值最终需要通过业务场景中的数据应用来体现,因此,平台建设必须应用场景规划先行,数据智能平台应用场景规划需要考虑以下关键因素:

评估企业业务需求和数据现状。从具体的业务需求场景厘清相关的业务线、相关岗位和业务流程,梳理其中的业务需求。同时,对企业的数据资产进行评估,厘清企业有哪些数据、需要补充哪些数据等。

明确场景实现优先级。企业需要基于企业战略与业务目标,可实现的业务价值、数据应用的实现成本、数据应用的可行性等方面进行评估,确定哪些优先级和紧急度比较高的场景可以应用数据平台解决业务问题。

调研和参考外部案例。企业在建设数据平台前应当尽可能多地进行相关调研,并参考同行实践案例,总结相关经验。同时,可以借助有成熟经验的数据平台建设厂商帮助企业解决相关问题。

3.3 基础架构设计

好的基础架构设计能够让项目快速落地,并支持在现有系统上快速开发新功能、引入新数据,而一旦选择某个技术架构并开始实施,后面出现问题再来修改的成本很高。构建新一代的数据智能平台需要在基础架构设计上考虑一下要点:

1) 引入云原生架构,以便快速开发、测试、上线和迭代数据应用,同时满足在工具集成、系统运维、以及存储和计算资源上的各种敏捷性要求。

2) 应用多种数据处理引擎应对多样化的数据分析场景需求,重点是为平台构建智能化和实时化的数据处理能力。

3)对数据和数据应用资产进行统一的管理,避免数据资产不明确、使用复杂、效益低下等问题,方便数据资产的使用、共享和复用。

3.4 数据规范与数据架构设计

为了保证用户能够在数据平台中快速找到自己所需的数据,企业需要对数据架构,即数据的组织方式,以及数据规范,即数据平台中输入和输出的数据符合规范,进行合理地设计。

1) 企业需要根据业务目标及业务流程设计平台的数据架构,包括平台提供的明细数据、汇总数据、数据分析结果、数据服务等。

2) 对数据平台的输入数据和输出数据进行统一规范,如在所有业务系统中使用统一的全局ID,用原子指标、统计颗粒度、业务限定等维度来派生指标名称,构建指标体系。

3.5 组织与人员规划

数据智能平台的能力与业务高度相关,因为平台的搭建需要IT部门、数据部门、以及各业务部门沟通协调,对人员进行统筹安排。根据企业数据能力现状,在集中式和去中心化两种人员模式中选其一。

1) 集中式模式:组建一个专门的数据智能平台团队,由该团队负责所有数据能力的规划和开发。该模式好处在于数据能力的规划和实现比较直接,能够快速落地,难点在于需要团队理解业务。该模式适合公司业务体系相对简单,且软件在企业内部只是辅助工具的传统型企业。

2) 去中心化模式:由传统的数据平台团队搭建底层的平台,各业务部门在平台上开发和使用所需的数据应用。该模式好处在于业务部门对业务最理解,能够开发出最满足业务需求的数据应用,且后续迭代也更方便,难点在于需要处理好部门分工和协调的问题。该模式适合业务线庞杂,业务定制化需求较多的大型企业。

图 6: 数据智能平台建设推进方式

数据治理给我们带来了什么亮点(数据智能平台实践报告)(9)

4. 重点行业的数据智能平台典型实践案例

尽管我们已经对数据智能平台做了较明确的定义,并对数据智能平台需要具备的核心能力、架构、建设方法论等问题做了归纳总结,但在数据智能平台在实际落地过程中,仍然需要根据行业特点和企业组织的具体业务需求、现有数据基础设施等情况对平台的架构和功能做针对性的设计和规划。

为了给需要建设数据智能平台的企业组织提供一定的经验参考,爱分析对金融、政府与公共服务、消费品与零售、工业与能源等重点行业的行业特点,不同行业对建设数据智能平台的需求差异做了分析,并深入调研了这些行业中一批国内领先企业或组织的数据智能平台实践案例,对他们在数据智能平台建设过程中面临的需求与挑战,具体的解决方案,平台落地后的效果,以及相应的建设经验做了详细的研究,并将案例内容呈现在本报告中。

4.1 金融

在互联网趋势加之疫情影响下,消费者阵地逐渐向线上化转移,同时随着金融监管政策持续加码,对金融行业而言,进行营销运营、风控合规等全流程的数字化转型势在必行。首先,线下渠道难以满足金融机构业务需求,构建全渠道营销体系成为金融机构的关注重点;其次,金融产品丰富性增强,客户粘性减弱,良好的用户体验逐渐成为金融机构的核心竞争力;此外,随着不良资产的暴露、监管的不断收紧,防范各类欺诈风险,是金融机构的关键目标。因此,引入各类数据,依托强大的数据处理与分析能力,深度洞察客户,从而为精准营销、精细化运营和风控等做支撑,是金融行业的共同诉求。

现阶段,多数金融机构已完成了部门级数据库、数据平台建设,但多基于“竖井式”架构独立建设或由业务部门主导开发,各部门、各业务场景间数据标准不统一、数据不互通,无法形成跨部门数据复用及全行级数据洞察。此外,数据价值挖掘深度不足,未结合业务理解,构建数据模型、形成客户画像,无法真正落地于营销与风控场景,也是现阶段金融机构存在的问题。

因此,金融机构在构建数据智能平台时,应统一整合多渠道、跨业务数据,打破数据孤岛,建立数据规范,结合业务进行数据建模与数据关系抽取,构建数据标签体系,生成客户画像及关系图谱,从而为精准营销、智能反欺诈赋能。

案例1 : 知识图谱平台助力建设银行防范金融风险

中国建设银行(以下简称建行)是一家拥有60多年的历史的老牌国有银行,总资产规模排名全球第二。作为国内最大的个人贷款和第二大信用卡发行行,信贷业务是建行业务体系中的核心,而风险预警则是为信贷业务保驾护航的重要环节。

近年来,随着建设银行信贷、信用卡等业务的快速发展,行内面临着越来越复杂的风控难题。一方面,行内数据量随之增大,个人之间、企业之间,以及个人与企业之间的关联关系变得更加复杂,另一方面,不法分子的各种反风控、反侦查手段层出不穷,因此传统的风险预警模式已经不足以识别很多金融风险。经过考察评估后,建设银行决定引入知识图谱平台来应对不断提高的风控难度,其知识图谱平台的建设主要分为两个阶段,各个阶段都有着不同的需求和挑战。

在第一阶段,建设银行主要是希望通过应用知识图谱实现对银行内金融风险以及一些关联关系的更快和更深层次的查询挖掘。在2017年底左右,市场出现了一些新型的假个贷,这类假个贷的特点是资金链路深,层级复杂,如果用传统的基于规则和SQL查询的方式识别这些风险,一是计算量大,很多复杂关系无法被识别,二是根据数据金额做SQL的模糊匹配其结果也往往不准确。

在第二阶段,建设银行在已经在几个项目上成功应用知识图谱的基础上,需要在行内构建统一的知识图谱平台,提供统一的对复杂金融风险、关联关系的查询和分析能力。在此阶段,建设银行面临的挑战主要有两个:

1)建设银行的知识图谱平台建设开始是需求驱动,缺乏顶层设计,产生的问题是开始没有对需要使用到的关联关系做统一规划,没有设计出一个合理的底层的图数仓模型,对于知识图谱在哪些场景中去应用也缺乏统一规划和相应支撑。

2)由于缺乏外部可参考的经验,建设银行对于如何做关系抽取,即哪些数据之间应该构建关联关系,哪些业务可以用到关联关系,以及某个关系构建之后,超过多少数据量需要分表等问题缺乏认识。

结合顶层规划与外部经验参考应对知识图谱平台建设的挑战

在知识图谱平台的搭建过程中,建设银行选择海致星图作为合作伙伴,与海致星图共同探索和建设知识图谱平台。

海致星图是一家专业的企业级知识图谱产品和服务提供商,自研了Atlas知识图谱平台、Atlas图数据库等产品,服务于金融、能源互联网、工业互联网等行业的企业。

建设银行的知识图谱平台建设主要在平台架构设计、关系抽取、应用场景规划三个方面解决了前期存在的种种挑战。

在平台的架构设计方面,知识图谱平台在建设银行的数据中台里的定位是为底层的原始数据做基础准备。在底层源数据之上,知识图谱平台会对数据做数据建模,抽取数据中的关系;然后将产生的完整的知识图谱网络存储在图数仓中;在之上是图分析和图应用平台,包括了图管理、图挖掘、各类图分析算法,以及多种知识图谱应用。这其中,海致星图提供的相关产品支持了建设银行知识图谱平台多层次的关系分析、灵活的二次开发、自动化关系展现等能力。

图 7: 建设银行知识图谱平台架构图

数据治理给我们带来了什么亮点(数据智能平台实践报告)(10)

在关系抽取方面,海致星图为建设银行提供了深入的指导。具体而言,海致星图对建设银行应该构建哪些数据关系,如何构建这些数据关系,并对这些数据关系构建之后会出现哪些效果和问题,以及如何解决可能遇到的问题等提供了大量从实践中总结出的经验建议。

在应用场景规划建设方面,建设银行主要规划建设了五类应用场景。1)反欺诈:识别资金中介,拦截可疑交易;2)风险传导:对公客户出现不良或逾期时,预警提示风险可能传导到的干系方;3)资产保全和处理:处置不良资产时,查看不同债权方以及资产之间的关系;4)监管:给报送监管机构的数据做内部的勾稽关系检查;5)优化经营费用:识别套现党、羊毛党。

知识图谱平台落地的价值与效果

通过构建知识图谱平台,建设银行在风控和关联关系挖掘上实现了以下三点价值和效果:

1)风险识别更精准。知识图谱可以对资金链路下探多层,且可以呈现图上各个实体之间的关系,建设银行因此能够比用传统方法更精准地识别金融风险,甚至识别出很多传统方法无法识别的风险。

2)视图更直观。知识图谱识别出可疑交易、异常关系后,客户经理、贷中贷后人员可以在一张图上看清关系流向,便于快速和清晰地发现异常。

3)自动化的展现。知识图谱平台能够对金融风险做自动化的识别和展现,因此减少了客户经理人工操作的时间,提高了风控效率。

建设银行知识图谱平台建设经验总结

1)知识图谱平台建设应该由需求驱动,并从顶层进行规划和建设。在开始阶段要做好充分评估,设计出一个合理的底层图数仓模型,避免在后期因为数据模型考虑不完善要做大量调整而产生很高的成本。

2)在数据模型、知识图谱的构建上要充分借鉴外部专家的经验。知识图谱的构建与业务高度相关,对于哪些业务数据之间应该构建关系,如何构建,数据关系会产生哪些业务价值等问题,甲方通常没有经验和认知,这就需要广泛地借鉴外部专家的经验。

3)平台运营过程中要定期地做效果评价和回顾。有些数据关系在构建之后可能很长时间内都很少用到,因此在知识图谱构建之后需要对其做进一步的分析和评估,识别出没有意义的数据关系,有针对性地节约运算资源。

案例2 : 构建实时数据平台,满足城商行联盟实时业务需求

山东省城市商业银行合作联盟有限公司(以下简称“联盟”)是经原中国银监会批准成立,国内目前唯一持有金融牌照的中小银行金融科技服务公司。自成立以来,联盟以提升成员行信息科技支撑水平和风险治理水平为重点,为67家成员行提供核心业务系统的搭建以及数据化的服务。

随着成员行业务量的增长与业务场景的丰富,联盟实时数据处理能力不足的问题愈发显著。一方面,联盟承载了众多成员行核心业务系统的数据,数据加工压力大,数据处理与分发能力薄弱;另一方面,成员行对实时交易数据的查询,以及实时数据应用的需求愈发旺盛。因此,构建统一的实时数据整合和分析平台,实现实时数据处理与分发、实时交易计算与查询能力,成为了联盟的重要诉求。在实时数据平台搭建过程中,联盟在以下四个层面遇到了挑战:

1) 在项目规划阶段,如何设计合理的实时数据平台的架构。搭建实时数据平台,需要对联盟及成员行现有及未来一段时间内的业务需求做梳理,同时考虑联盟的IT现状,整合数据平台现有能力。

2) 如何构建实时数据处理能力。由于联盟承载了多个城商行的在线查询任务,且需为成员行实时营销、风险等实时业务的提供数据能力支持,因此需要为数据平台构建涵盖数据采集、数据计算、数据分发全流程的实时数据处理能力。同时,需要对实时指标和批量指标的协同调用做规划。

3) 需要解决数据计算逻辑复杂的问题。联盟提供的财务报表查询,CEP指标计算等服务,其数据计算逻辑复杂度高,需要相应的引擎支持。

4) 需要平台具备易用性和开放性。为了充分满足业务人员的使用需求,需要在数据建模、数据处理等多环节中,提供简单易用,并更为开放,满足灵活开发需求的服务。

基于对现有IT架构和业务需求的深度梳理,构建实时数据整合和分析平台

在实时数据平台搭建中,联盟选择与九章云极DataCanvas展开合作。九章云极DataCanvas成立于2013年,专注于自动化数据科学平台的持续开发与建设,提供自动化机器学习分析和实时计算能力,为政府及企业智能化升级和转型提供全面配套服务。

在该项目中,联盟的IT团队与九章云极DataCanvas共同合作,对联盟及成员行的IT架构与业务流程进行了全面梳理,为联盟构建了统一的实时数据平台。

首先,项目组基于对联盟IT现状和业务需求的调研,对实时数据平台的架构做了统一规划,主要涉及了数据接入、数据计算、指标管理和数据应用等环节。

图 8: 山东省城商行联盟实时数据平台架构

数据治理给我们带来了什么亮点(数据智能平台实践报告)(11)

其次,联盟的数据平台从数据采集、数据计算、数据分发三个层面构建了实时数据的处理能力。在数据采集方面,除了使用Kafka消息队列传输数据,平台还对不同类型数据采取了不同采集方式,比如,对于大部分核心业务系统数据采用被动采集的方式,以降低业务系统高峰期的计算压力,对于APP的用户访问行为等数据,以及核心业务系统的数据库,则采用主动采集的方式;在数据计算方面,平台采用基于流计算框架,并结合分布式缓存为平台提供高性能的实时计算能力。此外,平台对于实时指标和批量指标做了梳理和管理,实现了流批一体化的数据加工能力;在数据分发方面,平台对成员行客户的在线数据查询需求以插件任务的形式做业务承载,对于成员行的实时业务数据需求,则提供了接口输出或数据库写入等灵活的数据分发模式。

针对复杂指标处理能力不足的问题,平台提供了指标引擎、规则引擎、决策引擎三大实时计算引擎。通过指标引擎可以做指标查询、指标分级管理,便于业务人员直接操作指标、加工逻辑定义等;规则引擎与指标配合,能够利用规则逻辑,进行规则加工,以实现风控等业务场景的落地;决策引擎则加入了机器学习模型,助力联盟及成员行实现了智能决策。

为了构建更加易用和开放的数据平台。平台一方面预置了大量的数据加工处理的算子,可以通过调用算子实现界面化配置的流程开发;另一方面,平台构建了“白盒”算子库,允许用户对算子进行优化和自定义,满足更加灵活多样的业务需求。

实时数据平台满足联盟数据及业务实时性要求

通过构建实时数据平台,联盟在实时数据处理能力和业务上实现了以下价值和效果:

第一,构建了实时数据的处理与分发能力。在接入联盟成员行的核心数据过程中,实现了交易的隔离和各个成员行数据权限隔离,提升数据分发安全性;数据分发流程化构建,实现了可视化的接入、分发、处理和运营监控,满足了数据处理与分发的实时性要求。

第二,完善了联盟实时交易计算及查询服务。2020年在手机银行业务基础上,联盟满足了汇总数据查询、明细查询、生产条件的筛选查询等实时交易的计算和与查询,实现了如收支分析、查找交易月度账单、模糊查询、标签修改、计入与不计入修改等个性化功能服务。

第三,完成了“T 0”实时五大报表的建设。平台将成员行五级机构、三级科目、30倍裂变数据处理的报表查询响应时长,从5分钟提升至“T 0”,完成了五大会计报表的实时计算和展现。

联盟实时数据平台建设的成功经验

1) 项目建设前期需对甲方的IT现状、业务需求等做梳理,规划合理的平台架构,将实时数据处理能力整合进现有平台。同时要保证平台架构的成熟和开放,以应对未来发展需要。

2) 实时数据平台建设需要聚焦技术目标,合理规划落地路径。项目方需要合理规划未来一两年内的业务需求,分阶段提出实时数据平台的建设目标,并构建相应能力。如联盟项目初期着重建设数据处理能力、解决实时财务报表问题。建设过程后期则重点解决实时数据和批量数据的整合,数据指标管理、数据分发等方面的问题。

4.2 政府与公共服务

为了实现由管理型政府向服务型社会的转变,政府和公共服务领域正在全面拥抱数字化转型,运用数据技术对施政理念、流程、方式和工具进行全方位和系统性的变革,推动实现政府治理体系和治理能力的现代化,从而提高管理效率,提升服务水平和能力。

政府与公共服务领域数字化的难点在于其会涉及到警务、交通、城管、应急、环保、市场监管等多个部门和单位,一方面数据孤立,共享和调用困难,另一方面,庞大的数据存储和计算需求用传统方式难以满足。同时,各部门和单位数据应用的场景千差万别,缺少易用的数据开发和数据分析工具支持。此外,大量繁杂工作对人员依赖较大,办事效率低下,缺乏智能化手段。

针对以上挑战,政府与公共服务相关部门在构建数据智能平台时需要打通各部门和单位的数据,实现数据共享,并且在智慧城市、智慧交通等领域,平台需要考虑采用云原生架构,充分利用云计算在存储和计算资源上的弹性优势。同时,平台需要提供完善的数据分析方法论和数据分析工具,构建基于主题应用的分析能力,并在一些应用场景提供AI能力,实现服务的智能化。

案例3 : 实现数据拉通和统一汇聚,广东省应急管理厅构建数据治理能力体系

从2018年开始,随着应急管理部的成立,作为国家组织结构改革的一部分,各个地方也相继成立应急管理部门。广东省整合了包括安监、消防以及地震等部门,于2018年10月正式成立广东省应急管理厅(以下称“应急管理厅”)。

应急管理厅随后展开了应急管理信息化发展规划,推出了智慧大应急项目。项目的整体目标是为应急管理厅提供系统业务的运营服务,包括数据支撑、应用支撑以及数据服务等。

在这一背景下,应急管理厅与百分点展开了合作,由百分点提供数据支撑服务。百分点成立于2009年,拥有全栈的大数据和人工智能技术产品,包括大数据操作系统(BD-OS)和标签管理系统等基础引擎产品,以及智能审校系统等应用产品,涉及数字城市、应急管理、公共安全、生态环境、媒体出版、零售快消等多个领域。

应急管理厅成立之初,应急管理信息化建设主要面临以下三方面的问题和挑战:

1)系统众多,开发难。应急管理厅由原安监,以及消防、地震、森林、防火办以及减灾中心等部门转隶而成。这些不同的部门存在各自系统,并且彼此相互孤立,数据整合开发难度大。

此外,应急管理厅缺乏省政府其他部门数据,包括省和地方公安、水利、气象、林业、交通和自然资源等部门,需要进行数据协同和数据拉通。不过,出于对数据泄露、安全隐患、隐私保护等担忧,部分部门不敢或者不愿进行数据共享。

2)资源类型多,标准规范薄弱。应急管理厅成立之前,应急管理信息化的标准规范基础较薄弱,在感知采集、数据编目和数据共享、应用开发、信息安全等领域,缺少全省统一的技术标准、建设指南和管理规范。应急管理信息化建设涉及地震救灾、地质灾害、森林火灾、草原火灾和火灾事故等应急管理对象,数据标准不统一,导致系统对接、数据共享困难。

3)数据应用难度大。由于不同系统数据无法共享或者数据缺失、数据资源中包含大量如文本、遥感影像和音视频等非结构化数据,处理难度大、应用不足,无法充分挖掘数据的价值。

系统打通和数据汇聚,构建应急管理数据治理大数据平台

基于以上问题和挑战,百分点帮助应急管理厅构建了应急管理数据治理大数据平台,如下图所示:

图 9: 广东省应急管理厅数据治理体系及流程

数据治理给我们带来了什么亮点(数据智能平台实践报告)(12)

通过该平台实现了应急数据接入、处理、存储、应用等全生命周期的治理,建设政务管理和监督管理数据资源池,实现对不同部委和单位相关应急数据全方位获取、全网络汇聚和全维度整合。在此基础上,对外提供数据共享交换、数据应用等服务,支撑应急管理部数据上报工作。

百分点提供的应急管理数据治理大数据平台的能力体现在以下三个方面。

1)针对系统众多、开发难的问题,百分点通过数据治理系统和数据共享交换系统,将各级相关部门和单位的数据进行汇聚融合,形成统一的数据资源池。

2)百分点以标准先行的原则,解决了应急管理标准规范薄弱的问题。百分点制定并完善相关数据标准及数据采集规范,设计了数据质量的检核规则,并沉淀到数据治理系统中,形成了贯穿数据接入、数据处理到数据服务的常态化治理和监测机制,推动数据标准的贯标及数据采集规范的落实。

3)在数据应用方面,百分点的大数据平台通过资源目录和资产视图等方式,实现数据的共享。百分点还针对应急管理厅的业务应用,梳理了相应的主题库和业务专题库,如安全生产、防汛防台和智慧应急等,通过对数据进行归类,为业务系统提供数据支撑服务。

咨询和技术能力相结合,助力应急管理厅提升数据治理能力

效果层面,应急管理数据治理大数据平台的应用价值体现在以下三个方面。

数据汇聚层面,基于数据资源池的搭建,实现广东省各地市政务服务和监督管理数据的汇聚,并监控、优化数据流转与业务链路。其中,针对政务服务类数据,完成政务办件、电子证照等20多类数据采集;针对监督管理类数据,完成执法检查、隐患排查、双随机等20多类数据采集。

数据资源标准层面,结合应急管理数据标准与数据归集规范,基于相关应急业务域,完成数据仓库建设,建立数据资源目录,形成数据共享能力。

数据服务层面,基于应急数据仓库,向应急管理部共享上报“互联网 政务”和“互联网 监管”数据,推动应急体系下各方资源整合,加速完成应急管理数据汇聚和数据共享工作。

总体来看,百分点能够解决应急管理厅的问题,是由于其不仅能够具备技术和产品能力,还能够针对具体业务提供落地和实操性强的咨询服务。

技术方面,百分点的大数据平台能够实现实时数据接入,如对于监测预警相关的数据,能够实现秒级的数据处理和数据上报,并保持平台的稳定性。此外,百分点的大数据平台具备自然语言处理以及知识图谱构建的能力,实现了对于文本和音视频等非结构化数据的处理和分析。

咨询方面,百分点长期服务政府客户的过程中,积累了大量业务知识,形成了一套完善的数据治理方法论。以完整的数据治理方法论作为支撑,百分点在数据汇聚、数据处理以及数据服务等环节中,能够基于一套完整的工序有条不紊地推进数据治理工作。

此外,百分点前瞻性的数据治理方法论设计使得应急管理厅通过此次项目能够达到持续的数据治理效果。以数据标准为例,百分点形成的标准体系不是基于现状打造,而是紧跟根据国家政策和国家标准体系,一般能够适用未来三至五年;与此同时,其标准体系还包含一系列的扩展性业务规则,保证了充分的灵活性。

案例4 : 某市搭建数据中台数据大脑,提升数据治理和大数据分析应用能力

某市推出了城市超级大脑项目。该项目的主要目标是建设市数据大脑,基于数据大脑提升数据治理能力和大数据分析能力,搭建起数据应用体系。

具体来看,该市的数据大脑平台遵循“五个一”(一个定位、一个平台、一个终端、一批项目、一大产业)总要求,按照“12345”的总体思路推进工作。即:建设一个大脑,提升两种能力,聚焦三大领域,突出四个重点,实现五大愿景。具体如下图所示:

图 10: 某市数据大脑平台建设思路

数据治理给我们带来了什么亮点(数据智能平台实践报告)(13)

在这一背景下,该市与明略科技和腾讯云合作,打造了基于自身的数据大脑数据中台。

明略科技是一家企业级认知智能服务平台提供商,致力于通过大数据分析挖掘和认知智能技术,推动知识和管理复杂度高的大型企业进行数字化转型。明略科技的数据中台以云原生和数据资产图谱平台两大支撑能力为支撑,以多维数据的感知和汇聚能力、基于知识图谱的数据融通打通能力、基于智能数据引擎的数据自服务能力,赋能客户的中台建设,实现客户数据的资产化、智能化和服务化。

软件产品和咨询结合,助力该市搭建数据中台数据大脑

明略科技为该市提供了一整套解决方案,包括软件产品和咨询服务,后者包括数据治理咨询和数据分析咨询服务。

首先,软件产品方面,明略科技提供的数据中台产品主要包括数据汇聚平台、数据标准化平台、元数据管理平台、开发调度平台、用户管理平台及数据质量管理平台。以这些软件产品为支撑,该市搭建的数据中台能够实现数据全生命周期管理。

同时,在数据应用和分析方面,明略科技提供了知识图谱产品,实现大数据分析能力和模型智能构建能力的在线开放共享。

其次,在咨询服务方面,明略科技提供了数据治理和数据分析咨询服务。数据治理咨询包括五大方面:

第一,帮助该市数据资源管理局建立数据治理的组织保障、工作机制流程,形成数据战略制定、数据架构规划的能力;

第二,帮助该市数据资源管理局制定数据管理和治理、数据开发运维、数据运营等方面的管理标准、技术标准及数据标准,解决流程化管理、信息化管理的问题;

第三,构建市级数仓中心,特别是标准库、基础库的核心建设工作,建设符合该市的数据管理需求的统一管理的数仓中心;

第四,构建数据运营中心,能够以业务元数据管控的方式,从业务视角和管理视角,规范性开展数据运营,促进数据价值的发挥;

第五,保障数据中台的平稳有效运行,该市各委办局,上下级单位间的数据资源能够有效对接,并在运行过程建立发现问题的机制,并持续改进。

明略科技提供的数据分析咨询服务包括两方面。第一,制定该市政务数据分析方法论和政务数据分析流程,指导各部门进行政务数据分析;第二,基于主题应用和专题分析,构建分析模型和输出分析报告,给市领导及主管部门提供决策支持。

基于明略科技和腾讯云为该市搭建的数据中台,该市的数字城市项目取得了阶段性成效,体现在资源目录、数据共享和数据分析方面。资源目录方面,2020年,上线的统一数据中台服务了55家委办局,共有1800类数据资源上线;在数据归集方面,归集数据资源总量150亿条,生成数据接口800个。

数据共享方面,接口累计调用130亿次;库表交换累计40亿条,为35家委办局提供服务,例如不动产转移登记与水电气联动过户、市住建局的住建行业从业人员社保缴费情况核查、政务一体化建设、城市APP建设等,有效推进“一件事一次办”,实现更多政务服务和便民服务让市民享受一次办结的便利,进一步优化营商环境,推动政府职能转变。

数据分析方面,共实现了11份分析应用主题,包括境外疫情输入分析,海外每日疫情发展情况,手机信令复工复产数据分析,新型智慧城市助力软件业再出发课题,养老金核查分析,失业金核查分析,工伤救助核查分析,医保核查分析,城市道路交通影响分析,养老金发放情况分析与预测,社会保险参保人数和基金缴纳情况分析。

案例5 : 搭建统一大数据智慧平台,沪杭甬高速提升智慧化运营水平

近年来,中国高速公路路网趋于饱和,基础建设需求正逐年降低,而管理需求却逐年增强。如何利用智能技术、数字技术建设智慧高速,盘活资产、提高管理效能和服务质量,降低运维成本及安全风险,成为高速公路运营机构和交通参与者的迫切需求。

浙江沪杭甬高速公路股份有限公司投资经营及管理省内外18条高速公路,总里程1566公里。其中,沪杭甬高速公路于1998年底全线建成通车,是浙江开建的第一条高速公路,途经嘉兴、杭州、绍兴、宁波四个地市,全长248公里。

沪杭甬高速也展开了自身的智慧交通建设,其面临以下突出难点:高速公路的数据很难与其他行业形成交互,信息孤岛问题严重;高速公路应急指挥调度系统缺乏信息化的管理手段,应急处置能力有待提升;高速公路的智能化水平,尚不能满足运营服务和道路驾乘人员的使用需要,公众出行服务水平不高。

在这一背景下,沪杭甬高速与同盾科技展开合作,希望通过搭建统一的大数据智慧平台,提升道路交通的智慧化运营和管理水平。同盾科技以人工智能、云计算、大数据三大核心技术体系为基础,基于对数据的探索洞察和深刻理解,能够将深度学习、联邦学习等领先技术与智慧高速建设的业务场景相结合,为金融、保险、互联网、政务、零售、物流等行业提供智能分析与决策服务。

以星河-大数据平台为支撑,同盾科技为沪杭甬高速运营商搭建了智慧高速云控平台。2019年,“沪杭甬高速智慧化提升改造项目”正式启动,历经一年的研究和实施,沪杭甬高速公路智慧化提升改造一期工程现已完成建设,到2020年底项目一期基本建成通车。

基于云原生架构,通过智能决策中台,构建智慧高速场景

从架构上看,智慧高速云控平台是一个包含底层、中层到上层的全面服务平台。

图 11: 沪杭甬高速智慧高速云控平台架构

数据治理给我们带来了什么亮点(数据智能平台实践报告)(14)

如上图所示,智慧高速云控平台底部是云原生平台,“云”作为数据、应用的硬件支撑。同盾科技云原生团队为高速公路智慧化建设提供公有云服务、私有云计算平台。为收费站提供边缘计算服务器 虚拟化/超融合解决方案,满足自由流收费需求。基于云原生的架构,可实现资源可一键扩缩容,故障可自愈(云化后业务未中断),满足对计算和存储资源的动态需求。

智慧高速云控平台中间层是智能决策中台。同盾科技通过部署大数据底层,包括可视化数据开发平台、离线计算、流计算、机器学习,搜索引擎、对象存储、云关系型数据,满足沪杭甬大数据处理、分析、挖掘、管理和应用等需求。在这一基础上,把数据背后的路特征、车特征、人特征归纳总结出来,为路的运营、车的运输、人的通行提升效能。

智慧高速云控平台最上层是应用场景层。智慧高速云控平台集成运行监测、应急指挥、养护管理、收费管理、重点车辆跟踪、营运分析等各项功能,提供智慧高速、智慧隧道、智慧桥梁、智慧枢纽、智慧服务区等场景应用,构建数字驾驶舱。

总体来看,智慧高速云控平台能够对不同来源的数据进行统一接入,并基于统一平台进行整合和分析。其中,一个重要的数据源是“慧眼”系统,也即在高速路段布设的各类感知设备,包括摄像头、雷达等。

据浙江沪杭甬高速公路股份有限公司信息中心副主任陈建新介绍,在杭甬高速柯桥至绍兴路段上,每隔250米布设了一套毫米波雷达和视频数据设备,而在沪杭甬其他路段,每隔1公里架设了一台摄像机。“这些‘慧眼’非常灵敏,不分昼夜地感知车流、车速以及一切异常,并源源不断地发送信息给后台大脑。”

智慧高速云控平台能够将软、硬件的融合连接,通过整合不同来源数据,实现对运营商、高速交警、互联网企业、交通管理部门、电子监控系统等信息的整合与分析,从而实现对交通的精准分析、整体研判和协同指挥。收获数据洞察的过程大致经历以下过程:

图 12: 沪杭甬高速智慧高速云控平台数据洞察过程

数据治理给我们带来了什么亮点(数据智能平台实践报告)(15)

智慧高速云控平台,实现数据驱动运营

基于智慧高速云控平台,沪杭甬高速实现了实时监测、客户服务、收费管理等方面的应用场景支撑。

实现监测方面,智慧高速云控平台能够利用大数据实时分析技术和高效人工智能算法,自动发现交通异常事件(如拥堵、事故、违法驾驶行为等),融合移动互联网上报事件实现全天候事件自动监测及应急疏导和一体化施救。

客户服务方面,平台打通公众和高速公路管理者之间的双向信息交互,实现了多渠道(情报板、高德/百度地图、短信、APP等)精准化交通信息便捷发布,优化路网的交通组织和诱导,提升了公众出行体验。

道路管控方面,平台能够基于高速公路各类感知设备的实时交通信息分析全路网交通态势,实现未来交通趋势的准确预测。实时精确核算海量车辆通行记录和应收费率,使每辆车的每笔费用都应征不漏。

具体来看,智慧高速云控平台上线后,沪杭甬高速达到的项目收益体现在以下方面:

首先,实现全网交通态势预测准确率90%以上。根据数据实时分析,行程时间相比智能导航提升5%-10%;试验路段事故30秒内发现,并通过智慧高速APP、智能车载终端、情报板等方式告知客户。

其次,项目实现了人、车、路网及周边环境智能协同运转,运行路段的通行能力提升20%、道路拥堵时间降低10%、道路行车事故下降10%,道路运营环境更趋安全,交通秩序明显改善。道路设施醒目化也减少了夜间行车事故,提升了车速,夜间事故数量相比之前平均下降12.9%,夜间平均车速相比之前提升9.51%。

最后,客户可在沪杭甬全线享受公里级气象推送服务,内容包括恶劣天气、安全驾驶和服务区躲避建议等提醒信息。

4.3 消费品与零售

在互联网大潮以及疫情常态化的冲击下,消费品与零售行业的企业面临前所未有的机遇和挑战。一方面,线下门店销售遇冷,线上渠道发挥了巨大价值,线上已经成为了费品与零售企业的重要的渠道。另一方面,市场环境和消费者的需求也在不断发生变化。因此,打通线上与线下数据,精确地洞察市场和消费者,快速推出符合市场需求的个性化产品并触达消费者,同时用数据驱动更高效地供应链、销售、客户的管理,为企业经营降本增效,成为了消费品与零售企业搭建数据平台的核心诉求。

很多连锁化经营的消费品和零售企业在过去的信息化建设过程中,沉淀了多套业务和数据系统,如CRM、ERP、SCM,以及分散在多个业务部门或业务线的数据库、数据仓库等。这给企业带来的问题是企业内部的数据体系重复建设,数据资产割裂,各种线上线下数据无法联动,不能为企业数字化运营服务。

因此,消费品与零售行业的企业建设数据智能平台最重要的工作是汇聚和治理分散在各个业务和数据系统的数据,建立数据规范,按照业务需求规划统一的数据仓库、数据集市、数据服务和标签体系的数据能力,形成对企业各个业务线的经营管理状态的准确洞察。

案例6 : 数据中台赋能百丽国际集团,应对数字化转型挑战

百丽国际(以下简称百丽)成立于1992年,是一家大型时尚及运动产业集团,业务涵盖鞋类、运动和服饰三大业务,旗下拥有BELLE、STACCATO、TATA等十多个鞋履品牌,以及initial、MOUSSY、SLY等服饰品牌,也是十余个全球领先运动品牌的在华关键零售伙伴。

在29年的发展史中,百丽一直重视用数据赋能业务,从早期对财务系统、数据报表、数据查询的应用,到2012年左右开始组建IT团队,自建数仓、BI以及各类业务系统,以满足百丽鞋类业务20多个品牌,8个大区各异的业务需求。经过多年的IT建设,百丽已经打通了各品牌线上和线下的数据。

为了给各业务线提供统一和更精细化的数据服务,建立一体化的数据权限体系,以及为未来智能化应用打好基础,百丽需要搭建面向整个集团的数据中台体系。在开始搭建数据中台之前,百丽已经通过内部的统一数仓项目将多套数仓、大数据平台做了合并,通过数据字典项目将基于BI的分散在70多个子系统的1300多个KPI、700个维度做了梳理和统一。然而,百丽数据中台的搭建仍然面临以下挑战:

1)在之前多个数仓并行的阶段,百丽有两套数据采集系统,一套提供实时数据采集功能,一套提供批量数据采集功能,因此数据采集工具或组件相对独立和割裂,在管理上没有统一。

2)数据中台有直接面向用户的功能型和流程型模块,也有面向数据开发部门的数据型模块,而传统的Excel表格很难满足不同部门在数据管理和协调上的需求,因此需要对数据字典进行平台化的管理,同时平台需要具备对指标进行新增或动态调整的功能,并能让前端用户了解指标的定义和计算方法。

3)在开发数据应用的过程中,缺乏统一和标准的数据服务,因此开发效率不高,且无法查看服务管理的全局信息,无法做统一的权限管理。

4)数据资产管理体系庞大,用传统的方式管理数据质量对人员依赖非常高,且投入巨大。

标准产品与定制项目相结合,构建庞大且复杂的中台体系

在数据中台搭建中,百丽选择了滴普科技作为合作伙伴。滴普科技是一家全场景数据智能服务商,有着深厚的技术和平台建设经验积累,其在商业与金融科技、智慧政务、智能精益制造等核心场景中,为100余家知名大中型企业提供了标杆性的数字化转型服务。

对于百丽这样体量庞大且业务较传统的企业,数据中台的搭建需要企业内部团队与外部技术服务商发挥各自优势合作共建。在该项目中,百丽的IT团队基于对公司业务的了解,对业务逻辑、业务管理和业务流程做了系统和全面的梳理。滴普科技则通过标准化的产品和定制服务提供技术解决方案。

在标准化产品方面,滴普科技通过数据集成工具DCT,为百丽提供多种数据源的汇聚整合,且能做到低成本和高可用;通过数据资产智能开发套件DaaS,为百丽提供高效的数据汇聚、加工、服务、资产管理功能。

针对百丽的一些个性化需求,如传统企业前端系统和业务流程具有特定的业务规范,需要对半年甚至一年以上的历史数据进行处理,但标准厂商的技术组件难以在已经成型的IT和数据架构体系中调用;因而需要打造“一人一账户”的权限中台,构建更偏业务的数据字典,并在平台部署后运行测试,保障公司复杂的业务系统可用。滴普科技的实施和交付团队都为百丽提供了相应的定制化解决方案。

图 13: 百丽的数据中台架构图

数据治理给我们带来了什么亮点(数据智能平台实践报告)(16)

数据中台赋能百丽数据服务体系

通过构建数据中台,百丽期望通过构建面向未来的技术和应用架构以及数据管理体系,实现数据汇聚集成、业务数据字典管理、数据资产管治及数据服务能力。

首先是实现多数据源的汇聚整合,并实现对数据字典的平台化管理,给业务人员使用数据,了解数据指标的意义,为业务部门间的沟通协作提供了很大的便利。

在数据质量管理方面,数据中台简化了数据开发要求,并在数据稽查、质量度量, 以及覆盖数据产品的全链路监控,实现高质量数据保障。

同时,建立统一化的数据服务平台,为数据用户提供统一口径和标准的数据查询和获取能力,高效地支持好业务前台决策、业务创新等场景需求。

百丽数据中台的成功经验

1) 在搭建数据中台之前制定清晰的目标。百丽在启动数据中台项目之前对平台的功能以及技术细节做了非常明确的规划,因此后续可以基于这些目标做清晰的阶段划分、人员组织安排。

2) 结合内外部团队优势,共创共建。在该项目中百丽对公司内部业务和数字化现状很了解,滴普科技则具备技术上的优势,双方团队经过不断的沟通和合作,发挥各自优势,才能推动数据中台落地。

3) 公司自上而下对数字化有很高认知并全员参与建设。百丽的管理层和业务部门的人员对数字化的认知程度很高,公司内部非常重视数据中台项目,所有关键人员都会自发参与,资源也会往该项目倾斜,全员的参与和投入,使得项目推动很顺利。

4) 业务逻辑要依靠公司内部而不是咨询公司梳理。数据的有效应用需要以公司业务和管理标准为前提,很多公司通过外部咨询机构做业务和管理标准的统一,往往不能得到公司管理层的认可。百丽则是由公司内部IT和业务部门梳理和统一了业务管理标准,从而有效支撑了数据应用。

4.4 工业与能源

工业与能源这类传统行业的企业在经营管理中一直存在一些固有顽疾,如业务流程复杂、生产工艺依赖人工经验、管理水平落后、决策效率低下等问题。通过搭建数据平台,实现数字化转型,工业与能源行业的企业可以在生产制造、供应链管理、组织管理、经营决策,甚至交易、金融等环节实现数据驱动,从而降低生产成本、提高决策效率、控制经营风险等。

通常,工业与能源行业的企业数据呈现出多样、实时和海量的特点。然而这类企业过去的信息化建设通常分步进行,因此其业务系统数据分散,且传统数仓无法支持业务实时性的需求;同时,由于产品类型繁多,产品数据ID不统一,数据质量差,企业无法了解渠道、市场等方面更具体的情况,也难以对业务问题进行深入分析和跟踪改善。

因此,工业与能源行业的企业在构建数据智能平台时,需要首先用一套统一的标准进行数据治理,拉通底层数据。其次,需要针对生产、设备、库存、销售等全流程的数据,提供可视化看板,让管理人员能实时、准确地了解现场情况,快速准确地做出决策。

案例7 : 发力数据中台,明日控股构建精准、实时、敏捷的数据能力

浙江明日控股集团(简称“明日控股”)是国内领先的塑化原料供应链管理服务商,业务范围涵盖塑料原料、液体化工、精细化工产品的贸易,以及相应的供应链金融、物流、信息、技术等产业链增值服务。

多年来,明日控股一直重视信息化、数字化能力的建设,且已经搭建了多个业务系统,以及数仓、BI等数据基础设施,形成了一定规模的数据沉淀。但随着业务的快速发展,公司内部的系统越来越多,流程越来越复杂,原有数据系统已经难以适应其业务需求。

对于现阶段的明日控股而言,其核心业务需求在于通过数据全面掌握公司现货端各个商品的实时状态,期货端的类型、头寸等数据,从而为公司在现货和期货市场进行各种操作提供决策支持。这就对底层数据平台的数据的准确性、实时性以及敏捷响应能力提出了更高要求,具体如下:

1) 数据的准确性。明日控股之前的数据分散在各个业务系统中,业务场景多,业务链条长,导致公司总体业务逻辑和数据类型非常复杂。与此同时,数据口径不统一,缺少完整的数据规划体系和数据管理规范,导致数据准确性难以评估。

2) 数据的实时性。明日控股原有数据系统只能做到事后数据及报表查看,无法实现现货端商品动态情况及期货端期货类型、头寸等数据的实时查询。这一方面是由于其数据平台缺乏实时的数据处理能力,另一方面是由于原有平台在复杂的计算场景中性能表现不足。

3) 敏捷响应能力。明日控股业务部门和覆盖的终端用户很多,而原有报表系统的SQL语句都是封装固定的,缺乏可复用性,当业务用户提出新的报表或数据应用需求时,数据部门需要重新进行开发,响应速度很慢,且耗费大量人力成本。

基于数据全链路,明日控股构建数据中台

基于对奇点云产品和项目交付能力、落地经验的认可,明日控股选择与奇点云进行合作,共同构建数据中台,以解决上述数据应用中的问题。奇点云是业内领先的独立第三方数据中台服务商,其自主研发的AI驱动的数据中台,能够帮助企业实现数据采集自动化、数据治理智能化、数据资产私有化、数据应用敏捷化,完成数据生命周期管理。截至目前,奇点云已服务过600 家政企客户。

针对数据类型复杂、数据口径不统一的问题,双方共同组建的项目组对明日控股的业务流程与数据现状进行了梳理,奇点云据此提出了一系列数据治理的思路和方法论,并指导了项目组对每一节点的数据进行逐一排查,针对每一问题形成相应解决方案,最终将数据全部清洗干净;与此同时,为了统一数据规范,双方的架构师对数据规范、对接方式、上游系统是否建主备库、网络规划、账号体系等都做了统一约定。在此基础上,基于对组织、人员、商品、词典等数据的梳理,明日控股汇总各个异构数据源数据并将类型进行了统一,完成了主数据系统建设。

针对数据使用实时性的问题,数据中台使用了Kafka、Flink等数据处理引擎,将数据解析后存放到Kafka消息队列,再通过流计算引擎Flink的处理,把计算结果存在数据库中,并对外提供API或数据查询服务。同时,数据中台采用了流批一体化的架构,对于部分不需要参与实时计算的数据,以离线计算的方式进行预先计算和预存,避免了实时计算中如果对大量历史单据数据计算,消耗内存和服务器节点过多的问题,从而提高了实时计算的性能。

为提高数据使用的敏捷响应能力,明日控股构建了数据指标体系,依托指标的强解耦性,实现了不同用户对报表和数据应用的个性化需求,提升了数据需求响应速度。此外,在奇点云的帮助下,明日控股从业务价值高、数据基础高的场景出发,建立起了完善的数据分析体系,包括了10多个业务域,总共数百个分析场景,让数据查看更直观和便捷。

图 14: 明日控股数据中台架构

数据治理给我们带来了什么亮点(数据智能平台实践报告)(17)

明日控股数据中台的价值与效果

数据中台落地后,在数据和业务层面上,明日控股实现了多种价值与效果:

第一,实现了整体数据资产的在线化。建立了在线的报表说明及指标字典,完成了包括159个原子指标、29张报表、2个看板和1个大屏的开发,并且能够明确每张报表、每个字段的意义和作用,便于用户按图索骥,快速找到所需的数据资产。

第二,实现了现货端和期货端各种数据的实时查询与展现。实时的数据查询和展现能力,一方面为业务发展带来了重要的价值,如进销存领域的数据准确率达到100%,数据实时性从5分钟提升到了10秒内,成为了支撑公司业务发展的必不可少的基础能力,另一方面,改变了过去需要多部门向高层管理人员人工上报数据的现状,大大降低了人力成本,同时更好地支撑了管理层的决策效率。

第三,实现了数据可复用,提升了用户对数据使用需求的响应速度。通过建立底层的指标体系,当用户提出报表或者数据应用的需求时,可以根据需要的自主选择相应的数据指标,从而实现业务需求的快速响应。

明日控股数据中台的建设经验

第一,对于业务场景复杂的企业而言,建数据中台需要尽量选择项目经验丰富的厂商。首先,项目经验丰富的厂商具备系统性的方法论支撑,能够有效指导企业数据平台的建设;其次,项目经验丰富的厂商能够清晰理解企业在各个场景中的业务需求,能够对建设过程中的风险有预判,避免踩坑。

第二,数据中台建设需深入业务,甲方与厂商进行共创。该项目中,明日控股与奇点云深度梳理业务流程,把握需求与痛点,结合数智化能力,构建了最佳解决方案并实现了落地,以数据驱动业务增长和创新。

案例8 :构建文档管理体系,助力晶盛机电释放数字资产价值

浙江晶盛机电股份有限公司(下称“晶盛机电”)创建于2006年12月,是国内领先的半导体材料装备和LED衬底材料制造企业,业务范围涵盖半导体、光伏装备业,发展LED衬底材料、工厂智能化服务解决方案等。

数字资产管理是企业数字化运营的重要保障支撑,数字资产生命周期管理包括存储管理、查找使用、共享协作等。而文档管理作为数字资产管理的重要部分,也是晶盛机电数字化运营的重要底座。随着数字化进程的推进和业务量的增长,晶盛机电原有的文档管理模式已经无法满足其整体的业务协作和管理需求,因此建立以数字资产为中心的文档管理体系,是晶盛机电的重要目标。为了替代原有文件管理模式、构建全新文档管理体系,晶盛机电面临着以下三方面挑战:

第一,存储管理方面,晶盛机电缺乏统一的以数字资产为中心的文档管理平台。原有各部门数据存放于部门级NAS中,相互独立且文件体系结构混乱,数据丢失风险大且丢失难以找回;且原有体系下权限不明晰,缺少异常行为监控,无法满足晶盛机电文档外发安全可控和文档长期保存的需求。

第二,查找使用方面,原有体系混乱,系统内容搜索和预览过程繁琐不便,且缺乏针对不同业务部门的有序流程优化,不利于各部门进行文档数据的查阅及搜索,检索效率低、成本高;

第三,共享协作方面,缺乏内外部信息协作共享能力。一方面,数据规范是数据应用的前提,规范的文档管理体系是文档应用与共享的支撑,而晶盛机电各部门缺乏整体的有序、规范的文档管理体系,文档离散、杂乱、标准不一,不利于内部各部门间以及内外部的文档共享协作。另一方面,缺乏统一的内外部信息协作共享工具,多通过NAS共享或通过邮件、微信发送文件。

此外,为了构建完善的文档、内容和知识体系,以充分实现内容利用与价值挖掘,并借助知识体系为战略做支撑。晶盛机电还需要进一步解决以下问题:比如,原有文档管理模式下,文档内容价值挖掘不足,无法充分沉淀、利用文档内容;未形成可复用的业务知识体系,不能从业务中抽取具有商业价值的信息,为公司发展战略和数字化转型做指导与支撑。

基于非结构数据中台,晶盛机电搭建集中文档管理体系

针对上述需求与挑战,在综合考虑各供应商的技术能力、解决方案与实施落地经验后,晶盛机电选择与爱数展开合作。爱数成立于2006年,是大数据基础设施提供商,提供结构化数据、非结构化数据、机器数据、知识图谱数据等全域数据能力,为政府、公共事业及企业的数字化转型赋能,帮助各行各业的客户释放数据价值,实现即时、随时、实时的数据服务。

在深入调研了晶盛机电各业务部门实际需求、梳理了业务流程后,爱数为晶盛机电建立了完整的项目体系建设规划,包括一期文档管理体系建设、二期内容管理体系建设及三期知识创新体系建设。

作为内容管理体系与知识创新体系的基础,晶盛机电首先进行了文档管理体系的搭建。基于完整的文档管理体系蓝图,晶盛机电构建了集成权限管理、共享协作、查找检索、审计管理及运营管理等功能的、基于非结构化数据中台的集中文档管理体系。

图 15: 晶盛机电文档管理体系架构

数据治理给我们带来了什么亮点(数据智能平台实践报告)(18)

晶盛机电以权限管理体系为支撑,搭建了基于非结构化数据的统一文档管理平台,以同时满足文档的安全性和存储管理要求。数据迁移方面,晶盛机电引导、协助各部门用户将个人电脑中及NAS平台中的文件按部门存入平台,并集成业务系统中的附件,保障了文件迁移的完整性。安全管控方面,搭建部门文件结构时,根据实际需求合理分配权限;建立了基于共享策略的安全管控,管理员在控制台通过统一的共享策略,控制所有终端的文档共享行为,对异常行为进行监控,以确保文档访问方式和访问范围的安全性;建立文档多副本、文档多版本、回收站等机制,助力晶盛机电实现数据安全可控。

晶盛机电文档管理平台搭载了全终端一致的内容搜索功能,以提升查找使用体验。爱数AnyShare Family V7基于海量索引和元数据,结合人工智能技术,能够支持快速搜索、全文搜索、高级搜索等多种搜索模式,具备精准搜索、模糊搜索、历史记录搜索和相似结果折叠等多重亮点。晶盛机电文档管理体系具备高效便捷的内容协作能力,以实现共享协作。首先,基于深度调研,晶盛机电以数字资产、成果文档为中心,为各部门搭建有序的文件结构,以提升全局文档和知识管理的规范性。其次,晶盛机电还构建了完整的运营管理体系和审计管理体系,规范了业务流程和数字资产,为文档共享协作做支撑。另外,晶盛机电使用了爱数提供了丰富的Office在线协作、PDF内容管理、图片和音视频在线预览、表单在线收集等应用组件,支持多人在线编辑、在线收集、在线标注等应用场景;员工可通过SharedLink功能生成文档链接给到内部员工及外部供应商查看,提高了共享协作效率。

未来,在完成文档管理体系建设的基础上,晶盛机电将就内容管理体系及知识创新体系,与爱数展开更为深入的合作。爱数将助力晶盛机电构建内容管理体系,充分利用文档内容、挖掘文档价值,实现全面的内容管理;打造知识创新体系,落地知识工程,运用知识图谱等工具实现非结构数据商业智能功能,赋能业务数字化转型。

文档管理体系提高文件查找与交互效率,赋能数字化转型

文档管理体系的完整搭建,充分释放文档数据价值,为晶盛机电业务数字化转型提供了支撑。具体而言,实现了以下效果:

第一,保障了安全可控。文档多副本、回收站双重保险,加之文档多版本管控,确保文档丢失、误删或修改后可追溯、可找回;权限颗粒度管理,加之水印、外发审批、IP限制等功能,保障了文档安全。项目建设完毕后,晶盛机电文档误操作丢失率下降了90%;

第二,实现了文档快速查找。基于有效的目录结构梳理搭建以及历史文件的统一归档,爱数为晶盛机电提供了多维度的全文检索能力。基于关键字的搜索功能速度比NAS网盘提高了3倍,文件查找效率整体提升50%以上;

第三,提高了文件交互效率。提升了文档和知识管理的规范性,极大便利了各部门文档发布与文档审核,提升了各部门业务效率;实现了高效共享,极大提升了文件内外部共享与协作办公效率,文件交互效率提高了50%以上。

,