提到“数据中台”四个字,很多人都会“不明觉厉”。有意思的是,国外并没有“数据中台”这个词。为什么中国企业如此看重数据中台?中台是如何产生、被发现,然后实现价值复用的?这是一个值得分析的现象!

  数据中台为什么重要?

  不管企业业务规模大,还是小;不管公司成立的早,还是晚,或多或少地都会对数据进行投资,除了基础的数据系统建设,还包括数据湖、数据仓库等。但实际上,这些已有的数据投入并没有产生理想的业务价值。

数据中台核心数据能力(组装式数据分析)(1)

  为什么会出现这种现象?Gartner研究总监孙鑫一语道破!在他看来,企业已有的数据投入是割裂状态,有严重的数据孤岛问题。虽然,企业在后端已经部署了大量与数据管理相关的应用,但与前端数据消费者以及与应用之间存在着巨大的价值鸿沟。

  有些企业为了实现数字化转型战略目标,只是借用了“数据湖”概念,采购了“交易型数据库”、“分析型数据库”、“数仓”等,并且会考虑未来几年实现云转型目标,或者说现在已经在向“云化”方向发展。但由于企业规模不同、战略目标不同、对数字化的理解不一样,它们对数据分析、数据库、数据资产的投入顺序也会千差万别。但相同的目标是,企业建立数据中台最直接的动因是希望让现有的数据投资产生价值。

  然而,放眼市场,中国虽然有很多“中台生意”,但真正只做数据整合的厂商却不多。而当企业做了大量BI、数据库的工作后,才开始意识到ETL的重要性。尤其是大数据时代,随着企业数据量的持续增加,数据整合的需求就变得越来越强烈。所以,数据中台解决方案的最首要任务是,通过数据整合实现数据的快速交付,并且还要找到真正可复用的数据,从根本上解决数据孤岛问题。

数据中台核心数据能力(组装式数据分析)(2)

  ▲Gartner研究总监孙鑫

  如何建立数据中台?

  建数据中台并不是一件容易的事情,失败的数据中台会给企业带来负面效果,这也是“数据中台干跑了很多CIO”的最重要原因。所以,在企业搭建数据中台之前,要多问自己几个为什么。比如:我如何决定是否要做这件事儿?如果要做,最需要注意的问题是什么……

  Gartner建议,企业在部署数据中台之前,先要从端到端的数据能力来评估,看看到底缺少哪一块,而不是盲目上一个中台。数据中台一定在“技术成熟度曲线”的顶峰,虽然不管是BI厂商,还是数据库厂商都称自己提供的是中台解决方案,但作为选型决策者,一定要准确判断,找到能解决问题的厂商,有时候选型过程可能比部署还难。

  另外,如何与业务部门进行深度沟通,也是上中台前要考虑的最重要事项之一。因为,企业的数据大多与核心业务系统有关,比如ERP、CRM;然后再考虑如何建立“数仓”、“数据湖”,如果技术和业务不统一,这样的“中台”很难直击痛点,产生价值。

  很多人都认为,数据中台是一个技术问题,其实更多时候是一种战略决策。尤其对于大型互联网企业来说,数据中台来自业务需求,业务部门希望对日益增长的数据进行有效管理,并利用这些数据指导决策。所以,好的数据分析团队应该是“联邦”关系,通过中央团队、中央IT人员,对数据分析进行延展,确保企业数据拥有强一致性。同时,还要联合业务侧的成员,一起关注快速部署与价值输出的问题。

  值得一提的是,搭建数据中台,还要考虑以往数据资产投入产出比的问题。要知道,无论企业做不做中台,企业的业务量和数据量都在飞速增长,对于早已投入生产的“数仓、数据湖”的处理是企业在数字化转型背景下,必须要解决的问题。如果企业过去津津乐道的“数据资产”并没有与现有业务实现共享,这其实是数据中台在设计方面的“不完整”。如果企业把大量的时间都花在“寻找数据”上,而没有用在“分析数据”上,这说明没有在投资回报率(ROI)上得到更好的体现。

  让数据中台建设为业务赋能,其实有很多相应的解决方案和实操工具。比如:通过“元数据”的自动发现,企业可以搜索到更好的数据,找到更符合企业业务情境的数据,并转化为企业智能生产的语意。换言之,我们通过“智能搜索”,可以让企业快速寻找相关的“数据源”,让藏在各个系统中的数据更直观地递送到用户手中,最终不断优化和演进,形成企业最核心的数据资产。

  有哪些可落地的方案?

  行文至此,有人可能会问,数据中台要想成功落地,有没有可参考的模型?

  Gartner把数据分析或者说任何关于数据的投入,都分成了两个维度。一个是从数据的角度看(也是IT的角度),分为“已知数据”和“未知数据”;另一个是从问题的角度看(也是业务角度),分为“已知问题”和“未知问题”。

数据中台核心数据能力(组装式数据分析)(3)

  首先,很多企业建中台是为了复用数据,并且把这些数据放在“数据资产库”中,Gartner把这个数据资产库称之为“数据目录”,大多属于“未知的数据”和“未知的问题”。那么,问题来了!“我过去做的数据自检,难道不算数据目录吗?”当然也算,只不过是IT导向!真正的数据目录,应该有业务部门参与,然后共同完善,实现业务语义的逐步净化。

  其次,通过ETL工具实现数据整合,包括数据的批处理、数据的复制、流数据管理等,解决的是“已知的数据”和“已知的问题”。在数据整合过程中,要让业务侧用户有获得数据的能力,并产生实际价值。所以,数据中台要具备自助部署能力,这一点非常重要,决定了数据中台项目的成败。

  其三,是数据虚拟化,这是很多数据中台解决方案或者产品欠缺的一点。所谓的“数据虚拟化”就是在数据还没有或不用物理位置移动的情况下,依旧可以在一个虚拟层进行分析和应用。一旦市场有了A厂商和B厂商的产品,企业想把这两家厂商的数据源整合到数据中台时,企业就需要通过“数据虚拟化”来实现,在虚拟层上完成可复用的数据能力建设。

  基于这个模型,去选择所需要的产品和解决方案,结果一定不会太差。只是,现在很多人都在提“数据智能”,这一概念是怎么来的?数据智能化和中台有哪些相关性?

  数据智能化和中台是什么关系?

  其实,数据呈智能化方向发展,还是和企业的业务变化密切相关。过去,企业的很多决策都由领导人“拍脑袋”决定。但是,随着企业业务的规模化发展,业务决策不再是一个人的事情,而是由数据决定,需要几个部门共同决策。

  更准确的说法是,在数据驱动下,业务决策不仅不再是一次性行为,还要强调连接和连续性,要更具情境化。

  如果用一句话总结,就是企业决策不再是“一码通吃”,而是需要把更多小决策关联起来,形成一个大决策;同时,前一个决策还会影响后面的决策,所有决策都要通过情境化的分析能力作为辅助。这时,以知识图谱为代表的产品,就成为数据智能化的重要工具。

  至于,“数据智能化”和“数据中台”是怎样一种关系?也并不难理解!数据智能化提升了数据中台建设的难度!

  企业在数据智能化背景下,数据中台建设也要顺应形势,满足更高要求。首先,中台要能够连接更复杂的数据源;其次,要能够根据用户需求,给出更具情境化的数据;其三,能以更连接、更连续、更快速的形式,给决策者提供想要的数据。

  不管是交易型数据库、传统数仓、数据湖,还是云端数据存储,企业在数据端的应用非常丰富,构成了属于企业组织之上的一张“虚拟的网”。但是,虚拟化不应该只是单纯地把数据收集在一起,而是应该以更具情境化的工具或者方案(知识图谱)对数据进行编织。在数据编织过程中,不仅涉及每个和消费行为相关的数据,还包括元数据的管理与关联。

  从某种角度来说,知识图谱或图技术的最核心内容就是以业务视角来关联数据,并且数据存储是以“点”和“边”的形式实现。过去,企业的中台或者数据管理模式比较偏IT;但现在有了“图”能力,企业可以对各个领域的业务进行关联,通过建模来统一数据交互语言。这是从采集和连接的角度,来看待数据智能化时代带来的变化。

  组装式数据分析给企业带来哪些价值?

数据中台核心数据能力(组装式数据分析)(4)

  接下来的问题是,企业如何建立数据中台才能满足数据智能化时代的需求?Gartner认为,组装式数据分析架构是中台建设的未来方向!

  组装式分析架构,是基于智能化的采集和连接,帮助用户实现自助式分析。

  什么意思呢?就是当数据编织可以给用户提供合适数据,能够建立一些分析型应用的时候,企业便可以通过组装的形式把一个个和数据相关的产品直接整合,而不是每次都从“零”开始。所以,中台建设的最终目标,其实是让用户基于数据进行组装。

  所以,成功的数据中台,应该是一个组装型能力平台,带来的是一个个和数据分析相关的能力,而不仅仅只是数据的复用。企业可以通过自助式分析,找到可复用的数据分析能力模块,并以组装的形式构建符合业务需求的分析型应用。

  具体而言,组装式分析架构的底层依赖于数据编织设计模式,上一层是企业已购买的类似于“报表平台、分析工作站、自助式分析平台”或“数据科学平台”,并且这些能力平台被“微服务”以及“容器化”,以高度开放性确保用户上了中台后,可以获得组装式体验。

  此外,组装式数据分析架构的底层,还会涵盖在应用开发过程中经常用到的一个概念——DevOps。随着企业应用搭建的加快,或者说建立数据产品需求的不断上涨、越来越多地把DevOps实践放到与数据相关的应用上,业内称之为DataOps。包括版本控制、持续集成、持续开发、CAID理论等,在智能数据时代同样适用,可以助力数据应用开发快速走向生产阶段。

  毫不夸张地说,“组装式数据分析”正在重塑数据分析应用的未来,把数据中台提升到一个新的高度。(李代丽)

,