信息革命始于数据之争,大数据的黄金时代已来。

当数据汪洋恣意流经千行百业,大数据技术与实体经济紧密融合,我们可以看到,运营商话单数据正在辅助应急救灾、规避电信诈骗;交通视频场景依靠车辆轨迹的识别处理,逐渐取缔人工收费、提升通行效率;金融业务正在挖掘交易日志提供精准营销、智慧风控,让互联网金融遍地开花。

围绕数据,大数据的架构并非一成不变。大数据软件正在向云、开源、SaaS业务模型靠拢,现代商业智能、多模式数据处理、人工智能和机器学习等技术正不断迭代更新。对于企业而言,如何选择正确的技术架构,是一场眺望未来的复杂命题。

在由ODCC(Open Data Center Committee)开放数据中心委员会主办的2022开放数据中心峰会上,中国移动联合中国信通院、华为存储等机构和产业伙伴,共同发布《大数据湖仓一体技术规范》,首次定义了大数据湖仓一体技术架构的关键组成要素,提出了对统一存储、统一元数据、统一计算、统一服务、运维管理、安全管理、平滑演进等关键能力的规范要求,为大数据产业链企业升级建设数据基础设施提供了系统性的指导与参考。

2009年的巽山乾向(大数据黄金时代的罗盘指向何方)(1)

2022开放数据中心峰会上发布《大数据湖仓一体技术规范》

大数据处理的过程是一个改善数据关联性与整合数据密度的过程。随智能时代的演进,由于数据规模、数据类型的差异,衍生出用于存储规范稳定的结构化数据的数据仓库(MPP数据库),与用于存储全量原始数据的数据湖(Hadoop)。二者各有优劣:数据仓库可以快速调用但将丧失部分原始信息价值,而数据湖易于进行后期灵活挖掘但一旦未治理好便会形成数据沼泽。那么,是否能有一种新的架构,能够兼具二者的优势呢?

于是,湖仓一体架构诞生了。通过融合数据湖与数据仓库的优势,实现二者内数据的无缝联通流动,大幅缩减数据冗余与搬迁,避免了割裂系统产生的数据孤岛。它采用存算分离的结构,提供统一开放的存储接口,对接多样的计算引擎,通过资源弹性伸缩、灵活规划与部署,在提升企业大数据分析效率的同时有效简化了企业数据基础设施架构。

本次在开放数据中心峰会上发布的《大数据湖仓一体技术规范》,便是对构建这个完整有机的大数据技术生态体系的重要指导,标志着企业大数据栈的构建进入下一纪元。湖仓一体的技术架构如下图所示:

2009年的巽山乾向(大数据黄金时代的罗盘指向何方)(2)

该架构可以很好地克服数据重力,让数据仓库中的热数据与数据湖中的历史数据足以高速处理与流动。湖仓一体技术架构由以下七部分组成:

面向业务诉求,为原始数据、中间数据、业务数据、归档数据提供高可靠、高扩展的存储空间和数据管理能力,支持存储兼具数据湖与数据仓库的多种数据格式,在读写上实现热点数据高吞吐低时延、温冷数据大容量低成本的特质。通过通用的数据组织格式,如Hudi、Iceberg、DeltLake等,实现数据的统一存储访问。

通过采集、适配、拉通与管理数据湖与数据仓库中的元数据,构建统一元数据目录和数据视图,真正实现数据湖与数据仓库数据共享,提供湖仓一体化的元数据服务。

集成批处理引擎、流处理引擎、交互式查询引擎、交互式分析引擎、机器学习引擎等通用数据处理引擎,覆盖数据处理全场景,通过统一元数据管理,实现与统一的存储的无缝对接。

为上层业务提供一体化的数据服务体验,无需关注底层异构环境,为数据开发者、数据使用者、数据运营管理者提供统湖仓一体化服务能力。

满足多样化运维需求,支撑平台管理员、各类运维人员或使用者及时发现、定位并处理问题,提高运维效率。

依据三法一条例,构建全面的安全保护解决方案,从系统层安全、数据层安全、应用层安全构筑完整的安全管理能力。

基于数据湖与数据仓库现有能力,对标湖仓一体的架构进行补充与完善,实现向湖仓一体架构的平滑演进。

2009年的巽山乾向(大数据黄金时代的罗盘指向何方)(3)

ODCC开放数据中心委员会始终秉承“开放、创新、合作、共赢”的理念,在时代的浪花里怀揣罗盘,勇作数据中心产业的引渡人。《大数据湖仓一体技术规范》的发布,将有效指导企业落地新型基础设施的架构设计与系统建设,打造丰富多样的大数据生态圈,以科技风向的及时雨,灌溉滋养全产业链的土壤。一派生机盎然间,企业大数据时代的灯塔已被点亮。

,