本文是《中智观察》“企业数字服务供需市场”数智服务之发展趋势篇,做不到这三点,“湖仓”一体就流于表面,以前,单纯的一个数据仓库或者数据湖,就可以满足用户数据价值挖掘的应用需求,而现在一切都不是那么随心所欲了。
——海比研究院
2021年7月12日
以前,单纯的一个数据仓库或者数据湖,就可以满足用户数据价值挖掘的应用需求。
伴随着数据的指数增长和数据种类的不断增多,数据的使用场景更为复杂,以及基于实时数据的快速决策越来越普及,单一的数据仓库或者数据湖解决方案满足不了用户数据挖掘的需求了。
用户希望横跨数据湖和数据仓库,利用更多的数据,发现更多的机会。
创新公司Databricks和Snowflake等利用创新技术,首先尝试湖仓一体,让用户尝到甜头,也让云服务商看到了商机和危机。
现在,湖仓一体的窗口期到了!然而谁能真正做到湖仓一体,赋能用户呢?
湖仓一体“优势”被放大湖仓一体市场被点燃。
2021年是大数据开源项目Hadoop诞生的第15年,开源项目Spark诞生的第12年。
两大开源项目本身是相互依存的,Hadoop为分布式大数据存储技术,而Spark是对存储的分布式大数据进行处理的技术。
然而,两大开源项目如今的现状却大不相同:Hadoop的独角兽企业Hortonworks和Cloudera合并,销售额不断降低,另一家公司MapR已经被收购。
但是由ApacheSpark初始成员创立的大数据初创公司Databricks却在2021完成10亿美元G轮融资,公司估值高达280亿美元。
其核心是Databricks是行业最早布局并最早推出湖仓一体的公司,首先推出Lakehouse架构,即数据湖技术与数据仓库技术结合为一体。
另一家将数据仓库做到了云原生的创业公司Snowflake,市值始终维持在730亿美元左右,已经相当于1/2个IBM,1/3个甲骨文。
Snowflake的计算等能力是从AWS、Azure、GoogleCloud三大公有云厂商那里“批发”的,同时又能利用三大云厂商的数据湖能力,让三大云企业受益,最核心的是数据云及其背后的湖仓一体技术。
湖仓一体的优势,以及市场规模,点燃了云服务商赚钱的欲望。
传统意义上的数据湖、数据仓库,存在着显著的差异。
数据仓库是一个经过优化的数据库,用于分析来自事务系统和业务线应用程序的关系型数据,因此数据仓库存储的都是结构化数据。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。
数据仓库对数据提供高效地存储,便于用户通过报表、看板和分析工具来获取查询结果,从而从数据中获得洞察力、决策指导。
对应起来看,数据湖存储着来自业务线应用程序的关系型数据,以及来自移动应用程序、IoT设备和社交媒体的非关系型数据。
用户可以对数据使用不同的方式如SQL查询、大数据分析、全文搜索、实时分析和机器学习等,来获得对数据的深入了解。
当不清楚某些数据存在的价值时,将数据以原生格式天然沉积在数据湖。数据来源可以不同,可以使用不同的过程将数据注入到数据湖中。
过去的十几年里,数据仓库和数据湖方案在快速演进和弥补自身缺陷。目前,很多企业采用传统的“湖仓分离”模式,独立建设了数据湖和数据仓库,一定程度上实现了功能的互相补充。
随着用户对数据的利用的不断发展,对技术的要求也日益提高,企业在数据运营、价值挖掘、运维等方面,也遇到了明显的挑战:
数据仓库和数据湖之间,不能实现高时效的数据共享,一般需要借助ETL数据传输来打通。
不同格式的数据在转换处理时,引入大量的开源模块,技术栈更加复杂化,尤其是当数据容量达到一定量级时,管理和维护成本大幅增加。
数据湖中的数据模型未经治理,数据混乱,无法进行有效的元数据管理、血缘关系管理,一定程度上形成了“数据沼泽”。
传统的数据湖,对业务的承载能力有限,无法对外提供海量数据的高性能查询服务。
同时,数据的冗余存储,带来了资源的浪费。
近年来,业界开始提出湖仓一体(DataLakehouse)的概念,优势日渐突出。
湖仓一体,简单理解就是把面向企业的数据仓库技术与低廉的数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。
湖仓一体方案的出现,帮助企业构建起全新的、融合的数据平台。通过对机器学习和AI算法的支持,实现数据湖 数据仓库的闭环,提升业务的效率。数据湖和数据仓库的能力充分结合,形成互补,同时对接上层多样化的计算生态。
当然,湖仓一体技术本身并不简单,面临的挑战就非常显眼。
湖仓一体架构是否真正落地?各大云厂商陆续提出自己的“湖仓一体”(Lakehouse)技术方案,如AWS的RedshiftSpectrum、微软AzureSynapse Analytics服务与AzureDatabricks 集成、阿里云MaxCompute DataWorks、华为云FusionInsight等。
还有一些公司正在通过开源表格式(如DeltaLake、ApacheIceberg、ApacheHudi)构建自己的数据湖仓。
在云厂商和开源技术方案的共同推动之下,2021年市场将出现更多“湖仓一体”的实际落地案例。
但是对于用户而言,这些方案与服务是否实现了一体化结构,不是一个过渡方案,则是问题的关键。
专家认为,云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。
看看不同企业的不同做法。6月24日,亚马逊云科技推出“智能湖仓”架构。亚马逊云科技“智能湖仓”架构以AmazonSimple Storage Service(AmazonS3)为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用AmazonLake Formation、AmazonGlue、AmazonAthena、AmazonRedshift Spectrum等工具,实现数据湖的构建、数据的移动和管理等。
亚马逊云科技“智能湖仓”架构具有灵活扩展、专门构建、数据融合、深度智能和开源开放五大特点,涵盖数据源、数据摄取层、存储层、目录层、数据处理层和消费层六层架构,可帮助客户应对海量业务数据,充分挖掘数据价值。
阿里云MaxCompute在原有的数据仓库架构上,融合了开源数据湖和云上数据湖,最终实现了湖仓一体化的整体架构。在该架构中,尽管底层多套存储系统并存,但通过统一的存储访问层和统一的元数据管理,向上层引擎提供一体的封装接口,用户可以同时查询数据仓库和数据湖中的表。
MaxCompute实现了4个关键技术点,快速接入、统一数据/元数据管理、统一开发体验、自动数仓等。
华为云FusionInsight智能数据湖为政企客户提供“湖仓一体”的解决方案,提供MRS云原生数据湖、GaussDB(DWS)云数据仓库、DGC数据湖治理中心、GES图引擎、DLI数据湖探索等云服务,用于离线分析、实时分析、数仓集市、交互查询、实时检索、多模分析、数据接入治理、图计算等海量数据分析场景,实现政企客户一企一湖、一城一湖的业务模式。
华为云FusionInsight湖仓一体架构提供灵活的多样性算力和存算分离方案,符合当下的企业需求。
2019年,Databricks推出了湖仓一体Lakehouse的关键开源技术DeltaLake;2020年6月,Databricks宣布收购以色列初创公司Redash并基于其技术推出了Lakehouse关键开源技术DeltaEngine。2020年,DeltaLake、ApacheSpark和Databricks统一分析平台的进步,不断提高了Lakehouse架构的功能和性能。
Databricks的Lakehouse架构通过一种新的系统设计,直接在云数据湖的灵活、低成本存储上实现了与数据仓库类似的数据结构和数据管理功能。通过将两种体系结构的优点结合,企业可在同一平台上同时运行传统分析和数据科学/ML工作负载,大幅减少在数据湖和下游数据仓库之间不断移动数据的复杂数据操作,而且还消除了数据孤岛。
湖和仓的数据能否自由流动?
客户实际业务场景下的数据是如何移动的呢?湖仓中数据移动有几种方式,包括由外向内——数据入湖,由内向外——数据出湖和环湖移动。
“这三种数据的移动路径就像一支篮球队,在进攻的时候,无非是球从内线传到外线,或者是从外线传到内线,或者是从外线导几下手突然投一个三分。”
湖仓一体需要解决另一个关键问题就是湖和仓的数据/元数据无缝打通和顺畅流动,且不需要用户人工干预。检验一个湖仓一体实力的地方就是能否实现湖仓之间的数据打通和自由移动。真正能做到这一点的企业又有哪几家呢?
数据的无缝移动是指数据在数据湖、数据仓库以及围绕着数据湖周边构建的所有的这些专用的数据存储、SQL的数据库、Non-SQL数据库,甚至更多不同的分析引擎之间的移动。
亚马逊云科技“智能湖仓”架构将其数据服务无缝集成,打通了数据湖和数据仓库之间数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。
亚马逊云科技“智能湖仓”架构降低了数据融合与数据共享时统一安全管控和数据治理的难度。其中,AmazonGlue提供数据无缝流动能力,AmazonLake Formation提供了快速构建湖仓、简化安全与管控的全面数据管理能力。
据介绍,TCL基于亚马逊云科技“智能湖仓”架构搭建的解决方案,将传统的数据库、数据仓库与数据湖打通,让全品类IoT设备的数据和业务系统实现了互联互通,海外业务与国内业务实现了数据统一。
通过使用亚马逊云科技专门构建的数据分析服务,之前需要一周才能完成的复杂数据报表,现在仅需要1-2小时;每天运行300个以上的作业产生200多个BI报表,为运营和数字化营销提供有力支撑。
阿里云MaxCompute实现湖仓一体化的元数据管理,通过DB元数据一键映射技术,实现数据湖和MaxCompute数仓的元数据无缝打通,无须联邦查询方式里的人工操作。
MaxCompute通过向用户开放创建externalproject 的形式,将数据湖HiveMetaStore中的整个database直接映射为MaxCompute的project,对HiveDatabase的改动会实时反应在这个project中。与此同时,阿里云EMR数据湖解决方案在2020云栖大会也推出了DataLake Formation,湖仓一体方案也会支持对该数据湖中的统一元数据服务的一键映射能力。
MaxCompute实现湖仓一体化的存储访问层,不仅支持内置优化的存储系统,而且也无缝地支持外部存储系统,既支持HDFS数据湖,也支持OSS云存储数据湖,可读写各种开源文件格式。
能否与ML打通,实现敏捷分析、深度智能?一位专家曾说过,今天当我们去谈数据的时候,永远分不开三个步骤:
第一是数据基础设施现代化,如采用云原生数据库或者数据库仓库、数据湖等;
第二从数据中真正产生价值,必须采用数据分析工具;
第三,用机器学习更好地辅助决策,甚至是驱动决策。
因此,评价湖仓一体服务另一个标准是能否与人工智能和机器学习功能打通,实现数据的共享。
亚马逊云科技智能湖仓将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如AmazonAurora ML、AmazonRedshift ML、NeptuneML等,数据库开发者只需使用熟悉的SQL语句,就能进行机器学习操作。
AmazonGlue、AmazonAthena ML、AmazonQuickSight Q等,可以帮助用户使用熟悉的技术,甚至自然语言来使用机器学习,帮助企业利用数据做出更好的决策。
用户也可以通过机器学习服务AmazonSageMaker、个性化推荐服务AmazonPersonalize等挖掘数据智能。
Databricks也创建了MLflow——一个开源的机器学习平台,可以让团队可靠地构建和生产ML机器学习应用程序。Databricks表示,随着每月超过250万次的下载,来自100个组织的200个贡献者以及4倍的同比增长,MLflow已经成为最广泛使用的开源机器学习平台,可以跨不同的机器学习库、语言、云和本地环境。
Databricks提供统一数据分析平台,能够在一个地方大规模地运行数据处理和机器学习工作负载。客户可以通过一个简单、开放的分析、数据科学和机器学习平台,更好、更快地利用数据来推动创新,并将团队、流程和技术结合在一起。
世界上最有价值的不再是石油而是数据!但是怎么让数据发挥它的价值,却是众多企业发展中面临的最严峻的挑战,人们在数据价值挖掘方面的求索,从来都没有停止过。
科技媒体·企业演化科学·战略托管综合体
本文作者系海比研究院·赵满满
寻求报道,以及对相关话题感兴趣,请评论区留言
,