作为商业智能的核心组件,数据仓库将来自许多不同来源的数据汇集到一个数据存储库中,以提供复杂的分析和决策支持。
什么是数据仓库?数据仓库或企业数据仓库 (EDW) 是一个系统,可将来自不同来源的数据聚合到一个单一的、中央的、一致的数据存储中,以支持数据分析、数据挖掘、人工智能 (AI) 和机器学习。
数据仓库系统使组织能够以标准数据库无法做到的方式对大量(PB 和 PB)历史数据进行强大的分析。
三十多年来,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但它们最近随着新数据类型和数据托管方法的出现而发展。
传统上,数据仓库托管在本地(通常在大型计算机上),其功能集中于从其他来源提取数据、清理和准备数据,以及在关系数据库中加载和维护数据。
最近,数据仓库可能托管在专用设备上或云中,并且大多数数据仓库都添加了分析功能以及数据可视化和演示工具。
数据仓库架构一般来说,数据仓库具有三层架构,包括:
- 底层:底层由数据仓库服务器组成,通常是关系数据库系统,它通过称为提取、转换和加载 (ETL) 的过程或称为提取、加载和转换 (ELT)。
- 中间层:中间层由一个 OLAP(即在线分析处理)服务器组成,可以实现快速查询。
在这一层中可以使用三种类型的 OLAP 模型,即 ROLAP、MOLAP 和 HOLAP。
使用的 OLAP 模型的类型取决于存在的数据库系统的类型。
- 顶层:顶层由某种前端用户界面或报告工具表示,它使最终用户能够对其业务数据进行临时数据分析。
了解数据仓库中的 OLAP 和 OLTP
OLAP(用于在线分析处理)是一种软件,用于对来自统一的集中式数据存储(如数据仓库)的大量数据进行高速多维分析。
OLTP 或在线事务处理允许大量人员(通常通过 Internet)实时执行大量数据库事务。
OLAP 和 OLTP 的主要区别在于名称:OLAP 本质上是分析性的,而 OLTP 是事务性的。
OLAP 工具设计用于对数据仓库中的数据进行多维分析,其中包含历史数据和事务数据。
OLAP 的常见用途包括数据挖掘和其他商业智能应用程序、复杂的分析计算和预测场景,以及财务分析、预算和预测计划等业务报告功能。
OLTP 旨在通过尽可能快速准确地处理最近的事务来支持面向事务的应用程序。
OLTP 的常见用途包括 ATM、电子商务软件、信用卡支付处理、在线预订、预订系统和记录保存工具。
数据仓库中的模式模式是在数据库或数据仓库中组织数据的方式。
有两种主要类型的模式结构,星型模式和雪花模式,它们会影响数据模型的设计。
星型模式:该模式由一个事实表组成,可以连接到多个非规范化维度表。
它被认为是最简单和最常见的模式类型,它的用户在查询时受益于其更快的速度。
雪花模式:虽然没有被广泛采用,但雪花模式是数据仓库中的另一种组织结构。
在这种情况下,事实表连接到许多规范化的维度表,这些维度表都有子表。
雪花模式的用户受益于其低水平的数据冗余,但它是以查询性能为代价的。
数据仓库与数据库、数据湖和数据集市
数据仓库、数据库、数据湖和数据集市都是可以互换使用的术语。
虽然术语相似,但存在重要差异:
数据仓库与数据湖
数据仓库将来自多个来源的原始数据收集到一个中央存储库中,该存储库使用为数据分析设计的预定义模式进行结构化。
数据湖是没有预定义模式的数据仓库。
因此,它支持比数据仓库更多类型的分析。
数据湖通常建立在 Apache Hadoop 等大数据平台上。
数据仓库与数据集市
数据集市是数据仓库的一个子集,其中包含特定于特定业务线或部门的数据。
由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够比可能更快地发现更集中的洞察力。
数据仓库与数据库
数据库主要用于快速查询和事务处理,而不是分析。
数据库通常用作特定应用程序的集中数据存储,而数据仓库存储来自组织中任意数量(甚至全部)应用程序的数据。
数据库专注于更新实时数据,而数据仓库的范围更广,捕获当前和历史数据以进行预测分析、机器学习和其他高级类型的分析。
数据仓库的类型云数据仓库
云数据仓库是专门为在云中运行而构建的数据仓库,它作为托管服务提供给客户。
在过去的五到七年里,随着越来越多的公司使用云服务并寻求减少其本地数据中心的占用空间,基于云的数据仓库变得越来越流行。
使用云数据仓库,物理数据仓库基础设施由云公司管理,这意味着客户无需在硬件或软件上进行前期投资,也无需管理或维护数据仓库解决方案。
数据仓库软件(本地/许可)
企业可以购买数据仓库许可证,然后在自己的本地基础架构上部署数据仓库。尽管这通常比云数据仓库服务更昂贵,但对于希望对其数据进行更多控制或需要遵守严格的安全或数据隐私标准或法规的政府实体、金融机构或其他组织来说,它可能是更好的选择。
数据仓库设备
数据仓库设备是一个预先集成的硬件和软件捆绑包——CPU、存储、操作系统和数据仓库软件——企业可以连接到其网络并按原样开始使用。
就前期成本、部署速度、可扩展性和管理控制而言,数据仓库设备介于云和本地实施之间。
数据仓库的好处数据仓库为以下内容提供了基础:
- 更好的数据质量: 数据仓库集中了来自各种数据源的数据,例如事务系统、操作数据库和平面文件。
然后它会清理它,消除重复,并对其进行标准化以创建单一的事实来源。
- 更快的业务洞察力: 来自不同来源的数据限制了决策者自信地制定业务战略的能力。
数据仓库支持数据集成,允许业务用户将公司的所有数据用于每个业务决策。
- 更智能的决策: 数据仓库支持大规模 BI 功能,例如数据挖掘(发现数据中看不见的模式和关系)、人工智能和机器学习——数据专业人员和业务领导者可以使用这些工具来获得确凿的证据来实现更智能几乎在组织的每个领域做出决策,从业务流程到财务管理和库存管理
- 获得并不断增长的竞争优势:以上所有因素相结合,可以帮助组织在数据中找到更多机会,比从不同的数据存储中更快地发现机会。