数据仓库是上世纪 90 年代就已经出现的概念,其出现的背景是企业的信息化及伴随着各种信息系统的出现如 CRM、ERP等具体请参照 Bill Inmon 或 Ralf Kimball 的定义,其中 Bill Inmon的定义接受度最广:数据仓库是面向主题的、集成的、反应时间变化的、相对稳定的数据集合,用于支持管理决策,下面我们就来说一说关于大数据中什么是数据仓库?我们一起去了解并探讨一下这个问题吧!
大数据中什么是数据仓库
概念不同数据仓库是上世纪 90 年代就已经出现的概念,其出现的背景是企业的信息化及伴随着各种信息系统的出现如 CRM、ERP等。具体请参照 Bill Inmon 或 Ralf Kimball 的定义,其中 Bill Inmon的定义接受度最广:数据仓库是面向主题的、集成的、反应时间变化的、相对稳定的数据集合,用于支持管理决策。
大数据是10多年前才出现的概念,其背景是互联网时代的到来和数据大爆炸,具体请参照 McKinsey, Gartner的定义。其中个人还是最喜欢 AWS 比较接地气的定义:Big data is when your data sets become so large and diverse that you have to start innovating around to collect, store, process and analyze data.
用途和价值不同数据仓库相对用途比较单一,主要用于支持管理决策,多服务于各种 BI 报表、仪表盘、自助分析等应用。
大数据用途非常广泛,除了决策支持外,还常见于互联网搜索、市场营销、实时计算、物联网、机器学习等各种新型应用中。
处理的数据量与类型不同数据仓库是小数据时代的产物,且主要用于结构化数据的分析,一般处理的数据量从 GB 至 TB 不等。数据来源包括企业的各种信息化系统,如ERP、CRM、SCM、MES…
大数据是互联网时代的产物,用于海量的各种类型的数据存储、处理与分析,包含结构化、半结构化、非结构化的数据,其处理的数据量一般起始以 TB 为单位,PB 也非常常见。其数据来源非常广泛,包括企业的信息系统、在线网站、物联网设备、网络爬虫、甚至第三方购买数据。
技术与产品成熟度不同数据仓库发展了这么多年,技术与产品相对较为成熟,且有完整的建设方法论。技术上大多以大规模并行处理(MPP)、内存计算、列式存储为核心,产品上以 Teradata, Oracle, Vertica, Greenplum, SAP BW 等为代表。
大数据技术经过10多年的发展,尽管以 Hadoop 为代表的大数据生态圈已经非常繁荣,在技术上拥有出色的可扩展性,包含了丰富的各式数据处理引擎或框架,但相比数据仓库,其技术与产品的成熟度还相对欠缺,企业的大数据平台往往需要大量优秀的大数据人才进行开发和运维。
大数据技术的发展,把数据仓库带入了一个新的发展阶段,新一代的企业数据仓库越来越多的基于大数据技术构建,在向海量、实时、弹性、应用场景丰富等方向发展。在此过程中,涌现了一批优秀的国产大数据开源技术,比如 Apache Kylin, Apache Doris,RocketMQ 等,这在10多年前是不可想象的。衷心希望在大数据这条赛道上,我们可以再接再厉,实现底层技术上的超越,引领世界技术的潮流。
,