对于那些追求人工智能 (AI) 和机器学习 (ML) 优势的组织而言,现代化数据架构是主要挑战之一。与当今所需的复杂架构相比,商业智能 (BI) 的数据架构确实非常简单。 BI 数据架构主要关注如何获取、组织、集成、存储和访问数据。获取和集成主要基于批处理 ETL、组织和关系概念和技术的存储,以及对 SQL 查询的访问。对于寻求更高级分析的组织而言,这种更简单的模型已不再适用。相反,他们必须过渡到现代数据架构,这需要一种新的元数据管理方法,最好的例子是企业数据目录。

现代数据架构的挑战

AI/ML 的现代数据架构比过去几代数据管理要复杂得多。复杂性始于数据本身。 AI/ML 最适合处理海量数据。数据并非都是用关系概念结构化和轻松组织的。许多数据不是基于 SQL 的,有时与 SQL 不兼容。并非所有缓慢移动的数据都可以进行批处理。企业控制范围内的数据并不完全是已知的内部数据。它无法通过一刀切的模式(例如数据仓库)满足所有用户的需求。

外部数据和大数据源可以充满惊喜。有时,令人惊讶的是内容或组织的变化会影响数据的处理方式。当数据包含意外的个人身份信息 (PII)、支付卡信息 (PCI)、受保护的健康信息 (PHI) 或其他安全和隐私敏感数据时,会出现更多破坏性的意外情况。

现在考虑当今数据资源(数据科学家、数据分析师和业务分析师)的众多用户和用例,其中许多是自助服务数据消费者。他们需要查找数据进行分析、了解数据、评估其是否适合其目的,并访问他们需要的数据——所有这些都不会损害受保护数据的隐私。

现代数据架构的要求

现代数据架构必须能够扩展以支持海量数据和高性能处理。它必须对数据、技术和消费者需求的变化具有适应性和弹性。它必须支持发现数据知识,这对于消费者查找和理解他们需要的数据至关重要。它必须支持从流处理到批处理 ETL 的所有数据速度。它必须支持从关系到非结构化和半结构化的许多变体的所有数据种类。它必须为所有数据消费者提供数据访问,同时保护敏感数据。

如果没有元数据,这一切都是不可能的!

现代数据架构的形态

现代数据架构包括几个相互关联和相互依赖的组件。 (见图 1)

数据分析小白学习指南(数据架构师的数据目录指南)(1)

图 1. 现代数据架构

在整个数据分析生命周期中,该架构包括以下组件:

源数据——连接到任何需要的数据源。来源包括企业内部的数据以及外部来源的数据。它们包括关系结构化、半结构化、多结构化和非结构化数据。

摄取数据——将数据带入分析生态系统。摄取包括批处理和实时方法,从批处理 ETL 到数据流处理。可扩展性和弹性对于适应数据量和数据速度的可变性很重要。

优化数据——将数据组织到可共享的数据存储中,例如数据湖、数据仓库和主数据/参考数据中心。数据清理、集成、聚合和其他类型的数据转换是数据精炼厂的责任。

访问数据——为人员和使用数据的应用程序和算法提供对数据的访问权限,可以通过多种方式完成,包括查询、数据虚拟化、API 和数据服务。

分析数据——将数据转化为信息和洞察力包括从基本报告到数据科学、人工智能和机器学习的活动。

消费数据——数据消费是数据和人紧密联系的点。从信息和洞察到决策、行动和影响是数据消费的目的。

除了支持数据分析生命周期的所有阶段之外,该架构还包括用于数据管理(治理、行政和基础设施)以及元数据管理的组件。现代元数据管理理想地建立在企业数据目录的功能之上。该目录确实是一个“跨平台元数据管理系统”。

数据目录的作用

元数据是将所有其他架构组件结合在一起的结缔组织 - 摄取是了解来源的方式,细化与摄取之间的桥梁,等等。体系结构的每个部分都在创建元数据和使用元数据方面发挥作用。

数据采集​——采购和摄取——是数据清单不断更新的点,元数据是分析生态系统中所有数据的记录。智能数据目录包括用于发现和提取元数据的 AI/ML 功能,最大限度地减少元数据捕获所需的手动工作并提高元数据的完整性水平。这也是收集数据来源元数据和数据沿袭链开始的点。

数据细化收集有关通过数据管道的数据流以及通过数据流应用的所有转换的元数据。这包括将数据移动到数据湖和仓库中的数据管道,以及为分析准备数据的管道。从数据来源扩展而来,此元数据提供了沿袭信息,它是可信数据的基本要素,也是在出现问题时进行跟踪和故障排除的关键工具。智能数据目录还可以为数据优化提供建议——例如建议一种混合两个数据集的方法或推荐一种屏蔽隐私敏感数据的方法。

数据访问和数据分析广泛依赖于数据目录,作为分析师查找所需数据、理解和评估数据以及了解如何访问数据的手段。元数据还将数据访问与数据治理联系起来,以确保应用访问控制。收集有关访问频率的元数据有助于为数据评估过程提供信息,了解谁经常访问有助于找到数据主题专家。

使用数据提供了一个机会来收集有关谁使用哪些数据、用于何种用例以及具有何种业务影响的元数据。了解数据消费者及其数据依赖性是数据管理和数据驱动文化的核心。消费知识对于数据战略、规划和管理的价值对于每个使用数据的人来说都是显而易见的。

管理数据(治理、行政和基础设施管理)取决于对数据的了解、操作数据的流程以及数据的使用和用户。将知识作为数据目录中的元数据进行管理,可确保数据管理流程与数据分析流程相关联并为数据分析流程提供支持。

图 1 中的现代数据架构图显示了位于架构中心并与其他所有组件相连的数据目录。这就是元数据的作用——促进数据知识在所有数据管理和数据使用过程中的流动。它确实是将数据架构结合在一起的粘合剂。

最后的想法

每个数据架构师都应该知道并理解元数据的重要性。每个数据架构师还应该认识到数据目录作为最先进的元数据的作用数据管理。 聪明的数据架构师将很快成为数据目录的拥护者和拥护者。

,