文章将从云计算基建、大数据基建、数据构建、数据管理、数据应用5个角度,阐述数据架构师的必备技能和素养。
云计算基建传统的IT架构已存在几十年,随着企业业务的快速发展,对于业务的可用性要求越来越高,对于成本的压力也越来大。是否存在一种方式能以更低成本、更高性能和可用性的方式支持新时代的企业信息化要求?部分互联网公司由于自身业务快速发展的原因,做了大量尝试。阿里巴巴率先发起的“去IOE运动”:将IBM机器替换成云上服务器,将ORACLE数据库替换成云上数据库,将EMC存储替换成云上存储服务器。带来的不仅仅是成本的降低,同时也提供了更加稳定、安全的环境。云计算作为信息时代的水、电、煤已成为行业共识。随着云计算的兴起,企业全面上云的拐点已到。作为一名合格的数据架构师,对云计算基础设施需要有充分的理解。
- 首先,相较于传统的服务器,架构师需要了解云上是如何实现稳定、弹性、安全、成本、易用、扩展的云上服务器的。还包括如何实现物理资源的虚拟化,如何通过弹性伸缩从容面对业务的峰谷,如何通过多地域多可用区实现容灾等。另外,数据架构师需要能评估服务器所需资源类型,通过技术调研和论证,得出所需要的服务器的资源,例如面对不同的业务和技术场景,企业需要的是紧凑型、通用型、均衡型、内存型、独享型哪种类型的服务器。
- 其次,网络同样也是数据架构师必须掌握的基础知识,如何设计安全的网络机制、如何规划合理的网络配置、如何进行可靠的网络连接(包括不同虚拟网络之间以及与客户本地IDC进行连接方式等),都是数据架构师在工作中会遇到的各种挑战。
- 最后,数据架构师需要了解各种云上数据库(包括关系型数据库、NoSQL数据库等)的应用场景、产品特性等。以及如何保障其可靠性,安全性、可用性、扩展性、成本。另外还有对象存储产品的特性,如何对视频、图片等数据进行有效的管理。如何通过CDN等手段提高用户访问响应速度。
大数据借着云计算的东风,也开始在信息时代发挥越来越重要的地位。阿里巴巴提出的数据中台概念和实践,也在云上落地开花。面对体量巨大、时效要求高、形式多样化、价值密度低的企业大数据,对于数据架构师,需要在采集、计算、存储等基础技术的原理和应用场景形成自己的知识体系。
- 首先,数据架构师需要了解业界通用的PC端和无线端采集、爬虫采集等场景的具体方案。理解从埋点申请、可视化埋点实施、验证、发布到监控的全生命周期管理。
- 其次,对于离线计算和实时计算的模式和原理,以及对应场景的离线计算和实时计算的产品都应该熟悉掌握,在洞察客户需求后,能合理的做计算模式的选择和判断。
- 最后,大数据在存储上与业务系统在场景和目标上的本质区别,需要理解如HDFS的大数据存储原理、MPP架构的原理和常用场景、消息中间件用于实时计算的方式等。
数据架构师很重要的职责就是思考如何对数据做合理有效的构建,形成标准、统一、可公用、可理解的公共数据,让业务能够尽情在建设好的数据上驰骋沙场,利用数据创造出业务价值。
- 首先,好的数据体系能够对数据进行有效的横向分层,合理的纵向分类。通过数据体系的构建,能够让数据生产者更合理高效的组织数据,数据消费者能更有效的理解和获取所需数据,数据管理者能更高效的管理好数据。因此数据架构师需要能从全局上对数据体系有个整体上长远的规划。
- 其次,数据需要能够被更好的组织和使用还需要有合理的数据建模方法论的支撑,例如基于维度建模的数据构建方式能够让数据以事实表和维度表的方式的方式向上提供数据服务,并且预先通过基于分析对象的汇总数据能够提供统一标准的业务指标定义。数据架构师需要有理解业务、抽象实体、形成模型的知识体系,并且在遇到问题时能从合理性、可扩展性、易用性、可理解性等各种角度给出模型设计的合理解决方案。
- 最后,就算数据架构师不需要做代码开发,可是这个能力是对数据架构师最基本的要求,只有充分理解了数据加工的整个过程,才能基于数据的思维去设计好数据体系。在碰到项目开发同学遇到数据处理问题时,能够及时提供有效的帮助,对于建立项目中的信任关系也起到了关键的作用。
数据质量是数据能被信任的关键,也是数据中台建设能否成功的关键。因此数据架构师需要设计事前、事中和事后的数据质量检测和处理机制,保证数据在完整性、准确性、及时性、一致性上满足业务的要求。
数据架构师还需要保证数据治理能够形成有效的闭环,从发现治理问题、推送给责任人、引导治理动作、治理效果评估、到下一次进行新的治理问题发现,根本上杜绝数据“有人生、没人养”的困局。就像环境治理一样,只有基于体系化的长效机制才能还我们绿水青山。
数据是一把双刃剑,因为它在给业务带来价值的同时,数据安全的问题是另一把可致企业于死地的利剑。数据架构师要对数据安全规划做在最前头,从数据产生到消亡全生命周期进行安全制度和流程的规划,同时需要通过如差分隐私、保序脱敏等各种技术手段保障数据安全。
数据只有让业务充分使用才能产生价值,因此首先数据架构师需要思考如何提高数据的易用性,包括从数据的业务视角组织形式、数据标准口径的定义方式、基于元数据帮助业务理解数据等方式。再次,数据是有成本的,因此需要能够更好的衡量数据带来的价值,形成数据资产ROI,再配合相应的数据运营手段,才能让数据资产化和价值化互相促进发展,相爱相生。
数据应用数据架构师需要能够让数据更好的服务业务,但是应抛弃疲于奔命于各种跑数取数的深渊中,需要能跳出一个个单点的需求,能更全面的思考如何主动服务业务。
- 首先,数据架构师需要有很强的业务理解能力,对客户的业务能基于行业视角有清晰的理解,并且能基于理解做进一步的抽象,抽象出业务的本质。
- 其次,数据架构师能从业务方的需求、对业务和数据的理解沉淀出一系列的分析思路。也需要能通过算法结合数据,思考如何进行数据的深度挖掘,挖掘出高价值数据。最终能将思路和方法通过产品化的方式沉淀,主动服务业务,与业务共创数据价值。
- 最后,数据的本质是为了赋能商业、创造商业,因此数据架构师需要有一定的商业思维,能理解数据如何使商业更加智能,如何驱动商业的发展,如何创造新的商业形态。
技术到业务,方法论到产品化,全局规划到细节把控,数据架构师需要在大数据的方方面面都承担起重要的作用。更重要的是,需要有对大数据行业未来的信心、对职业发展方向的恒心、对漫长落地过程的耐心、对赋能商业的热心。
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!阿里巴巴数据中台解决方案,核心产品:
- Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
- Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
- Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
,