《数据中心运行维护与管理标准》经过各方的努力终于通过审查和发布,与大家见面了。《数据中心运行维护与管理标准》 是一部面向数据中心运维管理的标准,为了让广大读者准确地理解和执行标准,以“主编解读”的方式分期分专题向大家一一讲解标准条文的核心含义,帮助大家正确理解标准,做好数据中心的运维工作。
一、编制背景
在信息化的时代,无处不在的互联网 应用、大数据、云计算、区块链以融入国民经济、科研、教育、制造所有领域和百姓的衣食住行,这些信息的承载、处理离不开计算机,计算机运行又离不开数据中心的保障,为此数据中心建设已进入了高速发展时期。
在数据中心的全生命周期中,一般建设一个数据中心需要三年左右的时间,而大量的运行维护管理的工作将伴随数据中心的长期运行,可以说数据中心是三分建设七分运维。如何做好数据中心的运维,数据中心如何管理、需要什么样的组织架构、对岗位的要求、人员需要具备的素质?数据中心日常运维有哪些基本的流程、事件如何分级和响应、日常的维护工作有哪些?数据中心的文件又如何建立、分类和管理?数据中心如何做好应急事件处置和管理?数据中心的资产的管理、运维需要关注哪些运维成本和能效管控?都是每一个数据中心管理层和运维人密切关注的事情。
当今在国内的数据中心的建设中有GB50174-2017 《数据中心设计规范》、 GB50462-2015《数据中心基础设施施工及验收规范》、GB/T 51314-2018《数据中心基础设施运行维护标准》、T/CECS 488-2017 《数据中心等级评定标准》 。但是《数据中心运行维护与管理标准》还处于空缺的状态,因此在这样的背景下,组织了互联网、BAT、金融、企业、设计院、建设和施工的单位,还有部分产品制造厂商编制了面向数据中心运维管理的《数据中心运行维护和管理的标准》。
二、标准概要
章 |
节 |
内容 |
第一章 总则 第二章 术语 第三章 一般规定 | ||
第四章 组织架构与人员管理 |
架构;岗位、人员、培训与考核 |
运维模式、团队设置、岗位设置、人员技能要求、培训与能力考核。 |
第五章 日常运行维护管理 |
运行流程文件管理环境安全质量管理 |
1、服务台、事件、问题、变更、服务请求;事件的分级原则与处理、变更的类别与管理; 2、文件的生命周期、文件的分类分级、文件的维护; 3、数据中心区域安全的划分、访问管理; 4、日常巡检要求、健康性检查与维护保养、安全评估与预防。 |
第六章 应急管理 |
架构、人员、流程和管理 |
应急组织架构; 应急事件分级; 应急处理流程; 演练与评估。 |
第七章 成本与能效管理 |
成本和能效管理 |
资产管理:资产的分类、资产的档案、资产使用、资产的报废; 运维成本:运维成本范围、运维成本的预算、结算、评估和优化; 容量管理:电能、制冷和空间容量的管理; 能效管理:电能和水能消耗统计、分析、评估和优化。 |
《数据中心运行维护和管理的标准》是第一部面向各类数据中心的运行、维护和管理标准;遵循以人为本、安全运行为纲、预防为主、演练与实战相结合的原则,安全管理和预防为主是本标准的核心。本标准将指导和帮助数据中心建立运维的管理架构,规范数据中心的运维流程,开展日常的运维,如何处置应急事件、有效的管理和控制运营的成本。
第二章、团队、岗位和人员
一、本标准对数据中心组织架构和、岗位以及人员设置的分界与范围
按照当前行业和功能的主流划分,将数据中心划分为三种类型:
互联网数据中心(IDC--Internet Data Center)
企业数据中心 (EDC--Enterprise Data Center)
外包数据中心 (ODC--Outsourcing data center)
对IDC、EDC的数据中心都包含了基础设施的运维和自有业务系统的运行维护,即使同一类型的数据中心各自个性化的自有系统的运行维护的要求都是有很大的差异,比如不同银行的金融数据中心研发和测试、运行的环境、对外服务的要求都大不相同。
因此本标准仅涉及共有的基础设施环境运维的组织架构、岗位和人员要求。
二、数据中心的组织架构的设定
数据中心如何构建数据中心的组织架构,设置运行维护和管理部门(或团队)的数量,设定时应取决于数据中心以下的因素:
- 经营模式:自用、外包或部分外包;
- 管理模式:集中式或分散式
- 业务模式:生产中心、测试中心、研发中心、灾备中心
- 运维模式:自主运维、全外包运维、部分外包运维
- 数据中心规模:超大型、大型、中小型
数据中心最基本的组织架构基本包括:
基础设施运维部----负责数据中心基础设施的运行维护
电子信息系统运维部----负责数据中心网络系统和IT系统的运行维护
监控中心----负责数据中心基础设施、网络和运行系统的监视和操作
安全管理部----负责数据中心安全和质量管控
客户服务部----负责受理客户的需求,协调数据中心与客户之间的关系
综合管理部----负责数据中心的人士、财务和后勤保障
在数据中心组织架构的设立的原则是:部门(或团队)组织方式、数量以及配备的人数应能满足保障数据中心内各系统连续不间断运行的要求,并为各类用户提供及时和良好服务。因此可以根据各自运营的特点设置符合本中心数据中心运行要求的部门(团队)。
实际上数据中心的运维还包括物业、数据中心能源保障等功能要求,其组织架构和人员的配备是通过外包的方式提供,不在本标准编制的范围。
三、数据中心岗位的设定
基于数据中心部门(或团队)的设定,为确保数据中心基础设施各系统的正常运行,应设立运行与维护、监控与操作、安全与控制、综合管理或同等功能等岗位。这些专业技术位和服务管理岗位的设定应包含:
- 电子信息系统运行岗位:监控服务器和网络等业务设备和系统的运行状态,并进行现场操作;
- 电子信息系统运维岗位:承担服务器和网络等业务设备和系统的运行维护工作;
- 基础设施运行岗位:监控基础设施的运行状态,并进行现场操作;
- 基础设施运维岗位:承担数据中心基础设施运行维护工作;
- 安全与质量控制岗位:承担数据中心安全检查和质量控制工作;
- 综合管理岗位:承担数据中心人力资源、行政和后勤等日常工作;
- 客户服务岗位:协调客户关系,满足客户需求。
上述岗位中电子信息系统运行和基础设施运行岗位一线操作人员,负责日常的运维监控;电子信息系统运维和基础设施运维岗位属二线工程师,负责系统故障处理和维护。
对关键技术岗位,应对职位进行冗余配置,并定期轮岗。
原则上上述部分岗位之间具有不兼容性,是指同一人员不能同时担任一线和二线的岗位。
三、数据中心人员的要求
本标准给出管理人员和技术人员的要求:
1、管理人员
管理人员应具备条件有:
- 熟悉数据中心运行、维护和流程;
- 应有制定年度目标和工作计划的能力;
- 下达、指挥和监督各项工作的落实;
管理人员的入职和职位变动
应进行资格、从业经历和业务能力的测评。对资格的确认的方式有:相关机构颁发的毕业证书、资格证书、技能证书等,也可以做能力和从业经验的测评。
2、技术人员技术人员应具备的条件:
- 应具备本岗位相关运行维护服务的资格和能力,
- 从事特定工作的人员应持有执业资格证书;
- 上岗前应参加岗前培训和能力测评;
应具备本岗位的专业技术能力的确认同样可采用:相关机构颁发的毕业证书、资格证书、技能证书等,也可以做能力和从业经验的测评。
特定工作通常是指国家法定的、标准要求或客户要求的工种或岗位。法定的是指国家或行业法律法规要求从业资格,如高压电工作业证、职业技能水平证书等。标准要求的是指某些产品的维护标准中要求持有证书的人员进行操作。客户要求的是指根据服务协议的要求,获得的相关资格证书。
第三章、事件和变更流程
数据中心的运维需要建立运行、维护和管理的工作制度和流程。支撑数据中心开展正常的运维流程基本上包括:服务台、事件管理、变更管理、问题管理四部分,本讲重点介绍事件、变更两个流程的要点。
一、事件管理
事件管理是数据中心运维管理的重要流程,事件管理包含了事件的发现、事件的处理、事件的恢复和事件的回顾。在事件管理流程中应关注以下的环节:
1、什么是事件
数据中心每天都有许多服务请求,这些请求统称为事件,通常这些事件分为业务、工作需求和运行故障三种形式,本标准侧重于运行中发生的故障事件的处理管理流程,因为这类的事件将导致服务中断,会引发财产的损失、用户的利益、企业的声誉。
2、事件的分级
在数据中心运维中,通常是按照系统来进行事件的分类,同时需要对事件进行分级,分级的目的就是针对不同等级的事件,调用相应的资源加快处理的速度和控制事件事态的升级,减少服务中断的时间和损失。目前不同行业或单位对事件分级是有不同的方式,比如事件对服务的重要性、事件影响面、事件造成的损失、事件的持续时间、与用户签订SLA协议要求等等。如何制定事件的分级,本标准给出了容忍度的分级方法论,事件的分级见下表:
采用容忍度的分级方法,可以很好地覆盖所有的数据中心对事件的分级要求。
3、事件处理优先级
在数据中心运行中,会出现多个事件同时发生,需要优先处理重要的事件和紧急的事件因此需要制定事件处理的优先级,加快服务处理的时效和提升服务质量。事件优先级需要关注两个维度:一是影响度,影响度是指影响用户服务的范围、业务的数量和造成的损失;二是紧迫性,紧迫性是指事件对应的服务级别、服务系统的重要性、事件的持续时间等。
4、事件升级
在处理事件时,会出现随着事件处理时间增加导致事态的扩大,或者在处理事件中引发新的事件,因此需要对事件进行升级。
事件的升级分为职能性升级和结构性升级两种:
- 职能性升级:调动更多的资源(高级、资深或厂家的技术人员、跨部门跨地区的协作)加快事件的处理。
- 结构性升级:升级到上级或更高的管理部门,通过管理层的权力调动需要的资源,加快事件的处理速度,并做好与受影响用户的沟通。
二、变更管理流程
在数据中心运行中会有大量的变更,比如设备的维护保养、更换耗材、设备测试、新系统上线、改造或扩容、故障原因查明后的修复等等,很多系统的变更会需要撤离生产环境或停机处理,有些变更会引发系统宕机的风险,因此需要建立变更的管理流程,控制和降低变更带来的运行风险。
1、严格控制变更
要求变更遵守以下原则:
- 变更要求审批
- 变更要有计划安排
- 变更应避开服务的高峰期实施
- 变更前应做好测试和充分的应急预案
- 重大的变更需要取得上一级监管的批准或提前报备
- 变更前应做好通告和用户的解释工作
2、变更类型
按照变更对运行的影响程度,本标准将变更分为紧急变更、例行变更和标准变更三类。
3、变更审批授权要求
所有的变更都需要建立审批授权机制。不同的变更类型的审批授权机制如下:
- 紧急变更:工作时间采用一事一审批的方式;非工作时段可采用电子(电话、短信、微信等)审批方式,事后补办流程。
- 例行变更:可采取定期(如年度)集中预批准的方式,对例行变更请求,集中审核、审批,一次审批年度内有效。
- 标准变更:采用一事一审批方式,也可以定期或不定期召开变更请求审批会,多个变更请求进行审核和排期审批。