智能化网络运维方案(实战夯实数字化转型服务底座)(1)

北京银行系统运营中心副总经理(主持) 宗勇涛

今年年初,央行发布的《金融科技发展规划(2022-2025年)》提出了“建立健全金融数据中心智能化运维机制,加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。”的指导意见。可以看出,推动数据中心智能化运维是保障金融业务稳定持续运行的重要一环。近年来,北京银行不断加速数字化转型,积极投入智能化运维体系建设,探索实践应用网络协同一体化运维的新模式,旨在为“数字京行”建设和用户体验升级构筑坚实的数字底座。

金融数字化转型中的运维挑战

云计算、大数据、虚拟化等金融科技在不断加速应用,同时银行业务也在快速发展,使得IT架构日益复杂化,引入的运维平台和工具越来越多,这些平台之间如何实现能力和数据的互通,从而提高整体运维效率,是IT运维团队面临的挑战。

一方面,北京银行线上业务迅猛发展,业务的互访关系错综复杂,一笔交易完成可能涉及多个业务系统,如何端到端实时感知业务交易的质量,进而区分每段交易在各个应用流转中的质量,这对应用可视化运维提出了新的诉求。

另一方面,随着分布式、大数据业务的兴起,数据中心东西向流量占比越来越大,分布式“多打一”流量极易引起微突发等问题,传统监控手段难以察觉。分布式架构带来网络设备成倍增加,业务稳定运行要求网络隐患可提前识别、故障可快速定位,这对网络智能运维带来了新的挑战。

第三,一旦业务出现访问慢等问题,通常需要多部门投入定位,应用和网络人员需要反复沟通,特别是对于偶发性的业务投诉类问题,由于交易过程涉及的应用系统多、网络路径长,需要应用和网络更自动化、智能化地联合运维,这就对应用和网络系统间能力互通、数据流通提出了新的诉求。

北京银行已建成应用性能分析平台和网络运维平台,为了使运维工作更加高效、自动化、智能化,达到缩短业务问题定位时长、支撑业务稳定持续运行的目的,经过充分研讨和验证,决定在提升应用和网络运维智能化的同时,首创打破两者的数据边界,实现业务流量从应用到网络的端到端路径还原,可以从应用交易视图一键下探到对应的网络路径和路况,使得业务问题的定界更加清楚、定位更加简单。

探索智能运维经验分享

近期北京银行运维团队在自动化和智能化方面做了一些尝试,希望借助新技术逐步夯实运维基础,联合华为共同探讨一系列关于数据中心智能化运维演进的思路,并通过相关实践,寻找保障业务安全生产的有效途径。

1.多源统一,使能全链路应用性能监控

企业数字化转型须要以业务为中心,线上业务迅猛发展,业务新老架构并行,如何对不同的业务进行全面的质量监控、真实的关系还原、实时的故障告警、快速的故障定位成为IT管理部门面临的难题之一。

北京银行采用旁路技术,通过端口镜像捕获网络流量数据,可以从传统环境、虚拟化环境、云环境以及容器环境中实时地、完整地获取业务流数据,从而解析建立实时统一的业务视图,直观展现应用服务的业务逻辑、依赖关系、服务运行质量、发生的告警、并提供自动故障分析功能,可呈现每笔交易的业务路径并区分每个应用节点上的时间消耗,找到性能瓶颈,在业务提供服务的全过程中进行运维保障。

智能化网络运维方案(实战夯实数字化转型服务底座)(2)

图1 端到端业务交易追踪

2.夯实基础,积极布局网络智能运维平台

数据中心作为数据处理和交互的核心枢纽,保障其安全生产是各项金融业务平稳运行的基础。经历了脚本化→工具化→自动化的运维模式演进,如今在智能运维的道路上,北京银行已针对网络预测性维护和海量告警运维开展了智能化实践。

网络就像信息的“海洋”,表面风平浪静,海面下可能存在很多“暗礁”,网络中的“暗礁”就是可靠性等风险隐患。虽然这些“暗礁”当前未被触发,但长期来看可能造成重大故障,而传统人工巡检方式受限于数据采集精度和人力效率,难以实时感知网络健康劣化风险。防火胜于救火,如何系统性的排查网络风险隐患是北京银行正在研究的重要课题之一。目前,北京银行已使用Telemetry技术秒级采集运维数据,解决SNMP采集精度差的问题,实时监控网络设备运行状况,在此基础上通过AI算法将多个网络指标关联起来分析,提前识别网络中可靠性、容量、性能、稳定性等隐患,统一评估全网潜在风险,改变以前被动救火的运维模式,降低故障发生概率。

另外,故障发生后往往引发海量告警,这些告警就像“海啸”一样涌向运维系统。如何有效降低告警“噪声”也是传统运维的一大难题,北京银行将知识图谱技术应用在网络运维中,对全网基础资源统一建模,将网络对象、事件、传播关系进行联合分析,推理网络故障根因,只上报聚合后的根因告警,缩短故障定位时间。

智能化网络运维方案(实战夯实数字化转型服务底座)(3)

图2 网络智能运维架构

3.珠联璧合,探索应用网络一体化运维

解决应用与网络运维割裂、数据孤岛的难点在于,网络如何快速向应用提供数据服务,基于API硬编码开发难以匹配敏捷灵活的业务创新模式,而网络服务化的出现给解决这一难题带来了希望。通过将网络原子API进行服务化,并全面开放网络数据服务,实现拖拽式整合即可快速发布场景化API与上层应用系统对接,大大缩短了系统间集成周期。

基于此,北京银行探索应用和网络一体化运维的新模式,网络运维平台开放“网络路况”服务并与应用性能分析平台集成,将业务交易的全服务路径与业务流的网络转发路况进行一键关联,基于网络流量贯穿全局从而实时感知业务变化和质量劣化,通过应用到网络端到端路况可视,快速定界问题边界并定位具体故障原因,从而及时保障业务稳定运行和用户体验,也将运维从人工协作和数据孤岛中解放出来,打破运维边界,形成高效联合的作战能力。

智能化网络运维方案(实战夯实数字化转型服务底座)(4)

图3 应用网络一体化运维示例

持续演进,开拓进取,夯实“数字京行”服务底座

北京银行首创的应用网络一体化运维模式,当前已在顺义数据中心部署并在青岛分行业务中实践应用。实时呈现该业务调用链的路径(客户端→LB→系统RS…)和关键KPI(响应率、成功率等),实时分析各应用节点之间的通信性能(建连时延、响应时延等),深入解析业务包交易明细,如果发现LB到系统RS之间通信时延大,可一键下钻到“网络路况”界面,呈现该业务流在网络中的真实转发路径,以及该路径上面的“路况”信息(状态、丢包、性能KPI等),数分钟之内即可定位出业务问题原因,运维效率大大提升。

时代变迁,不变的是“以客户为中心”的客观规律,北京银行以金融科技和数字技术为支撑,加快“数字京行”建设和用户体验的升级。展望未来,北京银行将不断深化科技战略布局,着力构建起独具自身特色的企业级基础架构体系,支撑全行转型增效。

,