故障管理的参数（如何实现分钟级故障管理）

随着云计算、大数据的不断发展，系统架构不断升级，功能持续迭代。系统的复杂性越来越高，故障的发生不可避免，场景也无法预测。就硬件设备来说，IT设备规模不断增加，告警种类与数量也随之增加。核心层的故障牵一发动全身，可能会产生大面积的告警，故障定位效率大大降低，同时影响业务系统正常运行。

今天我们分享故障发生后，如何第一时间定位到故障性能指标，快速恢复系统运行以降低故障影响的方法。

小伙伴不禁发问，故障是不可避免的吗？

是的，非但故障不可避免，甚至什么时候、什么场景发生故障都无法预测的。

只要有可能，就一定会发生，墨菲定律如是说。

PART

故障定位方法

1、经验驱动

根据个人经验，通过应用逻辑功能，上下游调用链、数据流向、应用配置、数据库流水等要素，快速定位故障。此处凭借高能经验值不足为外人道也。

2、启动应急预案

故障发生可能会影响业务的正常运行，运维工程师可以启动紧急预案，缓解抢修压力。可将预案乐高式拼装，一旦产生故障，预案可自动触达。通过场景模块的整合，形成标准化动作，同时也丰富预案的模块设计。

万般技巧皆是用来保障系统业务的稳定运行。

3、测试复现

查看生产环境的异常日志，同步测试系统，将生产已知缺陷数据在线化，辅助测试定位。在线获得配置信息，查看应用配置项的生产设置情况，快速掌握故障根因。

PART

工具使用

1、查看日志

日志是运维人员了解硬件及软件内部逻辑的一面窗口。日志记录业务、中间件、系统等全链路信息，可以有效监控IT系统各个层面，可有效地调查系统故障，监控系统运行状况。

一体化的日志分析平台和AI技术结合，归纳分散日志，对日志数据进行二次加工，大大提升故障定位能力。

2、链路关系

运维工程师可对平台现有链路关系进行在线的获取，充分掌握平台系统的可维护性与可靠性，服务调用配套的解决方案。

3、监控定位

监控的核心价值是发现异常，即刻响应。主要体现在以下几方面：

对异常的描述。

告警收敛，基于 CMDB 关系数据进行初步定位。

利用监控数据与 AI算法，智能化故障定位。

4、数据感知

通过数据基线，感知系统健康状态，多维度组合的可视化、即时的信息推送能够更快，更全面的感知异常。

5、知识库匹配

支持数据源、指标、文本异常检测，基于故障案例、数据挖掘的故障诊断、故障预测、故障自愈、成本优化、资源优化、容量规划、性能优化等场景。

解决专家不在故障处理现场的问题，以及技能的沉淀与传承。

6、推荐LinkSLA智能运维管家

故障管理的参数（如何实现分钟级故障管理）(1)

轻装上阵，无忧运维。自动巡检，快速发现异常主动式预防。

故障管理的参数（如何实现分钟级故障管理）(2)