随着云计算、大数据的不断发展,系统架构不断升级,功能持续迭代。系统的复杂性越来越高,故障的发生不可避免,场景也无法预测。就硬件设备来说,IT设备规模不断增加,告警种类与数量也随之增加。核心层的故障牵一发动全身,可能会产生大面积的告警,故障定位效率大大降低,同时影响业务系统正常运行。

今天我们分享故障发生后,如何第一时间定位到故障性能指标,快速恢复系统运行以降低故障影响的方法。

小伙伴不禁发问,故障是不可避免的吗?

是的,非但故障不可避免,甚至什么时候、什么场景发生故障都无法预测的。

只要有可能,就一定会发生,墨菲定律如是说。

PART

01

故障定位方法

1、经验驱动

根据个人经验,通过应用逻辑功能,上下游调用链、数据流向、应用配置、数据库流水等要素,快速定位故障。此处凭借高能经验值不足为外人道也。

2、启动应急预案

故障发生可能会影响业务的正常运行,运维工程师可以启动紧急预案,缓解抢修压力。可将预案乐高式拼装,一旦产生故障,预案可自动触达。通过场景模块的整合,形成标准化动作,同时也丰富预案的模块设计。

万般技巧皆是用来保障系统业务的稳定运行。

3、测试复现

查看生产环境的异常日志,同步测试系统,将生产已知缺陷数据在线化,辅助测试定位。在线获得配置信息,查看应用配置项的生产设置情况,快速掌握故障根因。

PART

02

工具使用

1、查看日志

日志是运维人员了解硬件及软件内部逻辑的一面窗口。日志记录业务、中间件、系统等全链路信息,可以有效监控IT系统各个层面,可有效地调查系统故障,监控系统运行状况。

一体化的日志分析平台和AI技术结合,归纳分散日志,对日志数据进行二次加工,大大提升故障定位能力。

2、链路关系

运维工程师可对平台现有链路关系进行在线的获取,充分掌握平台系统的可维护性与可靠性,服务调用配套的解决方案。

3、监控定位

监控的核心价值是发现异常,即刻响应。主要体现在以下几方面:

1

对异常的描述。

2

告警收敛,基于 CMDB 关系数据进行初步定位。

3

利用监控数据与 AI算法,智能化故障定位。

4、数据感知

通过数据基线,感知系统健康状态,多维度组合的可视化、即时的信息推送能够更快,更全面的感知异常。

5、知识库匹配

支持数据源、指标、文本异常检测,基于故障案例、数据挖掘的故障诊断、故障预测、故障自愈、 成本优化、资源优化、容量规划、性能优化等场景。

解决专家不在故障处理现场的问题,以及技能的沉淀与传承。

6、推荐LinkSLA智能运维管家

故障管理的参数(如何实现分钟级故障管理)(1)

轻装上阵,无忧运维。自动巡检,快速发现异常主动式预防。

故障管理的参数(如何实现分钟级故障管理)(2)

,