1. 开发背景

1.1 用户痛点

①租户侧运维能力弱问题:租户侧,客户没有有效途径,及时地获取实例级的状态、性能、容量的数据。现状:每日固定时间,驻场需要人肉收集数据,钉钉定时推送给客户。②问题排查效率低问题:应用业务有问题,云平台产品正常,客户并不认可,需要帮助客户解决问题。现状:发现应用实例出现性能、容量被打满的问题,这个排查过程往往冗长, 效率很低。③监控能力缺失问题:云平台监控不全,容量管理、性能管理等报表能力缺失。现状:驻场需要通过大量人肉巡检,或者编写脚本。④监控 方式时效性低问题:业务侧总会优先于应用与云平台感知到故障,运维非常被动 。现状:客户发现问题,通知应用,应用检查后,再溯源到云平台,排查链路串行并且低效。

1.2 解决方案

①保障业务稳定通过云产品的服务能力的变化情况及业务仿真模型的建立,提前预知客户业务健康度,低于基线后便会触发告警。②SLA化展示触发阈值自动报警,量化产品健康状况。

2. 开发设计

2.1 系统架构

钉钉接入运维系统(封神-核心功能)(1)

图1:系统架构图

封神系统架构如图1所示,分为CLIENT与SERVER端两大模块。

2.2 业务架构

钉钉接入运维系统(封神-核心功能)(2)

图2:业务架构图

封神业务架构如如2所示,分为五大板块。

3. 钉钉告警

3.1 告警分类

机器人创建方式可参考文后资料[1]了解详情。

姜子牙

钉钉接入运维系统(封神-核心功能)(3)

申公豹

钉钉接入运维系统(封神-核心功能)(4)

雷震子

钉钉接入运维系统(封神-核心功能)(5)

比 干

钉钉接入运维系统(封神-核心功能)(6)

杨 戬

钉钉接入运维系统(封神-核心功能)(7)

3.2 告警展示

钉钉接入运维系统(封神-核心功能)(8)

图3:姜子牙

钉钉接入运维系统(封神-核心功能)(9)

图4:申公豹

钉钉接入运维系统(封神-核心功能)(10)

图5:雷震子

钉钉接入运维系统(封神-核心功能)(11)

图6:比干

钉钉接入运维系统(封神-核心功能)(12)

图7:杨戬-1

钉钉接入运维系统(封神-核心功能)(13)

图7:杨戬-2

钉钉接入运维系统(封神-核心功能)(14)

图7:杨戬-3

钉钉接入运维系统(封神-核心功能)(15)

图7:杨戬-4

4. 数据网关

数据网关分为两大模块:获取数据、接收数据。

4.1 获取数据

4.1.1 告警数据

4.1.1.1 请求接口

请求方式:POST请求URL地址: http://{ip}:{port}/api/v1/search/monitorip:封神ecs_ipport:9170PARAM:参数列表可查看文后资料[2]了解详情。

钉钉接入运维系统(封神-核心功能)(16)

4.1.1.2 DEMO

import sys import requests url = "http://{ip}:{port}/api/v1/search/monitor/" data = {"product":"MQ", "title":"积压告警", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content

curl -H "Content-Type:application/json" -X POST -d '{"type":"ALL"}' http://{ip}:{port}/api/v1/search/monitor/

4.1.1.3 数据返回

钉钉接入运维系统(封神-核心功能)(17)

①当前存在告警{"code":0, "data":[{"info":"0.0.0.0,ecs,95% \n 0.0.0.1,ecs,95% ", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,产品,值"}]}②当前未存在告警数据(告警恢复正常){"code":0, "data":[{"info":"", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,产品,值"}]}③未查询到数据:{"code":0, "data":[]}④查询异常:{"code":500, "data":"异常信息"}

4.1.2 全量数据

4.1.2.1 请求接口

请求方式:POST请求URL地址: http://{ip}:{port}/api/v1/search/data/ip:封神ecs_ipport:9170PARAM:参数列表可查看文后资料[2]了解详情。

钉钉接入运维系统(封神-核心功能)(18)

4.1.2.2 DEMO

import sys import requests url = "http://{ip}:{port}/api/v1/search/data/" data = {"product":"MQ", "title":"TIME", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"} res = requests.post(url=url, json=data) print res.content

4.1.2.3 数据返回

钉钉接入运维系统(封神-核心功能)(19)

4.1.3 性能数据

4.1.3.1 请求接口

请求方式:POST请求URL地址: http://{ip}:{port}/api/v1/influxdb_query/ip:封神ecs_ipport:9170PARAM:参数为INFLUXDB SQL

钉钉接入运维系统(封神-核心功能)(20)

4.1.3.2 DEMO

import sys import requests url = "http://{ip}:{port}/api/v1/influxdb_query/" data = {"sql":"infudb sql"} res = requests.post(url, data) print res.content

4.1.3.3 数据返回

钉钉接入运维系统(封神-核心功能)(21)

4.2 接收数据

4.2.1 请求接口

请求方式:POST请求URL地址:http://{ip}:{port}/api/v1/insert/thirdip:封神ecs_ipport:9170PARAM:

钉钉接入运维系统(封神-核心功能)(22)

4.2.2 DEMO

import sys import requests url = "http://172.0.0.1:9170/api/v1/insert/third/" data = {"title":"ecs性能监控", "level":"预警", "source":"云监控", "product":"ecs", "msg":"ip:10.0.0.1 cpu:98% ip:127.0.0.1 mem:99%", "robot":"姜子牙", "submitor":"高德臣", "monitor_time":"2021-03-10 16:00:00", "details":"兄弟 关注下"} res = requests.post(url=url, json=data) print res.text

4.2.3 告警展示

钉钉接入运维系统(封神-核心功能)(23)

图8:告警展示图

本文为阿里云原创内容,未经允许不得转载。

,