“VIP客户投诉我们的手机银行客户端总是闪退,可数据中心、网络系统一切正常,到底哪里出了问题?”

“我们在APP Store里的评价是一星、两星,用户动不动就说我们APP白屏、崩溃,怎么才能做得更好?”

“某个手机型号的客户投诉率奇高,能不能帮我们做一下排错,分析下为什么出现这种情况?”

作为A股市场智能运维领域唯一的上市公司,博睿数据经常收到各行各业客户这样的求助。近年来,无论企业是toC还是toB领域,运维监控的难度和复杂度都指数级上升,成为企业IT部门的一大痛点。而传统运维方法和工具碎片化、孤岛化,企业往往找不到问题,查不清根因,导致用户体验卡壳,客户投诉的解决率无法提升。

市面上有没有一个平台,能够覆盖所有运维监控需求?2022年5月20日,博睿数据推出一体化智能可观测平台ONE,成为业界第一个将所有运维监控需求“All in ONE”的统一平台。

运维平台有什么功能(AllinONE)(1)

“ONE平台是平台级别而非工具级别的变革,博睿数据至少用了20个月,投入了大量的研发战略资源。”博睿数据COO吴静涛将ONE平台的推出称为智能运维行业划时代的大事件。那么,ONE平台到底能为企业解决什么问题?在运维监控行业的发展中,ONE平台又扮演了什么样的角色?

运维平台有什么功能(AllinONE)(2)

博睿数据COO 吴静涛

今天,运维监控为什么这么难?

站在企业业务的视角,企业要做好运维管理,到底有多困难?需要处理多少项细分工作?

根据博睿数据与艾瑞咨询合作发布的《2022企业应用运维管理指标体系白皮书》,要构建一套概览所有业务场景健康度、多维立体化IT指标等能力的资源指标管理体系,需要覆盖2000多个预置指标。这还不包括微服务化后在云原生环境中的运维监控挑战。

运维平台有什么功能(AllinONE)(3)

造成运维难度和复杂度指数级上升的原因,既有企业价值导向的变革,从关注底层基础设施向关注业务体验的转型,也有IT架构的巨大变革,还有疫情的叠加因素。根据知名咨询机构分析,目前监控平台存在以下五方面挑战:

一、监控平台不统一,技术债与重复建设导致了孤岛式的监控体验。伴随企业不同时期IT系统的建设,很多企业都会在不同阶段构建了一系列的监控工具,彼此之间有重复,而且并不关联,不能形成一个有机的监控体系。

二、云计算、容器、微服务、物联网等新技术带来了对监控的挑战,监控的可见性不足。“新技术、新理念在重塑运维行业,最重要的是云原生、微服务和DevOps。”博睿数据产品高级总监孙丽表示。传统的监控技术已经不能适配目前主流的云原生的动态环境,比如发生故障时,微服务化以及分布的依赖关系会导致调用非常错综复杂,运维排障时往往发现环境已经动态销毁或者发生变更。

运维平台有什么功能(AllinONE)(4)

博睿数据产品高级总监 孙丽

三、监控系统的建设与业务目标脱节。企业的IT建设初期往往是以资源、以服

务器层面的可用性去构建的,无法跟业务直接挂钩。导致运维在优化用户体验时,往往没有相应的指标和数据度量标准。

四、智能运维尚不成熟。孙丽认为,虽然智能运维的概念早早被炒热,但实际落地效果并不理想。目前智能运维厂商有两类,一类是算法厂商,只交付算法而不掌握数据采集、数据关联,往往难有高质量的数据训练结果。一类是监控式的工控厂商,只能落地单点AI能力。智能运维走向成熟必须有两个前提,第一,全面的、高质量的可观测数据,第二,比较强的AI能力引擎。

五、有限的自动化与DevOps的敏捷开发理念产生冲突。传统IT监控系统追求的是稳定,其敏捷性与自动化能力非常有限,与DevOps等业务敏捷开发的理念无法匹配。

孙丽表示,目前国内运维监控厂商可以分为两大类:1.0时代和2.0时代的厂商。

1.0时代的特征是“以点带面”,厂商一般只有监控体系的一个或几个产品,这些产品无法组成有机的运维监控体系。2.0时代的特征是“产品拼凑”,这类厂商已经有了相对完善的产品监控体系,但没有做产品的关联或者打通,不能站在全局视角满足客户一体化运维的需求。

3.0时代特征是数智融合,全局数据采集能力、以运维视角重塑产品、数据有机关联融合、开箱即用的AI以及运维全场景的落地,这四大要素是衡量厂商是否具备3.0时代能力的关键。而ONE平台就是博睿数据发力运维监控3.0时代的代表产品。

运维平台有什么功能(AllinONE)(5)

以用户为中心,ONE平台能做什么?

“ONE平台并不是凭空出来的,它是根据非常多客户在实际使用过程中的需求,一点点打磨出来的新模式。ONE平台最大的核心价值在哪里?它能够真正帮助客户构建一套从‘以应用为中心’转向‘以用户为中心’的全新运维逻辑。”吴静涛表示。

运维平台有什么功能(AllinONE)(6)

为什么ONE平台能代表运维监控3.0时代的发展趋势?业内人士认为,在运维监控行业内,ONE平台对传统的运维监控模式做了三大升级:从孤立的工具到统一的能力平台;从监控到可观测;从人工分析到智能见解,这将变革过去20年来运维监控行业的产品逻辑。

首先,All in ONE。ONE平台拥有统一运维监控技术栈和统一运维数据治理体系,旨在用一个平台满足企业所有的运维监控需求,企业不再需要重复建设或者购买不同厂商产品去自行组装。

为了实现统一,ONE平台做到了既覆盖全面,又足够开放包容,这样无论企业现有的IT运维能力处在何种阶段,都可以从ONE平台中找到对应的方案。

吴静涛介绍,对于大型企业,ONE平台对私有云、公有云、混合云及传统IDC等混合基础设施做了很好的兼容,同时,博睿数据完善的专家团队和服务体系能够针对大客户的个性化需求做适配。对于中小微企业,ONE平台集中了博睿数据多年积累的全栈监控经验,可以一站式提供覆盖云管边端全场景的监控能力。

其次,关联性。ONE平台能够完整复刻出企业数字化系统的数字孪生,内置CMDB引擎在保证全面可观测的同时也能掌握监控实体间的关系及其属性信息,实现关联追踪。比如,用户只需要在出现问题的地方点击一下,ONE平台就会自动的把这个指标相关所有信息展示出来,提升识别和定位根因的效率。

第三,智能见解。ONE平台能够基于AI和规则自动发现问题,实现根因分析——智能见解——故障预测——故障修复等一系列智能分析过程,相当于把博睿数据在运维领域积累的方法论、经验赋能给客户。“我们发现,单纯的基于数据、基于算法的AI是很难真正解决实际问题的。只有基于场景的、基于专业的知识库的AI,才能实现真正的智能运维。”博睿数据产品经理刘亚辉表示。

过去20年来,孤岛式运维监控所依赖的底层IT架构已经发生了转变,数智融合的运维监控3.0时代是大势所趋。ONE平台无疑是个新事物,如何让更多企业客户了解并使用,是接下来博睿数据发力的重点。

“我认为博睿数据希望做的一个事情,是把N多高大上的像智能运维体系、AIOps、自动化等这些新技术,实际的、快速的让客户使用起来,并且能够看到效果。”吴静涛表示。“我们最关心的不是挣了多少钱,而是实际客户使用规模,另外一个就是ONE平台是否能展现真正的业务价值,这两点是我们真正关心的。”

END

本文为「智能进化论」原创作品。

,