“尽管大促活动前加班加点做测试,到了活动当天仍然是危机频发,高并发的关键时刻又出乱子了,紧急排查故障,处理完之后 1 个小时过去了。时间不等人,顾客也不等你,一个漏洞没注意到就让竞争对手钻了个空子,平台损失严重,还有被媒体曝光的风险。”针对刚刚过去不久的 6.18 大促,某电商平台技术负责人吐槽道。

大促常态化的当下,相信这个场景在电商领域并不少见,每到这个时刻,平台总是会做各种排查测试,严阵以待,生怕出现上述这种窘境,但往往还是防不胜防。事实上,在移动互联网盛行的当下,超高并发压力并不只存在于电商领域,在线教育、在线办公、社交娱乐等领域同样深受其扰。

在超高并发量下,IT 系统如何才能挺住不崩?有没有办法可以提前预测到,并加筑好“防御堡垒”?6 月 23 日,睿象云 CTO 何毅鹏在线上进行了一场主题为「后疫情时代,企业性能评估的最佳实践」的直播课程,本次直播深入剖析了高并发网站常见性能异常事件,分享了如何从 0 到 1 构建标准化、规范化的云压测体系,寻找上述问题的最佳答案。

以下内容经由 InfoQ 编辑整理自「后疫情时代,企业性能评估的最佳实践」中何毅鹏老师的分享。

为什么一定要进行性能测试?

“性能测试的重要性不言而喻,如果性能测试做的不好将会带来灾难性的问题。”

众所周知,性能异常包括 5 种典型场景:

第一种情况往往会出现在抢购场景中,抢购前五分钟大量流量的汇聚往往会导致服务端前期的带宽不够用,用户在抢票的过程中体验会非常差,进而影响到平台的营业额。

第二种服务器的 CPU 满载的情况也很常见,一般来说,业务复杂的系统单机监控的性能消耗基本达到了 20% 左右,单机的剩余算率一般只有 70% 到 80%,复杂的场景下频繁的访问可能会使 CPU 瞬时高达 90% 以上,基于此,如果在性能测试期间没有很好地测试出暴涨的场景,对于服务器来说就是一个比较大的灾难。

第三种情况即常见的负载均衡设备流量的满载,现在大部分企业使用的都是云厂商的负载均衡设备,基本上都存在 PPS 连接的上限,在没有做很好预估的情况下,当上限满载的时候,后续访问的用户就会出现连接错误的现象,典型的就是 HTTP 503 错误。

第四种情况即系统过载、超过访问上限,在测试过程中存在的主要问题是容量估算不足,现在大型业务的系统扩容切换至少需要 90S 左右才能完成业务的快速接管,因此前期性能测试的容量评估过程中做热切换和热部署的场景非常有必要,场景搭建好后,通过横向扩容可以快速接管业务,一些复杂的性能问题也能很快迎刃而解。

第五种情况下网站访问没有问题,但是网站访问延时极具升高,部分服务接口大面积超时,影响用户使用体验。

研发过程中,我们会发现无论是研发还是测试,一般罪魁祸首都是一些小范围的代码错误,进而会导致一些功能和性能的问题,造成极大的损失。因此,严格的需求评估是非常有必要的,如果能很好地分析出常见的和异常的业务场景,一旦上线后出了问题,也能游刃有余地去应对。

系统如何支撑高并发(一遇高并发系统就难逃一)(1)

在整个需求过程中,运维人员不需要特别着急地做一些编码的操作。如上图所示,前期要确定测试场景的设计、测试流程的梳理、测试数据的管理以及执行顺序,随后由性能测试执行人员完成总结性操作,汇总出测试结果,通过记录各个节点出现的性能问题,形成整个测试的分析报告,包括调优数据、参数配置数据。

最终运维人员依托于线上的性能数据来配置指标梳理的方法,一般来说包括三种:正常运维的参数配置、系统异常下的参数调节、应急异常或灾难性问题下的调节方法。

如果性能测试做的不到位,那带来的直接经济损失将难以估量,以电商企业为例,来自亚马逊的调研数据显示,当电商的访问速度每下降 100 毫秒,营业额至少减少 1% 左右,相对 618、双 11 这些场景来说,如果用户体验比较差,付款付不出去,损失是可想而知的。

选择哪一种测试方法更有效?

“移动互联网时代,企业该如何为频繁的市场活动和产品快速迭代进行有效而准确的性能测试呢?”

随着移动互联网的急速发展,电商、在线教育、票务等企业业务数量急剧上升,超高并发量的数值一直在突破进阶。同时,业务复杂化下,整个 IT 系统的架构也在快速演变,从单主机到 1000 台应用主机转换、分布式 CDN 节点超过 4000 、链路节点设备层数突破 10 种、分布式微服务架构盛行。在此背景下,传统性能测试面临诸多问题:

传统性能测试式微之下,云压测快速汲取养分实现了赶超,性能测试迎来了创新与变革的春天。

2005 年云压测概念横空出世,伴随着云计算技术的快速发展,使用云资源实现弹性、可扩展、自由伸缩分布式压力产生模式。利用云端的资源,云压测实现了一站式完成性能测试,可模拟系统各种异常场景,用户无需再购买包括服务器、机房在内的多种资源,能够节省大量的资源成本和人力成本。目前,国外如 Soasta、国内如睿象云,其云压测产品已经成为传统性能测试平台的最强劲对手。

相对于传统的性能测试方案,展开来说,云压测具备 4 点优势:

如何开启一场优质的性能测试?

“云压力测试平台能够帮助用户解决哪些性能问题?如何解决?”

一般来说,分析性能问题需要从网络层面、操作系统层面、应用服务器、服务器问题这四个层面入手。在网络层面,主要就是带宽不足、网络异常抖动,如果使用机房的 IDC 部署,还需要考虑交换机的收敛比;在操作系统层面,存在的典型问题是参数标准化的问题,比如说 Sysctl 以及一些网络参数的配置问题;在服务器端,CPU 监控过程中需要区分哪些进程的 CPU 占用过高,如果进程占用过高,还要分析进程占用大概是一个什么样的状况,磁盘 IO 如果读写过高的时候,就要考虑是否有更好的 SSD 的硬盘。

如果想要更加系统地进行性能测试问题的分析,更加全面地探索到性能问题,那么一套系统完整的测试流程是不可或缺的。

系统如何支撑高并发(一遇高并发系统就难逃一)(2)

完整的测试流程如上图所示,从需求分析开始到测试的规划、脚本的编写、测试的准备,然后进行一个全面的分析,最后出具评测报告,报告中会包括一些指标如监控数据和配置数据的输出。

云压测中,需求分析的环节需要关注几个重要的点,包括网络的信息、防火墙的信息的收集,防毒墙、负载均衡的设备、软硬件加解密、应用结构化的部署,以及用户操作习惯的使用评估等,当这些点都分析的比较完整后,就可以做出来一些比较贴合实际的场景了。

在测试规划中,比较重要的是了解从各个区域访问的时间差异,比如说北上广深相对于一些偏远山区,在访问过程中这些地区的响应时间是不是基本上一致,如果不一致运维人员要需要分析一下服务器摆放位置、CPN 配置合不合理等问题。

在脚本编写上,过程需要简单化,简单到让业务人员也可以参与编写,这样做的好处在于业务人员也能够参与到测试中。在分析测试场景的时候,离市场最近的业务人员要比一些常规的技术人员分析的更透彻。

测试准备的过程中,监控工具要做到尽量全面化覆盖,除了典型的五大件之外,还需要包括一些错位预制的快速输出。监控的软硬件机器一定要部署类似于自动报警的功能,一旦出现大面积问题,可以给运维人员快速的提示,以便其作出快速响应。

在全面分析环节,要注意的是,基础数据和测试数据的预估量和生产需要基本保持一致,这样测试结果就跟线上真实的访问结果基本上不会有太大出入,具有非常准确的参考价值。

分析过程可以借助工具来完成,提前分析好各个节点需要输出的内容,做好整个测试过程的条理化,最终出具的报告或者是调优指标参数才有一定的参考价值,整个测试的输出结果才能有望成为后期运维优质化部署的参考。

系统如何支撑高并发(一遇高并发系统就难逃一)(3)

生产交易日志分析的重要性不言而喻,从上述图表来看,业务分布状态上存在很多插针的信息,这就可能是访问异常的场景,需要对响应时间过高的请求做一个完整的分析,包括平时基础量、交易高峰期、特殊交易日、生产故障提、环境满载模拟等,如果这些全部模拟到位,基本就不会出现太大的纰漏了。

系统如何支撑高并发(一遇高并发系统就难逃一)(4)

在生产环境压测中,测试数据准备的过程比较漫长,数据清理时可能会出现数据丢失或遗漏的问题,针对这一问题,睿象云在长期的性能测试经验中总结了四种方法:

基于上面的种种分析,相信大家对压力测试的环节和注意事项都已经有了一个比较深入的了解,那么,接下来回归到最初问题的探索,云压力测试平台究竟能帮助企业解决哪些性能问题?主要在于 4 点:

写在最后

随着科技的进步,移动互联网实现了飞跃式发展,软件产品已经应用到各个领域,在疫情助推下,线上模式走红各行各业,更是颠覆了流量高并发场景的峰值和出现频率,在此背景下,如何保障系统能够承担高并发请求,为用户带来优质的服务体验,已经成为企业发展上的“兵家必争之地”,性能测试就是那把开拓市场的利器。

传统压测弊端已现,云压测优势凸显,性能测试的未来发展方向已经渐趋明朗。作为国内云压测领域的先行者,睿象云沉淀了诸多实践经验,为电商、在线教育、在线办公等诸多领域的企业构筑好了一道性能测试的牢固城墙。

,