• 0
  • 0
分享
  • 性能测试案例与经验分享——软件测试圈
  • 恬恬圈 2023-05-18 16:40:14 字数 3552 阅读 1379 收藏 0

  性能基准测试

  性能基准测试,通常被称为 Performance Benchmark Test,是每次对外发布产品版本前必须要完成的测试类型。

  性能基准测试,会基于固定的硬件环境和部署架构(比如专用的服务器、固定的专用网络环境、固定大小的集群规模、相同的系统配置、相同的数据库背景数据等),通过执行固定的性能测试场景得到系统的性能测试报告,然后与上一版本发布时的指标进行对比,如果发现指标有“恶化”的趋势,就需要进一步排查。

  典型的“恶化”趋势,主要表现在以下几个方面:

  · 同一事务的响应时间变慢了。比如,上一版本中,用户登录的响应时间是 2 s,但是在最新的被测版本中这个响应时间变成了 4 s;

  · 系统资源的占用率变高了。比如,上一版本中,平均 CPU 占用率是 15%,但是在最新的被测版本中平均 CPU 占用率变成了 30%;

  · 网络带宽的使用量变高了。比如,上一版本中,发送总字节数是 20 MB,接收总字节数是 200 MB,但是在最新的被测版本中发送总字节数变成了 25 MB,接收总字节数变成了 250 MB。

  这里需要注意的是,这些“恶化”趋势的前提是:完全相同的环境以及测试负载。不同“恶化”指标的排查,有不同的方法。我以最常见的事务响应时间变慢为例,和你说明一下排查方法。

  假设,通过性能基准测试的比较结果得知,用户登录的响应时间从 2 s 变成了 4 s。

  那么,我们首先要做的是验证在单用户的情况下,是否会出现响应时间变长的问题。具体做法是,将用户登录的虚拟用户脚本单独拿出来,建立一个单用户运行的性能测试场景并执行,观察用户登录的响应时间是否变慢。

  如果变慢了,就说明这是单用户登录场景就可重现的性能问题,后续的处理也相对简单了。解决方法是:分析单用户登录的后端日志文件,看看完成登录操作的时间具体都花在了哪些步骤上,相比之前哪些步骤花费的时间变长了,或者是多出了哪些额外的步骤。

  如果没有变慢,则说明我们必须尝试在有压力的情况下重现这个性能问题。为此,我们要基于用户登录的虚拟用户脚本构建并发测试的场景,但是我们并不清楚在这个场景设计中到底应该采用多少并发用户、加入多长的思考时间。这时,通常的做法是,直接采用性能基准测试中的并发用户数和思考时间,去尝试重现问题。如果无法重现,我们可以适当地逐步加大测试负载,并观察响应时间的变化趋势。

  这里需要注意的是,千万不要使用过大的测试负载。因为测试负载过大的话,系统资源也会成为性能瓶颈,一定会使响应时间变长。但这时,响应时间变长主要是由资源瓶颈造成的,而不是你开始要找的那个原因。

  如果此时可以重现问题,那就可以进一步去分析并发场景下,用户登录操作的时间切片,找到具体的原因。如果此时还是不能重现问题的话,情况就比较复杂了,也就是登录操作的性能可能和其他的业务操作存在依赖,或者某种资源竞争关系,这就要具体问题具体分析了。

  一般来说,当定位到性能“恶化”的原因并修复后,我们还会再执行一轮性能基准测试,以确保系统对外发布前的性能基准测试指标没有“变坏”。可以说,通过对每个预发布版本的性能基准测试,我们可以保证新发布系统的整体性能不会下降,这也就是性能基准测试最终要达到的目的。

  很多大型的传统软件公司都有专门的性能测试团队,这个团队会建立标准的性能基准测试场景,并把性能基准测试的结果作为产品是否可以发布的依据之一。比如,我曾工作过的 HP 软件,就由性能测试卓越中心负责维护、执行性能基准测试,并分析测试结果。

  从性能基准测试的设计角度来看,你需要特别注意以下三点:

  性能基准测试中虚拟用户脚本的选择以及配比,需要尽可能地匹配实际的负载情况;

  总体的负载设计不宜过高,通常被测系统的各类占用率指标需要控制在 30% 以内,尽量避免由于资源瓶颈引入的操作延时;

  每次性能基准测试前,一般需要对系统资源以及网络资源做一轮快速的基准测试,以保证每次被测环境的一致性,同时也要保证数据库的数据量在同一个级别上。总之,你需要采用一切可能的手段,来确保多次性能基准测试之间的环境一致性。

  稳定性测试

  稳定性测试,又称可靠性测试,主要是通过长时间(7*24 小时)模拟被测系统的测试负载,来观察系统在长期运行过程中是否有潜在的问题。通过对系统指标的监控,稳定性测试可以发现诸如内存泄漏、资源非法占用等问题。

  很多企业级的服务器端产品,在发布前往往都要进行稳定性测试。稳定性测试,通常直接采用性能基准测试中的虚拟用户脚本,但是性能测试场景的设计和性能基准测试场景会有很大不同:

  一般是采用“波浪式”的测试负载,比如先逐渐加大测试负载,在高负载情况下持续 10 多个小时,然后再逐渐降低负载,这样就构成了一个“波浪”,整个稳定性测试将由很多个这样的波浪连续组成。

  稳定性测试成功完成的标志,主要有以下三项:

  ·系统资源的所有监控指标不存在“不可逆转”的上升趋势;

  · 事务的响应时间不存在逐渐变慢的趋势;

  · 事务的错误率不超过 1%。

  实际工程项目中,由于稳定性测试执行的时间成本很高,往往需要花费 3~7 天的时间,所以我们一般是在其他所有测试都已经完成,并且所有问题都已经修复之后才开始稳定性测试。

  另外,有些企业为了缩短稳定性测试的执行时间,往往还会采用“时间轴压缩”的方法,具体的做法就是:在加大测试负载的前提下,适当缩短每个“波浪”的时间,从而减少整体的测试执行时间。

  最后,需要强调的一点是,虽然很多时候,尤其是产品版本已经逐渐走向成熟期时,稳定性测试并不会发现问题,但是千万不要小看稳定性测试带来的价值。因为稳定性测试一旦发现问题,那么这些问题都是很严重而且非常隐蔽的大问题。

  所以,很多大型的企业级软件企业都会执行严格的稳定性测试,并把稳定性测试的结果作为产品是否可以发布的硬性要求。比如,我曾经工作过的 HP 软件研发中心,它每次产品发布前都会由专门的性能测试团队完成严格的稳定性测试,并以此来决定是否要发布这个产品。

  并发测试

  并发测试,是在高并发情况下验证单一业务功能的正确性以及性能的测试手段。高并发测试一般使用思考时间为零的虚拟用户脚本来发起具有“集合点”的测试。

  “集合点”的概念,我已经在《聊聊性能测试的基本方法与应用领域》中解释过了。如果你不清楚的话,可以再回顾一下这篇文章。如果你还有不理解的地方,也欢迎和我留言讨论。

  并发测试,往往被当作功能测试的补充,主要用于发现诸如多线程、资源竞争、资源死锁之类的错误。要执行并发测试,就需要加入“集合点”,所以往往需要修改虚拟用户脚本。

  加入“集合点”一般有两种做法:

  1. 在虚拟用户脚本的录制过程中直接添加;

  2. 在虚拟用户脚本中,通过加入 lr_rendezvous() 函数添加。

  容量规划测试

  容量规划测试,是为了完成容量规划而设计执行的测试。

  那什么是容量规划呢?所谓容量规划,是软件产品为满足用户目标负载而调整自身生产能力的过程。

  所以,容量规划的主要目的是,解决当系统负载将要达到极限处理能力时,我们应该如何通过垂直扩展(增加单机的硬件资源)和水平扩展(增加集群中的机器数量)增加系统整体的负载处理能力的问题。

  目前来讲,容量规划的主要方法是基于水平扩展。但是,具体应该增加多少机器,以及增加后系统的负载处理能力是否会线性增长,这些问题都需要通过容量规划测试进行验证。

  那么,容量规划测试具体要怎么做呢?

  我们可以使用性能基准测试中的虚拟用户脚本,以及各个业务操作脚本的百分比,压测单机部署的被测系统。我们会采用人工的方式不断增加测试负载直到单机系统的吞吐量指标到达临界值,由此就可以知道单台机器的处理能力。

  理论上讲,整个集群的处理能力将等于单台机器的处理能力乘以集群的机器数,但是实际情况并不是这样。实际的集群整体处理能力一定小于这个值,但具体小多少就是要靠实际的测试验证了。

  理想的状态是,集群整体的处理能力能够随着集群机器数量的增长呈线性增长。但是,随着机器数量的不断增长,总会在达到某个临界值之后,集群的整体处理能力不再继续呈线性增长。这个临界值是多少,我们也需要通过容量规划测试找出来了。

  另外,容量规划测试的测试结果还可以被用作系统容量设计的依据。比如,企业级软件产品的目标用户规模通常是可以预估的,那么我们就可以通过这些预估的系统负载计算出软件部署的集群规模,并且可以在具体实施后通过容量测试的方式进行验证。



作者:河小    

来源:http://www.51testing.com/html/66/n-7792466.html

  • 【留下美好印记】
    赞赏支持
登录 后发表评论
+ 关注

热门文章

    最新讲堂

      • 推荐阅读
      • 换一换
          • 前言这几年关于“35岁失业”的讨论甚嚣尘上,特别是进入疫情时代,身边也越来越多的人开始讨论这个话题。一方面是疫情带来的巨大变革,导致部分行业特别是互联网大规模的裁员潮;另一方面,舆论里占据重要部分的也大多是互联网相关从业者;摸鱼、躺平等词语越来越成为了高频的社交讨论内容。今年步入30岁的年纪,对“35岁失业”有了不一样的感受。正好前天和一个原来的同事聊到了成长的瓶颈,以及寻求可能性的话题。这篇文章,聊聊我对“35岁失业”背后的原因分析,及个人的一些观点,包括我是如何应对“职业危机”的。如何理解35岁失业?网络上热议的“35岁失业”,最初应该是某互联网大厂的一个爆料引起的,然后近几年的互联网裁员...
            12 12 1928
            分享
          • 接口测试流程1、接口测试流程(1)首先是从开发那里拿到API接口文档,了解接口业务、包括接口地址、请求方式,入参、出参,token鉴权,返回格式等信息。(2)然后使用Postman或Jmeter工具执行接口测试,一般使用Jmeter的步骤是这样的: a、首先新建一个线程组。 b、然后就是新建一个HTTP请求默认值。(输入接口服务器IP和端口) c、再新建很多HTTP请求,一个请求一个用例。(输入接口路径,访问方式,参数等) d、然后创建断言和查看结果树。(3)最后调试并执行用例,最后编写接口测试报告(4)其实我们做接口的时候也碰到了蛮多的问题,都是自己独立解决的,比如返回值乱码(修改jmete...
            11 13 2438
            分享
          • 1.BUG等级划分建议:目前project上的BUG严重程度分为五个等级,按照CMM5中定义的规范,BUG严重等级可分为3-5个等级,由于我们公司的CMM水平还处于初级阶段,将BUG等级划分过细不符合我们当前的CMM水平,同时也不利于测试人员对BUG等级的精确划分。根据我们公司的情况,同时参照其它中小公司的等级划分标准,建议将BUG等级划分四个等级,分别为致命、严重、一般、提示。致命(可对应目前BUG体系中的“非常严重”):致命性问题主要为:系统无法执行、崩溃或严重资源不足、应用模块无法启动或异常退出、无法测试、造成系统不稳定。具体基本上可分为:严重花屏内存泄漏用户数据丢失或破坏系统崩溃/死机...
            0 0 3597
            分享
          •   一、背景  在我们日常的测试工作中,无论在数据迁移还是系统测试过程中,测试数据准确性和可用性是测试工作的重中之重,测试人员经常需要查询数据库中的数据或手工造测试数据,而登到oracle数据库后有时会发现显示中文乱码的情况,如下图所示:  或者是:  好好的怎么就乱码了呢?明明“之前”访问其他数据库是没问题。在学习和查询相关资料后我解决了这个问题,但由此引发了我对出现汉字乱码问题的学习兴趣,都是什么原因导致的汉字显示乱码呢?  首先,字符集设置不当是影响Oracle数据库汉字显示的关键问题。下文则详细介绍了oracle关于字符集的分类、构成及设定方法,分析了ORACLE数据库汉字显示乱码的常...
            0 0 2019
            分享
          • 注:文章来自对相关测试书籍的思考。【原文】从狭义上讲,软件测试用于确认软件的质量,一方面是确认软件做了所期望的事情,另一方面是确认软件以正确的方式来做这个事情。【细品】:我们通常所以为的软件的质量是不是由测试保证的?其实不然,测试人员仅仅是确认、检查软件的质量是否符合某个标准,而并非是保证软件质量的,保证软件质量的人还是在于开发。什么是做正确的事和正确的做事【原文】从广义上讲,软件测试不仅是在测试产品本身,而且还测试软件开发生命周期的过程。如果一个软件产品开发完成之后发现了很多问题,则说明此软件开发过程很可能是有缺陷的。因此,软件测试是完善和提升软件开发过程的质量关键。【细品】:这段所说测试不...
            0 0 1123
            分享
      • 51testing软件测试圈微信