• 14
  • 15
分享

一、能性测试

大数据功能主要涉及系统实现面向大数据分析应用的POSIXAPI,包括文件读取与访问控制,元数据操作,锁操作等功能;

大数据分析系统的POSIX语义不同,实现的文件系统API也不同,功能测试要覆盖到大数据系统涉及实现的API和功能点;

功能测试工作量大,应该重点考虑应用自动化测试方法进行,同时结合手动测试补充,自动化工具推荐ltp,fstest和locktests。

在多个节点上处理大数据的过程中,存在由于‘无用数据’和数据质量问题带来的各种问题。大数据功能测试主要用以识别

由于编码错误或节点配置错误带来的数据问题。

其包括以下几个阶段:

a、数据导入/预处理验证阶段

根据具体的应用背景和业务需求,各种数据源如网络日志,物联网,社会网络及互联网文本和文件等被按需加载到HDFS

中待处理。在这个过程可能会由于不正确或不复制,存储而导致的错误数据,对于这种情况,可采用以下方式进行测试:

  1. 输入文件与源文件进行比对,保证数据的一致性;

  2. 根据数据需求来保证获取数据的准确性;

  3. 验证文件被正确的加载进HDFS,且被分割,复制到不同的数据节点中。

b、MapReduce数据输出验证阶段

当数据加载进行HDFS后,mapreduce开始对来自不同数据源的数据进行处理。在这个过程中可能会出现mapreduce 处理过程中的编码问题,如在单一节点上运行正确,在多个节点上运行不正确的问题,包括不正确的聚合,节点配置,输出格式等。针对于这个阶段的问题,可采用以下验证手段:

  1. 验证梳理数据处理正常完成,输出文件正常得到;

  2. 在单个节点上验证大数据的业务逻辑,进而在多节点上进行相同验证;

  3. 验证mapreduce处理过程的key/value对是否正确生产;

  4. 在reduce过程结束后验证数据的聚集合并是否正确;

  5. 通过源文件验证输出数据来保证数据处理正确完成;

  6. 按照大数据业务所需,验证输出数据文件格式是否符合要求。

c、验证大数据ETL到数据仓库

当mapreduce过程结束后,产生的数据输出文件讲被按需移至数据仓库或其它的事务型系统.在此过程中,可能会由于不正确地应用转换规则,从HDFS中提取的数据不完全而带来问题。针对于这个阶段的问题可采用以下方法:

  1. 验证转换规则是否正确应用;

  2. 通过比较目标表数据和HDFS文件数据来验证是否有数据损坏;

  3. 验证目标系统数据加载是否成功;

  4. 验证目标系统的数据完整性。

d、验证分析报告

从数据仓库或者hive中得到的数据,可通过报表工具得到分析报告;这个过程可能会产生报表定义不能达到要求的报表数据问题;在这个过程中可通过查询来验证报表是否满足业务要求。

二、非功能性测试

由于大数据面向具体行业的应用,除了功能性测试,在整个大数据处理框架下需要进行非功能性测试,以下几种;

a、性能测试

性能是评估一个大数据分析系统的最为关键的维度,大数据系统性能主要包括吞吐量,任务完工时间,内存利用率等多个指标,可反应大数据分析平台的处理能力,资源利用能力等性能。可通过hadoop性能监控器来监测运行状态性能指标和瓶颈问题,性能测试采用自动化化方式进行,测试系统在不同负载情况下的性能。

b、容错性测试

可从部分失效中自动恢复,而且不会验证的影响整体性能,特别地,当故障发生时,大数据分析系统应该在进行恢复的同时继续以可接受的方式进行操作,在发生错误时某种程度上可以继续操作,需根据应用场景来设计解决方案和具体部署,然后手动测试。

c、可用性测试

高可用性已是大数据分析不可或缺的特性之一,从而保证数据应用业务的连续性.大数据高可用性对很多应用非常关键,需要严格进行测试和验证,以手动测试为主。

d、扩展性测试

弹性扩展能力对于大数据时代的文件系统尤其重要,文件系统扩展性测试主要包括测试系统弹性扩展能力(扩展/回缩)及扩展系统带来的性能影响,验证是否具有线性扩展能力,以手动测试为主。

e、稳定性测试

大数据分析系统通常是不间断长期运行,稳定性的重要性不言而喻,稳定测试主要验证系统在长时间(7/30/180/365*24)允许下,系统是否仍然能够正常运行,功能是否正常.稳定性测试通常采用自动化方式进行,LTP,10ZONE,POSTMARK,FIO等工具对测试系统产生负载,同时需要验证功能。

f、部署方式测试

大数据具备scale-out的特点,能够构建大规模,高性能的文件系统集群。针对不同应用和解决方案,文件系统部署方式会有显著不同;

部署方式测试需要测试不同场景下的系统部署方式,包括自动安装配置,集群规模,硬件配置(服务器,存储,网络),自动负载均衡等,这部分测试不大可能进行自动化测试,需要根据应用场景来设计解决方案和具体部署,再进行手动测试。

g、数据一致性测试

这里的数据一致性是指文件系统中的数据与从外部写入前的数据保持一致,即写入数据与读出数据始终是一致的.数据一致性能够表明文件系统可保证数据的完整性,不会导致数据丢失或数据错误,这是文件系统最基本的功能,测试可用diff,md5sum编写脚本自动化测试,LTP也提供了数据一致性的测试工具。

h、压力测试

大数据分析系统的负载能力是存在上限的,系统过载时,系统就可能存在性能下降,功能异常,拒绝访问等问题。压力测试是验证系统造大压力下,包括数据多客户端,高OPS压力,高IOPS/吞吐量压力,系统是否仍然能够正常运行,功能是否正常,系统资源消耗情况,从而为大数据运营提供依据。


作者:test_soy

原文链接:https://blog.csdn.net/test_soy/article/details/49617143

  • 【留下美好印记】
    赞赏支持
登录 后发表评论
+ 关注

热门文章

    最新讲堂

      • 推荐阅读
      • 换一换
          • 【摘要】测试策略文档通常是篇幅较长、文字为主的形式,编写成本较高,并且写完了很少有人去看,形存实亡。本文介绍可视化的方式,将测试策略用图来表达,并且在一页纸上搞定,这样的策略图非常清晰,关键信息一目了然,并且提供更大的讨论空间,防止僵化,真正能够发挥策略的作用。“测试策略是什么样的?”“测试策略嘛,还不是包括#&~+-=~*-+$这些…”“你们项目的策略有什么特别的吗?”“我们项目嘛,测试策略的内容有点多,从哪说起呢?”前面那个场景有没有似曾相识?你是否清楚目前你们正在使用的测试策略是什么样的?1. 常见测试策略测试策略的内容与形式我们都知道,测试策略包括以下两方面的内容:测什么(Wh...
            1 1 2173
            分享
          •   如果您的网站在用户访问时的加载时间需要很久,那么,这篇文章兴许能为您的优化工作带来一些启发。不过即便没能帮您解决你的问题,您也能了解到影响了网站加载时间的几种常见错误是什么。  为什么页面加载时间这个指标很重要?  页面的加载时间直接影响到了用户对网站性能的直观感受。有调研数据表示,  一旦页面加载时长超过3秒,那么将会有一半的访问用户在等待中而流失。  · 搜索引擎排名 — 页面加载时间是搜索引擎在搜索结果中对你的网站进行排名的重要依据之一。因此,网页的加载时间会影响用户在Web上查找该网页的难易程度。  · 转化率 — 页面加载越快,用户的参与度就越高。网站速度慢,显而易见地会导致转化...
            0 0 1885
            分享
          •   为什么是 Fiddler?  理由很简单:因为大多数测试同学都是用 Fiddler。虽然不同的抓包工具功能都大同小异,但就像开发者统一开发工具能够提高团队协作的效率一样,开发和测试之间统一工具也能提高大家的沟通效率。如果测试同学在使用 Fiddler 抓包时遇到了什么问题,比如说某个请求抓不到,你给的答复却是:我用 whistle/charles 没问题啊,这肯定会让测试同学抓狂。  前置准备  下载 Fiddler Everywhere  下载地址:https://www.telerik.com/download/fiddler-everywhere  使用这个版本的原因是作为...
            0 0 6013
            分享
          • 随着软件开发过程复杂性的不断增加,客户希望得到新软件的期望周期也越来越短,所以软件测试方法需要不断的发展快速适应新的开发模式,敏捷测试的呼声越来越高,以下是CC先生对敏捷测试的一些思考。敏捷测试的定义在CC先生初次遇到敏捷的时候,认为敏捷只是有关于流程和工具,学习了一系列有关于敏捷的流程和自动化测试的工具,随着对敏捷理解的深入,越发能体会到敏捷不仅仅是关于流程和工具,它是关于人和文化的!受到这种认识的启发,CC先生开始深入了解敏捷的历史。事实证明,人和文化一直是敏捷的核心。敏捷测试也是如此,它不仅是流程和工具的更改,它更倾向于一种新的测试模式,高投入产出比的同时也提供高质量的产品。如果把这些年...
            0 1 1833
            分享
          •   参数化概念  测试工作中,通常会使用不同的数据发送请求测试不同的场景来实现测试的全面性,这就需要对一些字段进行参数化,以使每次迭代都使用不同的数据来满足我们的测试需求。  Jmeter做为常用的功能、性能测试工具之一,其参数化方式也是相对比较灵活,主要分为4种:用户参数、用户自定义变量、CSV数据文件、函数助手,下面将详细介绍这4种参数化方式的使用方法。  参数化方式  一、用户参数  1.使用场景  适用于参数取值范围很小的场景,例如测试模拟较少用户登陆某系统交易。  2.操作步骤  (1)添加用户参数功能模块  (2)设置参数变量、用户值  注意勾选每次迭代更新一次,否则每次都使用同样...
            14 15 1309
            分享
      • 51testing软件测试圈微信