1、大数据入库测试背景
在大数据时代,数据已经成为企业的重要资产。为了确保数据的准确性和可靠性,数据入库测试成为了不可或缺的一环。大数据入库测试是在确保数据质量得前提下进行的,它包括了对数据的验证、处理以及存储的一系列检查工作。本文主要聚焦源系统测试部门收到开发人员提供的数据文件后,进行数据一致性测试过程中的简化操作。这里的数据一致性是指上传到大数据平台中的数据与从外部写入前的数据保持一致,即写入数据与读出数据始终是一致的。数据一致性能够表明大数据平台可保证数据的完整性,不会导致数据丢失或数据错误。
2、大数据平台入库测试重点
在大数据平台入库测试中,测试人员收到开发人员给的数据之后,首先需要核对入库信息表,重点确认源文件编码格式、行分隔符、列分隔符以及数据结构表的字段类型、字段长度、字段精度、主键标识等是否准确。然后再去对比源系统程序生成的数据和入库测试后生成的结果数据,来判断入库程序是否正确。主要可从以下几个方面进行重点测试:
(1)结果文件格式
每个银行大数据平台入库加工后的格式可能不同,比如分隔符的设置,需要检查分隔符是否统一置为设定的格式。
(2)字段个数
源文件所有字段会全部按序加载到结果文件中,同时入库处理规则也需要明确,入库之后是否会对数据进行特殊处理,比如是否有字段屏蔽、是否会加上次主键或者入库日期等。
(3)字段数值
核对源文件和结果文件同一条记录各字段数值是否保持一致。明确源文件字段里的空格是否会被舍弃、换行符如何处理等。
(4)记录总数
一般情况下,首次加载日期的源系统数据和入库结果数据的记录数应保持一致。如果出现不一致情况,可进一步结合日志信息,确认是否发生去重或丢弃。确认存在问题或不确定的,需联系源系统、主库开发人员进行问题定位或排查。
而银行或其它大型企业的大数据平台入库测试,可能涉及多个省份的信息,存在需将入库前各分省的信息,与入库后各省信息合并的数据结果进行对比的情况。测试过程要将入库前各省的信息记录汇总,涉及多张表,每张表数据量十分庞大。人工汇总难度较大,耗时较久,所以可以尝试用python代码合并同一张表的数据。
3、大数据平台入库测试简化操作
3.1利用7zip解压缩
数据库数据包含多个压缩包,可以利用解压缩工具7zip一键解压文件。为了方便解压缩,可以先按类型将文件进行分组排列。
3.2批量修改文件后缀名
解压之后在文件所在目录输入cmd,回车。
在命令行输入ren * *.txt命令,将文件后缀名统一修改为.txt。
3.3文件分表存储
根据入库结果,建立对应的入库前文件夹,然后根据表名在3.2节的文件中去搜寻对应的文件,复制到对应的入库前文件夹中。
3.4合并入库前的表数据
可下载Pycharm软件,利用python代码将3.3小节中的文件结果进行合并。
3.5数据对比
利用Notepad++工具,将3.4节中得到的合并结果,和入库后的结果进行对比。
可以清晰看到入库前后数据记录总数是否一致。
4、总结与展望
总的来说,大数据入库测试是一个复杂的过程,需要综合考虑数据的准确性、存储能力、处理效率等多个因素,本文主要针对数据一致性测试中记录总数较多、需要人工合并的情况,采用Python代码简化流程。未来还可考虑对字段数值、字段个数对比等流程进行简化,通过构建自动化环境和利用智能化手段等方式,来提升大数据平台入库测试的效率和质量。
作者:邓旭