在大数据技术普及速度日益增长的背景下,我们需要注意克服这一技术所带来的诸多挑战。

Forrester的研究人员公布了一些令人大开眼界的统计数字:2016年,大数据技术被40%的企业所采用,而更多的公司(预测为30%)将在未来12个月内也引入这项技术。

新的数据技术正在进入市场,但是旧的数据技术也没有因此而衰败。这里需要注意的一点是,大数据技术的采用的脚步永远不会放缓,至少这个趋势不会发生在不久的将来。所以,重要的是我们要如何克服这个技术所带来的挑战。本文章将在从这方面入手,提供一些信息。

随着数据的巨大冲击,企业已经尝试了用不同的方法来处理这些问题。传统的数据库系统已经被横向数据库、列式设计和云技术所取代。为了大数据应用,我们需要一个特定的思维方式、技能和知识。

什么是大数据测试,我们为什么需要它?

简而言之,大数据是指大量的数据(没有特定的大小参数来定义)。数据源繁多,数量和获取的速度都令人惊讶。

1. 数量

对于大数据而言,数据量可能是最相关的。以Facebook为例,它存储照片的能力异常强大。据信,Facebook存储了超过2500亿张图片(截至2015年的记录),而且这个数字还会继续增长。厂商们已经开始在云中管理他们的应用程序数据,SaaS应用程序供应商有大量的数据要存储。

2. 速度

在数据获取的最初阶段,通常会对信息进行批量处理。数据被送入服务器,然后等待结果。然而,这只有在输入数据很慢的情况下才能起作用。而现在,我们可以在如何缩短获得数据的速度方面多做期待。信息不断地从不同方向实时涌现,您需要让它们能够被连贯的分析和得出结论。

3. 种类

数据的种类各式各样:结构化、非结构化和半结构化。当数据以结构化格式时,事情相对而言会简单很多,但是当它们以照片、视频、录音、地理空间数据、演示文稿、电子邮件、帖子、评论和ECG条带的形式出现时,数据就是非结构化和溢出的。

从这种疯狂的数据流中找到一种模式并非易事,而使它们能连贯一致的过程被称为数据分析。所收集的所有数据都需要特定的技术和分析方法,以辨别了解它们所指示的内容,从而使信息具有价值。

如前所述,数据是提供信息的载体,用于分析和得出结论。数据有不同的大小和格式等,分为三个不同的类别:

大数据测试内容:大数据测试能在质量挑战上给出什么神助攻(1)

1. 结构化数据:结构化数据易于使用,它们具有一定的结构和组织。

2. 非结构化数据:这是指大量的数据不以特定的模式存储。

3. 半结构化数据:这种数据组织并不严格,需要经过一些筛选、处理和转换才可以使用。

大数据应用程序测试:关键组件

由于大数据是通过上述三个特点来描述的,所以您需要知道如何通过各种格式来高速处理这些数据。这个处理可以分成三个基本组件。

1. 数据验证:这是数据收集中最重要的组成部分之一。为了确保数据的准确性和完整性,验证是必不可少的步骤。为此,需要检查数据来源。初始数据将被馈入Hadoop分布式文件系统(HDFS),并且也要被验证。文件分区将被彻底检查,然后复制到不同的数据单元。数据验证也称预Hadoop测试,并确保数据来源正确。一旦这个步骤完成,数据就会被推送到Hadoop测试系统中,以便与源数据进行合并。

2. 过程验证:一旦数据和来源匹配,它们将被推送到正确的位置。这将是业务逻辑验证或流程验证,测试人员将逐个验证业务逻辑,然后针对不同的节点进行验证。业务逻辑验证是Hadoop核心MapReduce的验证。测试人员将验证MapReduce过程并检查键值对是否正确生成。

3. 输出验证:在这里,生成的数据被加载到下游系统,数据经过分析和进一步处理。然后通过比较HDFS文件系统和目标数据来进一步检查数据是否失真。体系结构测试是大数据测试的另一个关键部分,因为糟糕的体系结构会毁掉所有的工作。幸运的是,Hadoop是高度资源密集型的,能够处理大量的数据,为此,架构测试成为强制性的。确保没有数据损坏并将HDFS文件系统数据与目标UI或商业智能系统进行比较也很重要。

ETL测试

ETL是提取、转换和加载的首字母缩写。数据仓库的功能是为企业提供可以整合、分析和制定与其重点或目标相关一致的数据。有一些ETL工具可以将原始数据转换为有意义的格式。该工具还帮助他们将数据转换成可以被企业使用的格式。像IBM、Pervasive和Pentaho这样的软件供应商都提供了ETL软件工具。

1. 提取:一旦收集到数据,将从源数据库中提取或读取数据。

2. 转换:接下来进行数据的转换。数据格式被改变成可用的块,并且必须符合目标数据库的要求。

3. 加载:这是将数据写入目标数据库的最后阶段。

为了确保以这种方式采集的数据是准确的,数据整合过程的工具都与数据质量工具集成在一起。整个过程将确保您能提取实际数据。ETL工具对于将结构化和非结构化数据加载和转换到Hadoop中也非常重要。

大数据测试内容:大数据测试能在质量挑战上给出什么神助攻(2)

数据仓库中的数据处理部分在ETL过程中遵循三层体系结构。

1.数据仓库临时层

临时区域是临时位置或着陆区域,能存储所有资源数据。该区域确保所有数据在集成到数据仓库之前都可用。由于不同的业务周期、硬件限制、网络资源限制和数据处理周期,数据需要一个存储空间。您无法同时从所有数据库中提取所有数据。因此,数据仓库中的数据是暂时的。

2. 数据集成层

这是下一代分析的基础,它有助于商业智能。数据集成层是基于语义知识框架的语义、报告和分析技术的组合。数据被安排在被称为事实的分层组中,并被转换成汇总事实。该层是分段层和数据库之间的链接。

3.访问层

使用常见的业务术语,用户将能够从仓库访问数据。访问层是用户可以访问的内容,用户自己也知道如何创建数据。它就像一个虚拟层,不存储信息。该图层包含针对特定人群的数据,使访问和使用更容易。

通过大数据测试,可以保证手中的数据质量,准确,健康。

,