云计算与大数据密切相关,大数据是计算密集型操作的对象,需要消耗巨大的存储空间,云计算的主要目标是在集中管理下使用巨大的计算和存储资源,用微粒度计算能力提供大数据应用,云计算的发展为大数据的存储和处理提供了解决方案,大数据的出现也加速了云计算的发展,基于云计算的分布式存储技术可以有效地管理大数据,借助云计算的并行计算能力可以提高大数据采集和分析的效率。

研究机构Gartner定义∶大数据是需要新的处理模式,才能使用户具有更强的决策力、洞察发现力和流程优化能力,以及海量、高增长率和多样化的信息资产。

1.大数据的特征

大数据的特征主要有: 数据大体量(Volume)、种类多样性(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。如下图所示:

大数据的技术主要包括哪些(大数据技术主要包含哪些技术)(1)

大数据的特征

1.1Volume(数据大体量)

用现有技术无法管理的数据量,从现状来看,基本上是指从几十TB到几PB这样的数量级。随着时代发展存储数据的数量增长速度加快,数据体量规模增大。有关数据量的对话已从TB级别转向PB 级别,甚至转向ZB级别。

1.2Variety(种类多样性)

随着技术的发展,企业的数据复杂度更高因为它不仅包含传统的关系型数据, 还包含来自网页、互联网日志文件、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据和视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。在这些数据中和过去不同的是,这些大数据并非只是存储起来就够了,还需要对其进行分析,并从中获得有用的信息。

1.3Velocity(速度)

数据产生和更新的频率也是衡量大数据的一个重要特征,大数据的高速性指的是数据以极快的速度被产生、累积、消化和处理。许多数据都具有时效性,这要求它们在一定的时间限度内被消化掉,就像所收集和存储的数据量和种类发生了变化一样,生成和处理数据的速度也在变化。

在很多领域,对这些源源不断产生的海量数据进行实时分析和处理是十分必要的,搜索引擎要能让用户查找到几分钟前发生的事情的新闻报道,个性推荐算法需要根据用户行为特征尽可能快地向用户完成推送,医疗机构通过监测网上的文章和用户搜索记录来跟踪流感传播等。大数据管理系统,不仅需要对海量的数据进行可靠存储,更要具备高效的数据分析和处理能力,才能适应当今时代下大数据的发展。

大数据是一个跨多个信息技术领域的动力和活动,除了3V基本特征,即Volume(数据打体量)、Variety(种类多样性)和Velocity(高速)外,还增添了2个新特征:Value(价值)、Veracity(真实)。

大数据的Value(价值)大数据的价值不在于数据本身,而在于从大数据的分析中所能发掘出的潜在价值。大数据的体量大而价值密度低,大数据的分析挖掘过程就是提升其价值的过程。通过强大的算法来对庞大的数据集合进行有机的组织和分析,大数据中所蕴含的价值才能被提炼出来。

大数据的Veracity(真实)数据的来源是极其广泛的,通常无法人为进行控制,这就导致了数据的可靠性和完整性的问题。数据的可靠性和完整性决定了数据的质量,需要对数据进行甄别,对这些质量不一的数据进行统一的加工处理,并对数据的真实性加以判别。

这些特征是从技术的角度看待大数据的特征的,而大数据价值性的实现依赖于技术基础。只有当我们能够解决大数据时代带来的技术挑战时,大数据的价值性才能够得到体现。

,