大数据的特殊标志（大数据十字特征）

提到大数据的特征，大家都会联想到大数据的4V特征，即Volume(大容量)，Variety（多样式），Velocity（高速性），Value（价值性）。

大数据的特殊标志（大数据十字特征）(1)

图 1‑2大数据的4V特征

结合我国大数据的研究，《大数据领导干部读本》这本书曾概括了大数据的十字特征， “大杂多全快，久活密稀联”，来区别大数据与传统数据的特征。

大数据的特殊标志（大数据十字特征）(2)

图 1‑3大数据的十字特征

大—数据量大

指的是数据规模大，即所说的海量数据。

2012年，Facebook宣布每天有25亿条内容，3亿上传照片数，500 TB新产生的数据量；2017年，微信每天9亿登陆，380亿条消息，61亿语音次数，2亿视频通话，10 亿图片。

据国际数据公司（IDC）估计，全球数据总量预计2020年达到44ZB，中国数据量将达到8060EB，占全球数据总量的18%。

杂—结构复杂

指的是数据的存储类型多种多样，数据结构复杂。

数据的形式也是多样化的，可以是连续的数值，也可以是文字、符号（数字数据），或者声音、图像等等。

传统的小数据，为了便于存储和快速处理，一般都是结构化的数据。而大数据，不仅包含了结构化的数据，更多的是非结构化和半结构化的数据，比如互联网上的文本、图片、音视频等等，都是大数据。

全—维度全面

指的是业务数据的多维性，即数据样本的维度较多，能够全面呈现数据对象。

比如要了解一个用户行为，不仅要收集其基本数据（比如性别、年龄、住址、联系方式），也还要收集其搜索浏览数据（比如百度搜索关键词、浏览网页地址），甚至交易数据（淘宝购物数据、京东购物数据）等等多个维度的数据，这样才能够全面体现用户的行为。

不过，全是一个相对的概念，绝对的全是没有的。

多—来源多

指的是数据的来源多，不仅来源于销售，也来源于生产；不仅来源于企业内部，也包含很多外部数据。实际上，单个企业一般只会是基于某种业务目的来收集相应的数据。比如，销售数据只会保存在交易数据库中，而用户的浏览数据则会来源于网站日志，这样数据的来源就比较多样化了。

快—处理速度快

这里的快有两层意思：一是指数据产生的速度快，二是要求数据处理速度也要快。

按照新的摩尔定律，每两年产生的数据量相当于以前全部数据量的总和，这么快的增长速度，也就要求数据的处理效率要高，否则，其数据的意义就不大了。

比如，在交通路口拍摄的照片需要及时传回到大数据系统中，进行及时处理，从照片中提取出经过某个路口的车牌号、时间点等信息，这样才以便于公安或交警部门快速地捕获指定的违章车辆，快速进行拦截。如果处理的速度不够快，或者数据分析后的结果就意义已经不大了。

久—时间跨度长

指的是大数据的时间范围要足够长。时间越长，就越能发现事物的长期规律。

就比如全球的经济危机，其爆发的周期约为10年，差不多每隔十年左右才会发生一次。如果收集的数据时间跨度太短，是不太可能从数据中发现这样的周期性规律的。

活—实时处线

指的是数据的实时性，要求数据是实时在线的，能够随时查看和计算的。

就比如交通行业要求的大数据，要能够实时在线处理，以呈现实时路况，才能有效地利用大数据及时发现拥堵，并指导车辆分流，规避拥堵。

密—数据密度

指的是收集数据的时间间隔，或者地域间隔要足够地短，这样才能准确地用来描述业务的情况。

比如，公交车上的GPS数据，其两次上报的时间间隔要足够地短，其位置间隔也要足够地短，这样才能用于精确定位，这样的数据才有实用价值。

稀—价值低

指的大数据的价值密度低，即有价值数据的比例比较小。

特别是一些监控视频数据，其中真正有价值的数据也许只有1~2秒。但是，为了得到这几秒的有价值的信息，我们却必须保存大量的视频数据。正如有人自我揶揄说，为了提炼一点点金子，我们得保存整个沙滩。

联—关联性

指的是数据之间的相关性。万物皆有联，万事万物都是有某种联系的，体现在数据上就是数据与数据间的相关性，可以探索业务各种因素之间的相互影响关系。

正如舍恩伯格所说，大数据关注相关关系更胜于因果关系。

这十个字，分别从数据的特征、数据的采集、数据的处理以及数据分析等不同的角度来描述大数据，是比较全面的。

大数据的特殊标志（大数据十字特征）(3)