大数据技术与应用基础
上QQ阅读APP看书,第一时间看更新

1.2 大数据的概念及特征

1.2.1 大数据的概念

关于大数据,难以有一个非常定量的定义。

麦肯锡对大数据的定义是:大数据指的是那些大小超过标准数据库工具软件能够收集、存储、管理和分析的数据集。

维基百科给出的大数据概念是:在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或者传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据。Gartner在阐述大数据概念时,提出如上论述。

复旦大学朱扬勇教授提出,大数据本质上是数据交叉、方法交叉、知识交叉、领域交叉、学科交叉,从而产生新的科学研究方法、新的管理决策方法、新的经济增长方式、新的社会发展方式等。

1.2.2 大数据的特征

大数据具备以下四个维度的特征(如图1-1所示):

图1-1 大数据的特征

(1)大体量(Volume)。数据量可从数百TB到数百PB甚至EB的规模。

(2)多样化(Variety)。大数据所处理的数据类型早已不是单一的文本数据或者结构化的数据库中的表,而是包括各种格式和形态的数据,数据结构类型复杂。

(3)时效性(Velocity)。很多大数据需要在一定时间限度下得到及时处理,处理数据的效率决定企业的生命。

(4)大价值(Value)。大数据包含很多深度的价值,通过强大的机器学习和高级分析对数据进行“提纯”,能够带来巨大商业价值。