大数据的概念、特征及其应用
-
马建光等:大数据的概念、特征及其应用
(2013-09-05 16:15:35)
转
载
标签:
分类:
学习资料
杂谈
大数据的概念、特征及其应用
马建光,姜巍
(
国防科技大学人文与社会科学学院,湖南长沙
410074)
源自:国防科技
2013
年
4
p>
月
[摘要]
随着
互联网的飞速发展,特别是近年来随着社交网络、物联网、云
计算以及多种传感器的广泛
应用,以数量庞大,种类众多,时效性强为特征的
非结构化数据不断涌现,数据的重要性
愈发凸显,传统的数据存储、分析技术
难以实时处理大量的非结构化信息,
大数据的概念应运而生。
如何获取、
聚集、
分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大
数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,
最后讨
论大数据可能要面临的多种挑战。
[关键词]
大数据
;
非结构化信息
;
p>
解决核心问题
;
未来挑战
< br>
一、引言
自上古时代的结绳
记事起,人类就开始用数据来表征自然和社会,伴随着科
技和社会的发展进步,数据的数
量不断增多,质量不断提高。工业革命以来,
人类更加注重数据的作用,不同的行业先后
确定了数据标准,并积累了大量的
结构化数据,计算机和网络的兴起,大量数据分析、查
询、处理技术的出现使
得高效的处理大量的传统结构化数据成为可能。而近年来,随着互
联网的快速
发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络
、
物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在
科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在
以极快的速度增长,大数据时代已悄然降临。
首先,
p>
全球数据量出现爆炸式增长,
数据成了当今社会增长最快的资源之一
。
根据国际数据公司
IDC
的监测统计
[
1
],即使在遭遇金融危机的
200
9
年,全
球信息量也比
2008
年增长了
62%
,
达
到
80
万
PB ( 1PB
等于
10
亿
GB)
,
到
2011
年全球
数据总量已经达到
1. 8ZB ( 1ZB
等于
1
万亿
GB
,
)
,
并且以每两年翻一番
的
速度飞速增长,
预计到
2020
年全球
数据量总量将达到
40 ZB
,
10<
/p>
年间增长
20
倍以上,到
2020
年,地球上人均数据预计将达
5247GB<
/p>
。在数据规模急剧增长
的同时,数据类型也越来越复杂,包括结构
化数据、半结构化数据、非结构化
数据等多种类型,其中采用传统数据处理手段难以处理
的非结构化数据已接近
数据总量的
75%
。
如此增长迅速、庞大繁杂的数据资源,给传统的数据分析
、处理技术带来了
巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大
数据工
程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一
p>
些国家政府部门、经济领域以及科学领域有关专家的广泛关注。
20
12
年
3
月
2
2
日,奥巴马宣布美国政府五大部门投资
2
亿美元启动“大数据研究和发展计划
( Big Data Research
and Development Initiative)
”[
2
],欲大力推动大数据相关
的收集、储存、保留、管理、分
析和共享海量数据技术研究,以提高美国的科
研、教育与国家安全能力。这是继
1993
年美国宣布“信息高速公路”计划后的
又一次重大科技发展部署,美国政府认为大数据是未来信息时代的重要资源,
战略地位堪
比工业时代的石油,其影响除了体现在科技、经济方面,同时将也
对政治、文化等方面产
生深远的影响。在商业方面,
2013
年,
Gartner
发布了将
在未来三年对企业产生重大影响的
十大战略技术中,大数据名列其中,提出大
数据技术将影响企业的长期计划、规划和行动
方案,同时,
IBM
、
Intel
p>
、
EMC
、
Wal
mart
、
Teradata
、
Oracle
、
Microsoft
、
Google
、
Fa
cebook
等发源于美国的跨国
巨头也积极提出自己的应对大
数据挑战的发展策略,他们成了发展大数据处理
技术的主要推动者。在科技领域,庞大的
数据正在改变着人类发现问题、解决
问题的基本方式,采用最简单的统计分析算法,将大
量数据不经过模型和假设
直接交给高性能计算机处理,就可以发现某些传统科学方法难以
得到的规律和
结论。图灵奖得主吉姆·格雷提出的数据密集型科研第四范式[
3
],不同于传
统的实验、理论和计算三种范式,
第四种范式不需要考虑因果关系,以数据为
中心,分析数据的相关性,打破了千百年来从
结果出发探究原因的科研模式,
大规模的复杂数据使得新的科研模式成为可能。
虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基
本概
念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存
储、
处理、
分析等诸多方面仍存在一定的争议
,
大数据概念有过度炒作的嫌疑。
欧洲的一些企业甚至认为大数
据就是海量数据存储,仅将大数据视作是可以获
取更多信息的平台。本文分析当前流行的
几种大数据的概念,讨论其异同,从
大数据据有的典型特征角度描述大数据的概念和特点
,从整体上分析大数据要
解决的相关性分析、实时处理等核心问题,在此基础上,最后讨
论大数据可能
要面临的多种挑战。
二、国内外开展的相关工作
近年来,
大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的
关注和研究,有一些相
关的研究成果。早在
1980
年,阿尔文·托夫勒[
4
]等
人就前瞻性地指出过大数据时代即将到来。
此后经过几十年的发展,特别是移
动互联网络和云计算的出现,人们逐渐认识到大数据的
重大意义,国际顶级学
术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应
用,
2008
年
Nature
出版专刊“
Big Data
”[
5
],分析了大量快速涌现数据给数据分析处理
带来
的巨大挑战,大数据的影响遍及互联网技术、电子商务、超级计算、环境
科学、
生物医药等多个领域。
2011
年
Science
推出关于数据处理的专刊
“
Dealing
with data
”[
p>
6
],讨论了数据洪流
( Data De
luge)
所带来的挑战,提出了对大数
据进行有效的分析、组
织、利用可以对社会发展起到巨大推动作用。在大数据
领域,国内学者也有大量的相关工
作,李国杰等人[
7
]阐述了大数据的研究现
< br>状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略
提出
了建议。文献[
8
-
10
]主要关注大数据分析、查询方面的理论、技术,对
大数据基本概念进行了剖
析,列举了大数据分析平台需要具备的几个重要特性,
阐述了大数据处理的基本框架,并
对当前的主流实现平台进行了分析归纳。随
着大数据理念逐渐被大众了解,出现了一些阐
述大数据基本概念与思想的专着,
舍恩伯格等在大数据时代[
1
1
]一书中用三个部分讲述了大数据时代的思维变
革、商业变革
和管理变革。近年来,大数据对经济的推动作用被广泛接受,出
现了探讨大数据在商业领
域的应用的文章和专着,
Martin Klubeck
等人在
量化
:
大数据时代的企业管理[
12<
/p>
]一书中提到,进入大数据时代,数据发挥着关键
的作用,探讨了
如何从空前膨胀的海量数据中挖掘出有用的指标和信息。朱志
军等人所着的《转型时代丛
书
:
大数据·大价值、大机遇、大变革》[
13
]中介
绍了大数据产生的背景、特征和发展趋势,从实
证的角度探讨了它对社会和商
业智能的影响,并认为大数据正影响着商业模式的转变,并
将带来新的商业机
会。
三、大数据的概念与特点
大数据是一
个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至
今尚无确切、统一的定义
。在维基百科中关于大数据的定义为[
14
]
< br>:
大数据是
指利用常用软件工具来获取、管理和处理数据
所耗时间超过可容忍时间的数据
集。
笔者认为,
这并不是一个精确的定义,
因为无法确定常用软件工具的范围,
可容忍时间也是个概略的描述。
IDC
在对大数据作出
的定义为[
15
]
:
< br>大数据一
般会涉及
2
种或
2
种以上数据形式。
它要收集超过
100TB
的数据,
并且是高速、
实时数据流
;
或者是从小数据开始,但数据每年会增长
60%
以上。这个定义给出
了量化标准
,但只强调数据量大,种类多,增长快等数据本身的特征。研究机
构
Gartner
给出了这样的定义
[
16
]
:
大数据是需要新处理模式才
能具有更强的决
策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
。这
也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特
征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特
< br>征
:
数据规模大
(
Volume)
,
数据种类多
( Va
riety)
,
数据要求处理速度快
(
Velocity)
,
数据价值密度低
( Value)
,即所谓的四
V
特性
。这些特性使得大数据区别于传统
的数据概念。大数据的概念与“海量数据”不同,后者
只强调数据的量,而大
数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、
数据的快速
时间特性以及对数据的分析、
处理等专业化处理,<
/p>
最终获得有价值信息的能力。
(
一
)
数据量大
p>
大数据聚合在一起的数据量是非常大的,根据
IDC
的定义至少要有超过
100TB
的可供分析的数据,数
据量大是大数据的基本属性。导致数据规模激增
的原因有很多,首先是随着互联网络的广
泛应用,使用网络的人、企业、机构
增多,数据获取、分享变得相对容易,以前,只有少
量的机构可以通过调查、
取样的方法获取数据,同时发布数据的机构也很有限,人们难以
短期内获取大
量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意
的
分享和无意的点击、浏览都可以快速的提供大量数据
;
其次是随着各种传感器数
据获取能力的大幅提高,使得人们获取的数据
越来越接近原始事物本身,描述
同一事物的数据量激增。早期的单位化数据,对原始事物
进行了一定程度的抽
象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、
整理,数
据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有<
/p>
限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的
数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本
和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据
大规模涌现
,而随着三维扫描设备以及
Kinect
等动作捕捉设备的普及
,
数据越
来越接近真实的世界
,数据的
描述能力不断增强,而数据量本身必将以几何级
数增长。此外,数据量大还体现在人们处
理数据的方法和理念发生了根本的改
变。早期,人们对事物的认知受限于获取、分析数据
的能力,一直利用采样的
方法,
以少量的数据来近似的描述事物
的全貌,
样本的数量可以根据数据获取、
处理能力来设定。
p>
不管事物多么复杂,
通过采样得到部分样本,
数据规模变小,
就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采
样方法
以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,
p>
样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能
远不能描述整个事物,
可能丢掉大量重要细节,
甚至可
能得到完全相反的结论,
因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势
。
使用所有的
数据可以带来更高的精确性
,从更多的细节来解释事物属性,同时必然使得要
处理数据量显着增多。
(
二
)
< br>数据类型多样
数据类型繁多,复杂多变是大数据的重要
特性。以往的数据尽管数量庞大,
但通常是事先定义好的结构化数据。结构化数据是将事
物向便于人类和计算机
存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽
略一些在特
定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只
需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,
数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数
据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,
一般不
需要为新增的数据显着的更改数据聚集、处理、查询方法,限制数据处
理能力的只是运算
速度和存储空间。这种关注结构化信息,强调大众化、标准
化的属性使得处理传统数据的
复杂程度一般呈线性增长,新增的数据可以通过
常规的技术手段处理。而随着互联网络与
传感器的飞速发展,非结构化数据大
量涌现,非结构化数据没有统一的结构属性,难以用
表结构来表示,在记录数
据数值的同时还需要存储数据的结构,增加了数据存储、处理的
难度。而时下
在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,
发
送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍
及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化
数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据
逐渐成
为主流数据。如上所述,非结构化数据量已占到数据总量的
75%
以上,
且非结构化数据的增长速度比结构化数据快
10
倍到
50
倍。
在数据
激增的同时,
新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂
、
多样的数据形式
,这样的数据已经不能用传统的数据库表格来
整齐的排列、表
示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不
同就
是
重点关注非结构化信息,大数据关注包含大量细节信息的
非结构化数据
,强
调小众化,体验化的特性使得传统的数据处理
方式面临巨大的挑战。
(
三
)
数据处理速度快
要
求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。
随着各种传感器
和互联网络等信息获取、传播技术的飞速发展普及,数据的产
生、发布越来越容易,产生
数据的途径增多,
个人甚至成为了数据产生的主体
之一
,数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求
数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则
不断激增的
数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。
同时,数据不是静止
不动的,而是在互联网络中不断流动,且通常这样的数据
的价值是随着时间的推移而迅速
降低的,如果数据尚未得到有效的处理,就失
去了价值,大量的数据就没有意义。此外,
在许多应用中要求能够实时处理新
增的大量数据,比如有大量在线交互的电子商务应用,
就具有很强的时效性,
大数据以数据流的形式产生、快速流动、迅速消失,且数据流量通
常不是平稳
的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的
响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间
( moment
,