大数据的概念、特征及其应用

绝世美人儿
929次浏览
2021年02月23日 12:30
最佳经验
本文由作者推荐

-

2021年2月23日发(作者:抗战胜利70周年大阅兵)


马建光等:大数据的概念、特征及其应用



(2013-09-05 16:15:35)






标签:



分类:


学习资料



杂谈



大数据的概念、特征及其应用



马建光,姜巍



(

国防科技大学人文与社会科学学院,湖南长沙


410074)

源自:国防科技


2013



4




[摘要]


随着 互联网的飞速发展,特别是近年来随着社交网络、物联网、云


计算以及多种传感器的广泛 应用,以数量庞大,种类众多,时效性强为特征的


非结构化数据不断涌现,数据的重要性 愈发凸显,传统的数据存储、分析技术


难以实时处理大量的非结构化信息,


大数据的概念应运而生。


如何获取、


聚集、


分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大

数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,


最后讨 论大数据可能要面临的多种挑战。



[关键词]


大数据


;


非结构化信息


;


解决核心问题


;


未来挑战

< br>


一、引言



自上古时代的结绳 记事起,人类就开始用数据来表征自然和社会,伴随着科


技和社会的发展进步,数据的数 量不断增多,质量不断提高。工业革命以来,


人类更加注重数据的作用,不同的行业先后 确定了数据标准,并积累了大量的


结构化数据,计算机和网络的兴起,大量数据分析、查 询、处理技术的出现使


得高效的处理大量的传统结构化数据成为可能。而近年来,随着互 联网的快速


发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络 、


物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在


科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在

以极快的速度增长,大数据时代已悄然降临。



首先,


全球数据量出现爆炸式增长,


数据成了当今社会增长最快的资源之一 。


根据国际数据公司


IDC


的监测统计 [


1


],即使在遭遇金融危机的


200 9


年,全


球信息量也比


2008


年增长了


62%



达 到


80



PB ( 1PB

< p>
等于


10


亿


GB)




2011


年全球 数据总量已经达到


1. 8ZB ( 1ZB


等于


1


万亿


GB



)



并且以每两年翻一番


的 速度飞速增长,


预计到


2020


年全球 数据量总量将达到


40 ZB



10< /p>


年间增长


20


倍以上,到


2020


年,地球上人均数据预计将达


5247GB< /p>


。在数据规模急剧增长


的同时,数据类型也越来越复杂,包括结构 化数据、半结构化数据、非结构化


数据等多种类型,其中采用传统数据处理手段难以处理 的非结构化数据已接近


数据总量的


75%




如此增长迅速、庞大繁杂的数据资源,给传统的数据分析 、处理技术带来了


巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大 数据工


程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一


些国家政府部门、经济领域以及科学领域有关专家的广泛关注。


20 12



3



2 2


日,奥巴马宣布美国政府五大部门投资


2

亿美元启动“大数据研究和发展计划


( Big Data Research and Development Initiative)


”[


2


],欲大力推动大数据相关


的收集、储存、保留、管理、分 析和共享海量数据技术研究,以提高美国的科


研、教育与国家安全能力。这是继


1993


年美国宣布“信息高速公路”计划后的


又一次重大科技发展部署,美国政府认为大数据是未来信息时代的重要资源,


战略地位堪 比工业时代的石油,其影响除了体现在科技、经济方面,同时将也


对政治、文化等方面产 生深远的影响。在商业方面,


2013


年,

Gartner


发布了将


在未来三年对企业产生重大影响的 十大战略技术中,大数据名列其中,提出大


数据技术将影响企业的长期计划、规划和行动 方案,同时,


IBM



Intel



EMC



Wal mart



Teradata



Oracle



Microsoft



Google



Fa cebook


等发源于美国的跨国


巨头也积极提出自己的应对大 数据挑战的发展策略,他们成了发展大数据处理


技术的主要推动者。在科技领域,庞大的 数据正在改变着人类发现问题、解决


问题的基本方式,采用最简单的统计分析算法,将大 量数据不经过模型和假设


直接交给高性能计算机处理,就可以发现某些传统科学方法难以 得到的规律和


结论。图灵奖得主吉姆·格雷提出的数据密集型科研第四范式[

< p>
3


],不同于传


统的实验、理论和计算三种范式, 第四种范式不需要考虑因果关系,以数据为


中心,分析数据的相关性,打破了千百年来从 结果出发探究原因的科研模式,


大规模的复杂数据使得新的科研模式成为可能。



虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基 本概


念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存


储、


处理、


分析等诸多方面仍存在一定的争议 ,


大数据概念有过度炒作的嫌疑。


欧洲的一些企业甚至认为大数 据就是海量数据存储,仅将大数据视作是可以获


取更多信息的平台。本文分析当前流行的 几种大数据的概念,讨论其异同,从


大数据据有的典型特征角度描述大数据的概念和特点 ,从整体上分析大数据要


解决的相关性分析、实时处理等核心问题,在此基础上,最后讨 论大数据可能


要面临的多种挑战。



二、国内外开展的相关工作



近年来, 大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的


关注和研究,有一些相 关的研究成果。早在


1980


年,阿尔文·托夫勒[

< p>
4


]等


人就前瞻性地指出过大数据时代即将到来。 此后经过几十年的发展,特别是移


动互联网络和云计算的出现,人们逐渐认识到大数据的 重大意义,国际顶级学


术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应 用,


2008



Nature


出版专刊“


Big Data


”[


5


],分析了大量快速涌现数据给数据分析处理


带来 的巨大挑战,大数据的影响遍及互联网技术、电子商务、超级计算、环境


科学、


生物医药等多个领域。


2011



Science


推出关于数据处理的专刊



Dealing


with data


”[


6


],讨论了数据洪流


( Data De luge)


所带来的挑战,提出了对大数


据进行有效的分析、组 织、利用可以对社会发展起到巨大推动作用。在大数据


领域,国内学者也有大量的相关工 作,李国杰等人[


7


]阐述了大数据的研究现

< br>状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略


提出 了建议。文献[


8



10


]主要关注大数据分析、查询方面的理论、技术,对


大数据基本概念进行了剖 析,列举了大数据分析平台需要具备的几个重要特性,


阐述了大数据处理的基本框架,并 对当前的主流实现平台进行了分析归纳。随


着大数据理念逐渐被大众了解,出现了一些阐 述大数据基本概念与思想的专着,


舍恩伯格等在大数据时代[


1 1


]一书中用三个部分讲述了大数据时代的思维变


革、商业变革 和管理变革。近年来,大数据对经济的推动作用被广泛接受,出


现了探讨大数据在商业领 域的应用的文章和专着,


Martin Klubeck


等人在 量化


:


大数据时代的企业管理[


12< /p>


]一书中提到,进入大数据时代,数据发挥着关键


的作用,探讨了 如何从空前膨胀的海量数据中挖掘出有用的指标和信息。朱志


军等人所着的《转型时代丛 书


:


大数据·大价值、大机遇、大变革》[

13


]中介


绍了大数据产生的背景、特征和发展趋势,从实 证的角度探讨了它对社会和商


业智能的影响,并认为大数据正影响着商业模式的转变,并 将带来新的商业机


会。



三、大数据的概念与特点



大数据是一 个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至


今尚无确切、统一的定义 。在维基百科中关于大数据的定义为[


14


< br>:


大数据是


指利用常用软件工具来获取、管理和处理数据 所耗时间超过可容忍时间的数据


集。


笔者认为,


这并不是一个精确的定义,


因为无法确定常用软件工具的范围,


可容忍时间也是个概略的描述。


IDC


在对大数据作出 的定义为[


15



:

< br>大数据一


般会涉及


2


种或


2


种以上数据形式。


它要收集超过

< p>
100TB


的数据,


并且是高速、


实时数据流


;


或者是从小数据开始,但数据每年会增长


60%


以上。这个定义给出


了量化标准 ,但只强调数据量大,种类多,增长快等数据本身的特征。研究机


Gartner


给出了这样的定义



16



:


大数据是需要新处理模式才 能具有更强的决


策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 。这


也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特


征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特

< br>征


:


数据规模大


( Volume)



数据种类多


( Va riety)



数据要求处理速度快


( Velocity)



数据价值密度低


( Value)


,即所谓的四


V


特性 。这些特性使得大数据区别于传统


的数据概念。大数据的概念与“海量数据”不同,后者 只强调数据的量,而大


数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、 数据的快速


时间特性以及对数据的分析、


处理等专业化处理,< /p>


最终获得有价值信息的能力。



(



)


数据量大



大数据聚合在一起的数据量是非常大的,根据


IDC


的定义至少要有超过


100TB


的可供分析的数据,数 据量大是大数据的基本属性。导致数据规模激增


的原因有很多,首先是随着互联网络的广 泛应用,使用网络的人、企业、机构


增多,数据获取、分享变得相对容易,以前,只有少 量的机构可以通过调查、


取样的方法获取数据,同时发布数据的机构也很有限,人们难以 短期内获取大


量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意 的


分享和无意的点击、浏览都可以快速的提供大量数据


;


其次是随着各种传感器数


据获取能力的大幅提高,使得人们获取的数据 越来越接近原始事物本身,描述


同一事物的数据量激增。早期的单位化数据,对原始事物 进行了一定程度的抽


象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、 整理,数


据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有< /p>


限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的


数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本


和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据


大规模涌现 ,而随着三维扫描设备以及


Kinect


等动作捕捉设备的普及 ,


数据越


来越接近真实的世界


,数据的 描述能力不断增强,而数据量本身必将以几何级


数增长。此外,数据量大还体现在人们处 理数据的方法和理念发生了根本的改


变。早期,人们对事物的认知受限于获取、分析数据 的能力,一直利用采样的


方法,


以少量的数据来近似的描述事物 的全貌,


样本的数量可以根据数据获取、


处理能力来设定。


不管事物多么复杂,


通过采样得到部分样本,


数据规模变小,


就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采 样方法


以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,


样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能


远不能描述整个事物,


可能丢掉大量重要细节,


甚至可 能得到完全相反的结论,


因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势 。


使用所有的


数据可以带来更高的精确性


,从更多的细节来解释事物属性,同时必然使得要


处理数据量显着增多。



(



)

< br>数据类型多样



数据类型繁多,复杂多变是大数据的重要 特性。以往的数据尽管数量庞大,


但通常是事先定义好的结构化数据。结构化数据是将事 物向便于人类和计算机


存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽 略一些在特


定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只


需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,


数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数

据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,


一般不 需要为新增的数据显着的更改数据聚集、处理、查询方法,限制数据处


理能力的只是运算 速度和存储空间。这种关注结构化信息,强调大众化、标准


化的属性使得处理传统数据的 复杂程度一般呈线性增长,新增的数据可以通过


常规的技术手段处理。而随着互联网络与 传感器的飞速发展,非结构化数据大


量涌现,非结构化数据没有统一的结构属性,难以用 表结构来表示,在记录数


据数值的同时还需要存储数据的结构,增加了数据存储、处理的 难度。而时下


在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻, 发


送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍


及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化

数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据


逐渐成 为主流数据。如上所述,非结构化数据量已占到数据总量的


75%


以上,


且非结构化数据的增长速度比结构化数据快


10


倍到


50


倍。


在数据 激增的同时,


新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂 、


多样的数据形式


,这样的数据已经不能用传统的数据库表格来 整齐的排列、表


示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不 同就



重点关注非结构化信息,大数据关注包含大量细节信息的 非结构化数据


,强


调小众化,体验化的特性使得传统的数据处理 方式面临巨大的挑战。



(



)


数据处理速度快



要 求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。


随着各种传感器 和互联网络等信息获取、传播技术的飞速发展普及,数据的产


生、发布越来越容易,产生 数据的途径增多,


个人甚至成为了数据产生的主体


之一


,数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求


数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则


不断激增的 数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。


同时,数据不是静止 不动的,而是在互联网络中不断流动,且通常这样的数据


的价值是随着时间的推移而迅速 降低的,如果数据尚未得到有效的处理,就失


去了价值,大量的数据就没有意义。此外, 在许多应用中要求能够实时处理新


增的大量数据,比如有大量在线交互的电子商务应用, 就具有很强的时效性,


大数据以数据流的形式产生、快速流动、迅速消失,且数据流量通 常不是平稳


的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的


响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间

( moment


-


-


-


-


-


-


-


-