大数据的起源
-
大数据的起源
我今天给大家讲的主题是大数据
,
大数据是前几年特别火的一个话题,
但是近两
年被人工智能取代了。
今天,
我就跟你聊聊大数据的前
生今世,
大数据是怎么诞
生的、怎么发展的,将来会是什么样。
人们通常认为,大数据起源于谷歌的“三驾马车”:谷歌文件
系统、
MapReduce
和
BigTable
,这三篇论文分别发表于
2003
年、
2004
年和
2
007
年。
2007
年亚
马逊也发表了一篇关于
Dynamo
系统的论文。
这几篇论文奠定了大数据时代的基
础。
为什么因为
Google
发表了三篇
论文,
就有了“大数据”的概念呢?原因众说纷
纭。我个人的理
解是这样的:
Google
作为互联网泡沫破灭后第一次上市的
大型
IT
公司,它的市值在上市之后
飞速增长。原因在于,
Google
的广告业务做得非
常成功,
而广告业务成功的很大一部分原因是它用了大数据技术。
当时,
很多相
关的互联网企业因此都认为大数
据是改变自己命运的机会,
因此纷纷加入大数据
圈子,入局的有
微软、阿里巴巴、雅虎、
Facebook
、
< br>LinkedIn
、
Twitter
等公司。
抱团取暖的
Hadoop
生态圈
2008
p>
年的时候,
大部分公司围绕在一个叫作
H
adoop
的项目周围,
这个项目最初
开始于
2006
年
1
月,是“大数据之父”道格
·
卡丁(
Doug
Cutting
)把
他对
谷歌文件系统、
MapReduce
的实现,
从爬虫项目
Nutch
里
独立出来形成的。
Hadoop
的主要贡献者是雅虎,
Facebook
、
LinkedIn
、
Twitter
等公司也都贡献了一些影
p>
响深远的项目。
Hadoop
系统,
在
2008
年
6
月就比较稳定了。
当时
Hadoo
p
并不是很有名,
我之
所以知道这个事
情,是因为我那个时候正在
IBM
研究院实习,而我实习的组是
IBM
内部两个最早开始使用
Had
oop
做研发的组之一。
当时我参加了一次
Hadoop
在硅谷的活动,这个活动上雅虎的
Had
oop
开发人员非常兴奋,因为他们第一次
拿到了全球排序算法
的冠军。那个会场设置在雅虎,
Facebook
、
和
T
witter
的人也都出席了。这些公司除了对
Hadoop
的贡献以外,雅虎贡献了
Pig
、
Facebook
贡献了<
/p>
Hive
、
LinkedIn
贡献了
Kafka
、
Twitter
贡献了
Storm
。
今天去看雅虎,你可能
觉得雅虎这个公司已经算是倒闭了,一无是处。但是在
2008
年到
2009
年的时候,
雅虎看起来是非常成功的。
雅虎曾经是“
互联网第一
股”,
引领了互联网门户时代的发展。
所以那个时候,
雅虎自然成了其他互联网
初创公司的
中心,
由它主导大家一起来“造一个轮子”,
让这些互联网公司
有一
套可以和
Google
的“三驾马车”相媲美的系统。
为什么这些公司没有信心单干,
自己独立做一套呢?我想主要原因是,
这些公司
都意识到自己的技术实力和
Google
相比差距巨大。
自己造轮子的微软和阿里巴巴
精选文库
Hadoop
以外的系统主要有两个:一个是微软自己研发的
Cosmos
,中文叫作“宇
宙”;另外一个系统是阿里巴巴的
ODPS
。
微软自己研发
Cosmos
的原因很
简单:一方面,微软当时和开源社区关系不好,
无法和雅虎一起合作;
< br>另一方面,
微软当时虽然是“帝国没落”,
但仍感觉自己
很厉害,有信心凭借一己之力“造轮子”。
我当时正在
Cosmos
组,整个
Cosmos
的技术架构有很多方面像谷歌。当时我们
每个新人入门的时候,
组内资深老人总是把谷歌的几篇论文给新人,
帮助他们入
门。可
见微软虽然觉得自己厉害,但是没能改变参考谷歌系统的本质。
阿里巴巴在决定做大数据的时候,实际上成立了两个团队:一个是在
Hadoop<
/p>
基
础上做开源系统,另一个是自研一套叫作
ODPS
的系统。两边都投入很多人,但
是最后
ODPS
得到了大力支持,
Hadoop
团队衰弱了。
一场大论战
2008
年的大数据圈里发生了一次非常引人瞩目的事件。这次事件的一方是数据
库领域
的元老级人物迈克尔
·
斯通布雷克(
Michael
Stonebraker
)和大
卫
· 德威特(
David
Dewit
t
),另外一方是主导了谷歌技术发展的杰夫
· 迪
恩(
Jeff
Dean
)。这两群人就谷歌“三驾马车”之一的
M
apReduce
是创新还是
倒退,争得不可开交。
传统数据库一方以一篇“MapReduce:一个巨大的倒退”(
p>
MapReduce
:
a Step
p>
Backward
)博文掀起了这场论战。他们认为
MapReduce
是数据库领域的人早就
淘汰了的
,不值一提。但是谷歌那批人觉得
MapReduce
是一个伟大的发明。
此次事件影响深远,
但是当时双方的观点都太绝对了。
在我
看来,
两方面都有道
理,
但是两方面谁
都没有看到对方正确的地方。
业界有些人则看明白了,
并经过<
/p>
论证和思考开发了新系统,比如
Spark
。
Hadoop
的生意经
当一个开源的产品做得越来越好以后,就有人希望从开源产品里面赚钱。在
Hadoop
开源中赚钱的标志是
Cloudera
公司的诞生。
2009
年,几个人有感于现在的
Hadoop
难用,觉得如果能够让
Hadoop
这套系统
可以变得更容易安装、更好用,可以卖给其他企业赚钱。所以,这
几个人成立了
一家叫作
Cloudera
的公司来做这个生意,并推出了一个
Hadoop
版本。
有关
Cloudera
的详细情况,在
Cloudera
上市之前,我写了一篇很详细的分析
文章,你可以在公众号“飞总聊
p>
IT” 里面找到这篇文章。
--
2