大数据的起源

萌到你眼炸
654次浏览
2021年02月23日 08:13
最佳经验
本文由作者推荐

-

2021年2月23日发(作者:希望之星英语大赛)


大数据的起源



我今天给大家讲的主题是大数据 ,


大数据是前几年特别火的一个话题,


但是近两


年被人工智能取代了。


今天,


我就跟你聊聊大数据的前 生今世,


大数据是怎么诞


生的、怎么发展的,将来会是什么样。



人们通常认为,大数据起源于谷歌的“三驾马车”:谷歌文件 系统、


MapReduce



BigTable


,这三篇论文分别发表于


2003


年、


2004


年和


2 007


年。


2007


年亚


马逊也发表了一篇关于


Dynamo


系统的论文。


这几篇论文奠定了大数据时代的基


础。



为什么因为


Google


发表了三篇 论文,


就有了“大数据”的概念呢?原因众说纷


纭。我个人的理 解是这样的:


Google


作为互联网泡沫破灭后第一次上市的 大型



IT


公司,它的市值在上市之后 飞速增长。原因在于,


Google


的广告业务做得非


常成功,


而广告业务成功的很大一部分原因是它用了大数据技术。


当时,


很多相


关的互联网企业因此都认为大数 据是改变自己命运的机会,


因此纷纷加入大数据


圈子,入局的有 微软、阿里巴巴、雅虎、


Facebook


< br>LinkedIn



Twitter

等公司。



抱团取暖的


Hadoop


生态圈



2008


年的时候,


大部分公司围绕在一个叫作


H adoop


的项目周围,


这个项目最初


开始于


2006



1


月,是“大数据之父”道格



· 卡丁(


Doug


Cutting


)把 他对


谷歌文件系统、


MapReduce


的实现,


从爬虫项目


Nutch


里 独立出来形成的。


Hadoop


的主要贡献者是雅虎,


Facebook



LinkedIn



Twitter


等公司也都贡献了一些影


响深远的项目。



Hadoop

< p>
系统,



2008



6


月就比较稳定了。


当时


Hadoo p


并不是很有名,


我之


所以知道这个事 情,是因为我那个时候正在


IBM


研究院实习,而我实习的组是



IBM


内部两个最早开始使用


Had oop


做研发的组之一。


当时我参加了一次

Hadoop


在硅谷的活动,这个活动上雅虎的


Had oop


开发人员非常兴奋,因为他们第一次


拿到了全球排序算法 的冠军。那个会场设置在雅虎,


Facebook


< p>
LinkedIn




T witter


的人也都出席了。这些公司除了对


Hadoop


的贡献以外,雅虎贡献了



Pig



Facebook


贡献了< /p>


Hive



LinkedIn


贡献了


Kafka



Twitter


贡献了


Storm




今天去看雅虎,你可能 觉得雅虎这个公司已经算是倒闭了,一无是处。但是在



2008


年到


2009


年的时候,


雅虎看起来是非常成功的。


雅虎曾经是“ 互联网第一


股”,


引领了互联网门户时代的发展。


所以那个时候,


雅虎自然成了其他互联网


初创公司的 中心,


由它主导大家一起来“造一个轮子”,


让这些互联网公司 有一


套可以和


Google


的“三驾马车”相媲美的系统。



为什么这些公司没有信心单干,


自己独立做一套呢?我想主要原因是,


这些公司


都意识到自己的技术实力和


Google


相比差距巨大。



自己造轮子的微软和阿里巴巴



精选文库



Hadoop


以外的系统主要有两个:一个是微软自己研发的


Cosmos


,中文叫作“宇


宙”;另外一个系统是阿里巴巴的


ODPS




微软自己研发


Cosmos


的原因很 简单:一方面,微软当时和开源社区关系不好,


无法和雅虎一起合作;

< br>另一方面,


微软当时虽然是“帝国没落”,


但仍感觉自己


很厉害,有信心凭借一己之力“造轮子”。



我当时正在


Cosmos


组,整个


Cosmos


的技术架构有很多方面像谷歌。当时我们


每个新人入门的时候,


组内资深老人总是把谷歌的几篇论文给新人,


帮助他们入


门。可 见微软虽然觉得自己厉害,但是没能改变参考谷歌系统的本质。



阿里巴巴在决定做大数据的时候,实际上成立了两个团队:一个是在


Hadoop< /p>



础上做开源系统,另一个是自研一套叫作


ODPS


的系统。两边都投入很多人,但


是最后

< p>
ODPS


得到了大力支持,


Hadoop


团队衰弱了。



一场大论战



2008


年的大数据圈里发生了一次非常引人瞩目的事件。这次事件的一方是数据


库领域 的元老级人物迈克尔



· 斯通布雷克(


Michael Stonebraker


)和大




· 德威特(


David


Dewit t


),另外一方是主导了谷歌技术发展的杰夫



· 迪


恩(


Jeff


Dean


)。这两群人就谷歌“三驾马车”之一的


M apReduce


是创新还是


倒退,争得不可开交。

< p>


传统数据库一方以一篇“MapReduce:一个巨大的倒退”(


MapReduce



a Step


Backward


)博文掀起了这场论战。他们认为


MapReduce


是数据库领域的人早就


淘汰了的 ,不值一提。但是谷歌那批人觉得


MapReduce


是一个伟大的发明。


此次事件影响深远,


但是当时双方的观点都太绝对了。


在我 看来,


两方面都有道


理,


但是两方面谁 都没有看到对方正确的地方。


业界有些人则看明白了,


并经过< /p>


论证和思考开发了新系统,比如


Spark




Hadoop


的生意经



当一个开源的产品做得越来越好以后,就有人希望从开源产品里面赚钱。在



Hadoop


开源中赚钱的标志是


Cloudera


公司的诞生。



2009


年,几个人有感于现在的


Hadoop


难用,觉得如果能够让


Hadoop

< p>
这套系统


可以变得更容易安装、更好用,可以卖给其他企业赚钱。所以,这 几个人成立了


一家叫作


Cloudera


的公司来做这个生意,并推出了一个


Hadoop


版本。



有关


Cloudera


的详细情况,在


Cloudera


上市之前,我写了一篇很详细的分析


文章,你可以在公众号“飞总聊



IT” 里面找到这篇文章。



--


2

-


-


-


-


-


-


-


-