首页 > 基础教育 > 小学 >

大数据的起源柔术训练方法

1266次浏览 |420点赞 | 376评论 | 2021-02-23 08:13 更新

来源：互联网

最佳文档

本文由作者推荐

-

2021年2月23日发(作者：希望之星英语大赛)

大数据的起源

我今天给大家讲的主题是大数据，

大数据是前几年特别火的一个话题，

但是近两

年被人工智能取代了。

今天，

我就跟你聊聊大数据的前生今世，

大数据是怎么诞

生的、怎么发展的，将来会是什么样。

人们通常认为，大数据起源于谷歌的“三驾马车”：谷歌文件系统、

MapReduce

和

BigTable

，这三篇论文分别发表于

2003

年、

2004

年和

2 007

年。

2007

年亚

马逊也发表了一篇关于

Dynamo

系统的论文。

这几篇论文奠定了大数据时代的基

础。

为什么因为

Google

发表了三篇论文，

就有了“大数据”的概念呢？原因众说纷

纭。我个人的理解是这样的：

Google

作为互联网泡沫破灭后第一次上市的大型

公司，它的市值在上市之后飞速增长。原因在于，

Google

的广告业务做得非

常成功，

而广告业务成功的很大一部分原因是它用了大数据技术。

当时，

很多相

关的互联网企业因此都认为大数据是改变自己命运的机会，

因此纷纷加入大数据

圈子，入局的有微软、阿里巴巴、雅虎、

Facebook

、

LinkedIn

、

Twitter

等公司。

抱团取暖的

Hadoop

生态圈

2008

年的时候，

大部分公司围绕在一个叫作

H adoop

的项目周围，

这个项目最初

开始于

2006

年

月，是“大数据之父”道格

· 卡丁（

Doug

Cutting

）把他对

谷歌文件系统、

MapReduce

的实现，

从爬虫项目

Nutch

里独立出来形成的。

Hadoop

的主要贡献者是雅虎，

Facebook

、

LinkedIn

、

Twitter

等公司也都贡献了一些影

响深远的项目。

Hadoop

系统，

在

2008

年

6

月就比较稳定了。

当时

Hadoo p

并不是很有名，

我之

所以知道这个事情，是因为我那个时候正在

IBM

研究院实习，而我实习的组是

IBM

内部两个最早开始使用

Had oop

做研发的组之一。

当时我参加了一次
Hadoop

在硅谷的活动，这个活动上雅虎的

Had oop

开发人员非常兴奋，因为他们第一次

拿到了全球排序算法的冠军。那个会场设置在雅虎，

Facebook

、

LinkedIn

和

T witter

的人也都出席了。这些公司除了对

Hadoop

的贡献以外，雅虎贡献了

Pig

、

Facebook

贡献了

Hive

、

LinkedIn

贡献了

Kafka

、

Twitter

贡献了

Storm

。

今天去看雅虎，你可能觉得雅虎这个公司已经算是倒闭了，一无是处。但是在

2008

年到

2009

年的时候，

雅虎看起来是非常成功的。

雅虎曾经是“ 互联网第一

股”，

引领了互联网门户时代的发展。

所以那个时候，

雅虎自然成了其他互联网

初创公司的中心，

由它主导大家一起来“造一个轮子”，

让这些互联网公司有一

套可以和

Google

的“三驾马车”相媲美的系统。

为什么这些公司没有信心单干，

自己独立做一套呢？我想主要原因是，

这些公司

都意识到自己的技术实力和

Google

相比差距巨大。

自己造轮子的微软和阿里巴巴

精选文库

Hadoop

以外的系统主要有两个：一个是微软自己研发的

Cosmos

，中文叫作“宇

宙”；另外一个系统是阿里巴巴的

ODPS

。

微软自己研发

Cosmos

的原因很简单：一方面，微软当时和开源社区关系不好，

无法和雅虎一起合作；
 另一方面，

微软当时虽然是“帝国没落”，

但仍感觉自己

很厉害，有信心凭借一己之力“造轮子”。

我当时正在

Cosmos

组，整个

Cosmos

的技术架构有很多方面像谷歌。当时我们

每个新人入门的时候，

组内资深老人总是把谷歌的几篇论文给新人，

帮助他们入

门。可见微软虽然觉得自己厉害，但是没能改变参考谷歌系统的本质。

阿里巴巴在决定做大数据的时候，实际上成立了两个团队：一个是在

Hadoop

基

础上做开源系统，另一个是自研一套叫作

ODPS

的系统。两边都投入很多人，但

是最后

ODPS

得到了大力支持，

Hadoop

团队衰弱了。

一场大论战

2008

年的大数据圈里发生了一次非常引人瞩目的事件。这次事件的一方是数据

库领域的元老级人物迈克尔

· 斯通布雷克（

Michael Stonebraker

）和大

卫

· 德威特（

David

Dewit t

），另外一方是主导了谷歌技术发展的杰夫

· 迪

恩（

Jeff

Dean

）。这两群人就谷歌“三驾马车”之一的

M apReduce

是创新还是

倒退，争得不可开交。


传统数据库一方以一篇“MapReduce：一个巨大的倒退”（

MapReduce

：

a Step

Backward

）博文掀起了这场论战。他们认为

MapReduce

是数据库领域的人早就

淘汰了的，不值一提。但是谷歌那批人觉得

MapReduce

是一个伟大的发明。

此次事件影响深远，

但是当时双方的观点都太绝对了。

在我看来，

两方面都有道

理，

但是两方面谁都没有看到对方正确的地方。

业界有些人则看明白了，

并经过

论证和思考开发了新系统，比如

Spark

。

Hadoop

的生意经

当一个开源的产品做得越来越好以后，就有人希望从开源产品里面赚钱。在

Hadoop

开源中赚钱的标志是

Cloudera

公司的诞生。

2009

年，几个人有感于现在的

Hadoop

难用，觉得如果能够让

Hadoop

这套系统

可以变得更容易安装、更好用，可以卖给其他企业赚钱。所以，这几个人成立了

一家叫作

Cloudera

的公司来做这个生意，并推出了一个

Hadoop

版本。

有关

Cloudera

的详细情况，在

Cloudera

上市之前，我写了一篇很详细的分析

文章，你可以在公众号“飞总聊

IT” 里面找到这篇文章。

--

2

-

-

-

-

-

-

-

-

小学

中学

高等教育

小段美文

三国演义读书笔记

《木偶奇遇记》读书笔记

《狼王梦》读书笔记

《昆虫记》读书笔记

教师读书笔记

《神秘岛》学生读书笔记

欧也妮葛朗台读书笔记摘抄

活着读书笔记

格兰特船长的儿女读书笔记

鲁滨逊漂流记读书笔记左右

简爱读书笔记

鲁迅《呐喊》读书笔记

《海的女儿》读书笔记

《爱的教育》读书笔记

文档作者

温柔似野鬼°

原来我们都还太小，小到还不懂爱情，所以弄得便体鳞伤。

您可能关注的内容

1
小段美文

2
三国演义读书笔记

3
《木偶奇遇记》读书笔记

4
《狼王梦》读书笔记

5
教师读书笔记

6
《昆虫记》读书笔记

7
《神秘岛》学生读书笔记

8
欧也妮葛朗台读书笔记摘抄

9
活着读书笔记

10
格兰特船长的儿女读书笔记

为你推荐

一年级趣味趣味奥数活动总结

小学数学一年级下册：奥数题训练(3)

几千元投资创业小项目利润惊人致富快-投资,创业项目完整篇.doc

最新六年级下册健康教育教案

热门标签

[db:TAG]

标题

小学英语4年级

忆读书答案

整除

百部经典电影

童话

高尚的行为

趣味数学游戏

乘法结合律

七桥问题答案

小学数学公式

tonghua

什么路不能走

观察日记300字

活版练习题

秋色宜人

英语教学计划

必备古诗

牛吃草问题

72小时打一字

问题鸡蛋

名人成长故事

北人食菱

数学小论文

走马见诸葛

黄山奇石课文

将心比心课文

兰兰过桥

一面课文

煮书

中华少年课文

白杨课文

数列

一般将来时态

小学作文指导

小狮子爱尔莎

晏子辞千金

国庆专题

考试题

小学英语论文

北师大版教材

一片绿草地

整数

趣味数学故事

说课稿范文

走马荐诸葛

排列组合问题

教学课件

斜塔上的实验

5年级上册英语

四则混合运算

四则运算教案

三峡之秋

学习习惯

数学趣味故事

鸡兔同笼公式

分数应用题

角的分类

6年级上册英语

计算公式

50以内的口算题

衡州新学记

数独4宫格

乘法公式小学

利率的公式

学弈课文

10以内加法口诀

电子书课本

语文数学辅导

的棋盘

乘法口算100题

容积的公式

草船借箭原文

数学家手抄报

日记30

穷人课文原文

四上

神笔马良作者

五年级方程题

英语下册

元角分练习题

小学单词

五年级英语下

笋芽儿课文

加法公式

和差倍问题

数学成语

狮子和鹿课文

数学ppt

语文书

趣味数学100题

六年级语文上

小学生英文

等差

换元法

取整

裂项公式

小学生三年级

青蛙写诗课文