Hadoop之基础概念
1. 什么是 Hadoop (1) Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构; (2) 主要解决,海量数据的存储和海量数据的分析计算问题; (3) 广义上来说,Hadoop 通常是指一个更广泛的概念—— Hadoop 生态圈。 2. Hadoop 的发展历史 (1) Lucene--Doug Cutting 开创的开源软件,用 Java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎; (2) 2001年年底成为 Apache 基金会的一个子项目; (3) 对于大数量的场景,Lucene 面对与 Google 同样的困难; (4) 学习和模仿 Google 解决这些问题的办法 :微型版 Nutch; (5) 可以说 Google 是 Hadoop 的思想之源(Google在大数据方面的三篇论文); GFS --->HDFS Map-Reduce --->MR BigTable --->Hbase (6) 2003-2004年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting 等人用了2年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升; (7) 2005 年 Hadoop 作为 Lucene 的子项目