Hadoop介绍
Hadoop 是什么 Hadoop是一个开源软件框架,用于在商用硬件集群上存储数据和运行应用程序。它为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或作业的能力。 Hadoop是一个由 Apache 基金会所开发的分布式系统基础架构 主要解决海量数据的存储和海量数据的分析计算问题 广义上来说 Hadoop 通常是指一个更广泛的概念—— Hadoop 生态圈 Hadoop 发展历史 Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。 Hadoop 创始人 发展历程 2001年年底Lucene成为Apache基金会的一个子项目 对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢。 学习和模仿Google解决这些问题的办法 :微型版Nutch。 可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文) 2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。 2005 年Hadoop 作为 Lucene的子项目