Hadoop之基础概念

对着背影说爱祢 提交于 2020-12-06 18:14:53

1. 什么是 Hadoop

(1) Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构;
(2) 主要解决,海量数据的存储和海量数据的分析计算问题;
(3) 广义上来说,Hadoop 通常是指一个更广泛的概念—— Hadoop 生态圈。

2. Hadoop 的发展历史

(1) Lucene--Doug Cutting 开创的开源软件,用 Java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎;
(2) 2001年年底成为 Apache 基金会的一个子项目;
(3) 对于大数量的场景,Lucene 面对与 Google 同样的困难;
(4) 学习和模仿 Google 解决这些问题的办法 :微型版 Nutch;
(5) 可以说 Google 是 Hadoop 的思想之源(Google在大数据方面的三篇论文);
    GFS --->HDFS
    Map-Reduce --->MR
    BigTable --->Hbase
(6) 2003-2004年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting 等人用了2年业余时间实现了 DFS 和 Mapreduce 机制,使 Nutch 性能飙升;
(7) 2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中;
(8) 名字来源于 Doug Cutting 儿子的玩具大象;
(9) Hadoop就此诞生并迅速发展,标志这云计算时代来临。

3. Hadoop三大发行版本

Hadoop 三大发行版本: Apache、Cloudera、Hortonworks
(1) Apache 版本最原始 (最基础) 的版本,对于入门学习最好。
(2) Cloudera 在大型互联网企业中用的较多。
(3) Hortonworks 文档较好。

3.1. Cloudera Hadoop

(1) 2008年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持、咨询服务、培训;
(2) 2009年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品主要为 CDH,Cloudera Manager,Cloudera Support;
(3) CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强;
(4) Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持;
(5) Cloudera 的标价为每年每个节点4000美元。Cloudera 开发并贡献了可实时处理大数据的 Impala 项目。

3.2. Hortonworks Hadoop

(1) 2011年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建;
(2) 公司成立之初就吸纳了大约25名至30名专门研究 Hadoop 的雅虎工程师,上述工程师均在2005年开始协助雅虎开发 Hadoop,贡献了 Hadoop 80%的代码;
(3) 雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席执行官;
(4) Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统;
(5) HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。Hortonworks 的 Stinger 开创性的极大的优化了 Hive 项目。Hortonworks 为入门提供了一个非常好的,易于使用的沙盒;
(6) Hortonworks 开发了很多增强特性并提交至核心主干,这使得 Apache Hadoop 能够在包括 Window Server 和 Windows Azure 在内的 microsoft Windows 平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。

4. Hadoop的优势

(1) 高可靠性:因为 Hadoop 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理;
(2) 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点;
(3) 高效性:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度;
(4) 高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

 

本文为原创文章,如果对你有一点点的帮助,别忘了点赞哦!比心!如需转载,请注明出处,谢谢!

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!