hadoop基础知识总结
Hadoop 是一个由 Apache基金会所开发的 分布式系统 基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop生态圈: MapReduce: 分布式计算框架 Yarn: 集群资源管理和调度平台 Hdfs: 分布式文件系统 Hive: 数据仓库 HBase: 实时分布式数据库 Flume: 日志收集工具 Sqoop: 数据库 ETL工具 Zookeeper: 分布式协作服务 Mahout: 数据挖掘库 Hadoop由4个主要构成部分: 1) 基础核心:提供基础的通用的功能, 一组分布式文件系统和通用 I/O的组件与接口(序列化、Java RPC和持久化数据结构) 2) HDFS:分布式存储, 高容错性适合部署在廉价的机器上。 HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序,HDFS块的默认大小64 MB 3) MapReduce:分布式计算 4) YARN:资源分配(多个任务是排队执行还是同时执行) HDFS由3种主要的节点构成: 1) NameNode :用来存储数据的存放位置等元数据(不存放数据)(如文件名、文件大小、文件所在目录、所有者名称、读写执行权限等) 2) DataNode :只用来存储数据 3)