Hadoop 学习 | 易学教程

Core/Common

为其他子项目提供支持的工具，包括FileSystem、RPC、和串行化库、提供API

Avro

用于数据序列化的系统，数据的读和写是在模式下完成，数据和模式都是自描述的，客户端和服务端通过握手协议进行模式的交换。客户端和服务端拥有相同的全部的模式，不同模式下的相同命名字段、丢失字段和附加字段得到了很好的解决。

MapReduce

是一种编程模式，用于大规模数据的并行处理，让编程人员不用关注分布式并行编程。核心理念是映射map、化简reduce。MapReduce工作时，先指定一个map函数，把输入的kv键值对，转换成一组新的kv键值对，经过一定处理后交给reduce，reduce对相同key下的所有value进行处理，再输出kv键值对作为最终的结果。

HDFS

分布式文件系统，具有：高一致性、检测和快速恢复硬件故障、流式的数据访问、简化一致性模型、TCP通信协议

有NameNode、DataNode、Client三个角色

Chukwa

数据收集系统，监控和分析大型分布式系统的数据。在HDFS和MapReduce基础上搭建的

Hiv

建立在Hadoop基础上的数据仓库，提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中数据集的工具。提供了类似于SQL的Hive QL语言。提供了结构化的数据机制。

支持三种连接模式：Single User Model、Multi User Model、Remote Server Model

四种数据模型：Table，Partition，Bucket（列hash，用户数据分割），Extern Table（只是一个过程）

HBase

分布式的、面向列的数据库，主要用于随机访问，实时读写的大数据。提供了非结构化的数据机制。

写数据时是锁行的。每次更新数据都会有一个时间戳，并产生一个新版本

HRegion（接收来自服务器的分配域，处理客户端的域读写请求并回写映射文件等）、HMaster（管理整个集群中的所有域）、HClient（查找用户域所在的服务器）组成

Pig

对大型数据进行分析和评估的平台。底层由一个编译器组成，运行时生成Map、Reduce序列。

来源：https://www.cnblogs.com/zhb1190/p/6881766.html

标签

Hadoop

数据处理

hadoop集群搭建