Core/Common
为其他子项目提供支持的工具,包括FileSystem、RPC、和串行化库、提供API
Avro
用于数据序列化的系统,数据的读和写是在模式下完成,数据和模式都是自描述的,客户端和服务端通过握手协议进行模式的交换。客户端和服务端拥有相同的全部的模式,不同模式下的相同命名字段、丢失字段和附加字段得到了很好的解决。
MapReduce
是一种编程模式,用于大规模数据的并行处理,让编程人员不用关注分布式并行编程。核心理念是映射map、化简reduce。MapReduce工作时,先指定一个map函数,把输入的kv键值对,转换成一组新的kv键值对,经过一定处理后交给reduce,reduce对相同key下的所有value进行处理,再输出kv键值对作为最终的结果。
HDFS
分布式文件系统,具有:高一致性、检测和快速恢复硬件故障、流式的数据访问、简化一致性模型、TCP通信协议
有NameNode、DataNode、Client三个角色
Chukwa
数据收集系统,监控和分析大型分布式系统的数据。在HDFS和MapReduce基础上搭建的
Hiv
建立在Hadoop基础上的数据仓库,提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中数据集的工具。提供了类似于SQL的Hive QL语言。提供了结构化的数据机制。
支持三种连接模式:Single User Model、Multi User Model、Remote Server Model
四种数据模型:Table,Partition,Bucket(列hash,用户数据分割),Extern Table(只是一个过程)
HBase
分布式的、面向列的数据库,主要用于随机访问,实时读写的大数据。提供了非结构化的数据机制。
写数据时是锁行的。每次更新数据都会有一个时间戳,并产生一个新版本
HRegion(接收来自服务器的分配域,处理客户端的域读写请求并回写映射文件等)、HMaster(管理整个集群中的所有域)、HClient(查找用户域所在的服务器)组成
Pig
对大型数据进行分析和评估的平台。底层由一个编译器组成,运行时生成Map、Reduce序列。
来源:https://www.cnblogs.com/zhb1190/p/6881766.html