Hadoop 学习

随声附和 提交于 2019-12-18 14:22:10

 Core/Common

为其他子项目提供支持的工具,包括FileSystem、RPC、和串行化库、提供API

Avro

用于数据序列化的系统,数据的读和写是在模式下完成,数据和模式都是自描述的,客户端和服务端通过握手协议进行模式的交换。客户端和服务端拥有相同的全部的模式,不同模式下的相同命名字段、丢失字段和附加字段得到了很好的解决。

MapReduce

是一种编程模式,用于大规模数据的并行处理,让编程人员不用关注分布式并行编程。核心理念是映射map、化简reduce。MapReduce工作时,先指定一个map函数,把输入的kv键值对,转换成一组新的kv键值对,经过一定处理后交给reduce,reduce对相同key下的所有value进行处理,再输出kv键值对作为最终的结果。

HDFS

分布式文件系统,具有:高一致性、检测和快速恢复硬件故障、流式的数据访问、简化一致性模型、TCP通信协议

有NameNode、DataNode、Client三个角色

Chukwa

数据收集系统,监控和分析大型分布式系统的数据。在HDFS和MapReduce基础上搭建的

Hiv

建立在Hadoop基础上的数据仓库,提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中数据集的工具。提供了类似于SQL的Hive QL语言。提供了结构化的数据机制。

支持三种连接模式:Single User Model、Multi User Model、Remote Server Model

四种数据模型:Table,Partition,Bucket(列hash,用户数据分割),Extern Table(只是一个过程)

HBase

分布式的、面向列的数据库,主要用于随机访问,实时读写的大数据。提供了非结构化的数据机制。

写数据时是锁行的。每次更新数据都会有一个时间戳,并产生一个新版本

HRegion(接收来自服务器的分配域,处理客户端的域读写请求并回写映射文件等)、HMaster(管理整个集群中的所有域)、HClient(查找用户域所在的服务器)组成

Pig

对大型数据进行分析和评估的平台。底层由一个编译器组成,运行时生成Map、Reduce序列。

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!