hadoop课程学习大纲(根据情况适当调整)
课程模块 |
课程主题 |
n 主要内容 |
n 案例和演示 |
模块一 |
Hadoop简介和生态系统介绍 |
ü 传统大规模数据分析存在的问题 ü Hadoop概述 ü Hadoop与分布式文件系统 ü Hadoop生态系统 ü Hadoop的行业应用案例分析 ü Hadoop在云计算和大数据的位置和关系 ü Hadoop版本介绍 ü Hadoop与Google FS的关系 ü Hadoop在国内的使用情况和未来 |
Ø Hadoop在推荐领域的使用案例介绍 |
模块二 |
Hadoop安装和主要配置文件介绍 |
ü Hadoop安装所需软件介绍 ü Hadoop单机安装 ü Hadoop伪分布式安装 ü Hadoop完全分布式安装 ü Hadoop三个节点安装的配置介绍 ü Hahoop多节点ssh配置 ü Hadoop格式化详解 ü Hadoop核心配置文件介绍 ü 核心配置文件core-site.xml ü HDFS配置文件hdfs-site.xml ü Mapreduce配置文件mapred-site.xml ü master文件配置详解 ü slave文件配置详解 ü Hadoop启动和停止方法一 —start-all.sh详解 —stop-all.sh详解 ü Hadoop的启动和停止方法二 —hadoop-deamon.sh详解 ü Hadoop安装的常见错误介绍和解决方案 ü 使用自带的wordcount和pi测试集群安装是否成功 ü 使用Streaming来测试集群安装是否成功
|
Ø Hadoop单机演示 Ø Hadoop伪分布式演示 Ø Hadoop完全分布式演示 Ø Hadoop两种启动方式的演示 Ø Hadoop安装常见错误的介绍和演示 Ø Hadoop自带的wordcount和pi演示 Ø Hadoop Streaming的案例演示 |
模块三 |
Hadoop组件介绍 |
ü Hadoop NameNode 介绍 ü Hadoop SecondaryNameNode 介绍 ü Hadoop DataNode 介绍 ü Hadoop JobTracker 介绍 ü Hadoop TaskTracker 介绍 |
|
模块五 |
Hadoop的HDFS模块 |
ü HDFS架构介绍 ü HDFS原理介绍 ü NameNode功能详解 ü DataNode功能详解 ü SecondaryNameNode功能详解 ü HSFD的fsimage和editslog详解 ü HDFS的block详解 ü HDFS的block的备份策略 ü Hadoop的机架感知配置 ü HDFS的shell命令介绍 ü HDFS的thrift server服务介绍 ü HDFS的API接口介绍 ü HDFS的权限详解 ü Hadoop的客服端接入案例 |
Ø Hadoop的shell命令演示 Ø Hadoop的API接口演示 Ø Hadoop的客服端接入案例 |
模块六 |
MapReducer入门和高级 |
ü Mapreduce原理 ü MapReduce流程 ü 剖析一个MapReduce程序 ü Mapper和Reducer抽象类详解 ü Mapreduce的最小驱动类 ü MapReduce自带的类型 ü 自定义Writables和WritableComparables ü Mapreduce的输入InputFormats ü MapReduce的输出OutputFormats ü 自定义InputFormat ü 自定义InputSPlits ü 自定义RecorderReader ü Combiner详解 ü Partitioner详解 ü DistributeFileSystem详解 ü Hadoop Tools工具介绍 ü Counter计数器详解 ü 自定义Counter计数器 ü MapReduce的优化 ü Map和Reduce的个数设置 ü Hadoop小文件优化 ü 任务调度 ü 默认的任务调度 ü 公平任务调度 ü 能力任务调度 ü 使用 Hadoop MapReduce Streaming 编程 ü MapReduce的单元测试 |
Ø MapReduce实现海量数据比较大小案例 Ø 自定义Hadoop类型案例 Ø 自定义Partitioner案例 Ø 实现在内存随机生成100个数,分成两个Map来比较大小 Ø 自定义inputFormat和InputSplit和RecorderReader来实现MapReduce读取Redis里面的数据。 Ø 多文件输出和自动定义MapReduce的输出名 Ø MapReduce实现Join算法案例 Ø MapReduce实现海量文档相似度算法 Ø 自定义Counter案例实现 Ø MapReduce实现Pangrank算法。 Ø MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。 Ø 某公司使用MapReduce分析日志案例(10T数据以上) Ø 配置公平调度器案例实战
|
模块七 |
Hive和pig的使用 |
ü Hive和Pig基础 ü Hive、Impala和presto的比较 ü Hive的作用和原理说明 ü Hadoop仓库和传统数据仓库的协作关系 ü Hadoop/Hive仓库数据数据流 ü Hive 部署和安装 ü Hive Cli 的基本用法 ü Hive的server启动 ü HQL基本语法 ü Hive的加载数据本地加载和HDFS加载 ü Hive的partition详解 ü Hive的存储方式详解 ü RCFILE、TEXTFILE和SEQUEUEFILE ü Hive的UDF和UDAF ü Hive的transform详解 ü Hive的JDBC连接 |
Ø 使用JDBC 连接Hive进行查询和分析 Ø 使用正则表达式加载数据 Ø 编写UDF函数 Ø 编写UDAF自定义函数 Ø Partition使用实战 Ø Transform使用实战 Ø 某些大型公司使用hive分析日志案例详解和实战。 |
模块八
|
Hbase使用 |
ü Hbase原理 ü Hmaster详解 ü RegionServer详解 ü Zookeeper介绍 ü Hbase安装 ü Hbase逻辑视图介绍 ü Hbase物理视图介绍 ü Hbase的二级索引介绍 ü Hbase 的DDL和DML ü Hbase表的设计案例 ü Hbase的import功能介绍 ü MapReduce操作Hbase ü Hbase的 thrift Server介绍 ü Hbase 的API介绍 ü Hbase案例分析 |
Ø Hbase安装实战 Ø MapReduce操作Hbase实战 Ø Hbase的API实战 Ø Hbase表结构设计实战 |
模块九 |
Hadoop集群配置介绍和维护 |
ü Hadoop集群的部署要点 ü NameNode和SecondaryNameNode和JobTracker机器的配置要求 ü dataNode与tasktracker机器的配置要求 ü Hadoop集群管理的工具介绍 ü Ganglia和nigos监控Hadoop集群介绍 ü Ambri介绍 ü 添加和删除节点演示 ü Namenode的单点解决方案 ü NameNode的NFS备份介绍 ü 集群所有dataNode挂掉的故障介绍 ü 集群NameNode的fsimage丢掉恢复方法 ü Hadoop集群维护的注意点 |
|
模块十 |
Sqoop介绍 |
|
|
来源:oschina
链接:https://my.oschina.net/u/1262142/blog/184749