MapReduce计算框架知识总结(一)
文章目录 一.MapReduce简介 1.1 MapReduce特点 扩展性强 使用起来比较简单 高容错性 1.2 MapReduce适用场景 二.MapReduce工作原理(重要) 2.1 MapReduce编程规范 Mapper Reducer Driver 2.2 MapReduce程序执行过程中的两个主要步骤 2.3 MapReduce的三类进程及其作用 2.4 MapReduce程序工作流程分析(重要) 2.4.1 MapReduce的数据切片机制及MapTask并行度 数据切片与MapTask并行度并行度的关系 数据块及数据切片 MapReduce的数据切片机制 默认切片方式 小文件数据切片方式 虚拟存储过程: 切片过程: 2.4.2 MapReduce对输入数据文件的初步处理 TextInputFormat KeyValueTextInputFormat NLineInputFormat 自定义InputFormat 2.4.3 Map阶段 Read操作: Map操作: Collect操作: Spill操作: Combine操作: 2.4.4 Reduce阶段 Copy操作: Merge操作: Sort操作: Reduce操作: 2.4.5 Shuffle机制 三.MapReduce中的序列化 3.1 Hadoop序列化特点 3.2 Hadoop中使用序列化 一