大数据学习路线

心不动则不痛 提交于 2020-02-02 03:16:50

大数据处理从hadoop开始经过了几年的发展,生态越来越丰富,也越来越重要。就从目前的各个招聘网站来看也是薪资最高的。但是对于想进入大数据方面的开发人员从何处学习呢?我在网络收集了一些相关的资源,希望可以帮助到大家。

大数据学习路线

大数据处理流程与应用

一、Github上的学习资源BigData-Notes

Github地址: https://github.com/heibaiying/BigData-Notes

这个github上的资源是最为丰富的。该资源中详细的介绍了大数据学习的各个方面。从大数据收集、存储、分析、实时计算、还有其他相关的辅助技术。

1、数据收集:Flume 、Logstash、Kibana

2、数据存储:Hadoop HDFS 、KFS、GFS

3、数据分析:Hadoop MapReduce、Spark、Flink、Storm

4、实时计算:Spark、Flink、Storm

大数据学习路线

大数据学习路线图

二、Flink实时计算框架flink-learning

Github地址:https://github.com/zhisheng17/flink-learning

该资源介绍了flink相关的知识点,同时也包含与各种中间件集成的例子。是个不错的学习资源。

大数据学习路线

 

总之学习大数据要先学会相关的开发语言。目前大数据相关的开发语言Java、Scala。另外就是要知道相关的大数据收集相关的框架了,如Flume、Logstash等,那大数据存储有Hadoop、MongoDB等。那数据分析相关的有Hadoop MapReduce、Spark、Flink。实时计算有Spark、Storm、Flink。当然了在大数据处理相关的技术中也有Kafka做异步解耦。毕竟大数据处理完后也要遇业务系统做相应的交互。

一、Hadoop入门,了解什么是Hadoop

1、Hadoop产生背景

2、Hadoop在大数据、云计算中的位置和关系

3、国内外Hadoop应用案例介绍

4、国内Hadoop的就业情况分析及课程大纲介绍

5、分布式系统概述

6、Hadoop生态圈以及各组成部分的简介

7、Hadoop核心MapReduce例子说明

 

二、分布式文件系统HDFS,是数据库管理员的基础课程

1、分布式文件系统HDFS简介

2、HDFS的系统组成介绍

3、HDFS的组成部分详解

4、副本存放策略及路由规则

5、NameNode Federation

6、命令行接口

7、Java接口

8、客户端与HDFS的数据流讲解

9、HDFS的可用性(HA)

三、初级MapReduce,成为Hadoop开发人员的基础课程

1、如何理解map、reduce计算模型

2、剖析伪分布式下MapReduce作业的执行过程

3、Yarn模型

4、序列化

5、MapReduce的类型与格式

6、MapReduce开发环境搭建

7、MapReduce应用开发

8、更多示例讲解,熟悉MapReduce算法原理

四、高级MapReduce,高级Hadoop开发人员的关键课程

1、使用压缩分隔减少输入规模

2、利用Combiner减少中间数据

3、编写Partitioner优化负载均衡

4、如何自定义排序规则

5、如何自定义分组规则

6、MapReduce优化

7、编程实战

五、Hadoop集群与管理,是数据库管理员的高级课程

1、Hadoop集群的搭建

2、Hadoop集群的监控

3、Hadoop集群的管理

4、集群下运行MapReduce程序

六、ZooKeeper基础知识,构建分布式系统的基础框架

1、ZooKeeper体现结构

2、ZooKeeper集群的安装

3、操作ZooKeeper

七、HBase基础知识,面向列的实时分布式数据库

 

1、HBase定义

2、HBase与RDBMS的对比

3、数据模型

4、系统架构

5、HBase上的MapReduce

6、表的设计

八、HBase集群及其管理

1、集群的搭建过程讲解

2、集群的监控

3、集群的管理

九、HBase客户端

1、HBase Shell以及演示

2、Java客户端以及代码演示

十、Pig基础知识,进行Hadoop计算的另一种框架

1、Pig概述

2、安装Pig

3、使用Pig完成手机流量统计业务

十一、Hive,使用SQL进行计算的Hadoop框架

1、数据仓库基础知识

2、Hive定义

3、Hive体系结构简介

4、Hive集群

5、客户端简介

6、HiveQL定义

7、HiveQL与SQL的比较

8、数据类型

9、表与表分区概念

10、表的操作与CLI客户端演示

11、数据导入与CLI客户端演示

12、查询数据与CLI客户端演示

13、数据的连接与CLI客户端演示

14、用户自定义函数(UDF)的开发与演示

十二、Sqoop,Hadoop与rdbms进行数据转换的框架

 

1、配置Sqoop

2、使用Sqoop把数据从MySQL导入到HDFS中

3、使用Sqoop把数据从HDFS导出到MySQL中

十三、Storm

1、Storm基础知识:包括Storm的基本概念和Storm应用

场景,体系结构与基本原理,Storm和Hadoop的对比

2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题

3、Storm组件介绍: spout、bolt、stream groupings等

4、Storm消息可靠性:消息失败的重发

5、Hadoop 2.0和Storm的整合:Storm on YARN

6、Storm编程实战

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!