为某企业做的培训,完整文档见:http://gudaoxuri.github.io/bd-lab/
1. 概要说明
本工程为大数据培训的指导教程,包含了培训实践各个环节的说明及相关代码。
1.1. 课程概要
名称 | 内容 |
---|---|
第一天上午 |
|
元宝铺架构分享 |
|
大数据总揽 |
介绍当前大数据的基本情况 |
环境准备 |
为后续实践准备基础环境 |
第一天下午 |
|
Spark入门 |
介绍Spark框架的基本概念 |
Scala入门 |
介绍Scala语言的基础使用 |
Hadoop安装使用 |
动手实践Hadoop的安装、配置及基础使用 |
Spark安装使用 |
动手实践Spark的standalone安装、配置及基础使用 |
案例分析:ybMAP |
介绍元宝铺数据处理遇到的问题及如何解决 |
第二天上午 |
|
Zookeeper安装使用 |
动手实践Zookeeper的安装、配置及基础使用 |
HBase安装使用 |
动手实践HBase的安装、配置及基础使用 |
Hive安装使用 |
动手实践Hive的安装、配置及基础使用 |
Kafka安装使用 |
动手实践Kafka的安装、配置及基础使用 |
Sqoop安装使用 |
动手实践Sqoop的安装、配置及基础使用 |
Zeppelin安装使用 |
动手实践Zeppelin的安装、配置及基础使用 |
生产环境说明 |
介绍用Ambari+HDP搭建生产环境,使用Hue、Kylin做分析 |
案例分析:垂直行业数据运营平台 |
以4S店行业为入口分析垂直行业数据运营平台的架构及流程 |
第二天下午 |
|
综合实例:访客分析 |
以访客分析为例子综合使用Kafka、Spark Streaming、Redis、Mongo等技术框架 |
综合实例:支付宝数据处理 |
以支付宝数据处理为例子综合使用HDFS、Spark SQL、Hive、Zeppelin/Hue等技术框架 |
1.2. 资源说明
实验需要的资源列表,因我朝网络管制,故预先下载备用。
网盘下载地址: http://pan.baidu.com/s/1dEJ7agT |
生产环境下所有未经官方源下载的文件都要做签名校验 |
名称 | 说明 |
---|---|
tools\DockerToolbox-1.11.0.exe |
Windows的Docker安装程序 |
tools\DockerToolbox-1.11.0.pkg |
Mac的Docker安装程序 |
tools\AsciidocFX_Windows_No_JRE.exe |
此文档的撰写工具 |
images\scala_2.10_image.tar |
Docker镜像,本实验的基础环境 |
images\mysql_image.tar |
Docker MySQL镜像 |
images\mongo_image.tar |
Docker Mongo镜像 |
images\bd-lab_image.tar |
Docker镜像,本实验最终成果 |
frameworks\hadoop-2.7.2.tar.gz |
Hadoop压缩包 |
frameworks\spark-1.6.1-bin-hadoop2.6.tgz |
Spark Hadoop2.6预编译包 |
frameworks\apache-hive-1.2.1-bin.tar.gz |
Hive预编译包 |
frameworks\hbase-1.2.1-bin.tar.gz |
HBase预编译包 |
frameworks\kafka_2.10-0.8.2.2.tgz |
Kafka预编译包 |
frameworks\zookeeper-3.4.8.tar.gz |
Zookeeper预编译包 |
frameworks\sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz |
Sqoop预编译包 |
frameworks\zeppelin-0.5.6-incubating-bin-all.tgz |
Zeppelin预编译包 |
frameworks\mysql-connector-java-5.1.36.jar |
Mysql JDBC驱动 |
data\r4ZBzEh4Fu8imdju5_0.35396679607219994.out |
模拟支付宝数据 |
data\banks.csv |
模拟银行数据 |
来源:oschina
链接:https://my.oschina.net/u/816048/blog/670647