Hadoop和大数据技术精讲班

杀马特。学长 韩版系。学妹 提交于 2020-11-26 09:54:04
尊敬的先生/女士:
       思数于计算和大数据服务中心http://www.bihadoop.com,简称思数于(隶属亍北京思数科技有限公司),是国内与业大数据分析培训、咨询机构。中国于计算大数据处理委员会、不中科院软件所、清华大学以及Google、Yahoo、腾讯、阿里、移劢研究院等大数据技术人员一起合作,在2012年初组建了"NewBI-思数于服务" 大数据服务中心。 从2012年至今2013年初,NewBI-思数于服务成功丼办了 20多场Hadoop培训,共有近200余人次参加;此外,组织企业内训、企业技术指导20多次,服务知名客户包括:中国电信、中国移劢、中国银行、民生银行、平安保险、国税总局、神州数码、东软、中软、国家节能中心、国家电网以及众多亏联网企业。 思数于不众多企业建立了合作关系,包括:于基地、华为、京东、金山、盛大等。
      我中心提供的大数据服务包括:云计算大数据技术培训、企业大数据项目方案、大数据项目实施等等。
课程名称:Hadoop和大数据技术周末四天精讲班
Hadoop和大数据精讱技术
4天/人                   4500.00元
教材费                  200/人                    免费
合计                     4500.00/人
注:小班五人上课,讲师定向辅导,自带4G内存笔记本电脑。
培 训 细 则 
一、培训时间及地点 时间:2013年12月21日—12月22日 ,12月28日—12月29日 
                                地点: 北京东直门东方银座D座8层A室 北京回龙观龙冠大厦805室
二、培训对象           对于计算戒大觃模数据处理感兴趣的开发人员、架构师、项目经理等;BI、数据仓库技术人员等。
三、师资力量
 马老师
现任职现任hbase业务集群负责人,从事搜索、大数据行业4年开发经验,8年java开发经验,先后在淘宝、Answers.com从事垂直搜索、大数据分析和挖掘等方向的研发。对hadoop生态系统,如Hive,HBase,Mahout,Zookeeper的业务应用、可靠性、基础架构和高级应用方面有着丰富经验。
钱老师 
于计算数据分析架构师,目前担任某大数据公司技术总监,广告系统架构师,一直致力亍于计算研究,资深 Hadoop,Hbase与家, 基亍 hadoop 的大数据量分析、 hadoop 平台的搭建和 mapreduce 的开发,擅长 hadoop、 hive、flume、Oozie 等。对亍开源于平台技术有着深刻的理解实戓经验,擅长解决方案架构设计。作为项目的主要成员和负责人参亍幵领导完成了多个大型复杂项目,项目涉及电商、电力、电信、等诸多领域。不团队人员合作开发了中国首个于计算实时分析系统,创造了一个前所谓有得商业模式。设计幵实现了实时索引系统,各项性能指标均达了国际先进水平。完成多个于计算解决方案的架构,涉及到建行分析系统、海量日志分析系统、电力用电信息统计系统等。
张老师 
8年程序开发经验,主要使用熟悉Java和Python语言,具有丰富的项目实戓经验。2010年起开始从事一线Hadoop开发、运维工作 国内首批拥有如下Hadoop认证: Cloudera Certified Administrator for Apache Hadoop (CCAH) Cloudera Certified Developer for Apache Hadoop (CCDH) 拥有SCJP (Sun Certificated Java Programmer )证书
刘老师 
Storm实时分析系统平台的搭建
项目职责:Storm开源框架的调研。可行性和风险预测 storm环境的部署。 Storm的scribe接口的设计 Storm的Hbase接口的设计 项目描述:Storm平台用来做实时海量数据的分析,hadoop做离线海量数据的分析。由亍日志传输到hadoop有延迟性。 Scribe收集来的数据发送到Storm系统里面,经过Storm的分析把分析的结果传输到HbHive定时任务的开发 
软件环境: Hadoop的50个节点 硬件环境:标配服务器 开发工具:eclipse+jdk 项目职责:1)需求的制定不确认。 2)系统的搭建不开发 项目描述:用hive来分析海量数据,定时执行hive任务,将结果保存在mysql这样的数据库当中,来提供实时查询。手劢管理job的执行。ase里面做实时查询。
HDFS多租户实现 
软件环境: eclpise 硬件环境:hadoop集群50个节点 开发工具:java
项目职责:1)HDFS的多租户设计 2)HDFS需求分析3)HDFS的详细设计 项目描述:HDFS多租户实现了丌同部门的可见性,保证HDFS里面日志的安全。
四、培训特色 
注重实戓应用操作:通过学习掌握 Hadoop的基本原理、体系架构、应用场景和程序开发
五、颁发证书
 中心颁发的《Hadoop和大数据技术精讱》培训证书。

hadoop课程学习大纲(根据情况适当调整)

课程模块

课程主题

主要内容

案例和演示

模块一

Hadoop简介和生态系统介绍

ü 传统大规模数据分析存在的问题 

ü Hadoop概述 

ü Hadoop分布式文件系统                  

ü Hadoop生态系统

ü Hadoop的行业应用案例分析

ü Hadoop在云计算和大数据的位置和关系

ü Hadoop版本介绍

ü HadoopGoogle FS的关系

ü Hadoop在国内的使用情况和未来

Ø Hadoop在推荐领域的使用案例介绍

模块二

Hadoop安装和主要配置文件介绍

ü Hadoop安装所需软件介绍

ü Hadoop单机安装

ü Hadoop伪分布式安装

ü Hadoop完全分布式安装

ü Hadoop三个节点安装的配置介绍

ü Hahoop多节点ssh配置

ü Hadoop格式化详解

ü Hadoop核心配置文件介绍

ü 核心配置文件core-site.xml

ü HDFS配置文件hdfs-site.xml

ü Mapreduce配置文件mapred-site.xml

ü master文件配置详解

ü slave文件配置详解

ü Hadoop启动和停止方法一

start-all.sh详解

stop-all.sh详解

ü Hadoop的启动和停止方法二

  —hadoop-deamon.sh详解

ü Hadoop安装的常见错误介绍和解决方案

ü 使用自带的wordcountpi测试集群安装是否成功

ü 使用Streaming来测试集群安装是否成功

 

Ø Hadoop单机演示

Ø Hadoop伪分布式演示

Ø Hadoop完全分布式演示

Ø Hadoop两种启动方式的演示

Ø Hadoop安装常见错误的介绍和演示

Ø Hadoop自带的wordcountpi演示

Ø Hadoop Streaming的案例演示

模块三

Hadoop组件介绍

ü Hadoop NameNode 介绍

ü Hadoop SecondaryNameNode 介绍 

ü Hadoop DataNode 介绍

ü Hadoop JobTracker 介绍 

ü Hadoop TaskTracker 介绍

 

模块五

HadoopHDFS模块

ü HDFS架构介绍

ü HDFS原理介绍

ü NameNode功能详解

ü DataNode功能详解

ü SecondaryNameNode功能详解

ü HSFDfsimageeditslog详解

ü HDFSblock详解

ü HDFSblock的备份策略

ü Hadoop的机架感知配置

ü HDFSshell命令介绍

ü HDFSthrift server服务介绍

ü HDFSAPI接口介绍

ü HDFS的权限详解

ü Hadoop的客服端接入案例

Ø Hadoopshell命令演示

Ø HadoopAPI接口演示

Ø Hadoop的客服端接入案例

模块六

MapReducer入门和高级

ü Mapreduce原理

ü MapReduce流程

ü 剖析一个MapReduce程序

ü MapperReducer抽象类详解

ü Mapreduce的最小驱动类

ü MapReduce自带的类型

ü 自定义WritablesWritableComparables

ü Mapreduce的输入InputFormats

ü MapReduce的输出OutputFormats

ü 自定义InputFormat

ü 自定义InputSPlits

ü 自定义RecorderReader

ü Combiner详解

ü Partitioner详解

ü DistributeFileSystem详解

ü Hadoop Tools工具介绍

ü Counter计数器详解

ü 自定义Counter计数器

ü MapReduce的优化

ü MapReduce的个数设置

ü Hadoop小文件优化

ü 任务调度

ü 默认的任务调度

ü 公平任务调度

ü 能力任务调度

ü 使用 Hadoop MapReduce Streaming 编程 

ü MapReduce的单元测试

Ø MapReduce实现海量数据比较大小案例

Ø 自定义Hadoop类型案例

Ø 自定义Partitioner案例

Ø 实现在内存随机生成100个数,分成两个Map来比较大小

Ø 自定义inputFormatInputSplitRecorderReader来实现MapReduce读取Redis里面的数据。

Ø 多文件输出和自动定义MapReduce的输出名

Ø MapReduce实现Join算法案例

Ø MapReduce实现海量文档相似度算法

Ø 自定义Counter案例实现

Ø MapReduce实现Pangrank算法。

Ø MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

Ø 某公司使用MapReduce分析日志案例(10T数据以上)

Ø 配置公平调度器案例实战

 

模块七

Hivepig的使用 

ü HivePig基础

ü HiveImpalapresto的比较           

ü Hive的作用和原理说明

ü Hadoop仓库和传统数据仓库的协作关系

ü Hadoop/Hive仓库数据数据流

ü Hive 部署和安装

ü Hive Cli 的基本用法

ü Hiveserver启动

ü HQL基本语法

ü Hive的加载数据本地加载和HDFS加载

ü Hivepartition详解

ü Hive的存储方式详解

ü RCFILETEXTFILESEQUEUEFILE

ü HiveUDFUDAF

ü Hivetransform详解 

ü HiveJDBC连接 

Ø 使用JDBC 连接Hive进行查询和分析

Ø 使用正则表达式加载数据

Ø 编写UDF函数

Ø 编写UDAF自定义函数

Ø Partition使用实战

Ø Transform使用实战

Ø 某些大型公司使用hive分析日志案例详解和实战。

 

 

 

 

 

 

 

 

 

 

模块八

 

 

 

 

 

 

 

 

 

 

 

Hbase使用

ü Hbase原理

ü Hmaster详解

ü RegionServer详解

ü Zookeeper介绍

ü Hbase安装

ü Hbase逻辑视图介绍

ü Hbase物理视图介绍

ü Hbase的二级索引介绍

ü Hbase DDLDML

ü Hbase表的设计案例

ü Hbaseimport功能介绍

ü MapReduce操作Hbase

ü Hbase的 thrift Server介绍

ü Hbase API介绍

ü Hbase案例分析

Ø Hbase安装实战

Ø MapReduce操作Hbase实战

Ø HbaseAPI实战

Ø Hbase表结构设计实战

模块九

Hadoop集群配置介绍和维护

ü Hadoop集群的部署要点

ü NameNodeSecondaryNameNodeJobTracker机器的配置要求

ü dataNodetasktracker机器的配置要求

ü Hadoop集群管理的工具介绍

ü Ganglianigos监控Hadoop集群介绍

ü Ambri介绍

ü 添加和删除节点演示

ü Namenode的单点解决方案

ü NameNodeNFS备份介绍

ü 集群所有dataNode挂掉的故障介绍

ü 集群NameNodefsimage丢掉恢复方法

ü Hadoop集群维护的注意点

 

模块十

Sqoop介绍

 

 

 

  

联系人:刘老师
电话:15116995573
            liulei19910215@163.com

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!