0.大数据技术分类
1.批处理框架:Mapreduce 批处理历史数据
2.流处理框架:storm 一直处理源源不断的数据
3.混合处理框架:spark
1.生态圈核心项目
1.HDFS分布式文件系统
2.yarn调度与管理
3.mapreduce数据并行处理
2.生态圈相关项目
1.hive数据仓库基础架构
2.hbase分布式数据库
3.ambari监控与管理
4.spark快速计算
5.zookeeper协调服务
等等
3.HDFS定义与特点
定义:hadoop分布式文件系统
特点:高容错,廉价机,高吞吐,大文件,分块存
关键词
1.block:128m/块
2.集群架构:
Namenode:接受请求,纂写目录,管理文件》块》Datanode的关系
Datanode:分块存储,多副本
5.HDFS写数据过程
1.请求上船
2.Namenode检查路径
3.返回可以上船
4.上传一个block,指明副本数量
5.查询Datanode信息
6.返回写入Dn地址和策略
7.请求Dn传数据和副本数量
8.Dn之间建立副本通道
9.通道建立应答
10.Dn回应客户准备就绪
11.传输block
12.副本生成
13.通知Nn接受到了新数据,建立影射
14.返回客户成功
6.HDFS写过程
1.请求读取
2.Nn获取文件块信息
3.信息传回客户端
4.分别请求Dn
5.分别从Dn读取
7.MapReduce编程模型
1.Map 拆分任务 分配给Dn执行
2.Reduce 汇总Dn数据输出结果
8.Yarn 资源协调
1.ResourceManager 资源管理 yarn主节点 执行在Nn或单独机器
2.Nodeanager 节点管理 yarn从节点 执行在Dn中
过程
1.客户端发起MapReduce程序
2.主节点应用管理(ApplicationManager)选择一台从节点,开启一个容器(Container)作为应用管理主机(ApplicationMaster)
3.应用管理主机计算MR程序所需从节点资源,返回主节点应用管理,传给资源调度(ResourceSchedule)
4.资源调度各个从节点分配容器,进行Map任务
5.Reduce任务从应用管理主机获取Map任务结果
6.Reduce任务汇总结果回传应用管理主机
7.应用管理主机汇报结果给客户
9.Hadoop部署(单机)
1.下载Jdk并安装
略
2.下载Hadoop 300MB+ 解压之
资源:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common
3.修改环境变量
# cd /software
# wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
# tar xf /root/hadoop-2.8.5.tar.gz -C /usr/local
# mv /usr/local/hadoop-2.8.5 /usr/local/hadoop
# vim /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_191
export HADOOP_HOME=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
# source /etc/profile
测试之
# hadoop
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
......
来源:CSDN
作者:@一只弱鸡
链接:https://blog.csdn.net/VegetandBird_s/article/details/103689780