刚开始搭建hadoop集群的时候,使用的是VMware创建的虚拟机。结果卡到心态爆炸。。。
今天尝试使用Docker搭建hadoop集群,发现是如此的好用快捷,也比使用VMware简单。
在这里记录一下防止以后忘记,为以后的学习做准备。
1.获取镜像。
如果是本地使用VMware搭建的话,需要准备java环境,hadoop安装包,还要配置环境变量。虽然不难,但是经常做这些工作也难免烦躁。
使用Docker容器的话,那这一切就变得简单多了。
首先要准备一个镜像,可以使用Dockerfile构建一个合适自己的镜像,或者可以在共有仓库中找一个具有hadoop环境的镜像来使用也可以。由于我是配置的阿里云的加速器,所以在阿里云的仓库中找了一个具有hadoop环境的镜像。hadoop镜像地址
使用命令拉到本地:
docker pull registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop
下载完成之后,通过docker images 可以查看到该镜像:
2.创建容器。
有了镜像之后,我们根据该镜像创建三个容器,分别是一个Master用来作为hadoop集群的namenode,剩下两个Slave用来作为datanode。
可以使用命令:
docker run -i -t --name Master -h Master registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop /bin/bash
命令中的-h为该容器设置了主机名,这里设置为Master,否则创建容器之后是一串随机的数字和字母不好辨认使用。–name指定了容器的名字,也是为了方便区分使用。
建立好Master节点的容器之后,再分别使用两次该命令,创建两个Slave节点。稍微改变其中的参数即可:
例如创建Slave1节点:
docker run -i -t --name Slave1 -h Slave1 registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop /bin/bash
这样集群的基本环境就准备好了。
3.配置SSH。
如果是本地搭建的话,需要配置的大概分为三步:
1.配置java环境。
2.配置无秘SSH。
3.配置hadoop环境。
但是下载的镜像已经包含了这些内容,我们只需要简单的配置一下就可以使用了。
在这个镜像中,有关java和hadoop的内容都存放在了/opt/tools目录下。
先查看下环境变量都包含了什么:
从中间可以看出包含了jdk和hadoop的bin目录,所以我们可以直接使用这两个命令。
java环境已经不需要我们来配置了。
接下来配置一下无秘的SSH。
首先将SSH运行起来。
/etc/init.d/ssh start
然后生成秘钥,保存到authorized_keys中。这个地方可以看一下这篇博客:ssh-keygen 的 详解
ssh-keygen -t rsa
执行的总体过程如下:
接下来在两个Slave节点中做相同的事情,并且将每个节点生成的秘钥互相保存在authorized_keys中。
也就是说,三个节点的都是这个样子的:
接下来查看一下各自节点的ip地址,但是如果直接使用熟悉的ifconfig时,就会发现没有这个命令。那是因为镜像本身就比较简洁,简洁到连这个命令都没有。。。这个我也是服。
可以使用ip addr查看,或者:apt-get install ifconfig net-tools,安装相关命令。
相比之下还是ip addr方便点:
然后修改/etc/hosts,将主机名和对应的ip地址添加进去,这样做为了方便调用ssh:
如果在Master节点,想要连接到Slave1节点,可以使用:ssh 192.168.0.3,也可以使用ssh Slave1。很明显能感觉到使用主机名比较方便理解使用。
如果使用ssh Slave1之后没有提示需要输入密码,就代表成功了(第一次的话会让输入yes或者no,是为了记住该地址,如果输入yes之后就可以直接连接就像下面这样):
4.配置hadoop。
到现在为止,我们已经准备好了haoop搭建的所有基本工作。也是由于该Docker镜像为我们准备好了需要才会这么简单的。
我们只需要在配置一下hadoop相关的内容。
为了方便起见,我们可以直接在Master节点进行配置,然后使用scp命令发送到各节点覆盖原来的即可。
这里不废话,直接上代码,至于其中的意思可以参考书籍资料,或者查看这个文档:hadoop安装指南,这个文档是在VMware上配置的。
hadoop-env.sh:修改有关java的环境
export JAVA_HOME=/opt/tools/jdk1.8.0_77
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://Master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/tmp</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/hadoop/data</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/hadoop/name</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>Master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>Master:8030</value> </property> <property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>Master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>Master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>Master:8088</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
相关目录会在格式化的时候会自动创建,hdfs-site.xml中的有关目录都是以core-site.xml中的hadoop.tmp.dir为主进行配置的,所以可以先创建hadoop.tmp.dir的目录。
然后将这些文件通过scp发送到各个Slave节点上覆盖原来的文件:
scp core-site.xml hadoop-env.sh hdfs-site.xml mapred-site.xml yarn-site.xml Slave1:/opt/tools/hadoop/etc/hadoop/
到这里为止,所有的准备工作都做好了。
5.运行hadoop。
进行格式化操作:
hadoop namenode -format
启动集群:
使用./start-all.sh,如果启动过程中提示关于0.0.0.0地址输入yes或no,输入yes即可:
在Master上使用jps查看相关进程是否启动:
在Slave节点上使用jps查看相关进程是否启动:
使用命令查看各节点信息:hadoop dfsadmin -report
然后再运行一个统计单词的例子:
现在hsfs上创建一个文件夹:
hadoop fs -mkdir /input
查看该文件夹:
hadoop fs -ls /
上传文件到hdfs,这里直接将当前目录的README.txt进行上传:
hadoop fs -put README.txt /input/
之后运行相关例子:
在/opt/tools/hadoop/share/hadoop/mapreduce目录中执行:hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output
注意下这里我之前已经做过测试了,所有outout目录已经存在了,所以换成了output1,这个目录不需要提前创建,运行的时候指定一下,会自动创建的。
查看相关结果输出:
可以使用: hadoop fs -cat /output1/part-r-00000 查看一下统计结果:
6.检测集群状况。
可以通过Master节点的50070端口来进行检测集群节点运行状态。
但是由于是服务器,而且是Centos系统没有图形化界面,可以采用端口映射的方法,直接在任何地方来进行查看。
通过图中的步骤就可以对运行中的Docker容器进行端口映射,这样子我们就可以通过本地的浏览器访问服务器地址的50070端口,就可以直接查看运行在Docker容器的集群状况。
来源:CSDN
作者:繁城落叶
链接:https://blog.csdn.net/Leafage_M/article/details/72633408