配前准备
一. 安装环境:Ubuntu 14.04 ---------一共三台机器
其中一台namenode+jobtracker (master) , 两台 datanode + tasktracker(hadoop, salve1)
下表为各个机器的具体内容
ip username/password hostname
10.60.38.165 hadoop/123456 hadoop
10.60.38.166 hadoop/123456 master
10.60.38.155 hadoop/123456 salve1 (......居然拼错了,我靠)
在每台机器的/etc/hosts 下面 添加
10.60.38.165 hadoop
10.60.38.166 master
10.60.38.155 salve1
使得各台机器相互之间可以ping通(通过hostname可以ping)
(ps: /etc/hosts 里面的数据全部清空,只留上面的三个 以及第一项: 127.0.0.1 localhost )
二. SSH 无密码验证配置
1.因为大部分Linux里面默认已经安装好了ssh,我在安装时已经默认安装好,但是ssh service 没有安装,使用 sudo apt-get install openssh-server 来安装 ssh service。(确保 22端口号处于监听状态:netstat -nat 查看)
2.在每台机器上都执行 下面命令: ssh-kengen -t rsa -P ""
一路enter (将密钥的位置保存在默认的路径下)
在user的当前目录下出现目录/.ssh(默认的权限为700)
里面生成两个文件 id_rsa 和 id_rsa.pub
3.接着在 Master 节点上做如下配置把id_rsa.pub 追加到授权的key 里面
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
4.下面在其他两台机器上依次执行命令将各自生成的id_rsa.pub 添加到Master 下的authorized_keys 里面
cat id_rsa.pub | ssh hadoop@master "cat >> ~/.ssh/authorized_keys ( 此时 ssh 到 另外一台机器上 需要另外一台机器的密码)
5.最后将Master 机器上得到的 authorized_keys 依次添加到 各台机器的 /home/hadoop/.ssh 目录下
scp authorized_keys hadoop@hadoop :~/.ssh
scp authorized_keys hadoop@salve1:~/.ssh
6.配置完成后在每一台机器上都可以无密码验证登录另外一台机器了。于是这一步搞定。
在每台机器上安装jdk 和 Hadoop
配置Hadoop (此处我的版本为hadoop0.20.2,jdk1.7)
----在配置文件中设值时,两边千万不能有空格,不然无效。
接下来配置配置文件:hadoop-env.sh, core-site.xml, hdfs-site.xml, mapred-site.xml
PS:
对于hadoop-env.sh 各个节点的配置都是相同的。
对于master节点,需要额外配置slaves 文件,在里面添加各个datanode 的ip 地址
下面附上master节点与Hadoop节点的配置(salve1与Hadoop类似,只需修改对于的ip,这里我已经大部分采用系统默认配置,所以无需更改)
hadoop-env.sh:
export JAVA_HOME=/opt/jdk1.7
(就在最后面加上即可)
core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
ps: 这里当我添加属性 hadoop.tmp.dir 改变其默认路径时,集群在启动时报错。。。。未解,先暂时启用默认路径。还望大神指教。
hdfs-site.xml:
<configuration>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>10.60.38.166:9001</value>
</property>
</configuration>
slaves:
10.60.38.165 hadoop
10.60.38.155 salve1
masters:
master
在master节点配置好了然后复制到各个Datanode 节点。
注意:这里的master, slaves 文件在复制的时候可以不用变动,系统会自动忽略。而且配置都不需要改变,因为已经尽量采用了默认配置
---------------------------------------------------------------------------------------------------------------------
测试运行
经过以下几步:
1.create some files(file01.txt, file02.txt)
2.hadoop fs -mkdir input
3.hadoop fs -put file*.txt input
4.hadoop jar /opt/hadoop/hadoop-0.20.2-examples.jar wordcount input output
5.hadoop fs -ls output
6.hadoop fs -cat output/part-r-00000
最得到结果:
;slkdfj 1
aer 1
apple 1
are 1
asfjjjf 1
c++ 1
fj 1
hello 2
java 3
tantairs 1
world 4
来源:oschina
链接:https://my.oschina.net/u/995577/blog/366288