今日在做节点可靠性测试的时候,错误重启了yarn整个服务,其hdfs等他组件正常,yarn过会自动僵死,导致整个平台资源调度问题,恢复步骤如下:
1.查看日志tail -f yarn-resourcemanger-192.168.1.233.log(不清楚你的日志在哪可以find / -name yarn)
2.登陆装有yarn的机器,查看rm1,rm2 的状态。我的rm1,rm2,都是standby,(rm是resourceManger,HA)
$ yarn rmadmin -getServiceState rm1
standby
$ yarn rmadmin -getServiceState rm2
standby
(手动的切换准备命令了yarn rmadmin -transitionToStandby rm1)
3.以上两个命令已经可以发现主rm没有起来,但重启后,依然会僵死。清空rm日志,重新启动rm后,分析日志会发现如下错误:
Caused by: org.apache.hadoop.metrics2.MetricsException: Hadoop:service=ResourceManager,name=RMNMInfo already exists!
Caused by: java.lang.IllegalArgumentException: No object name specified
at com.sun.jmx.interceptor.DefaultMBeanServerInterceptor.registerDynamicMBean(DefaultMBeanServerInterceptor.java:949)
... 21 more
Metrics source ClusterMetrics already exists!
4.这时可以考虑是有个application加载不起来。
可以修改yarn-site.xml的yarn.resourcemanager.recovery.enabled = false。
若集群开启了Recovery功能,则ResourceManager重启过程中:
- Hive作业正常运行至结束
- YARN UI的作业信息一直保留存在
这里我们要改为false,后重启yarn。
5.等待yarn空闲时,连接zookeeper(在zk的bin目录下运行./zkCli.sh -server 127.0.0.1:2181)
登陆后查看该目录ls /rmstore/ZKRMStateRoot/RMAppRoot,
不为空则使用该命令rmr /rmstore/ZKRMStateRoot/RMAppRoot/* 删除目录文件
确定为空时,把yarn-site.xml的yarn.resourcemanager.recovery.enabled改回ture
6.重启yarn。
来源:oschina
链接:https://my.oschina.net/u/4261593/blog/3536755