重启yarn导致僵死资源不可用问题
今日在做节点可靠性测试的时候,错误重启了yarn整个服务,其hdfs等他组件正常,yarn过会自动僵死,导致整个平台资源调度问题,恢复步骤如下: 1.查看日志tail -f yarn-resourcemanger-192.168.1.233.log(不清楚你的日志在哪可以find / -name yarn) 2.登陆装有yarn的机器,查看rm1,rm2 的状态。我的rm1,rm2,都是standby,(rm是resourceManger,HA) $ yarn rmadmin - getServiceState rm1 standby $ yarn rmadmin - getServiceState rm2 standby (手动的切换准备命令了 yarn rmadmin - transitionToStandby rm1) 3.以上两个命令已经可以发现主rm没有起来,但重启后,依然会僵死。清空rm日志,重新启动rm后,分析日志会发现如下错误: Caused by: org.apache.hadoop.metrics2.MetricsException: Hadoop:service=ResourceManager,name=RMNMInfo already exists! Caused by: java.lang.IllegalArgumentException: No