线上Web应用故障排查之高CPU占用
故障描述 Web服务启动之后,服务器CPU使用率瞬间飙升到90%。此时接口服务频繁超时。 故障处理 由于短时间无法定位和修复问题,以免影响终端用户操作体验,采取了回滚操作。 故障问题分析 一般一个应用CPU使用率很高,通常都是由于程序中的死循环引起的。 故障问题定位过程 ####1、使用 top 命令查看占用 CPU 较高的进程 可以看到 PID 为 26484 这个进程的 CPU 占用率最高。 ####2、定位具体进程 使用 'ps aux | grep 26484' 或 'ps -ef | grep 26484' 命令,定位到具体的进程 ####3、查看进程下的线程 CPU 占用情况 使用 'ps -mp 26484 -o THREAD,tid,time | sort -rn' 命令打印出该进程下的线程占用 CPU 情况 可以看到 TID 为 26762 的这个线程占用 CPU 最高 ####4、线程 ID 转换为 16 进制格式 使用 'printf "%x\n" 26762' 命令将线程 ID 转换为 16 进制格式, 以方便下一步查询线程堆栈信息 ####5、查看线程堆栈信息 使用 'jstack 26484 |grep 688a -A 30' 命令打印出高 CPU 占用的线程 26762 的堆栈信息, 如下: 从上面的输出结果就可以定位到具体出问题的代码,