Solaris的panic故障分析
1. solaris崩溃后我们在故障分析时除了在/var/adm/messages中查看故障前的系统日志,还希望了解故障当时的系统状态,运行了哪些进程,打开了什么文件,正在发生什么事件,有什么方法可以了解到这些信息呢? 2. 幸运的是solaris为我们提供了这样一个机制。solaris在panic崩溃后会在/var/crash/`hostname`目录下产生unix.x和vmcore.x文件,这两个文件记录了崩溃当时的系统状态,我们可以对他们进行分析,获取我们需要的信息 3. 分析方法: 我们可以mdb -k x或者mdb -k unix.x vmcore.x对系统dump文件分析,例如在/var/crash/hostname中有unix.3和vmcore.3, 执行命令:mdb -k 3 4. 常用分析命令 a. Crash时系统消息缓冲区的消息 该消息缓冲区是ring buffer,有很多有价值的信息,可以知道系统crash时或者之前很长一段时间的系统消息。 ::msgbuf > ::msgbuf MESSAGE sd94 at fjpfca1: target 11 lun b sd94 is /pci@81,2000/fibre-channel@1/sd@11,b WARNING: hme3: fault detected in device; service