I/O告警分析思路
记录一次IO告警分析过程 接到告警,服务器IO飙升,连接服务器,登录服务器查看分析 top命令查看 首先就是通过top命令查看,因为top命令最直接,且信息量够大,覆盖面够全,可以看到CPU的wa有点高 CPU的wa是是wait,是CPU等待时间,通常是由于磁盘IO问题引起,当然也有可能是其他原因引起的 top命令的其他参数就不多介绍了,网上很多,接着看IO vmstat vmstat是一个很强大的工具,它除了能给出系统在性能方面的CPU和内存的统计信息之外,也能提供系统整体上的I/O性能情况 如上图,vmstat采集系统性能信息,取3个样本,每秒采集一次 可以看到采集的数据中,系统写磁盘5032个磁盘块,vmstat内磁盘块大小为1024字节,所以这里系统写磁盘速率约为每秒4MB,vmstat中也有CPU的wa统计,可以看到23%的时间用来等待I/O vmstat还提供自系统启动以来I/O子系统的性能信息 如上图,包括了磁盘数量,分区数量、读/写请求总数,读/写所花费的时间,以及当前正在处理的I/O总数(inprogress IO),等待I/O完成所花费的毫秒数(milli spent IO),这个是整个系统的IO统计信息 说一下合并读和合并写,linux在读写磁盘时,为了提高性能,内核合并对磁盘相邻区域的请求,这样减少了对磁盘IO的操作,从而一定程度上提高linux性能