Linux单机系统故障问题汇总

一、处理linux系统故障的思路

作为一名优秀的linux工程师，一定要有一套清晰、明确的解决故障思路，当问题出现时，才能迅速定位、解决问题，这里总结出了一套处理问题的一般思路，供大家参考：
1、重视报错提示信息：每个错误的出现，都是给出错误提示信息，一般情况下这个提示基本定位了问题的所在，因此一定要重视这个报错信息，如果对这些错误信息视而不见，问题永远得不到解决。
2、查阅日志文件：有时候报错信息只是给出了问题的表面现象，要想更深入的了解问题，必须查看相应的日志文件，而日志文件又分为系统日志文件（/var/log）和应用的日志文件，结合这两个日志文件，一般就能定位问题所在。
3、分析、定位问题：这个过程是比较复杂的，根据报错信息，结合日志文件，同时还要考虑其它相关情况，最终找到引起问题的原因。
4、解决问题：找到了问题出现的原因，解决问题就是很简单的事情了。

从这个流程可以看出，解决问题的过程就是分析、查找问题的过程，一旦确定问题产生的原因，故障也就随之解决了。看似简单明了的思路，但是真正能重视这个思路的、按照这个思路处理问题的却很少，衷心的希望大家在处理故障的时候，能静下心来，先整理思路，然后有目的的去处理问题。

二、 linux系统无法启动的解决办法

导致linux无法启动的原因有很多，常见的原因有如下几种：
1、文件系统配置不当，比如/etc/inittab文件、/etc/fstab文件等配置错误或丢失，导致系统错误，无法启动。
2、非法关机，导致root文件系统破坏，也就是linux根分区破坏，系统无法正常启动
3、Linux内核崩溃，从而无法启动
4、系统引导程序出现问题，比如grub丢失或者损坏，导致系统无法引导启动。
5、硬件故障，比如主板、电源、硬盘等出现问题，导致linux无法启动。
从这些常见的故障可知，导致系统无法启动的主要有两个问题，硬件原因和操作系统原因，对于硬件出现的问题，只需通过更换硬件设备，即可解决，而对于操作系统出现的问题，虽然出现的问题可能千差万别，不过在多数情况下都可以用相对简单统一的一些方法来恢复系统，下面我们就针对上面提出的几个问题，结合RHEL/Centos Linux系统环境，给出一些常用的、普遍的解决问题的方法。

2.1、/etc/fstab文件丢失，导致系统无法启动
/etc/fstab文件存放了系统中文件系统的相关信息，如果正确的配置了该文件，那么在linux启动时，系统会读取此文件，自动挂载linux的各个分区，如果此文件配置错误，或者丢失，就会导致系统无法启动，具体的故障现象是在检测mount partition时出现：
starting system logger
此后系统启动就停止了。针对这个问题，我们的第一思路就是想办法恢复/etc/fstab这个文件的信息，只要恢复了此文件，系统就能自动挂载每个分区，正常启动。可能很多读者首先想到的是将系统切换到单用户模式下，然后手动挂载分区，最后结合系统信息，重建/etc/fstab文件。
但是这种方法是行不通的，因为fatab文件丢失导致linux无法挂载任何一个分区，即使linux还能切换到单用户下，那么此时的系统也只是一个read-only的文件系统，无法向磁盘写入任何信息。
我们介绍另外一个方法，就是利用linux rescue修复模式登录系统，进而获取分区和挂载点信息，重构/etc/fstab文件。
这里以Centos6.9为例，其它版本方法类似，首先将系统光盘放入光驱，设置BOIS从光驱启动，这样系统就从光驱引导，如下图所示，选择“Rescue installed system”一项，然后回车，系统开始引导进入rescue模式。
Linux单机系统故障问题汇总
接着系统自动开始引导，进入下图所示画面：

这里是选择模式使用的语言，可以按照自己需要设定，我们这里选择“English“，然后按tab键，选中“ok”，回车进入下一步。
下面进入的是键盘选择界面，如下图所示，这里选择默认的“us”即可。
下面进入网络配置界面，如下图所示：
Linux单机系统故障问题汇总
这里是选择是否启用网络，由于系统已经无法启动，我们已经在linux系统上进行操作了，启用网络与否都无所谓。这里选择不启用。
下面到了最关键的步骤了，如下图所示，修复模式会自动将系统的所有分区挂载到/mnt/sysimage目录下，选择“Continue”，则修复环境进入到read-write状态下，可以对分区进行读写操作，选择“Read-Only”，修复环境进入到只读模式，由于我们要重建fstab文件到/etc目录下，因此选择“Continue”进入可读写模式下。
Linux单机系统故障问题汇总
下面是一个友情提示界面，如下图所示，由于fstab文件丢失，修复模式找不到任何可挂载的分区，从这里可知，修复模式在这里也读取/etc/fstab文件，回车，进入下一步。

下面是选择下一步要执行的动作，如下图所示，这里选择“shell Start shell”进入修复模式命令行。
Linux单机系统故障问题汇总
最后，就进入了修复环境下，可以进行操作了。如下图所示

上面详细演示了如何进入linux的修复模式，其实很多情况下，linux无法启动时，都可以通过这个方式登录系统进行修复和更改操作。
下面是恢复/etc/fstab文件的详细过程，首先查看一下系统分区情况，如下所示：
bash-4.1# fdisk -l
Disk /dev/sda: 42.9 GB, 42949672960 bytes
255 heads, 63 sectors/track, 5221 cylinders
Units = cylinders of 16065 512 = 8225280 bytes
Device Boot Start End Blocks Id System
/dev/sda1

1 25 200781 83 Linux
/dev/sda2 26 1300 10241437+ 83 Linux
/dev/sda3 1301 1682 3068415 83 Linux
/dev/sda4 1683 5221 28427017+ 5 Extended
/dev/sda5 1683 1873 1534176 83 Linux
/dev/sda6 1874 2064 1534176 83 Linux
/dev/sda7 2065 2255 1534176 83 Linux
/dev/sda8 2256 2382 1020096 83 Linux
/dev/sda9 2383 2484 819283+ 82 Linux swap / Solaris
/dev/sda10 2485 5221 21984921 83 Linux
因为分区并没有损坏，通过fdisk命令可以查看到系统分区的完整信息，但是每个分区对应的label name信息我们还不知道，下面通过tune2fs命令查看每个分区对应的label name：
bash-4.1# tune2fs -l /dev/sda1 |grep mounted
Last mounted on: /boot
bash-4.1# tune2fs -l /dev/sda2 |grep mounted
Last mounted on: /usr
bash-4.1# tune2fs -l /dev/sda3 |grep mounted
Last mounted on: /
bash-4.1# tune2fs -l /dev/sda5 |grep mounted
Last mounted on: /var
bash-4.1# tune2fs -l /dev/sda6 |grep mounted
Last mounted on: /tmp
bash-4.1# tune2fs -l /dev/sda7 |grep mounted
Last mounted on: /home
bash-4.1# tune2fs -l /dev/sda8 |grep mounted
Last mounted on: /opt
bash-4.1# tune2fs -l /dev/sda10 |grep mounted
Last mounted on: /data
这样，就得到了所有分区的挂载点信息，接下来就可以构造一个fstab文件了。
小技巧：可以参考其它系统中fstab文件的格式，结合本系统的分区和挂载点信息，构造出自己的fstab文件来。
由于fstab文件是存放在系统根目录下的，因此需要挂载原来系统的根分区，从上面可知根分区对应的设备名为/dev/sda3，接着在修复模式创建的临时根分区下创建一个挂载点，然后挂载原来系统的根分区。操作过程如下所示：
bash-4.1# pwd
/
bash-4.1# mkdir temp
bash-4.1# mount /dev/sda3 /temp
bash-4.1# df
Filesystem 1K-blocks Used Available Use% Mounted on
/dev 515644 0 515644 0% /dev
/tmp/loop0 79872 79872 0 100% /mnt/runtime
/dev/sda3 2972268 259916 2558932 10% /temp
这样以来，原有根分区的文件全部挂载到了/temp目录下，接着就可以创建我们需要的fstab文件了。
重构好的fstab文件内容如下：
bash-4.1# cat /temp/etc/fstab
LABEL=/ / ext4 defaults 1 1
LABEL=/boot /boot ext4 defaults 1 2
devpts /dev/pts devpts gid=5,mode=620 0 0
tmpfs /dev/shm tmpfs defaults 0 0
LABEL=/home /home ext4 defaults 1 2
LABEL=/opt /opt ext4 defaults 1 2
proc /proc proc defaults 0 0
sysfs /sys sysfs defaults 0 0
LABEL=/data /data ext4 defaults 1 2
LABEL=/usr /usr ext4 defaults 1 2
LABEL=/var /var ext4 defaults 1 2
LABEL=SWAP-sda9 swap swap defaults 0 0
配置完毕，保存退出，然后重启系统，看系统是否能正常启动。

2.2、CentOS下误删除/boot目录修复方法
这个问题经常发生在新手、研发身上，误删除的原因很多，但是并不重要，作为专业背锅侠，要的就是误删除后怎么回复，一起来看下这个现象吧，看下图：
Linux单机系统故障问题汇总
出现这个情况，可能的原因有：系统引导出现问题、/boot目录误删除、grub配置错误。
不管是什么原因，这里给个终极方法，也就是一定能解决问题的方法，保证大家屡试不爽。
要解决这个问题，还是要用到一个centos的U盘镜像或者光盘镜像，通过系统镜像进入rescue修复模式，然后就可以大展拳脚了。
下面看看如何在centos7.x版本下，进入rescue修复模式，然后修复系统引导。
首先通过系统镜像盘进入系统引导模式，如下图所示：
Linux单机系统故障问题汇总
然后选择Troubleshooting，回车进入下图界面：

这里选择Rescue a Centos system回车，进入如下界面：

这是进入rescue修复模式的几个选项，跟centos6.x版本类似，这里选择数字1，进入可读、写模式。
等待片刻，即可进入下图所示界面：
Linux单机系统故障问题汇总
敲回车，进入命令行模式，然后执行chroot命令，如下图所示：

这样，就进入了root目录下，相当于进入到了真实系统环境下了。
接着，将系统镜像挂载到任意一个目录下，这里挂载到/mnt下，挂载系统镜像的目的是将系统镜像作为yum源，然后安装系统丢失的内核模块，并安装grub2引导程序。
bash-4.2# mount /dev/cdrom /mnt
下面开始创建一个yum源仓库，用于从本地系统镜像中读取rpm包，进行内核模块的安装。如下图所示：
Linux单机系统故障问题汇总
重点来了，第一步是重新安装内核，这里使用yum 的reinstall命令，千万别用install来安装，执行如下命令：
bash-4.2# yum reinstall kernel
这样，内核模块安装完成了，接下来，还需要重新安装grub2，并重新生成 grub2 配置文件 grub.cfg，执行如下图所示操作：
Linux单机系统故障问题汇总
执行完成后，两次执行exit命令退出后，系统会自动重启，完成boot引导的修复，不出意外的话，系统已经可以畅通无阻的启动了。

三、 Linux系统无响应（死机）问题分析

Linux服务器在长期运行后，难免出现无响应现象，俗称“死机”。在系统死机后，屏幕一般会输出故障信息，键盘失去响应，这种情况的常见处理办法就是重启系统，不过在重启前，要重点关注下屏幕的输出信息，因为其提示的可能是引起死机的主要原因，对解决问题是有很大帮助的。
其实还有另一个方法，就是通过串口直连线连接客户机和服务器，将服务器的出错详细信息发送到客户机上。
引起服务器死机的原因有很多，但主要有两个方面：软件问题和硬件问题。下面总结了造成Linux系统死机的常见原因和解决问题的思路：
1）系统硬件问题，主要是有SCSI卡、主板、RAID卡、HBA卡、网卡、硬盘等硬件设备导致的。在这种情况下需要定位硬件故障细节，通过更换硬件来解决问题。
2）外围硬件问题，主要是网络问题导致的。此时就需要检查网络设备、网络参数等方面查找和解决问题。
3）软件问题，主要是系统内核bug、应用软件bug、驱动程序bug等。在这种情况下就需要从升级内核、修复程序bug、更新驱动程序等方面来解决问题。
4）系统设置问题：主要是系统参数设置不当导致，可以通过恢复系统到默认状态，关闭防火墙等方面来解决问题。

来源：oschina

链接：https://my.oschina.net/u/4319574/blog/4503405

标签

bash

CentOS

grub

Linux单机系统故障问题汇总

一、 处理linux系统故障的思路

二、 linux系统无法启动的解决办法

三、 Linux系统无响应（死机）问题分析

一、处理linux系统故障的思路