“如何避免总线错误或不可纠正的错误导致的宕机事件”之tolerant介绍
实验目的:证明修改tolerant参数为3时,uncorrected error和fatal error等不可纠正错误、总线错误不会导致机器宕机。 实验意义:对于已发生的硬件MCE error导致的宕机事件,如内存不可纠正错误或PCIe总线错误导致机器冷重启或宕机,在短期内无法定位故障内存或无法及时替换报错硬件时,可避免此类宕机事件再次发生,进而保证业务持续运行。 未知影响:tolerant参数改为3后,当机器发生内存不可纠正报错或总线报错时,虽机器不会宕机,是否会存在其他方面的功能异常的情况(比如内存容量、使用率变化,网卡、raid卡功能异常等等),仍需结合实际线上故障来进一步分析 实验机型:Lenovo RD350X OS:CentOS Linux release 7.1.1503 (Core) Kenerl version:3.10.0-229.el7.x86_64 实验原理:人为生成一条假的MCE报错事件:uncorrected error,测试在tolerant参数为1和3时(tolerant默认为1),机器的稳定性情况 实验过程: 1、手动添加一条内容为uncorrected error的MCE记录 #安装mce-inject 此tool用以验证mcelog功能是否正常,实验中使用mce-inject来生成一条uncorrectable error