GPU服务器故障诊断
1. GPU日志收集 安装GPU驱动的系统下,任意目录下执行命令: nvidia-bug-report.sh 执行命令后,当前目录下会生成日志压缩包: nvidia-bug-report.log.gz 2. GPU基础状态检测 对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。 对于GPU服务器,建议以下进行以下配置: 维持较新的、正确的GPU驱动版本 禁用nouveau模块 打开GPU驱动内存常驻模式并配置开机自启动 处理GPU服务器故障时,只要涉及服务器关机的操作,均建议对GPU基础状态进行检测,基础状态检测包括: nouveau模块是否禁用、GPU识别情况、GPU驱动内存常驻模式、GPU 带宽、GPU ECC报错、GPU ERR报错、GPU nvlink状态。 2.1 nouveau 模块禁用检查 Nouveau是由一群开发人员构建的Nvidia显卡的开源驱动程序,会与nvidia官方GPU驱动发生冲突, 需要在系统下禁用nouveau模块 。 # 以下命令没有任何输出表示nouveau模块已经禁用 [root@zj ~]# lsmod | grep -i nouveau # 以下输出表示nouveau模块没有禁用 [root@zj ~]# lsmod | grep -i nouveau nouveau