在跑模型的时候,显卡经常宕机. 经过检查,发现是显卡工作温度超过 75 ℃ 触发过载保护程序导致的.
—————
Ubuntu 16.04
GeForce GTX 1070
1. 问题详情
打开 nvidia 控制面板
nvidia-settings
在跑模型的时候,显卡温度急剧上升到 73 ℃ 左右,一旦超过 75 ℃ 就会触发过载保护,使得显卡停止工作. 而风扇转速负载只有 45%,不到最大负载的一半.
考虑提高风扇转速,增强散热能力. 但是,现在 nvidia 控制面板没有手动控制这一选项.
2. 解决方法
1.生成 /etc/X11/xorg.conf
配置文件.
$ sudo nvidia-xconfig
[sudo] password for lucifer:
WARNING: Unable to locate/open X configuration file.
Package xorg-server was not found in the pkg-config search path.
Perhaps you should add the directory containing `xorg-server.pc'
to the PKG_CONFIG_PATH environment variable
No package 'xorg-server' found
New X configuration file written to '/etc/X11/xorg.conf'
2.编辑 /etc/X11/xorg.conf
配置文件.
在 Section "Device"
下添加下列所示两行内容
Option "NoLogo" "True" # add line
Option "Coolbits" "4" # add line
如下所示
Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
Option "NoLogo" "True" # add line
Option "Coolbits" "4" # add line
EndSection
保存退出
3.重新启动.
4.打开 nvidia 控制面板,在 Thermal Settings下可以手动调节风扇转速了.
设置 90% 的转速可以有效将显卡温度压制在 62℃ 左.
来源:CSDN
作者:RadiantJeral
链接:https://blog.csdn.net/RadiantJeral/article/details/104479985