英伟达

GPU服务器故障诊断

廉价感情. 提交于 2020-02-25 18:57:22
1. GPU日志收集 安装GPU驱动的系统下,任意目录下执行命令: nvidia-bug-report.sh 执行命令后,当前目录下会生成日志压缩包: nvidia-bug-report.log.gz 2. GPU基础状态检测 对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。 对于GPU服务器,建议以下进行以下配置: 维持较新的、正确的GPU驱动版本 禁用nouveau模块 打开GPU驱动内存常驻模式并配置开机自启动 处理GPU服务器故障时,只要涉及服务器关机的操作,均建议对GPU基础状态进行检测,基础状态检测包括: nouveau模块是否禁用、GPU识别情况、GPU驱动内存常驻模式、GPU 带宽、GPU ECC报错、GPU ERR报错、GPU nvlink状态。 2.1 nouveau 模块禁用检查 Nouveau是由一群开发人员构建的Nvidia显卡的开源驱动程序,会与nvidia官方GPU驱动发生冲突, 需要在系统下禁用nouveau模块 。 # 以下命令没有任何输出表示nouveau模块已经禁用 [root@zj ~]# lsmod | grep -i nouveau # 以下输出表示nouveau模块没有禁用 [root@zj ~]# lsmod | grep -i nouveau nouveau

【DeepLearning】【环境配置】Ubuntu16.04 下手动调节 Nvidia 显卡风扇转速

十年热恋 提交于 2020-02-24 23:07:43
在跑模型的时候,显卡经常宕机. 经过检查,发现是显卡工作温度超过 75 ℃ 触发过载保护程序导致的. ————— Ubuntu 16.04 GeForce GTX 1070 1. 问题详情 打开 nvidia 控制面板 nvidia-settings 在跑模型的时候,显卡温度急剧上升到 73 ℃ 左右,一旦超过 75 ℃ 就会触发过载保护,使得显卡停止工作. 而风扇转速负载只有 45%,不到最大负载的一半. 考虑提高风扇转速,增强散热能力. 但是,现在 nvidia 控制面板没有手动控制这一选项. 2. 解决方法 1.生成 /etc/X11/xorg.conf 配置文件. $ sudo nvidia-xconfig [ sudo ] password for lucifer: WARNING: Unable to locate/open X configuration file. Package xorg-server was not found in the pkg-config search path. Perhaps you should add the directory containing `xorg-server.pc ' to the PKG_CONFIG_PATH environment variable No package ' xorg-server '

Hadoop 3.1.1 - Yarn - 使用 GPU

浪尽此生 提交于 2020-02-21 08:17:13
在 Yarn 上使用 GPU 前提 目前,Yarn 只支持 Nvidia GPU。 YARN NodeManager 所在机器必须预先安装了 Nvidia 驱动器。 如果使用 Docker 作为容器的运行时上下文,需要安装 nvidia-docker 1.0(这是 Yarn 当前所能支持的版本)。 配置 GPU 调度 在 resource-types.xml, 添加如下配置 <configuration> <property> <name>yarn.resource-types</name> <value>yarn.io/gpu</value> </property> </configuration> 在 yarn-site.xml 中 , DominantResourceCalculator 必须被配置以启用 GPU 调度和隔离。 对于 Capacity Scheduler ,在 capacity-scheduler.xml 中使用如下参数以配置 DominantResourceCalculator : 参数 默认值 yarn.scheduler.capacity.resource-calculator org.apache.hadoop.yarn.util.resource.DominantResourceCalculator GPU 隔离 yarn-site.xml

ubuntu系统安装NVIDIA显卡驱动

青春壹個敷衍的年華 提交于 2020-02-18 07:19:56
ubuntu系统安装NVIDIA显卡驱动 一. 方法1 运行.run文件的方式 二. 方法2 ppa源安装的方式 三. 系统设置中安装方式 环境: Ubuntu19.10 x64桌面版 显卡GeForce GTX 1060 背景: 安装Ubuntu过程中并没有选择让系统安装显卡驱动 提示: 如果反复安装始终有问题,则需要在开机时进入bois 关闭secure boot,具体方法,请百度。 建议尝试方法1(.run)和方法2(ppa源)安装,当一种方法安装不成功时就换另外一种方法安装。 避免sudo apt-get install nvidia-*安装方式造成登录界面循环,采用运行.run的方式进行安装。 首先,从英伟达的官网上查找你自己电脑的显卡型号然后下载相应的驱动。网址:http://www.nvidia.cn/page/home.html 系统及硬件信息 uname -a Linux ubuntu 5.3.0-18-generic #19-Ubuntu SMP Tue Oct 8 20:14:06 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux lspci | grep NVIDIA 01:00.0 VGA compatible controller: NVIDIA Corporation GP106 [ GeForce GTX 1060

Win10下Pytorch和配置和安装

∥☆過路亽.° 提交于 2020-02-17 19:01:58
Pytorch的安装 注意: Pytorch的版本 , cuda版本 , cudnn版本 , Python版本 , nvidia驱动版本 要相互对应,否则就会出现各种报错和问题,无法使用GPU加速计算! 查看nvida驱动支持的cuda版本,在 nvidia控制面板->系统信息->组件 即可查看支持的cuda版本 比如对我的GTX960M417.22驱动支持的cuda版本为10.0.132 如果自己手动配置需要去nvidia官网下载对应版本的 cudatoolkit 和 cudnn ,很麻烦而且下载起来还比较慢,这里推荐使用 conda 安装,没用过conda的看我之前的文章==> 传送门 有了conda后,一切就好办了,先添加一下清华大学的Pytorch镜像地址: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ 使用conda安装Pytorch,其中需要手动指定cudatoolkit版本,然后cuda会自动处理环境和匹配版本, 如果不指定cudatoolkit版本会根据当前含依赖关系的包安装最新版本 conda install pytorch torchvision cudatoolkit=10.0 安装完成即可,在 cmd 或者 powershell

服务器配置深度学习环境

耗尽温柔 提交于 2020-02-12 15:20:25
Linux服务器配置深度学习环境 本文介绍一下配置深度学习环境的具体步骤,老实说这玩意挺恶心人的,配置这些环境需要相当的耐心。这里我使用的是ubuntu16.04、cuda10.1和pytorch,显卡是1080ti。 总体要求 深度学习服务器比较好的管理方式是 采用分配账户的方式来提高服务器的利用率 。其中cuda最好是通过 全局的方式 安装到机器上的,也就是所有用户都可以访问,nvidia驱动和cudnn是直接安装在全局上的,这个没什么疑问。Anaconda和pytorch/tensorflow是需要每个用户自行安装的,每个用户根据自己不同的需要安装不同的包。 安装ubuntu 安装操作系统我就不细说了,详情可以参考 虚拟机安装操作系统 和 安装操作系统 这两篇博文。安装系统没有什么难度,唯一需要注意的是 Linux的分区问题 。 分配账户 装好系统之后,第一件事就是需要分配账户,分配账户可以参考这篇博文: 点击传送门 。 需要强调的一件事ubuntu的root账户没有用过的话,是需要自己设置密码的 ,由于第一个 user 是在 admin 组 ,所以可以给 root 设置密码 : sudo passwd root [sudo] password for you :---> 输入你的密码,不会显示 Enter new UNIX password: --- > 设置root 密码

window10下安装cuda和cudnn

为君一笑 提交于 2020-02-10 15:52:35
CUDA下载 CUDA的安装包可直接从 官网 下载,window下的安装包为exe文件,下载后直接安装。安装的时候建议选择 自定义 而不是“精简”(从下面的英文解释可以看出,其实这里的精简写成完整应该更贴切,他会安装所有组件并覆盖现有驱动)。 cuDNN下载 安装完成之后,还需要下载 cuDNN ,这里需要登录并填写问卷才能下载,选择与CUDA相应的版本下载。下载完成后解压,把解压后文件夹中lib,bin,include三个文件夹放入cuda的安装文件夹目录下。我的是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2 环境变量设置 接下来设置环境变量: 计算机上点右键,打开属性->高级系统设置->环境变量,可以看到系统中多了CUDA_PATH和CUDA_PATH_V8_0两个环境变量,接下来,还要在系统中添加以下几个环境变量,具体位置根据自己的安装位置填写: CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2 CUDA_LIB_PATH = %CUDA_PATH%\lib\x64 CUDA_BIN_PATH = %CUDA_PATH%\bin CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64

CUDA安装配置心得

只谈情不闲聊 提交于 2020-02-06 00:17:44
CUDA安装心得(从版本到安装VS2013+cuda8.0) CUDA是什么 CUDA安装准备 查看计算机是否有NVIDA的GPU 查找计算机GPU适合的CUDA版本 Visual Studio版本 下载CUDA 安装CUDA 配置环境 CUDA是什么 CUDA(Compute Unified Device Architecture)是一个新的基础架构,这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案,提供了硬件的直接访问接口,而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源,从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。 CUDA安装准备 一般要NVIDA的GPU才支持CUDA。在安装cuda前先要确定计算机是否有NVIDA的GPU和其适合的CUDA版本: 查看计算机是否有NVIDA的GPU Win+R打开命令行,输入“dxdiag”。按确定。 显示如下界面,选择“呈现”(可能是“显示2”等,自己都点开来看一下)。就可以找到计算机的GPU信息。 查找计算机GPU适合的CUDA版本 控制面板->硬件和声音->NVIDIA控制面板->帮助->系统信息->组件 NVCUDA.DLL的产品信息就是CUDA可下载的最高版本。

ubuntu16.04 独立显卡驱动安装

青春壹個敷衍的年華 提交于 2020-02-05 11:36:06
独立显卡驱动 目前只有Nvidia英伟达显卡的教程,AMD的因用户较少,暂未支持,可上网自行搜索。 可以选择离线安装或在线联网安装,推荐在线安装! 联网安装 如果你的网络还不错,也可直接输入以下命令安装,记得先配置全局镜像源。 sudo add-apt-repository ppa:xorg-edgers/ppa #添加ppa源 sudo add-apt-repository ppa:graphics-drivers/ppa #添加ppa源 sudo apt-get update ubuntu-drivers devices #选择合适的驱动版本 # 以下的nvidia-430是以上命令中,后边标注recommend推荐的,你的可能不同 sudo apt-get install nvidia-430 nvidia-settings nvidia-prime 离线安装 如果你电脑连不了网络,或网络较慢,可使用以下方式安装。 1. 下载显卡驱动 准备一个能上网的设备,下载你电脑的驱动 确认自己的显卡型号,在Windows设备管理器里,或电脑的品牌官网根据型号查 显卡驱动下载地址:https://www.geforce.cn/drivers 如果目前Ubuntu可以在界面操作则直接下载驱动,进入第二步; 如果进不到主界面 ,可以先按 Ctrl + Alt + F1 进入纯命令行界面

Theano学习笔记:Theano的艰辛安装体验

吃可爱长大的小学妹 提交于 2020-02-04 16:35:48
这大半个月一直在瞎研究深度学习的方面,跟着UFLDL的教程学了下来,中途也看了很多大大们的博客,感觉获益匪浅,终于给了迷茫的自己入门的开端。 话说UFLDL真的很浅显易懂呢,虽然有些我不怎么明白就是啦(那你的浅显易懂是什么回事!) 嘛,和之前斯坦福的coursera一样,这个教程的Exercise也是基于matlab,深度学习也有很好的Matlab组件包,网上很多大大都给与了注解和说明。。但是好喜欢Python的说,正好有个很受推荐的deeplearning的网站,基于Python的,不错不错。 就是这个网站: http://deeplearning.net/tutorial/ 使用python开展深度学习,需要一个叫做 Theano 的组件包,啊这个包总的来说就是支持高效的多维数组与各种函数优化算法,同时可以使用NVIDIA图形显卡进行加速,嗯很棒。。(最后一个是可选功能) theano的组件包也是在这里可以下载到: 这个是官网提供PDF的手册下载: http://deeplearning.net/software/theano/index.html 现在的版本是0.60的,可以在PYPI上下到 http://deeplearning.net/software/theano/index.html#download 不过,我这种懒人一般的东西都是在这里下到: http://www