英伟达 | 易学教程

GPU服务器故障诊断

阅读更多关于 GPU服务器故障诊断

1. GPU日志收集安装GPU驱动的系统下，任意目录下执行命令： nvidia-bug-report.sh 执行命令后，当前目录下会生成日志压缩包： nvidia-bug-report.log.gz 2. GPU基础状态检测对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。对于GPU服务器，建议以下进行以下配置：维持较新的、正确的GPU驱动版本禁用nouveau模块打开GPU驱动内存常驻模式并配置开机自启动处理GPU服务器故障时，只要涉及服务器关机的操作，均建议对GPU基础状态进行检测，基础状态检测包括： nouveau模块是否禁用、GPU识别情况、GPU驱动内存常驻模式、GPU 带宽、GPU ECC报错、GPU ERR报错、GPU nvlink状态。 2.1 nouveau 模块禁用检查 Nouveau是由一群开发人员构建的Nvidia显卡的开源驱动程序，会与nvidia官方GPU驱动发生冲突，需要在系统下禁用nouveau模块。 # 以下命令没有任何输出表示nouveau模块已经禁用 [root@zj ~]# lsmod | grep -i nouveau # 以下输出表示nouveau模块没有禁用 [root@zj ~]# lsmod | grep -i nouveau nouveau

【DeepLearning】【环境配置】Ubuntu16.04 下手动调节 Nvidia 显卡风扇转速

阅读更多关于【DeepLearning】【环境配置】Ubuntu16.04 下手动调节 Nvidia 显卡风扇转速

在跑模型的时候，显卡经常宕机. 经过检查，发现是显卡工作温度超过 75 ℃ 触发过载保护程序导致的. ————— Ubuntu 16.04 GeForce GTX 1070 1. 问题详情打开 nvidia 控制面板 nvidia-settings 在跑模型的时候，显卡温度急剧上升到 73 ℃ 左右，一旦超过 75 ℃ 就会触发过载保护，使得显卡停止工作. 而风扇转速负载只有 45%，不到最大负载的一半. 考虑提高风扇转速，增强散热能力. 但是，现在 nvidia 控制面板没有手动控制这一选项. 2. 解决方法 1.生成 /etc/X11/xorg.conf 配置文件. $ sudo nvidia-xconfig [ sudo ] password for lucifer: WARNING: Unable to locate/open X configuration file. Package xorg-server was not found in the pkg-config search path. Perhaps you should add the directory containing `xorg-server.pc ' to the PKG_CONFIG_PATH environment variable No package ' xorg-server '

Hadoop 3.1.1 - Yarn - 使用 GPU

阅读更多关于 Hadoop 3.1.1 - Yarn - 使用 GPU

在 Yarn 上使用 GPU 前提目前，Yarn 只支持 Nvidia GPU。 YARN NodeManager 所在机器必须预先安装了 Nvidia 驱动器。如果使用 Docker 作为容器的运行时上下文，需要安装 nvidia-docker 1.0（这是 Yarn 当前所能支持的版本）。配置 GPU 调度在 resource-types.xml，添加如下配置 <configuration> <property> <name>yarn.resource-types</name> <value>yarn.io/gpu</value> </property> </configuration> 在 yarn-site.xml 中， DominantResourceCalculator 必须被配置以启用 GPU 调度和隔离。对于 Capacity Scheduler ，在 capacity-scheduler.xml 中使用如下参数以配置 DominantResourceCalculator ：参数默认值 yarn.scheduler.capacity.resource-calculator org.apache.hadoop.yarn.util.resource.DominantResourceCalculator GPU 隔离 yarn-site.xml

ubuntu系统安装NVIDIA显卡驱动

阅读更多关于 ubuntu系统安装NVIDIA显卡驱动

ubuntu系统安装NVIDIA显卡驱动一. 方法1 运行.run文件的方式二. 方法2 ppa源安装的方式三. 系统设置中安装方式环境: Ubuntu19.10 x64桌面版显卡GeForce GTX 1060 背景: 安装Ubuntu过程中并没有选择让系统安装显卡驱动提示: 如果反复安装始终有问题，则需要在开机时进入bois 关闭secure boot，具体方法，请百度。建议尝试方法1（.run）和方法2（ppa源）安装，当一种方法安装不成功时就换另外一种方法安装。避免sudo apt-get install nvidia-*安装方式造成登录界面循环，采用运行.run的方式进行安装。首先，从英伟达的官网上查找你自己电脑的显卡型号然后下载相应的驱动。网址：http://www.nvidia.cn/page/home.html 系统及硬件信息 uname -a Linux ubuntu 5.3.0-18-generic #19-Ubuntu SMP Tue Oct 8 20:14:06 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux lspci | grep NVIDIA 01:00.0 VGA compatible controller: NVIDIA Corporation GP106 [ GeForce GTX 1060

Win10下Pytorch和配置和安装

阅读更多关于 Win10下Pytorch和配置和安装

Pytorch的安装注意： Pytorch的版本， cuda版本， cudnn版本， Python版本 , nvidia驱动版本要相互对应，否则就会出现各种报错和问题，无法使用GPU加速计算！查看nvida驱动支持的cuda版本，在 nvidia控制面板->系统信息->组件即可查看支持的cuda版本比如对我的GTX960M417.22驱动支持的cuda版本为10.0.132 如果自己手动配置需要去nvidia官网下载对应版本的 cudatoolkit 和 cudnn ,很麻烦而且下载起来还比较慢，这里推荐使用 conda 安装,没用过conda的看我之前的文章==> 传送门有了conda后，一切就好办了，先添加一下清华大学的Pytorch镜像地址： conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ 使用conda安装Pytorch，其中需要手动指定cudatoolkit版本，然后cuda会自动处理环境和匹配版本, 如果不指定cudatoolkit版本会根据当前含依赖关系的包安装最新版本 conda install pytorch torchvision cudatoolkit=10.0 安装完成即可，在 cmd 或者 powershell

服务器配置深度学习环境

阅读更多关于服务器配置深度学习环境

Linux服务器配置深度学习环境本文介绍一下配置深度学习环境的具体步骤，老实说这玩意挺恶心人的，配置这些环境需要相当的耐心。这里我使用的是ubuntu16.04、cuda10.1和pytorch，显卡是1080ti。总体要求深度学习服务器比较好的管理方式是采用分配账户的方式来提高服务器的利用率。其中cuda最好是通过全局的方式安装到机器上的，也就是所有用户都可以访问，nvidia驱动和cudnn是直接安装在全局上的，这个没什么疑问。Anaconda和pytorch/tensorflow是需要每个用户自行安装的，每个用户根据自己不同的需要安装不同的包。安装ubuntu 安装操作系统我就不细说了，详情可以参考虚拟机安装操作系统和安装操作系统这两篇博文。安装系统没有什么难度，唯一需要注意的是 Linux的分区问题。分配账户装好系统之后，第一件事就是需要分配账户，分配账户可以参考这篇博文：点击传送门。需要强调的一件事ubuntu的root账户没有用过的话，是需要自己设置密码的，由于第一个 user 是在 admin 组，所以可以给 root 设置密码： sudo passwd root [sudo] password for you ：---> 输入你的密码，不会显示 Enter new UNIX password: --- > 设置root 密码

window10下安装cuda和cudnn

阅读更多关于 window10下安装cuda和cudnn

CUDA下载 CUDA的安装包可直接从官网下载，window下的安装包为exe文件，下载后直接安装。安装的时候建议选择自定义而不是“精简”(从下面的英文解释可以看出，其实这里的精简写成完整应该更贴切，他会安装所有组件并覆盖现有驱动)。 cuDNN下载安装完成之后，还需要下载 cuDNN ，这里需要登录并填写问卷才能下载，选择与CUDA相应的版本下载。下载完成后解压，把解压后文件夹中lib，bin，include三个文件夹放入cuda的安装文件夹目录下。我的是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2 环境变量设置接下来设置环境变量：计算机上点右键，打开属性->高级系统设置->环境变量，可以看到系统中多了CUDA_PATH和CUDA_PATH_V8_0两个环境变量，接下来，还要在系统中添加以下几个环境变量，具体位置根据自己的安装位置填写： CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2 CUDA_LIB_PATH = %CUDA_PATH%\lib\x64 CUDA_BIN_PATH = %CUDA_PATH%\bin CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64

CUDA安装配置心得

阅读更多关于 CUDA安装配置心得

CUDA安装心得（从版本到安装VS2013+cuda8.0） CUDA是什么 CUDA安装准备查看计算机是否有NVIDA的GPU 查找计算机GPU适合的CUDA版本 Visual Studio版本下载CUDA 安装CUDA 配置环境 CUDA是什么 CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPGPU解决方案，提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源，从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。 CUDA安装准备一般要NVIDA的GPU才支持CUDA。在安装cuda前先要确定计算机是否有NVIDA的GPU和其适合的CUDA版本：查看计算机是否有NVIDA的GPU Win+R打开命令行，输入“dxdiag”。按确定。显示如下界面，选择“呈现”（可能是“显示2”等，自己都点开来看一下）。就可以找到计算机的GPU信息。查找计算机GPU适合的CUDA版本控制面板->硬件和声音->NVIDIA控制面板->帮助->系统信息->组件 NVCUDA.DLL的产品信息就是CUDA可下载的最高版本。

ubuntu16.04 独立显卡驱动安装

阅读更多关于 ubuntu16.04 独立显卡驱动安装

独立显卡驱动目前只有Nvidia英伟达显卡的教程，AMD的因用户较少，暂未支持，可上网自行搜索。可以选择离线安装或在线联网安装，推荐在线安装！联网安装如果你的网络还不错，也可直接输入以下命令安装，记得先配置全局镜像源。 sudo add-apt-repository ppa:xorg-edgers/ppa #添加ppa源 sudo add-apt-repository ppa:graphics-drivers/ppa #添加ppa源 sudo apt-get update ubuntu-drivers devices #选择合适的驱动版本 # 以下的nvidia-430是以上命令中，后边标注recommend推荐的，你的可能不同 sudo apt-get install nvidia-430 nvidia-settings nvidia-prime 离线安装如果你电脑连不了网络，或网络较慢，可使用以下方式安装。 1. 下载显卡驱动准备一个能上网的设备，下载你电脑的驱动确认自己的显卡型号，在Windows设备管理器里，或电脑的品牌官网根据型号查显卡驱动下载地址：https://www.geforce.cn/drivers 如果目前Ubuntu可以在界面操作则直接下载驱动，进入第二步；如果进不到主界面，可以先按 Ctrl + Alt + F1 进入纯命令行界面

Theano学习笔记：Theano的艰辛安装体验

阅读更多关于 Theano学习笔记：Theano的艰辛安装体验

这大半个月一直在瞎研究深度学习的方面，跟着UFLDL的教程学了下来，中途也看了很多大大们的博客，感觉获益匪浅，终于给了迷茫的自己入门的开端。话说UFLDL真的很浅显易懂呢，虽然有些我不怎么明白就是啦（那你的浅显易懂是什么回事！）嘛，和之前斯坦福的coursera一样，这个教程的Exercise也是基于matlab，深度学习也有很好的Matlab组件包，网上很多大大都给与了注解和说明。。但是好喜欢Python的说，正好有个很受推荐的deeplearning的网站，基于Python的，不错不错。就是这个网站： http://deeplearning.net/tutorial/ 使用python开展深度学习，需要一个叫做 Theano 的组件包，啊这个包总的来说就是支持高效的多维数组与各种函数优化算法，同时可以使用NVIDIA图形显卡进行加速，嗯很棒。。（最后一个是可选功能） theano的组件包也是在这里可以下载到：这个是官网提供PDF的手册下载： http://deeplearning.net/software/theano/index.html 现在的版本是0.60的，可以在PYPI上下到 http://deeplearning.net/software/theano/index.html#download 不过，我这种懒人一般的东西都是在这里下到： http://www

订阅英伟达