gpu服务器

tensorflow - GPU 加速

旧街凉风 提交于 2020-04-07 10:16:17
首先检测是否可用 GPU import tensorflow as tf print('GPU', tf.test.is_gpu_available()) # GPU True tf.device Tensorflow 通过 tf.device 指定每个操作运行的设备,可以指定本地的 CPU、GPU,还可以指定远程服务器; Tensorflow 会给每个本地设备一个名称,如 /cpu:0,即使电脑有多块 CPU ,tf 不会做区分,统一叫 /cpu:0,而 如果有多块 GPU,第 n 块 GPU 叫 /gpu:n,n 从 0 开始; with tf.device('/cpu:0'): d1 = tf.Variable(1.) d2 = tf.Variable(2., name='d2') with tf.device('/gpu:0'): d3 = tf.add(d1, d2) with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess: sess.run(tf.global_variables_initializer()) print(sess.run(d3)) log_device_placement tf 提供了 log_device_placement 来查看 计算在 哪个设备上运行;

GPU云服务器实例规格选择方法(阿里云VS腾讯云)

浪子不回头ぞ 提交于 2020-04-06 17:35:46
阿里云和腾讯云均提供GPU云服务器,GPU云服务器实例规格有很多,很多用户不清楚如何选择?码笔记认为根据实际使用场景选择GPU实例即可,码笔记分享阿里云GPU实例规格选择及腾讯云GPU实例规格选择方法: GPU云服务器实例规格 阿里云和腾讯云提供的GPU云服务器根据使用场景划分为多个GPU实例,如下: 阿里云GPU实例 :GA1(AMD S7150)、GN4(Nvidia M40)、GN5(Nvidia P100)、GN5i(Nvidia P4)和GN6(Nvidia V100); 腾讯云GPU实例 :GA2、计算型GN2、计算型GN6、计算型GN6S、计算型GN7、计算型GN7、计算型GN8和计算型GN10X。 如何选择GPU实例规格,参考下表根据使用场景选择GPU实例: 阿里云GPU云服务器选择方法 阿里云GPU云服务器适用于视频处理、3D图形渲染、深度学习/训练、科学计算、在线推理等应用场景: GPU云服务器 核心内容 GN6(Tesla V100) GN4(Tesla M40) GN5(Tesla P100) GN5i(Tesla P4) GPU卡 GPU卡 最大支持 8 * Nvidia V100 最大支持 2 * Nvidia M40 最大支持 8 * Nvidia P100 最大支持 2 * Nvidia P4 计算力 INT8整型(TOPS) ○ ○ ○ ●

异构计算系列文章(一):定义、场景及局限性

不想你离开。 提交于 2020-04-06 08:07:01
作者 | 顾钧 2020 开年,ZILLIZ 与 InfoQ 筹备了以异构计算为专题的一系列文章。此篇文章作为异构计算专题的开篇,整体性的介绍了异构计算的定义、场景与局限性。在后续的专题文章中,我们将深入不同的 AI 应用场景进一步解释异构计算的优势。 诞生伊始,计算机处理能力就处于高速发展中。及至最近十年,随着大数据、区块链、AI 等新技术的持续火爆,人们为提升计算处理速度更是发展了多种不同的技术思路。大数据受惠于分布式集群技术,区块链带来了专用处理器(Application-Specific IC, ASIC)的春天,AI 则让大众听到了“异构计算”这个计算机界的学术名词。 “异构计算”(Heterogeneous computing),是指在系统中使用不同体系结构的处理器的联合计算方式。在 AI 领域,常见的处理器包括:CPU(X86,Arm,RISC-V 等),GPU,FPGA 和 ASIC。(按照通用性从高到低排序) AI 是一门较为复杂、综合的学科。在只有 CPU 平台的情况下,AI 开发者要学习的算法、模型、框架、编程语言已经不少。如果再考虑多个不同处理器平台,情况会变得更为复杂。在展开讨论不同的应用场景之前,我们先了解一下什么是“异构计算”。 异构计算 首先需要明确的是,计算机体系结构≠硬件架构。体系结构不单包括硬件层面的实现,也包括软件层面的考量。当 IBM 在

中文----pg的gpu加速扩展技术总结

不想你离开。 提交于 2020-03-09 18:21:18
文章目录 PG-Strom总结 要求配置 PG-Strom实现原理细节 1 NVME-Strom module EXPLAIN指令看query语句是否由GPU执行 CPU-GPU混合式并行: 如果啥,则并不会有更好的性能。 MPS daemon(多进程服务守护进程): 11 GPU Memory Store(gstore_fdw 12 PL/CUDA: 一旦PL/CUDA用CREATE FUNCTION声明一个函数 参考链接 PG-Strom总结 用GPU来加速SQL上的操作 其GPU代码生成器根据SQL语句生成 对应的在英伟达的CUDA(统一计算架构)的GPU程序 它的“SSD-to-GPU Direct SQL”机制 允许直接将数据从NVME的固态硬盘传到GPU 他的“PL/CUDA”和“gstore_fdw”允许运行高计算密度的问题。 要求配置 硬件服务器: 64位的能运行支持CUDA Toolkit(用来开发CUDA程序的工具)的Linux操作系统的x86硬件。 “SSD-to-GPU Direct SQL”需要支持NVMe规范的固态硬盘,且和GPU安装在同一个PCIe Root Complex下。 GPU设备:至少一个支持CUDA Toolkit的计算能力6.0的GPU 操作系统:由CUDA Toolkit支持的x86 64位Linux PostgreSQL:9

Win10配置TITAN RTX应用于TensorFlow-gpu步骤

…衆ロ難τιáo~ 提交于 2020-03-06 16:29:36
实验室购置了一个TITAN RTX GPU,需安装在服务器上,记录下配置过程备忘用。 系统及硬件确认 由于需要安装在服务器上,首先要将操作系统改为GPU支持的版本。一般服务器安装版本为 Windows server系列,TITAN RTX 并不支持。在官网下载驱动程序必须版本对应,否则会出现兼容性问题。 将GPU按说明书安装至机箱后,通过设备管理器中显示配适器查看系统是否认新安装显卡,显示名称正确即可。本人安装时出现过server版本不认TITAN RTX 的问题。如需更换GPU或转至其他机器,需关机冷却后再将GPU取出,详见说明书。 推荐使用GPU-Z可以快速查看GPU状态。 安装驱动 NVIDIA驱动程序下载地址 搜索对应显卡型号,操作系统版本下载驱动即可。 选择安装图形驱动程序即可,选项一可能会更新驱动,保持当前驱动版本不变也不一定是坏事,稳定。 安装CUDA CUDA = Computer Unified Device Architecture CUDA下载地址 ,我安装的版本是10.1版本。 选择对应操作系统版本,installer type选择上,local会将整个安装文件全部下载好,2G多,而network只包含一个下载客户端,几十兆,后续下载需联网(需要注意防火墙限制以免安装失败)。无本质差异,为不同网络情况的用户而设计,低带宽推荐local下载。

选择GPU服务器的五大基本原则

泪湿孤枕 提交于 2020-03-06 00:14:01
本文根据智东西公开课推出的超级公开课NVIDIA专场第13讲《案例解读:不同行业如何选择深度学习服务器》上的系统讲解整理而来,由NVIDIA NPN合作伙伴负责人吴强、NVIDIA 高级系统架构师易成共同主讲。 本次讲解中NVIDIA NPN合作伙伴负责人吴强从性能、可编程性、灵活性等方面对CPU、GPU、FPGA、ASIC等不同类型的服务器进行了系统的比较分析,并给出了五条选择GPU服务器的基本原则: 1.考虑业务应用先选择GPU型号 2.考虑服务器的使用场景及数量(边缘/中心) 3.考虑客户自身的目标使用人群及IT运维能力 4.考虑服务器配套软件的价值以及服务的价值 5.考虑整体GPU集群系统的成熟度及工程效率 NVIDIA 高级系统架构师易成则从计算性能、互联互通、可扩展性、适用场景等方面系统讲解了DGX-1、DGX-2、DGX Station以及如何利用VNIDIA NGC高效的使用DGX系统。 吴强: 大家好,我是吴强,也是NVIDIA NPN(NVIDIA PARTNER NETWORK)合作伙伴负责人,主要负责帮助销售以及与合作伙伴的管理。今天分享的主题为《不同行业如何选择深度学习服务器》,主要从以下几个方面来进行: 1.不同类型AI服务器之比较分析 2.选择GPU服务器的基本原则 3.AI超级计算机DGX系统详解 4.NGC云平台使用方法和价值 5

异构计算:软硬件结合全栈助力AI大爆发

心不动则不痛 提交于 2020-02-28 14:30:27
摘要: 2018杭州云栖大会,异构计算专场精彩回顾 9月20日上午,杭州云栖小镇E1-2会场,备受业界关注的2018年杭州云栖大会异构计算专场召开。 近年来,人工智能持续爆发,对算力提出了更高的要求。异构计算作为大计算时代的解决方案,意在打破传统通用计算的限制,融合不同指令集和体系架构的计算单元,完美支持大计算场景。 让每一个芯片都发挥最大效能 首先,阿里云弹性计算负责人,阿里云研究员余锋,带来了精彩的开场。余锋以摄影来打开话题:每一个镜头都会有特别的定位,在某个场景下合适但是另外场景会力不从心,异构计算的精髓也是如此,即让每一个芯片都发挥最大效能,扬长避短。 余锋说:异构计算带来的计算效率提升是指数级的,但是需要有配套工具,基础设施等等。阿里云正在逐渐让这个门槛变低,并且和业内一起构建技术生态,让异构计算普惠行业,帮助合作伙伴和客户不断创新。 GN6实例 F3实例全面商业化 议题阶段,首先登场的是阿里云高级产品专家潘岳。潘岳首先介绍了正在全面商业化推进的GN6实例和F3实例。GN6实例搭载NVIDIA Volta架构的Tesla V100计算卡,相对于上一代产品可以提供12倍的运算能力提升。而基于阿里云FaaS(FPGA as a service)舜天平台的F3实例搭载Xilinx 16nm Virtex UltraScale+器件VU9P,对比上一代产品,逻辑容量增加4倍

GPU服务器故障诊断

混江龙づ霸主 提交于 2020-02-25 18:57:27
1. GPU日志收集 安装GPU驱动的系统下,任意目录下执行命令: nvidia-bug-report.sh 执行命令后,当前目录下会生成日志压缩包: nvidia-bug-report.log.gz 2. GPU基础状态检测 对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。 对于GPU服务器,建议以下进行以下配置: 维持较新的、正确的GPU驱动版本 禁用nouveau模块 打开GPU驱动内存常驻模式并配置开机自启动 处理GPU服务器故障时,只要涉及服务器关机的操作,均建议对GPU基础状态进行检测,基础状态检测包括: nouveau模块是否禁用、GPU识别情况、GPU驱动内存常驻模式、GPU 带宽、GPU ECC报错、GPU ERR报错、GPU nvlink状态。 2.1 nouveau 模块禁用检查 Nouveau是由一群开发人员构建的Nvidia显卡的开源驱动程序,会与nvidia官方GPU驱动发生冲突, 需要在系统下禁用nouveau模块 。 # 以下命令没有任何输出表示nouveau模块已经禁用 [root@zj ~]# lsmod | grep -i nouveau # 以下输出表示nouveau模块没有禁用 [root@zj ~]# lsmod | grep -i nouveau nouveau

GPU服务器故障诊断

廉价感情. 提交于 2020-02-25 18:57:22
1. GPU日志收集 安装GPU驱动的系统下,任意目录下执行命令: nvidia-bug-report.sh 执行命令后,当前目录下会生成日志压缩包: nvidia-bug-report.log.gz 2. GPU基础状态检测 对于GPU服务器建议客户维持较新的GPU驱动版本、禁用nouveau模块、打开GPU驱动内存常驻模式并配置开机自启动。 对于GPU服务器,建议以下进行以下配置: 维持较新的、正确的GPU驱动版本 禁用nouveau模块 打开GPU驱动内存常驻模式并配置开机自启动 处理GPU服务器故障时,只要涉及服务器关机的操作,均建议对GPU基础状态进行检测,基础状态检测包括: nouveau模块是否禁用、GPU识别情况、GPU驱动内存常驻模式、GPU 带宽、GPU ECC报错、GPU ERR报错、GPU nvlink状态。 2.1 nouveau 模块禁用检查 Nouveau是由一群开发人员构建的Nvidia显卡的开源驱动程序,会与nvidia官方GPU驱动发生冲突, 需要在系统下禁用nouveau模块 。 # 以下命令没有任何输出表示nouveau模块已经禁用 [root@zj ~]# lsmod | grep -i nouveau # 以下输出表示nouveau模块没有禁用 [root@zj ~]# lsmod | grep -i nouveau nouveau

GPU服务器运行GAT代码的环境配置

ε祈祈猫儿з 提交于 2020-02-18 14:51:49
1.使用Xshell 2.3.4.5参照 https://blog.csdn.net/azeyeazeye/article/details/90199915 问题: 1.第5步安装后验证不成功,显示ModuleNotFoundError: No module named 'tensorflow',但是输入pip3 list之后显示已经安装tensorflow-gpu 解决:python3.7版本不匹配,应该使用python3.5,可以创建虚拟环境conda create -n python35 python=3.5,然后激活source activate python35 https://blog.csdn.net/newlittlewhite/article/details/88546538 2.服务器重新连接后出现conda: command not found 解决:source .bashrc https://blog.csdn.net/weixin_38705903/article/details/86533863 来源: https://www.cnblogs.com/wayne1307/p/12326099.html