异构计算

深度学习的异构加速技术(一):AI 需要一个多大的“心脏”?

元气小坏坏 提交于 2020-04-06 19:31:50
欢迎大家前往 腾讯云社区 ,获取更多腾讯海量技术实践干货哦~ 作者:kevinxiaoyu,高级研究员,隶属腾讯TEG-架构平台部,主要研究方向为深度学习异构计算与硬件加速、FPGA云、高速视觉感知等方向的构架设计和优化。“深度学习的异构加速技术”系列共有三篇文章,主要在技术层面,对学术界和工业界异构加速的构架演进进行分析。 一、概述:通用=低效 作为通用处理器,CPU (Central Processing Unit) 是计算机中不可或缺的计算核心,结合指令集,完成日常工作中多种多样的计算和处理任务。然而近年来,CPU在计算平台领域一统天下的步伐走的并不顺利,可归因于两个方面,即自身约束和需求转移。 (1)自身约束又包含两方面,即半导体工艺,和存储带宽瓶颈。 一方面,当半导体的工艺制程走到7nm后,已逼近物理极限,摩尔定律逐渐失效,导致CPU不再能像以前一样享受工艺提升带来的红利:通过更高的工艺,在相同面积下,增加更多的计算资源来提升性能,并保持功耗不变。为了追求更高的性能,更低的功耗,来适应计算密集型的发展趋势,更多的设计通过降低通用性,来提升针对某一(或某一类)任务的性能,如GPU和定制ASIC。 另一方面,CPU内核的计算过程需要大量数据,而片外DDR不仅带宽有限,还具有较长的访问延迟。片上缓存可以一定程度上缓解这一问题,但容量极为有限。Intel通过数据预读、乱序执行

异构计算系列(二):机器学习领域涌现的异构加速技术

我怕爱的太早我们不能终老 提交于 2020-04-06 08:43:52
作者 | 易小萌、郭人通 策划 | 钰莹 “异构计算”(Heterogeneous computing),是指在系统中使用不同体系结构的处理器的联合计算方式。在 AI 领域,常见的处理器包括:CPU(X86,Arm,RISC-V 等),GPU,FPGA 和 ASIC。(按照通用性从高到低排序)本文是 异构计算系列 的第二篇文章,重点介绍机器学习领域涌现的异构加速技术。 机器学习与异构计算 在机器学习领域,异构计算技术的应用是近年来备受产业界和学术界关注的话题。在数据高速增长的背景下,异构计算技术是提升机器学习应用开发流程中“人”与 “机”的效率的重要途经。本文将结合机器学习应用的开发闭环对近期涌现的相关异构加速技术进行介绍。 如上图所示,机器学习应用的开发闭环包括数据整合、特征提取、模型的设计、训练和验证等多个环节。首先需要对原始数据进行汇聚整理,然后进行数据分析并提取数据特征作为模型输入。在模型设计环节,需要对模型类型、优化算法和配置参数进行选择。在模型训练完成后,需要数据科学家根据模型验证的结果对上游的各环节进行调整,例如补充新的数据源、扩展数据特征、调整模型的选择和参数设计,然后重新训练和验证模型,直到多次迭代之后得到令人满意的结果。 先谈谈上述流程中的“人”。“有多少人工就有多少智能”这个现象在生产应用中较为普遍。上述流程中存在大量的人工决策环节

异构计算系列文章(一):定义、场景及局限性

不想你离开。 提交于 2020-04-06 08:07:01
作者 | 顾钧 2020 开年,ZILLIZ 与 InfoQ 筹备了以异构计算为专题的一系列文章。此篇文章作为异构计算专题的开篇,整体性的介绍了异构计算的定义、场景与局限性。在后续的专题文章中,我们将深入不同的 AI 应用场景进一步解释异构计算的优势。 诞生伊始,计算机处理能力就处于高速发展中。及至最近十年,随着大数据、区块链、AI 等新技术的持续火爆,人们为提升计算处理速度更是发展了多种不同的技术思路。大数据受惠于分布式集群技术,区块链带来了专用处理器(Application-Specific IC, ASIC)的春天,AI 则让大众听到了“异构计算”这个计算机界的学术名词。 “异构计算”(Heterogeneous computing),是指在系统中使用不同体系结构的处理器的联合计算方式。在 AI 领域,常见的处理器包括:CPU(X86,Arm,RISC-V 等),GPU,FPGA 和 ASIC。(按照通用性从高到低排序) AI 是一门较为复杂、综合的学科。在只有 CPU 平台的情况下,AI 开发者要学习的算法、模型、框架、编程语言已经不少。如果再考虑多个不同处理器平台,情况会变得更为复杂。在展开讨论不同的应用场景之前,我们先了解一下什么是“异构计算”。 异构计算 首先需要明确的是,计算机体系结构≠硬件架构。体系结构不单包括硬件层面的实现,也包括软件层面的考量。当 IBM 在

《OpenCL异构并行编程实战》补充笔记散点,第一至四章

旧巷老猫 提交于 2020-03-28 04:17:31
▶ 总体印象:适合 OpenCL 入门的书,有丰富的代码和说明,例子较为简单。先把 OpenCL 代码的基本结构(平台 → 设备 → 上下文 → 命令队列 → 创建缓冲区 → 读写缓冲区 → 编译代码 → 创建程序 → 创建内核 → 设定内核参数 → 执行内核 → 缓冲区读写 → 回收检查结果)定死了,在围绕这个结构展开算法和应用。 ▶ 第一章,并行编程入门 ● 开放计算语言(Open Computuing Language,OpenCL) ● 设备语言可以高效映射到众多的内存系统构架上;主机端语言的目标是以较低的开销来高效管理复杂点的并行程序。两者共同为开发人员提供了一种从算法设计高效过渡到实现的途径。 ● 并发性(Concurrency)考虑的是同时发生两个或两个以上的活动。并行性(Parallelism)指的是以提高总体性能为明确目标,并行进行两个或两个以上任务。并行程序必须有并发性,但是并发程序不一定要保证并行性。 ●支持完全一致的共享内存模型,会在硬件上有较大开销,因为共享总线式设计瓶颈。 ● 粒度,定义为计算与通信之比。并行粒度首先与应用程序算法的内在特性。   ■ 细粒度的并行,计算强度低;没有租后的任务来隐藏长时间的异步通信耗时;容易通过提供大量可管理的工作单元来实现负载均衡;如果粒度过细,则可能人物之间的通信和同步开开销过大   ■ 粗粒度的并行,计算强度高

异构计算:软硬件结合全栈助力AI大爆发

心不动则不痛 提交于 2020-02-28 14:30:27
摘要: 2018杭州云栖大会,异构计算专场精彩回顾 9月20日上午,杭州云栖小镇E1-2会场,备受业界关注的2018年杭州云栖大会异构计算专场召开。 近年来,人工智能持续爆发,对算力提出了更高的要求。异构计算作为大计算时代的解决方案,意在打破传统通用计算的限制,融合不同指令集和体系架构的计算单元,完美支持大计算场景。 让每一个芯片都发挥最大效能 首先,阿里云弹性计算负责人,阿里云研究员余锋,带来了精彩的开场。余锋以摄影来打开话题:每一个镜头都会有特别的定位,在某个场景下合适但是另外场景会力不从心,异构计算的精髓也是如此,即让每一个芯片都发挥最大效能,扬长避短。 余锋说:异构计算带来的计算效率提升是指数级的,但是需要有配套工具,基础设施等等。阿里云正在逐渐让这个门槛变低,并且和业内一起构建技术生态,让异构计算普惠行业,帮助合作伙伴和客户不断创新。 GN6实例 F3实例全面商业化 议题阶段,首先登场的是阿里云高级产品专家潘岳。潘岳首先介绍了正在全面商业化推进的GN6实例和F3实例。GN6实例搭载NVIDIA Volta架构的Tesla V100计算卡,相对于上一代产品可以提供12倍的运算能力提升。而基于阿里云FaaS(FPGA as a service)舜天平台的F3实例搭载Xilinx 16nm Virtex UltraScale+器件VU9P,对比上一代产品,逻辑容量增加4倍

阿里云异构计算发布:轻量级GPU云服务器实例VGN5i

丶灬走出姿态 提交于 2020-02-01 04:53:05
阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景,更细粒度的GPU计算服务。 轻量级GPU云服务器是什么? 轻量级GPU云服务器是一种新的GPU云服务器规格族,是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中。与常规GPU云服务器的区别在轻量级GPU云服务器提供更细力度的GPU计算资源,比如拥有更少的CUDA计算核心,更小的显存。这样做的优势是在业务应用中,业务可以根据资源所需更加灵活的配置GPU计算资源。 用户在使用常规GPU云服务器的时候遇到了哪些痛点? GPU的计算颗粒过大: 单颗物理GPU的计算能力越做越强大,但是许多应用需要更小颗粒的GPU计算资源; 常规GPU资源不利于业务自动伸缩: 拥有单颗物理GPU资源的实例在业务部署中会因为要充分利用GPU资源而造成“胖节点”,不利于设计成弹性伸缩架构,缺乏灵活性,无法应对业务快速变化; 常规GPU计算实例无法在线迁移: 常规直通虚拟化的GPU实例,由于架构特性无法支持GPU实例的在线迁移; 轻量级GPU云服务器与常规GPU云服务器有哪些不同? 我们从GPU加速器呈现方式

论文阅读与模型复现——HAN

↘锁芯ラ 提交于 2020-01-25 09:56:25
论文阅读 论文链接: https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接: https://github.com/Jhy1993/HAN 介绍视频: https://www.bilibili.com/video/av53418944/ 参考博客: https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous Graph Attention Network(HAN),可以广泛地应用于异质图分析。注意力机制包括节点级注意力和语义级注意力。节点的注意力主要学习节点及其邻居节点间的权重,语义级的注意力是来学习基于不同meta-path的权重。最后,通过相应地聚合操作得到最终的节点表示。 ABSTRACT 最近,深度学习中最令人兴奋的进步之一是注意机制,它的巨大潜力在各个领域。 本文首先提出了一种基于层次注意的异构图神经网络,包括节点级注意和语义级注意。具体地说: 节点级注意旨在学习节点与其基于元路径的邻居之间的重要性 语义级注意能够学习不同元路径的重要性 通过从节点级和语义级两个层次上学习重要性,可以充分考虑节点和元路径的重要性。该模型通过对基于元路径的邻域特征进行分层聚合,生成节点嵌入。

“FPGA+云"助力高性能计算

瘦欲@ 提交于 2020-01-14 13:40:32
用AI防鲨鱼、用AI学写中国书法、用AI预测人类死亡时间、用AI审判罪犯……在人工智能方兴未艾的今天,越来越廉价和普及的AI领域真的是什么都不值钱,除了想象力。那在这无所不能的AI盛世,一定没道理让算力限制我们的想象力,更没道理让算力限制了我们的生产力。 从CPU到CPU+,从+GPU到+FPGA 随着通用处理器(CPU)的摩尔定律已入暮年,从美国的微软、亚马逊到中国的BAT、华为,几乎所有的互联网巨头们都在补充他们的标准服务器芯片——CPU,使用可替代的硅来追赶在人工智能领域的急速变化。2012年,微软开始将支撑了通讯行业二十年高速发展的可编程芯片,即FPGA用在其搜索业务——Bings上,且公布FPGA相比于CPU在处理Bing 的自定义算法时快出40倍,整个系统比Bing 现有的系统快出两倍,因此其可以将当前已经投入使用的服务器数量减少一半。甚至在接下来的几年里,几乎任何一个新的微软服务都会包含一个FPGA。 那么这个所谓的可编程芯片到底是什么?据菲数科技创始人兼CEO王文华介绍,2017年是全球超大规模数据中心的“爆发年”,全年新增超大规模数据中心90余个,总数量超过390个。且2018年也没有丝毫放缓的迹象。如此海量数据需要计算机高速计算各种矩阵运算、图像处理、机器学习、压缩、非对称加密、搜索排序等。即数据中心优先于人工智能发展

异构混合多云管理的需求,如何在SDN平台落地丨TF成立大会演讲实录

瘦欲@ 提交于 2020-01-13 18:51:47
本文整理自华胜天成云计算研发与产品中心总经理李明军在“TF中文社区成立暨第一次全员大会”上的演讲。更多会议资料,请在公众号后台回复“成立大会”获取。 华胜天成云计算研发与产品中心总经理李明军 非常高兴有机会跟大家分享,华胜天成在云计算开源网络落地方面的经验。 我们接触Tungsten Fabric是在2019年上半年,到现在有半年多的时间,非常欣喜地看到这样一个出色的解决方案能够放到社区里来。 企业用户需求:开放、异构、场景化 在过去的十年里面,我们看到云计算从一个概念,到现在成为一个主流的架构。在这个过程里,我们的客户对云计算技术架构的需求,以及功能的期望,也在发生着变化。 对于中大型的企业市场来说,需求由最初的异构,演变成后来的异构混合,到今天变成了异构混合多云的管理需求——在基础设施层面,有桌面云,以虚拟化形态存在的各种类型的资源池,还有各种公有云的资源池,公有云的应用,都已经进入到中大型的企业的IT环境里面。企业需要在这样一个异构混合多云的环境里面,找到一个集成的、直接服务于业务的基础设施。 这就带来一个非常切实的需求,我们总结了三个词:开放、异构、场景化。 怎么来理解开放?与开放相对应的,就是在前期的时候很多私有的解决方案,或者由单一厂商主导的解决方案,带来的就是对功能扩展和商务合作上的限制。 异构的情况出现在很多层面,比如历史的IT架构与现有的应用系统和IT基础设施

这些传统数据集成的痛,你还在经历吗?

て烟熏妆下的殇ゞ 提交于 2019-12-06 14:47:17
20多天后,我们将步入2020年。在即将过去的2019年,人工智能、5G、数字货币等技术不断冲击着传统的数据治理模式,你所在的企业是否同样感受到了冲击?在这些难以言说的痛中间,又有多少是传统数据集成所带来的? 今年,随着数据驱动决策的理念逐渐深入人心,越来越多的企业开始逐步对存量的数据资产进行消费,在数据消费过程中引入各种数据集成的工具,来解决数据打通的问题,并用于后端数据消费:如分析报表、数据查询、和数据挖掘等工作。 大数据时代的到来,不仅意味着数据来源更加广泛,数据存储量增加,同时对于数据及时性要求也越来越高,传统数据集成工具的瓶颈越发明显。其中主要表现在以下几点,看完后,你正在经历哪几种? 一、数据及时性 各行各业的业务部门对于数据时效性的看法是:希望越快越好。金融行业的客户经理希望第一时间得到客户的动账通知;客户在申请贷款时,希望能够秒批秒贷;数字化营销部门的负责人希望能根据渠道投放的实时反馈及时调整投放策略;连锁零售门店也希望能实时掌握各个门店的库存,避免外卖的骑手取货时才发现货品已经售罄,而客户不得不提出退款;而在互联网行业,任何用户的行为分析都需要实时,以便在客户短暂的上线时间段能抓住客户的需求点。业务追求的是增长,快对于业务的改变不仅仅是减少低效的投入,及时止损,快速试错,更重要的是能加快业务的微创新,提升客户的体验,在更短的周期内快速迭代,应对千变万化的市场。