在黄仁勋看来,随着摩尔定律消亡,GPU加速才是撬动未来高性能计算发展的有力杠杆。有数据显示,目前NVIDIA已经销售了超过15亿块GPU,而这些GPU由于采用了同一架构,均能兼容CUDA。
不仅仅如此,身着经典皮衣的黄教主更认为硬件的“登峰造极”不仅仅局限于芯片,只有软件得到相应性能的完整优化,未来的多GPU才能彰显最出色的处理能力。基于此,NVIDIA在CUDA平台上配置了相当丰富的软件库,并且选择在去年一整年推出了超过500个相应的SDK以及库来不断改进NVIDIA的软件栈。有数据显示,通过这些专门的SKU,NVIDIA的产品在过去三年的深度学习性能提升了4倍,而深度学习推理性能也相应提升了2倍。列举如此多样的软件升级,要说目前实在硬核的NVIDIA软件创新,当属最新一代推理软件开发套件NVIDIA TensorRT 7编译器的推出。
晶少了解到,TensorRT作为一种计算图优化编译器能够优化推理实现实时AI会话,将TensorFlow的输出结果进行优化,简单理解位可以高效寻找计算途中可以融合的节点,从而减少计算和内容的访问来进行CUDA码的优化,值得提及的是可以运行在任何GPU上。
“去年我们在中国发布了TensorRT 5,可以处理CNN,而且是在图形的同一层将边缘与节点融合;此外还支持自动检测以及自动低精度推理,将FP32模型转换成FP16或INT8模型,准确率保障的同时降低能耗。”对比TensorRT 5,如今TensorRT 7能够支持1000多种不同计算变换和变化,借助于该软件,全球各地的开发者都可以实现会话式AI应用,大幅减少推理延迟。而此前不容忽视的一点,巨大的推理延迟一直都是实现真正交互式互动的很大阻碍。
具体来说,TensorRT 7内置新型深度学习编译器,能够自动优化和加速递归神经网络与基于转换器的神经网络,而这些日益复杂的神经网络是AI语音应用所必需的。与在CPU上运行时相比,会话式AI组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下。除了支持CNN,TensorRT 7也支持RNN、Transformer等自动实现。对于所有RNN定制的内核甚至可以进行多个时间场景融合,在整个处理的工作流中,在不同的时间点来进行所需要的内存,以及处理工作量。
除了技术上的“高屋建瓴”之外,TensorRT 7.0还能轻松“搞定”会话式AI。黄仁勋对此表示:“我们已经进入了一个机器可以实时理解人类语言的AI新时代。TensorRT 7使这成为可能,为世界各地的开发者提供工具,使他们能够构建和部署更快、更智能的会话式AI服务,从而实现更自然的AI人机交互。”
关于此NVIDIA 负责TensorRT产品市场的Siddarth Sharma总结道:“实际上,NVIDIA着手会话式AI的技术加速工作已经有好几个月的时间了。最初的版本只涵盖了会话式AI中的一部分,也就是语言理解部分。通常这个攻克的过程需要三个部分:将识别的语音转化成文字,理解的基础上再转化为语音播出。随着我们不断发布新版本,TensorRT 7基本上可以完成整个三流程的计算,即从语音识别到语义理解再到语音输出。”
据晶少了解,其实会话式AI是技术难度很高的领域,想要完全攻克并为之所用就需做到要在300毫秒内将三个部分智能并完整达成,在这个过程中有很多的复杂模型被计算,所以Tensor RT也在不断完善以保证覆盖整个流程。
据悉,目前全球很多体量较大并极具创新的企业都已经使用了NVIDIA的会话式AI加速功能。在首批使用NVIDIA会话式AI加速能力的企业中,我们发现了阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等企业。搜狗首席技术官杨洪涛表示:“搜狗每天通过输入法、AI硬件、搜索等产品为数亿用户提供语音、图像、翻译、对话以及问答等优质的AI服务,我们使用NVIDIA TensorRT推理平台实现线上实时快速的服务响应,领先的AI能力显著提升了我们的用户体验。”
此外在深度推荐系统应用方面,百度AIBox推荐系统以及阿里巴巴推荐系统均借助NVIDIA 的AI平台实现计算加速。值得一提,在今年“双11”期间,英伟达GPU为阿里巴巴推荐模型提供加速,实现了每秒处理780个查询,远高于CPU的3个。“在阿里巴巴的服务器上,一个‘双十一’活动,每秒需要处理数十亿次的推荐,使用GPU驱动的推荐系统,吞吐量(通量)可以比CPU提升上百倍。”同样在云方向,滴滴还将基于NVIDIA 技术建设人工智能基础架构,并适时推出不同型态的vGP云U服务器,其中包括计算型、渲染型和游戏型等。
“其实计算是一个非常重要的方式,而且可见情况下增长势头非常迅猛。目前我们的计算平台与全球很多云服务提供商都进行了合作,例如AWS、Azure、谷歌云等,其中还包括国内的百度、滴滴、阿里云平台等,所以我们在开发下一代产品时在开发者领域以及企业级方向,都很重视自身产品的技术质量。”NVIDIA 加速计算产品管理总监Paresh Kharya说。
可以肯定的一点,如今通过TensorRT的新型深度学习编译器,全球各地的开发者能够将这些网络(例如定制的自动语音识别网络以及用于文本-语音转换的WaveRNN和Tacotron 2)实现自动化,并实现最佳的性能和最低的延迟。很重要的一点,TensorRT 7可以快速优化、验证并部署经过训练的神经网络,还为超大型数据中心、嵌入式或汽车GPU平台提供推理能力,目前TensorRT 7.0现在已经可被使用。
就在一月之前的丹佛2019全球超级计算大会(SC19)上,NVIDIA刚刚发布了一款参考设计平台,使企业能够快速构建GPU加速的ARM服务器。在本次GTC大会上,相关问题再次被提及,黄仁勋提出:“此举是为了让GPU能够像支持x86平台一样支持ARM平台。”
众所周知,ARM是世界上最为普及的CPU,世界上约95%的定制SOC都是基于ARM,也被称之为最可编配置的CPU。据了解在全球范围内,共有1500亿台设备基于ARM架构,之所以如此成功,归根结底是开放性使然,例如各种各样的功能,包括互联、内存、CPU内核、计算能力,包括多元化在内的支持,都使ARM成为现如今世界上非常重要的架构之一,给予用户更多选择。对此晶少观察到,其实很多行业企业都在打造基于ARM的服务,原因或许在于传统HPC高性能计算确实需要高效能的产出,另一方面确实整个世界都在拥抱云,而ARM确实与超大规模应用堪为“天生一对”。
“我们通过将CUDA平台和ARM架构进行兼容,在整个加速计算领域,无论是AI、高性能计算等,都可以给到客户更多选择。之所以有这么大的性能提升,不仅是在架构上进行了设计,更重要的是我们通过软件的方式使得性能进一步提升。有数据显示,仅仅通过软件就使得AI计算性能在两年之间提升了4倍,所以软件对加速计算的性能提升非常重要,未来我们会继续在医疗领域Clara平台,应用在自动驾驶领域的Drive以及机器人方向的Isaac等各个平台上对软件进行完善以提升性能。”
具体来说,通过PCI Express为ARM提供与X86平台同等的支持,轻松针对ARM进行CUDA编译;而且CUDA本身拥有一个诸多开发人员构成的庞大生态系统,当支持ARM时候,这些开发人员也开始支持ARM。不容忽视的一点,基于对ARM平台的支持,超级计算中心、超大型云运营商和企业能够将其加速计算平台的优势与最新的ARM服务器平台相结合,高效满足高性能计算(HPC)社区对于类型更加多样化的CPU架构日益增长的需求。
另外在今年的GTC的大会上,NVIDIA按照惯例爆出了未来计算机图形的技术,即实时光线追踪NVIDIA GeForce RTX的最新进展。
RTX可以用更为自然的方式模拟光线、反射等,让现代计算机图形技术变得更加有魅力,而NVIDIA在最新的图灵架构中正是搭载了这项技术,实现对于现实光照的完美还原并带来逼真的游戏环境。会上,NVIDIA演示了拥有3亿多玩家的《我的世界》的光追版本,开启RTX之后《我的世界》营造了一个真实的游戏世界;还官宣包括《边境》、《铃兰计划》、《暗影火炬》、Project X、《无限法则》以及《轩辕剑柒》等六款游戏将会支持光线追踪。
“NVIDIA处在图形、HPC和AI的交汇领域。”这或许是对本次GTC黑科技的最简洁直观的诠释。
来源:CSDN
作者:L-JingJing
链接:https://blog.csdn.net/sch881226/article/details/103694213