AI推理性能最高提升20倍,IBM首款7nm商用处理器POWER10面世

Deadly 提交于 2020-08-19 11:36:01

  机器之心报道

  编辑:蛋酱、小舟、杜伟

  

历时 5 年,制程由 14nm 减至 7nm,更加重视 AI 推理性能,IBM 最新 POWER10 处理器将在商用领域打出一片天地。

  

  在今年的 Hot Chips 2020 会议上,IBM 正式宣布了新一代 CPU POWER10。作为 Power 9 的继任者,POWER10 的处理效率是前者的三倍,同时又提供了更高的工作负载量和容器密度

  基于 Power 9 处理器并使用 Nvidia Tesla GPU 作为加速器的 Summit,就是世界上最快的超级计算机之一。目前看来,继任者 POWER10 更加值得期待。

  POWER10 的设计历时五年,拥有数百项新型以及正在申请的专利。早在 2015 年,IBM、三星和 IBM 研究联盟的其他成员生产了第一批测试芯片。它的独特之处在于,这是 IBM 的首款商用 7 nm 处理器

  POWER10 架构师 William Starke 表示,单芯片模块产品最多不超过 15 个 SMT8 核心,双芯片模块产品最多不超过 30 个 SMT8 核心。

  

  IBM POWER 系列芯片的发展路线图。

  制程由 14nm 缩减至 7nm,更加重视 AI 推理性能

  吞吐量和功率效率的提升部分得益于硅制程技术,该技术使得 POWER9 中使用的 14nm GlobalFoundries 制程缩减为三星的 7nm EUV。制程微缩使得 IBM 可以添加更多的核心和更多的缓存。

  设计方法也有重大更改。新的设计更加模块化,具有新的核心核心微架构和新的 AI 指令。POWER10 还添加了更多的安全硬件。内存受到全内存加密保护,同时也没有降低速度。

  此外,POWER10 还为多租户(multi-tenant)云工作负载内置了「嘈杂的邻居(noisy neighbor)」保护功能。为了确保云工作负载的安全性,处理器支持安全的 container。该架构通过其 PowerVM 虚拟机来管理程序和内存池聚合功能,以提升灵活性,通过 PB 级系统内存支持来处理各种工作负载。

  考虑到 AI 越来越重要,IBM 增加了对其他指令和数据类型的支持。处理器通过新的可扩展指令集支持 Power 的 3.1 版本。POWER10 也意味着 IBM 更加重视 CPU 中的 AI 推理性能。

  IBM 表示,推理处理中使用的矩阵数学函数可将性能提升 10-20 倍。缓存带宽上也有改进,以使 SIMD 单元获得数据。

  越来越多的企业将 AI 部署到实际应用 AI 的运营工作负载中。所以,IBM 仍将支持训练加速器,例如 GPU 和 FPGA,但 AI 部署基于的推理使用的是训练创建的模型。

  实际上,AI 的推理用途是能够产生商业实效的。IBM 将在 PCIe5.0 版本上通过 OpenCAPI 支持加速器。IBM 也放弃了英伟达的 NVLink 接口,因为 PCIe v5 提供了足够的带宽。

  

  POWER10 的推理性能展示。

  其他技术细节

  IBM 在 Hot Chips 会议上展示了 POWER10 的大量技术细节。芯片面积为 600 平方毫米,具有 180 亿个晶体管。最多两个管芯可以被放入 POWER10 服务器的包中。

  每个芯片具有 15 个活跃的 CPU 核,其中管芯上还有一个用于提升成品率的备用核。此外,每个 CPU 可以支持 8 个线程(虚拟 CPU),所以每个插槽中共计有 120 个线程。

  管芯上缓存内存总量为 150MB 以上。在接口设置上,下一代 PCI Express Gen 5 具有 64 条通路,传输速度高达 32GT/s。

  

  IBM POWER10 芯片的技术规格细节。

  POWER10 将会有两个版本。一个版本采用双管芯封装,时钟频率达到 3.5GHz,并且能够连接 4 个插槽。另一版本为单芯片插槽,有更高的时钟频率,为 4GHz 或更高,最多可连接 16 个插槽。每个插槽的 PowerAXON 接口都支持超过 TB/s 级的带宽,而开放式内存接口(OMI)可以支持相同的带宽。

  POWER10 最重要的创新就是它能在整个 POWER 服务器机架上聚合内存。本地内存通过低延迟、高带宽的 OMI 进行连接,从而提供高达 4TB 的内存以及高带宽,而且没有一般高带宽内存的限制和费用。OMI 还可被用于连接存储类内存(SCM)。

  PowerAXON 接口可用于连接其他 16 个 POWER10 插槽,但也可以通过 OpenCAPI 连接到加速器。但它最有趣的用途是内存集群。本地处理器可以将其本地内存映射到相邻的处理器,因此需要更多内存的工作负载可以用相邻处理器的内存,而无需将页面交换到速度较慢的存储内存中。这种灵活性对于管理大型数据集来说至关重要。2PB 的地址空间使之变为了可能,而且这种内存共享功能也可以扩展到企业级系统。

  从 CPU 设计到软件堆栈,POWER10 都展示出了 IBM 一直以来的企业级计算传统。更重要的是,它现在支持更多的 AI 功能、硬件辅助虚拟环境、更具扩展性的云部署以及更大的数据集处理,使其与现代企业和云工作负载更加相关。

  与此前的 Power 系列处理器一样,POWER10 也向 OpenPower 基金会的 250 多个成员开放许可和允许修改,包括谷歌、英伟达、Mellanox、 Tyan 等企业。

  参考链接:

  https://www.forbes.com/sites/tiriasresearch/2020/08/17/ibm-POWER10-mega-chip-for-hybrid-cloud-is-revealed/?ss=ai#308a85a46d13

  https://venturebeat.com/2020/08/16/ibm-unveils-POWER10-processor-for-big-data-analytics-and-ai-workloads/

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!