一家英国明星芯片公司“悄然”入华！叫板英伟达A100，设定中国为其最大市场

　　“计算革命在计算机历史上只发生过三次，第一次是 70 年代的 CPU，第二次是 90 年代的 GPU，而 Graphcore 就是第三次革命，他们的芯片（IPU，智能处理单元）是这个世界伟大新架构的一种。”说这话的是 ARM 公司创始人、英国半导体之父赫尔曼·豪瑟（Hermann Hauser）。

　　他口中的 Graphcore，是来自英国的 AI 芯片公司。这家公司创办于2016年，在芯片领域有着多年经验的奈杰尔·图恩（Nigel Toon）担任联合创始人和 CEO，曾创办过两家处理器公司的西蒙·诺尔斯（Simon Knowles）担任联合创始人和 CTO。

　　图 | Graphcore（来源：Graphcore）

　　这家分公司遍布多个国家和地区的公司，于 2019 年进入中国。9 月 19 日，DeepTech 和 Graphcore 高级副总裁兼中国区总经理卢涛，就相关问题进行了交流。

　　图 | 卢涛（来源：Graphcore）

　　他表示，Graphcore 的主要技术是以 IPU 处理器、为 IPU 打造的 Poplar 软件。基于 IPU 处理器和 Poplar 软件栈，Graphcore 的产品最后以用在IPU服务器中的PCIe 卡、IPU 系统产品 IPU-Machine 和 IPU-POD 的形式呈现给用户。

　　Graphcore 已经取得了一些阶段性进展。截止目前，IPU 已达到一万多片的发货规模，并服务于全球超过 100 家的机构，其主要应用在互联网大规模数据中心、高校和科研机构等。同时，IPU 也在支撑医疗、金融、生命科学、汽车、金融和计算领域方面的应用。

　　2019 年初，AI 教父杰夫·欣顿（Geoff Hinton）在接受记者采访的时候，被问未来什么样的计算系统会更像大脑？他的回答是：“我认为我们需要转向不同类型的计算机。幸运的是，我这里有一个...” 欣顿伸手进入他的钱包，拿出一个又大又亮的硅片——一个 Graphcore IPU 芯片。

　　IPU带来可持续发展路径

　　
2016 年，全球 AI 产业进入高速发展阶段。在过去，大概每隔三个月，模型参数规模就会提高一倍。2018 年 10 月，谷歌的 ResNet 模型有 3.3 亿个参数。2019 年3 月，OPEN AI 的大型语言模型 GPT-2 达到 15.5 亿个参数。2020 年，GPT-3 达到 1750 亿个参数。GPT-3 模型完成一次完整训练，要耗费千万美金级别的花销。这样的密集计算，很难带来持续发展。那么，是否有可持续发展的路径？

　　在论文《EfficientNet：对卷积神经网络的模型缩放的重新思考》（EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks）中，论文作者通过平衡神经网络的深度、宽度、准确率，再通过找到平衡点、并把底层卷积改变之后，找到了大幅减小参数数量的方法，与此同时准确度也得到提升。卢涛认为，这是未来的代表方向之一。

　　2020 年上半年，微软机器学习科学家 Sujeeth Bharadwaj 分享了 IPU 训练 CXR 模型的卓越性能，IPU 在运行微软 COVID-19 影像分析算法 EfficientNet 和SONIC 时表现亮眼，在 30 分钟内完成了英伟达传统芯片需 5 个小时的训练工作量。

　　图 | 微软用IPU和GPU训练用于新冠算法模型的对比

　　从 Graphcore 的角度来看，不管是 CPU 还是 GPU，都不是针对 AI 应用而生。CPU 是标量处理器，它主要做模拟性判断，用于帮助程序员针对固定模式进行编程。CPU 特别适合的架构是通过大量的模拟处理器开发手机 App 和外包服务器。GPU 是针对图像处理而生，相比 CPU 来说 GPU 在并行度和向量机上都有很大提升。

　　概括来说，GPU 主要应用在主流 AI 平台，它并不是为 AI 而生的处理器。Graphcore 进行大量分析后发现，AI 计算具有高度并行、低密度计算等特点，不管做图像处理模型、还是语言处理模型，都会在底层表达成一个计算图。卢涛认为，真正面向未来的 AI 处理器，必须是针对计算图来进行处理，而 Graphcore 的IPU 正是以计算图为核心的智能处理器。

　　三项变革性技术：计算、数据、通信

　　
进入中国后，Graphcore 一直努力接近开发者，卢涛在 9 月 19 日中关村论坛的演讲结尾，特意提到该公司在中文网站 graphcore.cn、微信和知乎的开发者创新社区，并鼓励更多开发者来到上述平台，获取 Graphcore 的资源和支持来进行创新。

　　对此做法，他解释称，Graphcore 希望将权利移交给创新者。那么，首先要给创新者提供新的平台，让他有新的可能性。如果开发者的算法不适合 GPU，并不一定代表你的算法无效，而是你需要一个新平台。基于此，Graphcore 提供了非常先进的AI 处理器、以及大规模 IPU 集群系统。

　　2020 年 7 月 15 日，Graphcore 发布基于 7nm 的第二代 IPU 处理器——GC200，以及用于 Mk2m IPU 和 IPU 系统产品的技术：计算、数据、通信。

　　图 | GC200（来源：Graphcore）

　　GC200 基于台积电 7nm 工艺，有 594 亿个晶体管，是当前单一芯片最大规模的处理器。GC200 仍然延续了第一代的“同构众核”架构，所不同的是，制造工艺从16nm，提升为最新的 7nm。

　　GC200 的处理器片上存储也从 300MB 提升到 900MB，晶体管数量超出英伟达2020 年 5 月发布最新旗舰 A100。GC200 的处理器核心从上一代的 1217 提升到1472，能执行 8832 个单独的并行线程，系统性能提升 8 倍以上。在数据处理方面，GC200 延续之前的高带宽高容量表现，这对于应对一些复杂 AI 模型及算法很有帮助，官方表示它可支持具有数千亿个参数的最大模型。

　　此外，Graphcore 还首次提出 IPU-EXCHANGE-MEMORY，这是一种交换式的储存架构。Graphcore 在 M2000 每个 IPU-Machine 里面通过 IPU-Exchange-Memory 技术，提供了将近超过 100 倍的带宽以及大约 10 倍的容量，这对于很多复杂的 AI 模型算法是非常有帮助的。

　　针对 AI 计算集群，Graphcore 打造了 IPU-Fabric 技术，这是为 AI 横向扩展而生的通信技术，它的优点是弹性大、低时延。有了 IPU-Fabric 之后，用户可以轻松构建出超低弹性的计算平台。M2000 是 Graphcore 推出的基于 GC200 的刀片型服务器，每片能提供 1PetaFlop 的算力支持。M2000 可以被看作是 Graphcore IPU 系统产品部署的最小单元，基于它可以很方便地创建各种规模的集群。

　　图| IPU-Fabric（来源：Graphcore）

　　Graphcore 协同 IPU 从零打造了一个以图为抽象编程模型的软件 Poplar。通过这套软件 SDK，不管是使用浪潮还是戴尔的服务器，更或者是使用单个 M2000 以及大规模计算系统 IPU-POD，Graphcore 都能使用同一套软件进行编程。

　　Graphcore 还在 Poplar 层面上，提供了很多软件库。以神经网络库为例，其可以支持标准的 PyTorch、TensorFlow 与 ONNX 等。同时，Graphcore 认为，对一个系统而言，运维和管理也非常重要。为此，Graphcore 基于开源做了集群管理套件。

　　在整个处理器研发过程中，Graphcore 认为开放非常重要。卢涛表示，开源是因为创新需要对底层有很多可见度。Graphcore 认为要把权利移交给开发者，并于2020 年 7 月开源了所有的计算图库源代码和机器学习算法模型。

　　在构建社区方面，Graphcore 在金山云上构建了一个开发者云，其主要面向商业用户、高校、科研机构和个人研究者。卢涛表示，这一且都是为了帮助创新者，可以在在机器智能中实现下一波突破，以及帮助用户实现在 CPU、GPU 上没有办法实现的创新。

　　Graphcore 至今成立了四年多的时间，期间已得到红杉资本的支持，也获得了宝马、博世、微软、三星、DELL 等企业的投资。经过几年的发展，Graphcore 已经发展为遍布全球的机构。

　　对于加入中国，该公司创始人奈杰尔·图恩（Nigel Toon）表示：“有远见的中国公司已经开始着手布局自己在 AI 领域的蓝图。也许这就是为什么 Graphcore 在中国找到了热情，并如此深度的参与。Graphcore 已经开始为一些颇有建树的中国公司提供技术支持，并将助力推动中国那些发展最快、最具创新性的 AI 初创企业。”

　　卢涛也对 DeepTech 表示，中国的企业非常擅长把创新进行大批量的快速落地部署，Graphcore 觉得中国是最大的市场之一。在快速落地部署中，Graphcore 也可以进一步打磨自己的产品。此外，IPU 也能帮助用户释放出更多潜能，今天在CPU 和 GPU 上做不好的事情，在 IPU 上可能会释放极大潜力。

　　-End-

来源：oschina

链接：https://my.oschina.net/u/4344814/blog/4616539

标签

人工智能

poplar