首台获得TOP500榜首的ARM架构超算——富岳Fugaku

微笑、不失礼 提交于 2020-08-08 18:02:59

  文|乌镇智库

  最近发布的TOP500榜单中,日本的高性能计算系统Fugaku(富岳)以415.53 PFlop/s的Linpack性能拔得头筹(使用152,064个节点),为第二名美国超算Summit的2.8倍。

  

  

  此外在多项超级计算机基准测试中,Fugaku也名列前茅:在HPCG测试中,它使用138,240个节点获得了13.366 PFlop/s的算力,而在HPL-AI测试中,它使用126,720个节点获得了1.421 EFlop/s的算力。Fugaku采用富士通的ARM架构A64FX芯片,是第一个获得TOP500榜首的基于ARM的高性能计算系统。

  

  

  Fugaku

  “京”的后继机

  Fugaku富岳:富岳是日本富士山的别称,借寓富士山海拔及山脚广阔馥郁的平原,以呈现Fugaku卓越的性能和庞大的用户群体。

  01

  Fugaku诞生历程

  作为超级计算机“京(Kei,K Computer)”的后继产品,Fugaku的诞生还要从K Computer说起。虽然日本1980年代末期的第五代计算机项目失败了,但建造最快计算机的雄心从未泯灭。

  自2006年以来,日本理化学研究所(RIKEN)和富士通共同开发了K Computer,旨在2012年开始公共服务。2011年6月,K Computer凭借8.162 PFlop/s的Linpack跑分成为当时世界上最快的超级计算机;2011年11月,其Linpack性能经进一步扩容达到10.51 PFlop/s,成为第一台性能超过10 PFlop/s的超级计算机。2012年6月,K Computer被美国超算Sequoia超越。K Computer已于2019年8月30日退役,并将由Fugaku取代。

  

  2014财年,日本政府启动了FLAGPSHIP 2020项目,建造暂时被称为Post K Computer的日本国家级旗舰超算,作为K Computer的后继机,并为Post-K开发各种HPC应用程序,以解决日本面临的最紧迫的社会和科学问题。作为开发主体,RIKEN计算科学研究中心计划于2021财年开始利用Post-K进行公共服务。

  2014年10月,RIKEN和富士通开始进行设计工作,并于2019年4月15日宣布完成。2019年5月23日,Post-K正式定名为“富岳(Fugaku)”;其设施建设安装也于该月开始。2019年12月2日,机架开始陆续搬入RIKEN计算科学研究中心,并于2020年5月13日完成。

  02

  Fugaku现状

  Fugaku由432个机架组成,其中396个机架各拥有384个节点,其余36个机架则各拥有192个节点,节点数总计158,976个每个节点包含一个A64FX CPU

  在Boost模式下CPU频率最高可达2.2 GHz,整体双精度浮点运算理论峰值性能537 PFlop/s,同时还支持半精度浮点和整数运算。Fugaku总计拥有4.85 PiB存储,并提供163 PB/s总存储带宽。

  

  

  

  Fugaku将为实现Society 5.0计划的应用程序提供计算资源,重点课题包括实现健康长寿社会、防灾/环境问题、能源问题、增强产业竞争力和基础科学五个大类下的9项课题,如药物发现、自然灾害模拟等。目前,Fugaku已部分投入运营,在不影响开发和维护的前提下,其计算资源将优先运用于与COVID-19相关的研究,如病毒活动的液滴模拟。

  Fugaku之“芯”

  A64FX

  

  芯片尺寸60mm*60mm

  

  A64FX CPU-Die (来源:富士通)

  Fugaku的核心是富士通开发的高性能处理器A64FX

  2018年8月举行的Hotchips会议上,富士通发布了A64FX处理器的技术细节。A64FX采用Armv8.2-A指令集,并且是世界上第一个采用SVE(Scalable Vector Extensions)扩展指令集的CPU。

  A64FX采用7纳米FinFET工艺制程生产,内含87.86亿个晶体管,基础频率2 GHz,睿频可达2.2 GHz;它由48个计算核心4个辅助核心构成,一共分为4个CMG单元,每个单元有13个核心,并配备8GB HBM 2,带宽256GB/s,总计32GB HBM 2,1024GB/s带宽。

  在浮点运算性能方面,A64FX每核拥有双流水线SVE 512位SIMD,而每个SIMD可以同时执行两条FMA指令,因此单核每周期可提供2 pipelines * 512 bit * 2 FMAs / 64 bit = 32 FLOPS的双精度浮点性能。若A64FX以2.2 GHz的频率运行,则理论上每个CPU最高可提供32 FLOPS * 2.2 GHz * 48 cores = 3379.2 GFlop/s双精度浮点性能,即RIKEN公布单节点的3.3792 TFlop/s峰值浮点运算性能

  

  

  

  SVE (Scalable Vector Extensions)可扩展向量扩展是ARMv8.2-A指令集的一个可选扩展,作为NEON扩展的补充,于2016年8月发布。它是专门为高性能计算科学工作负载的向量化而开发的,允许将可变向量长度实现为128到2048位。在A64FX中,每个计算核心都拥有双流水线(2 pipelines)支持SVE的512位SIMD。

  在X86指令集中也存在与SVE类似的扩展指令集,即AVX。其中,AVX-512是Intel在2013年7月提出的,针对256位Advanced Vector Extensions SIMD指令的512位扩展。目前AVX-512已应用在包括Knights Landing、Knights Mill、Skylake-SP/ Skylake-X、Cannon Lake、Cascade Lake、Cooper Lake、Ice Lake、Tiger Lake在内的多个Intel微体系架构中。以最新一期TOP500榜单中排名第八的美国超算Frontera为例,它只配置了Intel Xeon Platinum 8280 28核处理器,频率为2.7 GHz,无协处理器;CPU采用超线程技术,AVX-512 FMA单元数为2,则单核每周期可提供2 processing threads * 512 bit * 2 FMAs / 64 bit = 32 FLOPS的双精度浮点性能,每个CPU可提供32 FLOPS * 2.7 GHz * 28 cores = 2419.2 GFlop/s双精度浮点性能;Frontera共有448,448个核,则理论上双精度浮点性能峰值可达到32 FLOPS * 2.7 GHz * 448448 cores = 38745907.2 GFlop/s,即TOP500公布的38,745.9 TFlop/s。

  Intel官方曾确认,在AVX扩展指令带来更高性能的同时,CPU的峰值功耗也变高了。从此次TOP500公布的功耗数据看,Fugaku每千瓦功耗提供的Linpack性能为14.665 TFlop/s,与第二名Summit的14.719 TFlop/s十分接近,违背了ARM架构芯片低耗能的普遍认知;根据AVX和SVE的相似性,这很可能是由于A64FX支持SVE带来的结果。

  AMD Zen2架构采用的AVX扩展指令仍为AVX2,其应用在NVIDIA DGX A100中的处理器EPYC 7742 (64核) 在最高频率3.4 GHz下双精度浮点性能为3.482 TFlop/s,仅仅略高于A64FX,而频率和核心数均显著大于A64FX。因此,就目前的状况来说,只采用AMD CPU而没有GPU辅助来构建超算的话,从性能、成本和能耗的综合考虑来看并不划算。

  互联方式的再创新

  Tofu Interconnect D (TofuD)

  Fugaku另一个亮点是互联方式采用了富士通自研Tofu Interconnect系列中的Tofu Interconnect D (TofuD),其中Tofu代表“Torus Fusion”,D代表“Density”和“Dynamic”,意为高节点密度、动态分组切片及其带来的网络故障恢复能力。

  

  

  Tofu Interconnect系列的特征包括6D Mesh/Torus网络、虚拟3D-Torus Rank-mapping、高可用性、接口通讯功能、Tofu Barrier等,与Tofu1、Tofu2相比,TofuD具有更先进的评估环境、更低的延迟,并增加了Tofu Barrier资源;在注重吞吐量(Put Throughputs)和注入率(Injection Rates)的同时也保持高效率。

  

  

  

  

  前TOP500榜首Summit所配置的dual-rail Mellanox EDR 100Gb/s InfiniBand,则采用non-blocking fat-tree topology连接各节点,提供200Gb/s节点间带宽。

  各国纷纷部署E级超算

  Fugaku榜首昙花一现

  Fugaku耗资1300亿日元建造,Linpack性能达到415 PFlop/s,位居最新TOP500榜首。但鉴于中国、美国和欧盟在Exa级超算均有所布局,Fugaku将不会在榜首位置待太久。

  中国

  1)神威E级超算

  2018年7月,神威E级原型机落户于国家超级计算济南中心,其原型机的硬件、软件和应用三大系统中,处理器、网络芯片组、存储和管理系统等核心软硬件将全部国产化。它需要三年左右的研发时间,将在2021年正式投入使用。

  2)天河三号E级超算

  2018年5月19日,国家超级计算天津中心展示了天河三号原型机。天河三号E级原型机采用自主的飞腾处理器、天河高速互联通信和麒麟操作系统,实现了芯片的全国产化,告别了前代的英特尔芯片。天河三号的全配置主机计划在2020年投入使用,计划性能为1 EFlop/s;将使用我国自主研制的飞腾FT2000系列CPU,以及国防科技大学的Matrix2000plus加速器的最新型号。

  3)中科曙光E级超算

  原型机采用了自主X86架构处理器和加速器的异构众核体系架构。曙光E级原型机系统在完成交付后,预计将部署在上海超级计算中心和国家超级计算深圳中心。外界猜测曙光可能会采用中科院体系内研发的CPU和加速器(比如海光CPU、龙芯CPU系列)。曙光E级的最终部署时间也将会在2020年以后。

  美国

  1)EI Capitan

  美国Cray公司获得美国能源部、国家核安全管理局价值6亿美元的新订单,将建造一台性能高达200亿亿次(2.0 EFlop/s)的超算El Capitan,预计2022年底正式交付,主要用于核武器研究。El Capitan将采用AMD下下代,基于Zen4架构的EPYC Genoa处理器以及Radeon GPU打造,预计性能将是超算Sierra的21.3倍、目前全球超算排名第一的Fugaku的4.8倍。

  2)Frontier

  Frontier是由Cray公司联合AMD、美国能源部、橡树岭国家实验室打造的超级计算机,采用专门针对高性能计算和人工智能计算进行优化的EPYC处理器,浮点性能将达到1.5 EFlop/s,合同价值6亿美元。

  3)Aurora

  Aurora是Cray公司联合Intel、阿尔贡国家实验室开发的,主要使用Intel至强处理器、Xe加速卡,浮点性能预计1 EFlop/s。它可能将是美国最早建成的百亿亿级超算,预计2021年落成。

  欧盟

  欧盟预计于2022-2023年交付首台E级超算。2018年EuroHPC发布规划,欧盟将投入4.8亿欧元,通过与各国政府共同投入的模式,在2020年建设两台Pre-E级超算系统和两台P级超算系统,并在2022-2023年左右建成两台E级超算,且其中至少有一台将使用欧洲自主的技术。虽然目前各超算系统的选址还未确定,但通过这一系列部署规划,欧盟对实现E级计算、大幅提升欧洲在高性能计算领域竞争力的决心可见一斑。

  

  *在本次TOP500榜单中,Fugaku使用152,064个节点获得的双精度浮点运算峰值性能为513.85 PFlop/s,若使用全部节点,Fugaku的双精度浮点运算理论峰值性能可达到537 PFlop/s。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!