我们能从超级计算机革命中学到什么
当然,你办公桌上或公司数据中心的系统与最快的系统相比,仍存在巨大的性能差异,即使你口袋里的智能手机的处理能力超过了载人登月的处理能力。超级计算机现在正在进入“亿亿亿次”时代,提供亿亿次的处理能力,这意味着它们每秒可以计算超过1018次IEEE 754双精度(64位)算术运算。这些系统的成本超过了大多数组织的承受能力,高达数亿美元。它们往往是大型大学、政府和跨国研究机构的领域,资源被共享给这个星球上最具突破性的科学项目。
但在许多情况下,这些系统的基础现在离公司服务器、工作站甚至家用台式机和笔记本电脑并不遥远。第一台亿亿次超级计算机是最近委托橡树岭国家实验室的Frontier,它拥有136,408个AMD EPYC 7a 53 CPU,每个CPU有64个核心。这些是配备Zen 3内核的第三代AMD EPYC处理器的特殊“Trento”变体,因此是最近在数据中心和云服务中推出的同一“米兰”一代的一部分。Frontier的GPU加速也来自AMD,以Instinct系列的形式出现,它与最终用户应用程序使用的GPU也相差不远——只是专门用于GPU计算。
在欧洲,该地区最快的超级计算机(在全球500强名单)是LUMI,但它的故事更有趣,因为它不仅功能强大,而且其设计初衷是尽可能减少对环境的影响。它可以从其20万个内核中提供高达550 petaFLOPS的速度,但它是由绿色水电能源提供动力的。它产生的热量被收集起来,用来为该地区的建筑物供暖。这将是有用的,考虑到LUMI位于芬兰,众所周知其寒冷的冬季天气。考虑到COP26协议和应对气候变化的日益增长的需求,随着我们的超级计算和一般计算需求的扩大,我们必须考虑这对环境的影响。
LUMI超级计算机朝着自己的亿亿次计算能力迈出的一步,这有可能通过安装在德国于利希超级计算中心的JUPITER(创新和变革性亿次计算研究的联合先驱)来实现。欧盟将拨出5亿欧元用于硬件、安装和基础设施建设。木星预计将在2024年后上线,与一系列超级计算设施并列。
木星内部的硬件尚未得到证实,但AMD的处理器可能会在运行中,因为他们已经赢得了许多这些项目,由于他们的效率。目前,前十名最快的超级计算机中有五名使用AMD处理器,前二十名中有十名使用AMD处理器。从效率的角度来看,在Frontier出现之前,世界上最快的超级计算机是日本的Fugaku。它的平均功耗为29MW。Frontier还没有用500强榜单的高性能共轭梯度(HPCG)基准进行衡量,但在主要前10名名单它的Rpeak分数是它的三倍多,Rmax分数也是它的近三倍。然而,它只消耗了19MW,这表明其AMD EPYC驱动的硬件与Fugaku的富士通A64FX 48核ARM处理器相比是多么高效。JUPITER的目标是以仅15MW的功耗提供亿亿次计算。
由于能源价格快速上涨,电力使用已经成为一个主要的环境问题,这种效率对于高性能计算(HPC)的未来至关重要。Frontier提供的每兆瓦petaFLOPS是Fugaku的近五倍,提供了更便宜、更环保的超级计算。但是HPC甚至更多的日常服务器应用程序可以通过采用一些超级计算的方法来模拟这种效率。AMD EPYC处理器的核心密度和效率也可在常规基座和机架安装格式。
使用x86兼容CPU的超级计算机还有其他好处,比如AMD的EPYC。目前排名前十的超级计算机中有四个采用了非x86处理器,但是为了利用它们巨大的处理能力,有必要广泛定制应用程序以在它们的硬件上运行。相比之下,像Frontier和LUMI这样的超级计算机运行x86代码,因此尽管它们有更大的规模和必要的特定优化来利用这一点,但这可以从最初针对更普通的商用硬件的软件中派生出来。
研究人员可以在部门服务器或本地数据中心测试他们的工作负载,以在超级计算机上释放它们之前消除错误。事实上,在Frontier到来之前,这就是研究人员一直在做的事情,通过加速应用就绪中心,该中心为八个科学团队提供了访问测试节点的机会。他们能够测试自己的工作负载,包括天体物理学、分子动力学、光子科学和生物系统。
这种代码的通用性也包括超级计算机GPU,与CPU一样,它与不太专业的硬件有足够的共同点,使得在非超级计算机硬件上测试工作负载成为可能。AMD的HIP开发环境和ROCm驱动程序等软件甚至可以通过适度的努力将GPU代码从竞争对手的硬件中移植过来。
基于计算流体动力学(CFD)或TensorFlow机器学习等工作负载的超级计算机代码可以提供令人难以置信的结果,例如分别计算车辆空气动力学和人工智能模型。这些结果可以用同一家族的代码在较弱的系统上以较小的规模复制。在超级计算环境中对这些现代任务的了解甚至可以为那些无法访问的人带来巨大的红利。超级计算机也被部署来加强网络安全,测试各种场景,并寻找可以在政府和商业组织中推广的保护措施。
在诞生之初,超级计算机被部署来处理任何其他设备都无法处理的工作负载。与桌面系统和常规数据中心相比,它们仍然具有前所未有的规模。但是,这两个领域之间的连续性比以往任何时候都要多,特别强调计算对环境的影响。最新超级计算机的效率适用于每个级别的计算,这要归功于类似的架构也适用于较小的数据中心。我们还可以受益于可以在通用硬件上运行的面向超级计算机的软件,反之亦然。超级计算革命不仅仅是罕见的专门机器,而是在数据处理活动的整个范围内提供学习。