基于云的AI超级计算机正世界上最强大的计算机的榜单上蓄势待发

NVIDIA英伟达企业解决方案 2021-06-29 3870

描述

基于云的 AI 超级计算机（包括 Microsoft Azure 和剑桥大学的新系统）正在世界上最强大的计算机的最新榜单上蓄势待发

ISC 高性能计算大会（ISC High Performance）发布的 TOP500 榜单中，有 342 个系统采用了 NVIDIA 技术提供加速，其中包括70%的新系统，与排名前10的8个。

最新的全球最强系统榜单显示出越来越多的高性能计算中心在使用 AI，也体现出用户们在继续拥抱NVIDIA AI与加速计算、网络技术的组合来运行他们的科学和商业工作负载。

例如，榜单上使用 InfiniBand 的系统数量比去年增加了20%。随着AI，HPC和模拟数据对于低延迟和加速的需求日益增加，InfiniBand已成为首选网络。

此外，名单上的两个新系统便是我们所称的超级云 —— 一种新兴的共享超级计算机，能够同时满足人工智能、高性能计算和云端的需求。

超级云的到来

Microsoft Azure 利用集群将公有云服务提升到一个新的水平，在 TOP500 榜单上连续占据第 26 位到第 29 位。它们是超级云的一部分，是一台全球的人工智能超级计算机，如今地球上的任何用户都可以按需使用。

在HPL基准测试（也成为了Linpack），四个 Azure 系统中的每一个都实现了 16.59 Petaflop 的计算性能。Linpack 是衡量 64 位浮点数学运算的高性能计算性能的传统标准，也是 TOP500 榜单的参考依据。

迈入行业高性能计算时代

Azure 系统便是 NVIDIA 首席执行官黄仁勋所述“行业高性能计算革命”的一例，即 AI 与高性能计算和加速计算融合，正在推动科研和行业各个领域的发展。

在幕后，有 8 个 NVIDIA A100 Tensor Core GPU 为 Azure 系统的各个虚拟实例提供动力支持。每个芯片都有自己的 HDR 200G InfiniBand 通信接口，可以与 Azure 云中的数千个 GPU 建立快速连接。

英国研究人员采用云原生技术

剑桥大学首次成为英国最快的学术系统，其超级计算机在 Green500 世界上最节能的系统名单中排名第三，这是另一种超级云。它被称为 Wilkes-3，是世界上第一台云原生超级计算机，其使研究人员可以在不影响性能的情况下，共享具有隐私和安全性的虚拟资源。这要归功于经过优化的NVIDIA BlueField DPU可以执行安全、虚拟化和其他数据处理任务。

该系统使用 320 个连接在 HDR 200G Infiniband 网络上的 A100 GPU，为学术研究以及探索科学和医学前沿的商业合作伙伴加速模拟、人工智能和数据分析。

TOP500 榜单新秀采用 AI

榜单上许多由 NVIDIA 提供动力支持的新系统，凸显了 AI 对于科研和商业用户的高性能计算应用的重要性不断提升。

国家能源研究科学计算中心（NERSC）的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5，部分归功于其 6，144 个 A100 GPU。

该系统在最新版本的 HPL-AI 上提供了超过一半的 exaflops 性能。它是融合 HPC 和 AI 工作负载的新兴基准，它使用混合精度数学——深度学习和许多科学和商业工作的基础——同时仍然提供双精度数学的完全准确性。

AI 性能变得越来越重要，因为 AI 是 “美国能源部的一个增长领域，其可行性已被验证，正在计划投入生产，” NERSC 数据和分析服务组代理负责人 Wahid Bhimji 表示。

HiPerGator AI 以 17.20 petaflops 排名第 22 位，在 Green500 榜单中排名第 2，使其成为世界上最节能的学术超级计算机。它与 Green500 的榜首位置相差甚远——仅为 0.18 Gflops/Watt。

与最新名单上的其他 12 款系统一样，该系统采用了 NVIDIA DGX SuperPOD 的模块化架构，这一配置让佛罗里达大学能够快速部署世界上最强大的学术 AI 超级计算机之一。该系统还使其成为领先的AI大学，其既定目标是在2030 年前有 30，000 名AI相关专业的毕业生。

卢森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。该系统是首批在欧洲国家超级计算机网络中亮相的首个系统，，将用于在科研和商业应用中运用 AI 和数据分析。

Cambridge-1 在 500 强中排名第 42 位，达到 9.68 Linpack petaflops，成为英国最强大的系统，将为包括阿斯利康（AstraZeneca）、葛兰素史克（GSK）和Oxford Nanopore在内的学术和商业组织的英国医疗保健研究人员提供服务。

BerzeLiUs 以 5.25 petaflops 排名第 83，成为瑞典最快的系统。BerzeLiUs在 200G 的 InfiniBand 网络上连接了 60 个 NVIDIA DGX 系统，将HPC、AI 和数据分析用于学术和商业研究。是榜单上15个基于NVIDIA DGX的其中一个。

10 大系统助推 HPL-AI 采用

另一个迹象表明，AI 工作负载的重要性日益增加，榜单上有 10 个系统报告其 HPL-AI 得分是去年 6 月的 5 倍。大多数系统采用了 3 月发布的针对代码的重大优化，这是自田纳西大学的研究人员在 2018 年底发布该基准以来的首次升级。

新软件简化了通信，实现了 GPU 间链路，从而消除了等待主机 CPU 的时间。它还以 16 位代码的形式实现通信，而不是在Linpack 上默认使用的较慢的 32 位代码。

Azzam Haidar Ahmad 称：“我们将芯片间通信的时间减少了一半，并使其他一些工作负载能够并行运行，因此新代码相较于原代码平均改进了约 2.7 倍”。他帮助定义了该基准，现在是 NVIDIA 的高级工程师。

该基准测试虽然专注于混合精度数学计算，但仍然提供与 Linpack 相同的 64 位精度，这要归功于 HPL-AI 的一种循环方法，它能迅速优化一些计算。

Summit 的 HPL-AI 得分超过 1 Exaflop

经过优化后，与去年使用早期版本的代码所报告的得分相比，现在的得分大大高于基准线。

例如，橡树岭国家实验室（Oak Ridge National Lab，ORNL）的 Summit 超级计算机是第一台采用 HPL-AI 基准的超级计算机，其在 2019 年宣布使用第一版代码的得分为 445 Petaflop。今年峰会上的测试使用最新版本的 HPL-AI 测试，得分达到 1.15 Exaflops。

采用该基准的其他超级计算机包括日本的 Fugaku（世界上最快的系统）、NVIDIA 的 Selene（世界上最快的商业系统）和德国的最强超级计算机 Juwels。

于利希超算中心（Jülich Supercomputing Center）主任 Thomas Lippert 称：“我们使用 HPL-AI 基准，因为它能很好地衡量我们日益增多的 AI 和科研工作负载中的混合精度作业，而且能反映准确的 64 位浮点运算结果。”

编辑：jq

打开APP阅读更多精彩内容