NVIDIA赢得四项最新行业指标

描述

在五项新的行业指标中,NVIDIA 赢得了其中的四项。这些指标聚焦于AI在高性能计算中的应用,是一种推动科学和行业进步的方法。

MLPerf HPC 1.0 是用于衡量高性能计算中 AI 性能的行业基准测试,而 NVIDIA 赋能的系统在该基准的五项测试中胜出四项。

MLPerf 是用于深度学习的行业基准测试,首次发布于 2018 年 5 月。上述战绩是 MLPerf 基准测试的最新结果。MLPerf HPC 解决了一种计算方式,可借助 AI 加速并增强超级计算机上的模拟。

分子动力学、天文学和气候模拟的近期进展都使用 HPC+AI 取得了科学突破。这种趋势可以推动科学和工业领域用户采用E级(Exascale) AI。

基准测试衡量内容

MLPerf HPC 1.0 在 HPC 中心的三个典型工作负载中测试 AI 模型训练。

Cosmoflow 判断望远镜图像中物体的细节。

Deepcam 测试对气候数据中飓风和大气河流的检测。

Opencatalyst 跟踪系统预测分子中原子间力的成效。

每个测试分为两个部分。衡量系统训练模型的速度的指标被称为强标度。其对应的弱标度是衡量系统最大吞吐量的指标,即系统在给定时间内可以训练多少模型。

与去年 MLPerf 0.7 那一轮的强标度最佳成绩相比,NVIDIA 为 Cosmoflow 性能提升了多达 5 倍。在 deepcam 方面,则将性能提高了近 7 倍以上。

劳伦斯伯克利国家实验室 (Lawrence Berkeley National Laboratory) 的 Perlmutter 系统使用了 5,120 个 NVIDIA A100 Tensor Core GPU 中的 2,048 个,在 opencatalyst基准中成绩斐然。

在弱标度类别中,NVIDIA使用每个作业 16 个节点和 256 个同时作业来主导 deepcam。NVIDIA所有的测试都在 NVIDIA Selene(如上图),即NVIDIA内部系统和大型工业超级计算机上运行。

最新结果显示 NVIDIA AI 平台及其性能领先性的另一个维度。这是 NVIDIA 第八次在 MLPerf 基准中获得最高分,该基准涵盖数据中心、云和网络边缘的 AI 训练和推理。

庞大的生态系统

本轮八名参与者中有七名使用 NVIDIA GPU 提交了结果。

其中包括德国于利希超级计算中心、瑞士国家超算中心,以及美国的阿贡国家实验室、劳伦斯伯克利国家实验室、国家超级计算机应用中心和德克萨斯高级计算中心。

于利希超算中心(Jülich Supercomputing Centre)主任 Thomas Lippert 表示:“通过基准测试,我们已经证明我们的机器能够在实践中发挥其潜力,并有助于让欧洲在 AI 方面保持领先。”

MLPerf 基准由 MLCommons 提供支持。后者是由阿里巴巴、Google、英特尔、Meta、NVIDIA 等牵头的行业组织。

我们的实现方式

如此强劲的表现都得益于 NVIDIA AI 平台的成熟发展。该平台目前已包括完整的软件堆栈。

在这一轮中,NVIDIA使用每个人都可以使用的工具来调整代码,例如可以加速数据处理的 NVIDIA DALI 和能够减少小批量延迟的 CUDA Graphs,追踪将横向扩展到 1,024 个或更多个 GPU。此外还应用了 NVIDIA SHARP,这是 NVIDIA MagnumIO 中的一个关键组件,可提供网络计算以加速通信并将数据操作卸载到 NVIDIA Quantum InfiniBand 交换机网络。

NVIDIA用于提交作品的所有软件均可从 MLPerf 仓库获得。NVIDIA定期将此类代码添加到 NGC 目录。该目录是NVIDIA预训练 AI 模型、行业应用程序框架、GPU 应用程序和其他软件资源的软件中心。

责任编辑:haq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分