简单认识NVIDIA网络平台

描述

NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。

本期将为您带来更多 NVIDIA 网络平台的介绍。

以下两个知乎甄选问答将为您带来更多关于 NVIDIA Spectrum-X800 平台和 NVIDIA Quantum-X800 平台的信息!

Q:NVIDIA Spectrum-X800 平台是什么,能否详细介绍一下?

A:

NVIDIA Spectrum-X800 平台是业界第一代 800Gb/s 的以太网网络平台,包括了 NVIDIA Spectrum SN5600 800Gb/s 以太网交换机和 NVIDIA BlueField-3 SuperNIC,为多租户生成式 AI 云和大型企业级用户提供了各种至关重要的先进功能。其核心结构是交换机 + SuperNIC(超级网卡)+ LinkX + DOCA 软件开发包 + NCCL 集合通信库。

大模型的发展推动了 AI 云的爆发性增长,由于资金、经验、时间、能耗等因素的影响,很多 AI 用户选择通过云的方式解决算力问题。如何快速构建 AI 云,在云上提供高性能的算力资源,保障多用户上云和运行业务的安全性,避免多用户运行多任务时的互相干扰导致业务性能降低,是当前 AI 云提供商首要考虑的问题。NVIDIA Spectrum-X800 通过优化网络性能,加快 AI 工作负载的处理、分析和执行速度,进而缩短 AI 解决方案的开发、部署和上市时间。Spectrum-X800 专为多租户环境打造,实现了每个租户的 AI 工作负载的性能隔离,使业务性能能够持续保持在最佳状态,提升客户满意度和服务质量。

NVIDIA Spectrum-X800 平台的出现是生成式 AI 云发展的必然趋势,AI 云的出现彻底颠覆了数据中心对于网络的需求。传统的数据中心运行的任务多,但是单任务的算力需求不大,任务的耦合性不强,网络的性能对于业务的影响不大。但是大模型的出现,替代了大量的传统任务,All In AI 成为了很多云服务商和数据中心的追求目标,数据中心成为了运行少量的 AI 任务,但是每个 AI 任务的计算量都相当大,且每个计算单元之间的耦合性很强,网络决定了数据中心的性能。Spectrum-X800 平台是基于 NCCL 的全面 RoCE 端到端优化平台,涵盖了对于 AI 训练至关重要的动态路由(AR - Adaptive Routing)、可编程拥塞控制等技术和业务性能隔离技术等,可以充分发挥网络的通信效率,摆脱了以太网难扩展的桎梏,保障了云上任务的性能和安全性。

Q:大神们介绍下 NVIDIA Quantum-X800 平台?

A:

NVIDIA Quantum-X800 平台是业界第一代 800Gb/s 的端到端高性能网络平台,包括了 NVIDIA Quantum Q3400 交换机和 NVIDIA ConnectX-8 SuperNIC,它的出现,树立了 AI 专用基础设施极致性能的新标杆。其核心结构是:交换机 + SuperNIC(超级网卡)+ PCIe 交换机 + LinkX + 网络计算引擎 + NCCL 集合通信库。

大模型的发展推动着算力的不断提升,同时降低算力功耗的需求也已经变得更为苛刻。如何在提升计算性能同时,又能降低能源的消耗,更高性能的 GPU 和网络是构建新型 AI 基础设施的关键。NVIDIA Quantum-X800 平台是专为 NVIDIA Blackwell 架构产品的 Scale Out 而量身打造,为超过万亿参数级的 GPU 计算和 AI 基础设施进行了全面的优化,相比上一代计算平台实现了性能的大幅提升,同时在同等算力的前提下又实现了功耗的大幅降低。

Quantum-X800 是 Quantum-2 平台的下一代产品,在 Quantum-2 平台的基础之上,进一步提升了端口的速度、交换机端口的密度、网络计算的能力、以及在软件上和业界流行的通信框架上进行了更深层优化,单交换机可支持 144 个 800GB/s 端口,实现了 FP8 的网络计算,SuperNIC 内置 PCIe6.0 交换机,可直连 GPU 和 CPU,摆脱了 GPU 和网络之间的通信需要依赖于 CPU 或者 PCIe 交换机总线带宽的限制,大幅提升了 AI、数据处理和高性能计算的性能。

Quantum Q3400 平台可以支持 14.4TFlops 的网络计算能力(SHARPv4),是上一代交换机的 9 倍,可以卸载 GPU 和 CPU 的计算类集合通信;Connect-X800 SuperNIC 可以通过内置 PCIe6.0 交换机直接与最新的 Blackwell 架构产品互连,提供 800Gb/s 的单端口网络通信带宽,仅用两层网络交换就可以支持 10,368 卡的 800Gb/s/GPU 互连或者 13,824 卡的 400Gb/s/GPU 互连,三层网络可以支持超过 70 万张卡的 800Gb/s/GPU 互连。

NVIDIA Quantum-X800 平台实现了单端口性能的加倍,交换容量的 5 倍提升,网络计算能力的 9 倍提升,为大模型训练和生成式 AI 提供超强的性能。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分