在 GTC 台北,NVIDIA 与超过 80 家 NVIDIA MGX 合作伙伴,共同推进模块化、MGX 就绪的 AI 工厂基础设施建设,其范围涵盖了系统、电源和冷却等核心领域。
AI 工厂正成为智能体 AI 的核心引擎,而推理模型、长上下文推理以及 AI 之间的协同工作流,要求在生产级规模下具备更高的性能、效率和弹性。
为帮助基础设施建设者从容应对这些需求,NVIDIA 正进一步扩展其面向 AI 工厂的开放模块化参考架构——NVIDIA MGX。此次扩展包括面向 NVIDIA Vera Rubin 平台的第三代 MGX 机架设计,兼容 MGX 的 800 伏直流电 (VDC) 供电基础设施,以及日益壮大的全球生态系统。
AI 工厂的模块化基础架构
MGX 覆盖从单节点服务器、机架级系统、POD 级部署,到完整数据中心基础设施的各个层级,为制造商提供统一的基础架构,让他们能够以更少的工程投入、更快地构建加速计算系统。
该架构支持基于 Arm 和 x86 系统,采用 PCIe 等开放标准,并经过专门设计,可在当前及未来几代 GPU、CPU、DPU 和网络技术之间保持兼容。NVIDIA 还已将 MGX 机架级设计贡献给开放计算项目 (OCP),以推动其在整个数据中心行业的广泛普及和应用。
Vera Rubin 引领 MGX 迈入机架级时代
NVIDIA 同日宣布,NVIDIA Vera Rubin 已全面投产。该平台依托 MGX 架构,交付五款专为现代智能体 AI 工作负载而设计的机架级系统。
第三代 MGX 机架架构将模块化、无缆线、无软管和无风扇的计算托盘和 NVIDIA NVLink 交换机托盘相结合,具备动态功率分配、智能功率平滑技术,并采用100% 液冷设计,专为 45 摄氏度温水进水温度工程化打造。
这些机架级的技术突破也与 NVIDIA DSX 平台高度契合。DSX 是一个面向 AI 工厂级规模的设计、仿真和运营平台。MGX 为纵向扩展机架域和解耦推理架构提供了统一的物理基础;而 DSX 的参考设计、仿真技术和运营软件,则帮助建设者在计算、网络、存储、电源、冷却和控制等全方位维度上,规划、验证并运营完整的 AI 工厂。
800 VDC为 AI 工厂提供升级路径
随着 AI 工厂规模的不断扩大,运营商们迫切需要在保持现有物理空间和电力容量的前提下,大幅提升算力性能。
NVIDIA 800 VDC 供电架构通过减少电流转换环节,将直流电输送到更靠近机架的位置,并支持更高密度的加速计算,有效应对这一转变。
对于现有或正在建设的、基于交流电 (AC) 配电系统的设施,兼容 MGX 的 800 VDC 电源机架提供了一种实用的桥梁,可实现混合 AC 与 800 VDC 设计的无缝衔接。这一升级路径有助于保护当前在土地、电力和建筑外壳方面的既有投资,同时为 AI 工厂迎接未来的机架级计算能力做好准备。
在 NVIDIA Vera Rubin NVL72 系统中,”智能功率平滑“功能有助于缓冲由大型、同步的 AI 工作负载所产生的剧烈负载波动。随着 AI 工厂规模的不断扩大,这一能力有效应对了电力输送领域日益严峻的挑战。欲深入了解这项工作的稳电原理,请参阅这篇论文。
NVIDIA 合作伙伴将模块化设计落地为实际部署
在 COMPUTEX 期间举办的 GTC 台北大会上,NVIDIA 的合作伙伴生态系统贯穿了整个 AI 工厂的技术栈。从全球系统制造商、平台构建者到电源密度和散热合作伙伴,整个生态系统正在打造兼容 MGX 的系统,帮助客户在全球范围内大规模部署全栈式 AI 工厂解决方案。
总而言之,MGX 生态系统正在将模块化设计转化为真正落地的 AI 基础设施。这使客户能够采用开放架构,享受广泛的供应链灵活性,并获得支撑下一代 AI 工厂的全套 NVIDIA 软件栈。
全部0条评论
快来发表一下你的评论吧 !