NVIDIA RTX PRO 5000 Blackwell 基于突破性的 NVIDIA Blackwell 架构构建,并配备 48GB 或 72GB 超高速 GDDR7 内存,有助于加速 AI 开发、LLM 推理和生成式 AI 工作流。
本文针对 NVIDIA RTX PRO 5000 Blackwell(多卡系统)进行了全面性能评估测试 ,涵盖硬件规格、显存带宽、PCIe 带宽、P2P 带宽、Tensor Core 各精度算力,以及实际 LLM 推理性能等多个维度。
核心亮点
低精度算力表现强劲:NVFP4 稠密模式下,单卡峰值算力接近 960 TFLOPS
带宽性能表现优秀:显存实测带宽效率达 83%,P2P 同域带宽达 52 GB/s
RTX PRO 5000 Blackwell 48GB 对比 RTX PRO 5000 Blackwell 72GB:硬件算力/带宽几乎一致,但 RTX PRO 5000 Blackwell 72GB 在 MoE 模型、高并发以及长上下文场景下展现显著优势
应用场景:RTX PRO 5000 Blackwell 48GB 适合高性价比稠密模型部署,RTX PRO 5000 Blackwell 72GB 更适合复杂 MoE 与高负载生产环境
GPU 硬件规格

测试环境
硬件环境

软件环境

一、基础带宽测试
1.1 显存带宽
测试结果:GDDR7 显存在大块数据传输场景下表现良好,RTX PRO 5000 Blackwell 48GB 与 RTX PRO 5000 Blackwell 72GB 版本带宽无显著差异。

1.2 PCIe 带宽

二、GPU 间 P2P 通信能力
2.1 GPU 拓扑结构

2.2 GPU P2P 通信能力矩阵
注: GPU 自身不能 P2P 访问自己(✗), 但所有其他 GPU 间均可互相访问(✓)

2.3 P2P 带宽矩阵 (Copy Engine Read, GB/s)
测试结果:
张量并行(TP)优先采用同域部署,可显著降低通信开销。
同 NUMA 域:~52 GB/s
跨 NUMA 域:~36-38 GB/s
同域双向峰值:~103 GB/s
多卡总聚合 P2P 带宽:~2,470 GB/s

三、Tensor Core 多精度算力测试


注:NVFP4 性能随矩阵规模变化,NVFP4 需使用 b12x 库进行测试(cuBLAS暂不支持sm_120 NVFP4)。在大矩阵规模(≥8192×8192)场景下,性能最优。
四、LLM 推理性能
4.1 vLLM NVFP4 推理性能
NVFP4 是 NVIDIA 在新一代 AI 架构中重点推动的超低精度计算格式,本质上是一种 4-bit 浮点运算能力。它主要面向大模型推理场景,尤其适用于超大参数模型部署、多用户并发推理以及 Agent 推理系统。由于数据位宽只有 BF16 的四分之一,NVFP4 能够显著降低显存占用、提升 Tensor Core 吞吐率,并减少 GPU 间的数据传输压力。在相同 GPU 显存条件下,NVFP4 可以部署更大的模型,或者支持更高的并发请求数量。

测试结果:
RTX PRO 5000 Blackwell 48GB与 RTX PRO 5000 Blackwell 72GB 在 NVFP4 精度下算力相同,吞吐量基本持平(差异 < 5%)
RTX PRO 5000 Blackwell 72GB 最优配置: TP=4 c=32 (986 t/s),RTX PRO 5000 Blackwell 48GB 上 TP=4 与 TP=8 的性能表现较为接近
TP=4 跨 NUMA 通信开销更小:TP=4 仅用 GPU 0-3(同 NUMA Node 0,P2P 52 GB/s),TP=8 需跨 NUMA(36-38 GB/s),RTX PRO 5000 Blackwell 72GB 在 TP=8 配置下的吞吐量下降 5.6%
注:RTX PRO 5000 Blackwell 72GB 在 Prefill 阶段优势更明显
4.2 vLLM BF16 推理性能
BF16 是目前大模型训练中最主流的高精度格式之一,它采用 16 位浮点结构,拥有与 FP32 相同的 8 位指数位,因此能够保留较大的数值动态范围。相比 FP16,BF16 更不容易在训练过程中出现梯度溢出或数值不稳定的问题,因此被广泛应用于 GPT、Llama、DeepSeek 等大模型的预训练与微调阶段。对于数据中心来说,BF16 可以在保证训练稳定性的同时,大幅降低显存占用与带宽压力,是当前 AI 训练集群的“标准工作精度”。

测试结果:
RTX PRO 5000 Blackwell 48GB 与 RTX PRO 5000 Blackwell 72GB 在 BF16 精度下的吞吐量持平(TP=4 +1%,TP=8 +0.8%),与两者硬件算力基本一致
RTX PRO 5000 Blackwell 72GB 在 TTFT(Time to First Token,首 token 生成时间)方面表现更优:TP=4 52ms vs 89ms(快 42%),TP=8 41ms vs 58ms(快 29%)
五、选型建议

六、丽台软硬一体 AI 算力全栈解决方案
丽台科技可提供全生命周期专业技术服务,覆盖规划设计、部署实施及运维管理全链条。以成熟可靠的交付能力和精细化实施标准,为客户打造稳定、高效、可持续扩展的算力基础设施,助力企业从容应对数字化与智能化转型挑战。
同时,丽台科技将持续紧跟人工智能前沿趋势,深度融合最新一代 GPU 加速技术、高性能存储方案以及先进高速网络通信架构,全面提升智算集群的计算性能、数据吞吐能力和系统协同效率,为大模型训练、推理及高性能 AI 应用提供强劲、稳定且持久的算力支撑。

*本文在测评过程中引入 AI Agent 工具,为相关测试提供辅助支持。
全部0条评论
快来发表一下你的评论吧 !