NVIDIA 软件生态系统的一大显著优势,在于其始终坚持持续优化。今年 8 月,NVIDIA Jetson AGX Thor 正式开售,与上一代产品 Jetson AGX Orin 相比,生成式 AI 性能最高提升至 5 倍。通过发布后的软件更新优化,Jetson Thor 的生成式 AI 吞吐量提升至 7 倍。开发者可以在 Llama、DeepSeek 等模型上体验到性能的提升,未来推出的新模型预计也能带来类似的优势。除了持续优化软件外,NVIDIA 还会为主流模型提供支持,并且往往能在新模型发布后的几天内完成适配,以便开发者能够尽早尝试和测试最新的 AI 模型。
Jetson Thor 平台还支持多种主流量化格式,包括 NVIDIA Blackwell GPU 架构的新 NVFP4 格式,有助于进一步优化推理性能。该平台同时支持推测解码等新技术,为在边缘端加速生成式 AI 工作负载提供了新的途径。
本文将介绍 NVIDIA 如何通过持续优化其 Jetson 平台的软件生态系统,提升生成式 AI 的性能,并说明了实现这些性能提升的关键技术,如量化和预测性解码。
持续性软件优化:随着近期 vLLM 容器的发布,Jetson Thor 在相同模型和量化配置的情况下,性能相比 8 月底首发时提升了最高达 3.5 倍。Jetson Thor 现已支持在 vLLM 容器中运行 Eagle 3 预测性解码,进一步提升了生成式 AI 模型的性能。
借助 Jetson Thor 提升生成式 AI 性能:Jetson Thor 在边缘端生成式 AI 应用中表现出强大的性能,但要充分发挥其潜力,必须采用合适的技术方案。量化与预测解码两种关键技术能够显著加速大语言模型(LLM)和视觉语言模型(VLM)的推理过程。
量化:减小模型体积,提升推理速度。量化的核心在于降低包括权重和激活值等模型数据的数值精度。通常,会将标准的 16 位格式,如 FP16 或 BF16,转换为 8 位或 4 位等更低位的格式,这会带来两大优势:更小的显存占用和更快的内存访问速度。
预测解码:通过草稿验证解码方法提升推理速度。该技术通过结合两个模型来加速推理过程:一个快速的小型“草稿”模型和一个高精度的大型“目标”模型。该“起草和验证”过程在每个周期内生成多个 token,同时确保最终输出与目标模型独立生成的结果保持一致。其效能核心取决于接受率。接受率过低会显著增加延迟,而接受率过高则可能导致计算资源消耗上升,因此使用能够反映实际工作负载的提示进行基准测试尤为关键。
全部0条评论
快来发表一下你的评论吧 !