NVIDIA TensorRT LLM 1.0推理框架正式上线

NVIDIA英伟达企业解决方案 2025-10-21 872

描述

TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架，核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标，其构建了多维度的核心实现路径：一方面，针对需部署热门开源模型的应用场景，框架已支持 GPT-OSS、DeepSeek、Llama 2 及 Llama 3 等主流模型的端到端部署；另一方面，框架将部署功能封装为可扩展的 Python 框架；同时，TensorRT LLM 还承担着推理领域新技术载体的角色，通过将前沿创新引入 LLM 推理生态，持续提升整个生态系统合作伙伴的技术能力。

TensorRT LLM 1.0 易用性优化与实现方式：TensorRT LLM 1.0 版本的核心升级聚焦于易用性提升，且针对不同角色的用户需求进行了差异化设计。为实现这些易用性目标，框架在技术层面做了多重优化：首先，支持将现有 PyTorch 模型（如 Hugging Face 生态中的建模代码）迁移至 TensorRT LLM，且优化过程可分步实施；其次，框架完全兼容 PyTorch 与 Python 生态中的调试工具，开发者可直接使用 PDB 调试或打印张量中间值等熟悉的方式排查问题；此外，新运行时采用模块化 Python 构建块设计，为核心组件定义清晰接口并提供 Python 实现；同时，框架无需提前编译或构建显式引擎，支持快速迭代参数与跨硬件切换；最后，所有功能均开源在 GitHub，开发者可直接与 NVIDIA 团队协作，通过贡献代码推动框架路线图演进。

TensorRT LLM 性能突破：评估 TensorRT LLM 的核心价值，需重点关注其在推理性能极限上的突破能力，而这一突破依赖于对全堆栈优化机会的精准把握与软硬件协同优化。从 Hopper 架构到最新的 Blackwell 架构，NVIDIA 借助大型 NVLink 域、FP4 Tensor Cores 等硬件新技术，结合框架层面的模型分解服务，实现了软硬件能力的深度协同。

针对 NVIDIA 平台的优化过程中，这种协同设计让 Hopper 到 Blackwell 两代硬件的性能实现 8 倍提升。在分析性能前沿时，需重点关注两个关键维度：一是交互性（即用户体验），具体表现为 token 在终端用户屏幕上的传播速度，直接影响用户使用时的流畅感；二是系统产能，即单位时间内系统的 token 输出量，决定了系统的服务效率。通过软硬件协同优化，TensorRT LLM 可同时改善这两个维度的表现，真正突破 LLM 推理的性能极限，推动领域发展边界。

支撑易部署易扩展的三大核心特征：TensorRT LLM 之所以能实现易部署、易扩展的特性，并持续突破性能边界，核心依赖于三类关键技术特征的支撑。

第一类特征是针对 LLM 推理中最常见操作的优化内核，包括快速注意力内核、GEMM 内核、通信内核等，这些内核以 Torch 自定义操作的形式实现模块化封装，可直接在模型前向传递过程中调用，确保核心计算环节的高效性。

第二类核心特征是提供高效运行时支持。该运行时集成了动态批处理、高级 KV Cache 重用、预测性解码、高级并行化等关键技术，能够从系统层面优化整体性能，而非局限于模型单一计算环节的提升。

第三类核心特征则是将所有技术能力封装至 Pythonic 框架中，开发者可直接在 PyTorch 环境中编写模型代码，同时通过 Python 运行时模块灵活自定义系统行为，既降低了使用门槛，又保留了足够的扩展灵活性，让不同技术背景的开发者都能高效利用框架能力。

快速启动并使用 TensorRT LLM：为帮助开发者快速启动并使用 TensorRT LLM，框架提供了三种核心交互方式。首先，通过 TRT LLM serve CLI 工具，开发者可仅用一行代码启动服务器。对于更大规模的部署场景，尤其是需要多实例编排的需求，开发者可借助 Dynamo 等工具实现高级数据中心规模优化。若开发者需要更灵活、稳定的 API 支持，框架推荐使用 LLM API。该 API 在 1.x 版本中保持接口稳定，能确保部署过程的稳定性与无缝性，同时支持各类自定义场景，无论是调整运行时参数还是集成自定义模块，都能通过 API 便捷实现，兼顾稳定性与灵活性。

打开APP阅读更多精彩内容