NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

星星科技指导员 2022-03-31 2325

描述

　　NVIDIA 发布的TensorRT 8.0 ，通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练，并通过支持稀疏性，这是引进安培 GPU 的显着更高的性能。

　　TensorRT 是一个用于高性能深度学习推理的 SDK ，包括推理优化器和运行时，提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业，下载量近 250 万次。

　　有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型，将推理时间减少到 TensorRT 7 的一半。

　　此版本的亮点包括：

　　BERT 在 1.2 毫秒内进行推断，并进行了新的 transformer 优化

　　使用量化感知训练，以 INT8 精度实现与 FP32 相当的准确性

　　引入稀疏性支持对安培 GPU 的快速推理

　　关于作者

　　About Jay Rodge

　　Jay Rodge 是 NVIDIA 的产品营销经理，负责深入学习和推理产品，推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位，主攻计算机视觉和自然语言处理。在 NVIDIA 之前，杰伊是宝马集团的人工智能研究实习生，为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑：郭婷

打开APP阅读更多精彩内容