NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

描述

  NVIDIA 发布的TensorRT 8.0 ,通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。

  TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。

  有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。

  此版本的亮点包括:

  BERT 在 1.2 毫秒内进行推断,并进行了新的 transformer 优化

  使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性

  引入稀疏性支持对安培 GPU 的快速推理

  关于作者

  About Jay Rodge

  Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。

      审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分