通过稀疏性支持和变压器优化增强AI推理

星星科技指导员 2022-10-18 443

描述

　　英伟达张量RT 8 概述

　　NVIDIA 张量RT 是一个高性能推理平台，对于利用 NVIDIA 张量核心 GPU 的强大功能至关重要。TensorRT 8 是一个具有增强功能的软件开发工具包，旨在提高性能和准确性，以应对边缘和嵌入式设备中发生的越来越多的 AI 推理。它允许对张量流和PyTorch神经网络进行广泛的计算推断。

　　与仅 CPU 平台相比，TensorRT 可提供高达 40 倍的吞吐量，同时最大限度地减少延迟。它允许您从任何框架开始，并在生产中快速优化、验证和部署经过训练的神经网络。

　　新版本在 NVIDIA 安培 GPU 上集成了稀疏性，可修剪对网络整体计算无贡献的弱连接。此外，张量RT 8 支持变压器优化和 BERT 大。变压器优化可提高性能，而量化感知训练可提高准确性。

　　英伟达的张量RT 8 有什么新功能？

　　推理的目的是在训练阶段尽可能多地保持准确性。训练的模型可以在硬件设备上运行，以获得客户的最低响应时间和最大的吞吐量。但是，尽可能精确的必要性有时可能与边缘可用的内存量和吞吐量发生冲突。训练有素、高度准确的模型可能运行速度太慢。

　　因此，TensorRT版本8结合了深度学习推理或训练的神经网络模型应用的最新进展，以理解数据如何影响响应。它使用两个主要功能将语言查询推理时间减少一半：

　　英伟达安培架构的稀疏性

　　深度神经网络擅长各种任务，如计算机视觉、语音识别和自然语言处理。随着处理这些神经网络所需的计算能力的增加，高效的建模和计算变得越来越重要。

　　稀疏是采用 NVIDIA 安培架构的 GPU 的一种全新性能方法，通过减少计算流程来提高开发人员的效率。深度学习模型的其他方面不如其他方面重要，有些甚至可能为零。因此，神经网络不需要对特定权重或参数进行计算。因此，NVIDIA 可以通过使用稀疏性将模型的权重减少近一半来增强性能、吞吐量和延迟。

　　通过变压器优化减少推理计算

　　在张量RT 8中，性能增强是通过变压器优化实现的。量化开发人员可以利用训练的模型通过 8 位计算（INT8）执行推理。这大大减少了张量核心中的推理计算和存储。INT8 越来越多地用于优化机器学习框架，如张量流和 NVIDIA 的张量压缩包，以减少内存和计算需求。因此，NVIDIA可以在张量RT 8上提供非常高的性能，同时保持准确性。

　　例如，量化感知训练（QAT）有可能将准确性提高一倍。因此，与旧版本张量RT 7相比，张量RT 8可以将许多模型的性能提高一倍。

　　张量RT部署在众多行业中

　　TensorRT更好的性能和准确性使其成为医疗保健，汽车，互联网/电信服务，金融服务和零售等行业的热门选择。例如，张量RT用于为GE医疗保健的心血管超声系统提供动力。数字诊断解决方案提供商使用该技术在其 Vivid E95 扫描器上加速了自动心脏视图检测。心脏病专家可以通过使用改进的视图检测算法，在早期阶段做出更准确的诊断和检测疾病。此外，TensorRT还被Verizon，福特，美国邮政服务，美国运通和其他知名公司使用。

　　随着张量RT 8的发布，NVIDIA还推出了使用张量RT的Google BERT大推理的突破，来自变形金刚的双向编码器表示（BERT）是一种基于变压器的机器学习技术，用于预训练自然语言处理。BERT-Large 模型只需 1.2 毫秒进行分析，从而可以实时响应自然语言查询。这意味着公司可以将其模型的尺寸增加一倍或三倍，以提高准确性。

　　像 BERT-Large 这样的语言模型被许多推理服务在幕后使用。另一方面，基于语言的应用程序通常无法识别细微差别或情感，从而导致整体糟糕的体验。现在，公司可以使用张量RT 8在几毫秒内部署整个工作流程。这些突破可以为新一代对话式AI应用程序铺平道路，为用户提供更智能、更低的延迟体验。

　　审核编辑：郭婷

打开APP阅读更多精彩内容