TOPS 与现实世界的性能：AI 加速器的基准性能

juju宇哥 2022-07-14 2013

电子说

1.3w人已加入

描述

蓬勃发展的机器学习和人工智能新兴用例有望通过加速信息处理和提高决策准确性为行业创造重大价值。但机器学习模型是计算密集型、需要高频和实时 AI 分析场景，这导致企业依赖于使用每秒万亿次操作 (TOPS) 指标的性能指导。TOPS 捕捉到“加速器在一秒钟内可以提供多少数学运算？” 比较和确定给定推理任务的最佳加速器。

虽然 TOPS 是一个“容易”计算的指标，但它通常无法为实际工作负载提供可靠的性能指标。受限于加速器中乘法器和加法器的数量，该指标无法考虑处理神经网络模型的计算硬件结构。随着数据网络模型更快地处理数据，企业如何通过更快、更可靠的决策进行扩展，尤其是在边缘？

在这篇文章中，我们将回顾 TOPS、它在测量延迟方面的挑战以及它与现实世界的性能计算有何不同，并提供一种通过基准测试来计算性能的替代方法，它提供了一种更可靠的方法来解释计算硬件结构。

TOPS 作为绩效衡量标准的现实

TOPS 是一个简化指标：它告诉您 AI 加速器在一秒钟内可以处理多少计算操作，并且利用率为 100%。本质上，它着眼于加速器可以在很短的时间内解决多少数学运算问题。

例如，如果一个 AI 加速器提供 5 TOPS，另一个提供 15 TOPS，则推断后者比前者快三倍。但是，就像 CPU 速度的兆赫兹和千兆赫兹一样，TOPS 也失去了确定整体计算机性能的相关性。随着人们对 AI 应用的兴趣日益浓厚，最新的 AI 加速器可以比简单的算术更快地处理数据，并且更复杂。

然而，TOPS 很少准确地捕捉到 AI 处理器在整个硬件设备中的重要性。如今，相机、边缘服务器和计算机中的 AI 处理器通常是决定计算能力和能源效率的关键组件之一。事实上，TOPS 未能考虑到现实世界的工作量。通常，由于诸如空闲计算机单元等待来自内存的数据、加速器不同部分之间的同步开销和控制开销等因素，实际性能可能会显着低于 TOPS 值。根据加速器的架构和工作负载特性，

更高的 TOPS 不等于更高的性能

虽然较高的 TOPS 值可以表示具有更多计算元素的更大 AI 加速器，但现实情况可能恰恰相反。更高的 TOPS 通常会导致更大的加速器具有更多的计算元素和内存块，以将数据馈送到这些计算单元，这会导致更高的成本和功耗。另一方面，高效的加速器使用较少数量的计算资源提供更高的性能，因此 TOPS 评级较低。最终，理想的 AI 加速器是使用低 TOPS 提供高性能的加速器。

TOPS 不包括所有计算类型

TOPS 指标考虑了加速器的乘法器和加法器，这通常会导致性能指标不准确，因为加速器可以拥有除此之外的其他计算资源。例如，Kinara 的架构采用归约树而不是加法器阵列，从而显着降低能耗。由于在此计算中未捕获归约树的计算能力，TOPS 指标将不够准确。ResNet50、MobileNet V1 和 YOLO_v3 等标准神经网络在比较不同的加速器时非常有用，因为它们也可以用作“猜测”给定加速器是否能够满足开发人员自身工作负载需求的代理。

推理延迟是评估 AI 加速器性能的指标

对于在 Edge AI 上进行投资的企业，通过基准测试计算性能提供了一种可靠的方法来计算计算硬件结构与 TOPS。由于大多数实际应用程序需要极快的推理时间，因此衡量性能的最佳方法是运行特定的工作负载，通常是 ResNet-50、EfficientDet、Transformer 或自定义模型，以了解加速器的效率。使用不同类型、大小、拓扑和输入分辨率的网络进行实时处理，可以得出推理延迟度量。该指标计算加速器完成一个特定 AI 模型的干扰的执行时间。

随着 AI 工作负载及其支持计算架构的发展，通过准确的性能测量确保其可预测性具有重大影响，可以引导开发人员做出更优化的决策。通过使用推理延迟计算，它有助于处理和预测现代 AI 工作负载中的数据流，即使这些工作负载碎片化并且新架构的发展导致更多的不可预测性。最终，基准测试应用程序提供了一种可信且更可靠的 TOPS 替代方案，而 AI 加速器支持更有效的评估。

审核编辑黄昊宇

打开APP阅读更多精彩内容