当人工智能推理模型不确定时，计算环境应该是什么样子？

8L2m_SSDFans 2022-10-26 481

人工智能

636人已加入

描述

将人工智能（AI）应用到许多复杂的应用程序中正在成为一种新趋势。在某种意义上，这些应用程序需要大量的人工智能推理操作，但很少有架构师能够准确地说出这些操作将做什么。自动驾驶可能是最好的例子，改进的人工智能模型研究正以疯狂的速度进行。当人工智能推理模型不确定时，计算环境应该是什么样子？

软件增加了人工智能推理的灵活性，但要付出代价

面对不确定性，一个熟悉的反应是选择可编程性软件。这种动态主导了几代人的大规模CPU内核开发。更快的处理器首次亮相，程序员编写更多的软件，直到它占用所有新开发的容量，然后又一轮更快的处理器出现。但是，在人工智能推理中，庞大的CPU内核与细粒度的并行工作负载之间存在不匹配，效率低下变得势不可挡。

然后GPU出现在AI推理工作中，有许多更小的并行内核和多线程。从表面上看，扩展快速GPU内核的软件可编程领域似乎更适合细粒度推理工作负载。如果有一个基于GPU的硬件机架的空间，则可以在系统中装入大量TOPS。但更大的GPU开始以次优互连和内存访问的形式为AI推理提出其他问题。硬件利用率不高，确定性和延迟值得怀疑。功耗和冷却也朝着错误的方向发展。

硬件可以围绕已知的工作负载进行优化

如果这听起来像是工作负载优化的定制SoC，那是因为它确实如此。设计高性能执行单元，优化内存访问和互连，并围绕运行AI推理模型来组织它们。

我们看到现成的AI推理SoC层出不穷——主要针对一类特定的AI推理问题。有一些SoC设计用于运行YOLO模型进行面部识别。还有些优化了辅助驾驶功能，如车道保持或紧急制动。人工智能推理在制药研究等领域也开始受到重视。如果人工智能推理模型定义明确，则可以实现硬件工作负载的优化。

但不同的AI推理模型并不以相同的方式映射到层或执行单元。围绕一个模型优化硬件对于其他模型可能是完全低效的。更糟糕的是，一些更复杂的问题需要在同时运行不同类型的人工智能推理模型。

过于严格地细分定制SoC可能会导致锁定，可能会妨碍增强的AI推理模型在不重新设计硬件的情况下有效运行。对于一个生命周期较长的项目来说，这是一个可怕的消息，因为在这个项目中，突破性的人工智能推理创新尚未出现。如果定制SoC上的容量太低，也不利于投资回报。

需要快速、可编程的人工智能推理硬件

一些IP供应商正在研究可重构AI推理引擎的细节，以提高利用率和效率。大多数都是在共同设计的前提下进行的，在这个前提下，我们可以查看手头的人工智能推理模型，然后决定如何配置引擎以最佳地运行它们。

总而言之，当我们开始项目时，我们不知道最佳硬件解决方案是什么样子。我们需要一个平台来快速探索IP的组合，并相应地改变设计，可能在开发过程中多次改变。我们必须迅速做出反应，跟上新研究中最先进的人工智能推理方法。此外，如果我们要定制SoC，我们需要在使用芯片之前先使用一个廉价的软件开发平台。

在考虑设计一个工作负载优化的SoC之前，或者甚至在容量较低的情况下考虑一个SoC，我们应该考虑一个基于FPGA的解决方案。应用程序可能依赖于当前不断变化的人工智能推理模型这一事实强化了这种选择。

在此背景下，Achronix VectorPath加速卡与BittWare联合设计，现已全面上市。它搭载Achronix Speedster 7t1500 FPGA，其独特的多可分解MAC阵列与高性能LRAM和BRAM相匹配。这种设计的大部分注意力都集中在其用于高频交易等应用的炽热以太网连接上。它也是一个86 TOPS引擎，具有用于优化IP互连的二维NoC，以及到GDDR6内存的4 TB带宽。传感器数据可以通过这些以太网端口或MCIO通道以PCIe Gen5数据速率或GPIO上的传统接口传输。

简而言之，它是一个强大的人工智能推理平台，无论是从第三方IP开始还是内部设计。它凭借其PCIe外形尺寸轻松融入主机系统。

审核编辑：刘清

打开APP阅读更多精彩内容