在高速、DSP密集型系统设计中使用FPGA将功耗降至最低

KOKOKO123 2022-07-12 2153

可编程逻辑

1396人已加入

描述

降低功耗对于高速、DSP 密集型系统设计越来越重要。例如，在通信系统中，通信必须在周期性突发中启用，从而消除放大器和系统其余部分的恒定功率使用。在传感器网络中，要求是定期关闭有源传感器（即，用于交通图像或天气传感器），或将其打开（即，在发生地震时），并在返回设备之前突发上传信息进入睡眠模式。在通常具有相对较低的采样率的医疗监测设备中，需要低功耗特性来实现周期性操作，作为将功耗降至最低的一种手段，手持便携式解决方案也是如此。

对于功耗敏感的 DSP 密集型系统设计，设计人员不仅必须提供最低的静态功耗，还必须关注尽可能低的总功耗，尤其是在高频和高温下。现场可编程门阵列（FPGA）通过全面降低功耗的方法来实现这一目标。这种方法包括工艺技术、架构和可配置逻辑的设计，以及包括 SERDES、DDR2/3 和 DSP 模块在内的嵌入式功能，并包含进一步降低功耗的特殊功耗模式，甚至低于静态功率。本文重点介绍 FPGA 技术的发展，以解决低功耗 DSP 密集型系统设计的 DSP 挑战。

FPGA演进

在过去的二十年中，许多先进的 CPU 和 MCU 构建了各种省电模式，以解决 DSP 密集型设计中更高频率和更高集成度所带来的功耗挑战。只有最先进的 FPGA 才能提供类似的高级低功耗功能，同时支持更高频率的设备。直到最近，FPGA 才面世，解决了早期基于 SRAM 的解决方案的泄漏问题，同时还提供了对低功耗模式的访问，以实现额外的节能功能。

一般来说，三个功率组件在总功耗中发挥着重要作用，因为它与 FPGA 功率预算相关：静态功率、动态功率和浪涌功率。必须有效管理这三个组件以实现最低功耗。

管理这些组件需要固有的低泄漏电流——如果 FPGA 要支持 DSP 密集型设计的功率要求，这是一个重要属性。与使用 SRAM 单元的 FPGA 相比，基于闪存的 FPGA 解决方案在这方面具有优势，因为基于闪存的 FPGA 使用单个晶体管（而不是六个）构建，并且配置和浪涌（上电期间）功率均为零。SRAM FPGA 在未配置状态下上电，需要完成初始上电和复位序列。起初，各种配置位处于未知状态，需要在每次上电时进行初始化。因此，会产生电流浪涌，该浪涌可能会在几百微秒内产生高达数安培的尖峰，从而导致电源涌入（参见图 1）。

图 1：在设备启动和配置基于闪存的 FPGA 时消除了数百毫瓦（mW）的功率。为了避免大电流尖峰，SRAM FPGA 需要复杂的电源排序，增加了组件成本和空间。

FPGA

为了减轻这种电流尖峰，许多 SRAM FPGA 为系统增加了复杂的电源排序要求。另一方面，基于非易失性闪存的 FPGA 不需要外部配置设备来实现可重编程性，从而消除了设备启动时的数百毫瓦（mW）以及对外部设备进行缓解的需求。在某些情况下，与基于 SRAM 的解决方案相比，基于闪存的 FPGA 可以提供比基于 SRAM 的解决方案低 1，000 倍的每个单元的泄漏，同时具有超低静态电流和无需外部设备进行缓解的优势。

除了基于闪存的 FPGA 固有的低功耗要求外，还可以利用其他特性来进一步降低功耗。当今基于闪存的 FPGA 将硬核 IP 块和 FPGA 结合在一个芯片上，并将该 FPGA 与全功能微控制器系统、增强的 FPGA 结构以及高速串行和存储器接口集成在一起。其他注重功耗的功能和其他功能包括：

SERDES 增强功能：最新的 FPGA 将每个 SERDES 通道的每 Gbps 功率降低至低至 13mW，与具有类似功能的其他成本优化 FPGA 解决方案相比，可降低多达 5 倍。

在更小的设备中集成许多不同的硬核 IP 和其他资源：通过包含更多 I/O、收发器、PCI Express 端点和高性能内存子系统，可以在更小、更低功耗的设备中提供更多功能。

嵌入式 RAM 和数学块：闪存 FPGA 包括用于密集 DSP 应用的内置硬 RAM 块和数学块。此外，这些模块以高性能水平提供低功耗。

具有固有低功耗的嵌入式处理器子系统：一些子系统提供多种低功耗模式，包括睡眠模式和深度睡眠模式。使用低功耗模式可以快速停止和启动 FPGA 架构和相关 I/O，同时保留 FPGA 架构的状态并显着降低功耗。进入睡眠模式大约需要 100 微秒，退出大约需要 100 微秒。在此期间，FPGA 的状态得以保持，以便在退出时，设备继续从其停止的位置运行。

使用额外的工具来最小化功耗：用户可以通过使用各种工具来计算功耗曲线以及智能布局规划和功耗优化布局和布线，从而进一步优化他们的设计以降低功耗。

所有这些降低功耗的特性和功能在高速、DSP 密集型系统设计中尤为重要。

DSP设计的挑战

DSP 密集型系统设计需要复杂的算术计算、高内存带宽要求以及具有动态重新配置的高速串行传输。这些要求在高性能水平上消耗大量功率。新一代 FPGA 必须能够以尽可能低的功耗满足这些要求，并且不会影响性能。DSP 系统设计人员在其设计中使用了许多不同的构建模块（乘法器、存储器、收发器等），并且根据所使用的 FPGA，不同系统架构实现的功耗可能存在显着差异。

所有 FPGA 都将硬乘法器作为基本计算单元，并且在整个系统功率预算内的总功率中发挥着至关重要的作用。为了研究这一点，Microsemi 对具有不同架构的有限脉冲响应（FIR）滤波器进行了研究，并根据乘法器数量与工作频率的关系分析了每个滤波器的功耗。

FIR 滤波器是一种 DSP 模块，经常用于去除不需要的噪声，同时提高信号质量，或在各种应用中调整信号频谱。有几种 FIR 滤波器架构，包括转置和收缩（有或没有对称性）。这两种架构中的每一种都具有与总初始延迟、DSP 模块数量、吞吐量或性能以及流水线寄存器数量相关的特殊特性。两种架构之间的差异如图 4 所示，它显示了转置和收缩 16-Tap FIR 的对称版本。

图 4：对称转置和收缩 16-Tap FIR 中使用的架构比较。

FPGA

总结一下两种架构的区别，脉动架构使用流水线阶段，减少输入扇出以增加操作频率；但与此同时，N-Tap 收缩 FIR 的初始延迟为（2*N -2）个周期。相比之下，虽然转置架构以较低的频率运行，但它们的初始延迟更好（N-1 个周期）并且它们使用的顺序资源更少。这些架构还有其他问题需要考虑。最重要的因素之一是滤波器的稳定性，特别是当有大量抽头并且必须考虑加权特征时。例如，在需要回声消除的语音处理应用中，在存在大部分回声的近端，权重需要更高，而在回声较少的后面的滤波器抽头上的权重需要更低。

FPGA 功耗可能会因使用的架构而有很大差异。在一项研究中，使用了功耗估计工具，并在不同温度下对 32、64 和 128 抽头转置 FIR 实现的 FPGA 开发套件进行了实际硅测量。研究表明，如果设计和实施得当，FPGA 可以显着降低功耗。此外，这些节省在较低频率和高温下更为显着。另一个重要发现是，对于性能最好的 FPGA，功耗与抽头数量成线性关系。换句话说，当抽头数量较少时，一些性能较差的 FPGA 的功耗数据更差，而在另一些情况下，当抽头数量较多时，功耗数据更差。这可能是由于架构问题。

图 5：来自不同 FPGA 供应商的 32、64、128 抽头 FIR 总功率值。

FPGA

结论

当今以 DSP 为中心的系统设计面临着越来越大的压力，需要在各种应用中最大限度地降低功耗。通过降低总功耗而不仅仅是静态功耗，当今基于闪存的 FPGA 技术在实现下一代高速、DSP 密集型系统设计方面发挥着关键作用，这些设计必须以不断缩小的外形尺寸提供高算法性能和最低可能的功耗。

作者：Govind Krishnan，Hichem Belhadj ，Madhubabu Anumukonda

审核编辑：郭婷

打开APP阅读更多精彩内容