在多个应用场合击败ASIC后现在FPGA厂商又开始瞄向了DSP阵营

杨安 2019-02-19 1063

可编程逻辑

1338人已加入

描述

经过20多年的努力后，在工艺技术进步和市场需求的推动下，“大器晚成”的FPGA终于从外围逻辑应用进入到信号处理系统核心。在多个应用场合击败ASIC后，现在FPGA厂商又开始将目光瞄向了一向是亲密战友的DSP阵营。

20亿美元的新兴高性能信号处理市场吸引了众多供应商目光。

同属可编程处理平台，尽管FPGA和DSP芯片供应商表面上惺惺相惜，但面对20亿美元的新兴高性能信号处理市场，他们的暗战已经开始。前者将DSP功能从高端FPGA平台扩展到了低成本FPGA，并加强了相关开发工具，希望在复杂算法和大量并行处理中补充甚至完全替代DSP，从DSP应用中的配角变成主角；而后者则通过集成ASIC的DSP SoC和多核DSP提升处理能力，目的也是减少FPGA和ASIC的使用，捍卫DSP的主角地位。此外，一些初创公司也在开发并行阵列处理器，宣称能在单芯片上以相对较低的时钟频率和功耗获得“前所未有的DSP性能”。

FPGA渴望“修成正果”

尽管FPGA和DSP一样拥有20多年的历史，但和DSP早早成名相比，FPGA由于成本、功耗和性能限制，一直在系统外围暗自发力，从最初用于胶合逻辑，到用于控制逻辑，再到用于数据通路，艰难地接近系统核心。传统上，FPGA被用作DSP解决方案中所需要的系统逻辑、多路处理及合并，或是多I/O接口。

进入21世纪后，FPGA终于迎来了“修成正果”、与CPU、DSP并列于系统核心的最好机会：一方面，随着90和65纳米工艺的采用，FPGA在成本、功耗和性能上大幅改善，具备成为系统核心的条件；另一方面，三网合一（Tri-play）和融合时代来临，要求复杂和大量并行处理，DSP在做并行处理时不如FPGA，这为具有强大并行处理能力的FPGA带来了需求。

正是因为如此，从90纳米开始，FPGA巨头们就争相推出面向DSP应用优化的高端FPGA平台，并在65纳米FPGA中进一步增强了DSP功能。例如，赛灵思面向DSP应用的XtremeDSP产品线包括高端的Virtex-4 SX和Virtex-5 SXT，不久前又推出了低成本Spartan-3A DSP系列，而Altera的Stratix II和Stratix III，以及65纳米低成本Cyclone III系列同样强调DSP应用。他们的高端FPGA平台，瞄准的是高端通信和视频应用，如无线基站和包括监控、广播以及3D医疗图像在内的高分辨率视频应用；低端平台则定位于大量对价格和功耗都很敏感的应用，包括微蜂窝基站、军用移动软件定义无线电、超声系统、辅助驾驶/多媒体系统、高清视频以及智能IP相机等——这些也都是传统DSP芯片看重的新兴应用。

吴晓东：在需要大量并行处理时，FPGA更优于传统DSP。

赛灵思公司中国区运营总经理吴晓东强调说：“为什么会用FPGA做DSP应用呢？DSP表示的是数字信号处理，并不代表DSP芯片，实际上数字信号处理有很多不同实现方法，可以用DSP芯片，也可以是MCU，还可以是FPGA和ASIC作数字信号处理。事实上，由于FPGA是一个天生的并行处理结构，因此在进行复杂计算时性能远远超过传统DSP芯片。”

赛灵思亚太区市场营销董事郑馨南表示，过去20年里算法复杂性快速提升是推动FPGA进入DSP应用的最重要市场动力。他以通信领域为例回顾DSP应用历史说，20世纪70年代，DSP应用的驱动力为语音频带，性能需求的数量级为“KHz”，微处理器和MCU可以满足需求；20世纪80、90年代，无线电为DSP应用驱动力，性能需求为“MHz”级，DSP独领风骚；而进入21世纪，三网合一（Tri-play）要求非常复杂的处理，只有DSP+FPGA才能够满足需求。

吴晓东进一步解释说，传统DSP芯片是实时信号处理的最佳答案，但它毕竟是一个串行结构，进行复杂运算时可能来回循环几百次，因此速度反而不是很快，单个DSP处理器很难满足5GMACS以上性能需求；而FPGA是天生的并行处理结构，包含了几百个MAC单元，因此性能远远高于传统DSP芯片，例如我们的Virtex-5 SXT FPGA在550MHz下性能可达550MSPS；而主频为1GHz的DSP性能只能达到8MSPS。他总结说：“由于FPGA可以弥补DSP芯片的不足，在信号处理系统中FPGA与DSP相得益彰。”他一再强调FPGA不是要与DSP直接竞争，“我们现在更多的还是互补的关系。”

他举例说，以前视频监控应用的通道数不多，对图像质量和实时性等也要求不高，很少有人用FPGA；但是随着监控由标清转向高清，从单通道转到八通道，从非实时转到对实时的要求，外加人脸识别和运动估计等分析功能，普通DSP就很难实现，需要多片DSP来一起处理，成本十分昂贵。而用DSP+FPGA的方式则十分完美，可以大大节省成本。其中，FPGA用于加速实时视频处理和压缩，而DSP运行实时操作系统和第三方分析软件。

对于另一个目前的大热市场，3G和WiMAX基站，他则表示可利用FPGA的并行处理能力来设计数字上下变频器，因为对于需要多载波的数字变频器，并行的FPGA是最好地选择；而DSP则适合于变频后的符号率处理。

但是，DSP厂商绝不会只满足于仅做后端的符号处理，比如TI早就推出针对数字上下变频的产品。

另一边，赛灵思实际上也并不满足于协处理器的位置。在其代理商安富利前不久举办的“安富利与赛灵思技术研讨会”上，安富利展示的一些视频应用已完全将FPGA作为主芯片，并不是协处理器来使用。作为赛灵思最主要的方案推广商，这也暗示了FPGA未来要走的路。

DSP阵营捍卫主角地位

对于来自战友的挑战，DSP厂商正在通过集成ASIC+DSP的SoC（系统级芯片）和多核DSP提升处理能力，目的也是减少FPGA和ASIC的使用，捍卫自己的主角地位。

郑小龙：DSP SoC和多核DSP可以取代DSP+FPGA/ASIC方案。

对于FPGA作为协处理器的观点，TI中国区通用DSP业务拓展经理郑小龙也表示认同，他指出：“在需要高级别并行处理的情况下FPGA是一种选择，也是FPGA最适合的场合。在高性能和多通道应用中采用DSP+FPGA往往更能胜任，而不是单独采用其中某一种平台。有了可编程DSP，大多系统控制、排序化处理、用户功能化和信号处理可在DSP上运行。如果要加快并行处理，采用FPGA就理所当然。”

但郑小龙同时指出，当某个应用中FPGA实现的并行加速处理达到一定市场规模而足以进行专用集成时，TI会将硬件加速器集成到DSP中去，这样可以比外挂FPGA在获得同样性能的前提下价格和功耗保持在一个较低的水平。他解释说：“虽然FPGA能提高信号处理链路的速度，但随着技术成熟，这些功能可以以较低成本集成到DSP处理器中，比外加一个芯片效率更高。因此，对于那些特定应用，DSP将提供更优异的解决方案。

另外，TI还通过多核DSP提升性能。一个典型的例子就是，TI不久前针对WCDMA基站推出了高集成度的TCI6488，它采用3个1GHz DSP核，能够在单芯片上支持宏基站所需的所有基带功能，无需FPGA、ASIC及其它桥接器件。这是因为TCI6488中已经包含了WCDMA系统处理所需的专用协处理器，例如传统DSP中没有的Viterbi（VCP2）与Turbo（TCP2）协处理器——过去它们或采用FPGA/ASIC来实现，或要靠DSP核来解决，这就需要增加额外的DSP。TCI6488还具有典型DSP所没有的多种外设，如新兴的高速天线接口OBSAI/CPRI，而其它没有这种接口的器件必须采用一个FPGA或ASIC管理协议转换。此外，如果一个系统需要规模扩展到去支持更多的用户，TCI6488还可以通过采用RapidIO接口或者外设去实现互连。郑小龙总结说：“TCI6488是一个三核DSP，它具有很大的处理能力去支持多种多样的基带处理，无需ASIC/FPGA参与。”

他还强调说，单核DSP同样可以取代DSP+FPGA/ASIC方案，只是单核DSP SOC只可以支持有限数量的用户，而多核DSP则能够支持更多用户和更多功能。郑小龙指出：“只要DPS具有恰当的外设、协处理器和处理速度（MIPS）去有效实现所需的功能，它就可以成为SoC。在一些情况下，处理需求受到现行技术的限制，就必须考虑多核，例如TCI6488具有总计3GHz性能来满足指定需求，而单个的3GHz核在当今还不能实现，所以就要采用多核。”

其实，吴晓东也坦承FPGA和DSP虽然不是替代关系，但也存在一定的竞争关系，尤其是Spartan-3A DSP这种低成本FPGA开始覆盖更广阔的DSP应用（1-30 GMACS性能范围），与DSP的竞争难免。他表示：“目前趋势是一个往下走（FPGA），一个往上走（DSP），双方都为了弥补性能上的鸿沟，都是为了更好满足市场需求，最终的抉择取决于客户和应用。”吴晓东指出，很难为客户选择DSP还是FPGA划定一个明显的界限，目前看来5GMACS以下普通DSP容易实现，5GMACS以上可能就需要多片DSP去处理，这时候FPGA更有优势。

而作为信号处理的传统主导者，TI则认为未来DSP将继续是用户的首选。郑小龙表示，高速数字信号实时处理是DSP和FPGA所共同面对的应用，两者都属于可编程处理平台，但实现的方法却大相径庭，DSP采用软件编程，而FPGA则借助硬件编程手段。当一个软件可编程DSP被用于承担任何一种处理负载时，它就可以成为优选的平台，因为相比其它处理器，DSP可以在较低的成本下同时具有好的性能和功耗。他强调说：“通过在DSP平台上持续发展多种多样的外设、嵌入式软件、加速器和协处理器，TI DSP将持续保持作为今天和未来实时应用中优选系统构架的地位。”

但是，吴晓东也表示，他们通过将XtremeDSP核固化后，可以将功耗大大降低，且在实现MAC功能时，比DSP具有更低的成本。比如通过Spartan-3A可实现性能超过20GMACS，但成本不到30美元的方案。

高性能DSP处理器未来的发展方向

在TI看来，多核和SoC是高性能DSP未来的发展方向。郑小龙介绍说，TI对高性能DSP的展望包括增强灵活的协处理器，与单核或多核DSP协作。这些下一代的DSP将整合许多现在所使用的ASIC类型功能，还将支持更多特性和性能，并有能力运行在更高速度以支持更多的数据吞吐量。通过性能提升，DSP在目前采用CPU或ASIC的应用领域中更有优势——部分地取代任何一种。事实上，在大众市场上，TI已经有DSP和CPU相结合的产品推上市场，也就是已经量产的“达芬奇（DavVinci）”系列产品。

在多核DSP方面，目前的TI多核产品设计为满足不同细分市场的不同需求。TCI6488目标是无线基站处理市场；TNETV3020针对有线网络的高密度语音市场。前者采用3个1GHz DSP核，后者则采用了6个500MHz DSP核。

不过与TI、飞思卡尔等厂商的多核DSP策略有所不同的是，许多初创公司正在开发并行阵列处理器芯片，宣称能在单一芯片上以相对较低的时钟频率和功耗获得“前所未有的DSP性能”。

例如，新兴基站芯片厂商PicoChip的多核DSP——picoArray处理器是一种粗粒度的超大规模并行异构16位处理器阵列，其运算和通信资源是静态分配的。它含有322个处理单元，在160MHz的主频下能提供200GMIPS和40GMACS的性能，据称性价比或功率/性能比至少是其它架构（无论是DSP还是FPGA）的10倍，可取代含有多个DSP、FPGA及通用控制器的混合架构体系，适用于3G/4G和WiMax基站，并且能够实现“软件无线电”。

但TI表示，这种如此庞大的并行架构应用非常有限，而且存在固有缺陷，因此TI没有去开发这种产品。郑小龙解释说：“将数以百计的DSP核放到一个芯片上完全可能，TI目前并没有追求这种类型的大规模并行架构，其原因在于这种产品的局限性。例如一个客户所需要运行的应用必须有益于这样一种架构，而由集成上百个DSP所带来的固有挑战在于三个方面，一是存储器的局限性，如此多的核要有效运行就需要一个相当大的数据和程序存储器；二是当上百个核都要去访问数据时，提供平等的访问去共享如外设、板上和外部存储器将很困难；三是在器件中有更多的核就会有更多的互连，这将增加阻塞。”

其实，这些新兴处理器厂商面临的更严重问题是缺乏像DSP和FPGA这样完善的软件工具支持，这才是新兴处理器厂商进入市场最致命的挑战。

打开APP阅读更多精彩内容

在多个应用场合击败ASIC后 现在FPGA厂商又开始瞄向了DSP阵营

描述

在多个应用场合击败ASIC后现在FPGA厂商又开始瞄向了DSP阵营