本文将首先介绍 AI 引擎技术,作为了解高性能异构工作负载的基础。其次,我们将讨论高性能信号处理的设计流程,并举例说明如何利用 AMD Versal 自适应 SoC 提供的异构计算选项,为 AI 引擎和可编程逻辑(PL)结构构建异构系统。最后,我们将讨论适用于此类系统的异构仿真或协同仿真选项。
AI 引擎简介
AI 引擎是 AMD Versal 自适应 SoC 中的核心计算单元,旨在解决传统基于 FPGA 的 DSP 架构在性能扩展性和功耗方面的限制。它们由可扩展的可编程矢量处理器阵列构成,每个计算单元模块集成 VLIW/SIMD 计算单元、本地存储以及流式互连,实现高效数据传输和高吞吐量的并行处理。
在异构系统中,AI 引擎与可编程逻辑(PL)协同工作:计算密集型且可向量化的 DSP 内核部署在 AI 引擎上,而数据搬运、控制及系统集成则由可编程逻辑(PL)完成。这种架构显著提升计算密度、吞吐量和能效,特别适合流式数据处理场景。
其开发流程以 AMD Vitis 统一软件平台为核心,支持多层次抽象和基于图的编程模型,并结合多级仿真及硬件在环验证,AI 引擎能够高效完成高性能 DSP 系统的开发与验证,广泛应用于无线通信、雷达和视觉处理等领域。
面向高性能 DSP 的 AI 引擎 :设计流程概述
基于 AI 引擎的高性能 DSP 系统设计流程遵循结构化且以软件为中心的方法,核心包括系统划分、功能分解和迭代优化。设计首先从系统级映射开始,即根据算法结构、吞吐需求以及数据依赖关系,将顶层 DSP 算法分解为多个功能模块,并在 AI 引擎与可编程逻辑(PL)之间进行合理分配。其中,计算密集型且可向量化的内核映射到 AI 引擎阵列,而数据搬运、重排及接口相关功能则分配给可编程逻辑(PL)。完成映射后,设计者需要进一步确定各功能在 AI 引擎阵列上的实现方式,并综合考虑计算复杂度、I/O 带宽及本地存储资源等关键因素,这些因素共同决定了 Tile 分配及并行化策略,从而实现高效的系统实现与性能优化。
在实现层面,AI 引擎支持多层次开发模式,包括基于预优化 DSP 库的快速实现、基于 API 的矢量化编程,以及基于 Intrinsics 的精细化性能优化。同时,通过图片编程模型描述内核之间的数据流和系统连接,使开发人员能够清晰表达并行结构与流式处理机制。整个开发流程具有显著的可迭代特性,能逐步优化性能、延迟和资源利用率。在验证阶段,系统采用多级仿真方法,包括 x86 功能仿真、AI 引擎周期近似仿真,以及与可编程逻辑(PL) 的异构协同仿真,从而在不同阶段平衡验证正确性与性能。这一端到端流程支持在异构架构上高效完成复杂 DSP 系统的设计、验证与性能扩展。
AI 引擎与可编程逻辑(PL) 异构仿真
面向 AI 引擎的异构系统验证流程采用多层次方法构建,其中 Vitis 功能仿真(VFS)作为早期验证的核心基础。VFS 使设计人员能够在统一的环境中对 AI 引擎图和 HLS 内核进行仿真,且具备自动编译、依赖检查以及基于配置文件或运行参数生成构建的能力。同时,VFS 可提供高速功能仿真,支持大规模数据运行并评估系统级指标,如信噪比(SNR)和误码率(BER)。此外,VFS 可以与 MATLAB、Python 等高层建模环境无缝集成,设计人员可以在熟悉的算法开发框架中直接调用 AI 引擎图和内核,完成测试激励、运行仿真及结果分析。
随着设计复杂度提升,Vitis 子系统(VSS)方法论引入了一种模块化抽象:将 AI 引擎图与可编程逻辑(PL)组件封装为可复用、与平台无关的单元。VSS 支持在无需完整平台集成的情况下,通过标准 RTL 测试平台进行独立仿真,从而加快早期验证节奏,并支持算法、AI 引擎和可编程逻辑(PL) 团队之间的并行开发。这种模块化方法显著提升了设计的可复用性、可扩展性和可移植性,同时简化了架构探索并降低了系统集成风险。
为了实现更高保真度的验证,硬件在环(HIL)验证将仿真流程扩展到真实硬件上执行,在保持软件驱动的验证环境的同时,将 AI 引擎与可编程逻辑(PL) 设计部署到实际芯片上运行。该流程中,测试激励在 MATLAB 或 Python 等环境中生成,通过 Vitis API 传输至硬件,在真实器件上完成计算后再返回进行分析。与纯软件仿真相比,HIL 可显著提升执行速度,并能够反映内存层次、互连结构性能等真实硬件效应。综合来看,VFS、基于 VSS 的协同仿真以及 HIL 验证共同构成了一套完整且可扩展的验证体系,支持在 AMD Versal 异构平台上高效地完成高性能 DSP 系统的开发、验证与部署。
总结
综上,AI 引擎显著扩展了 DSP 的整体计算能力,远远超出了仅使用可编程逻辑(PL) DSP 58 模块所能达到的水平。
通过引入针对流式数据流优化的高密度向量化计算能力,实现了更高的吞吐率和更优的功耗效率,从而更好地支持现代 DSP 工作负载。
最佳的 DSP 系统几乎都是异构的。其最佳性能来自于在 AI 引擎和可编程逻辑 (PL)之间进行合理划分,使用 AI 引擎处理计算密集型的可向量化内核,而使用可编程逻辑 (PL)处理数据移动、重排序和系统集成。
此外,AI 引擎 DSP 设计流程以软件为中心,构建于 Vitis 统一软件平台之上。设计人员可以在基于模型的设计流程中开展开发,充分利用 DSP 库,并通过图模型定义数据流结构,同时可在硬件实现之前尽早开展仿真验证。进一步地,Versal 提供多种异构验证路径,从快速功能仿真,到 AI 引擎与可编程逻辑(PL)的协同仿真,一直到结合 MATLAB 和 Python 的硬件在环(HIL)验证。这些设计流程使团队能够在快速迭代的同时,有效验证异构系统在真实应用场景下的行为特性。
全部0条评论
快来发表一下你的评论吧 !