有人驾驶和无人驾驶飞机系统设计人员使用合成孔径雷达(SAR)来绘制地形图并对其进行成像。SAR还可以作为监视设备来跟踪和识别移动物体。SAR技术在无人机(UAV)中的应用潜力巨大,但获取高分辨率可操作数据所需的超级计算机处理水平的数量和大小限制了飞机可以有效利用SAR进行地形测绘的高度和速度。因此,来自高速数据链路的雷达数据必须由地面上的大型计算机集群进行后处理,从而导致向作战人员实时提供图像和可操作情报的非实时。
轻型SAR在小型无人机中的巨大潜力受到与前几代硅技术相关的尺寸,重量和功率(SWaP)限制的阻碍。现在,SAR 可以使用基于高级 COTS 通用图形处理器单元 (GP-GPU) 处理器(如 NVIDIA 的费米架构设备)的高性能嵌入式计算 (HPEC) 架构进行部署,并具有复杂的加固和热管理封装技术。这些新的HPEC架构消除了早期的性能和热管理障碍,从而能够在无人机上最佳地使用SAR技术。GP-GPU具有大量内核,浮动数学功能和令人印象深刻的计算性能,将简化和加速SAR技术与当今小型无人机的集成,并为作战人员提供实时可操作数据。通过调整系统架构,坚固耐用的COTS GP-GPU可以将传统SAR系统的处理能力提高4到80倍。
图1:SAR系统
SAR通过组合系统扫描和捕获的地形图像,使飞机的雷达能够作为一个非常大的阵列发挥作用。这种技术有效地利用飞机的运动来扩大雷达孔径。SAR拓扑图像需要超级计算系统提供的大量处理能力。问题是,到目前为止,在飞机上使用SAR监视限制了飞机的速度。对于所需数据至关重要且旨在用于实时操作的情况尤其如此。
在飞机上部署超级计算机功能,特别是空间和重量受限的无人机,需要平衡SWaP、系统能力和可操作情报的及时性。启用或限制 SAR 数据的可操作实时使用的关键因素是视场、数据丢失或分辨率丢失以及对事件的延迟感知。优化 SAR 性能以进行实时使用的能力与可用的计算能力成正比。在无人机中,SAR通常部署在SWaP优化的HPEC集群上,该集群由与低延迟,高速和高带宽网络互连的坚固处理器组成。
图 2:SAR 框图
虽然如何将雷达数据转换为图像的方法超出了本文的范围,但对SAR算法的一个方面的描述有助于解释GP-GPU如何提高SAR性能。SAR 算法的关键部分由三个主要阶段组成:行维中的 FDC(频域卷积)、转角和列维中的 FDC。
图3:拐角转弯
执行此SAR算法的传统技术是将数据流式传输到HPEC系统。该系统的架构是将 HPEC 系统分段,以便一组处理器负责计算传感器数据的一行或多行的 FDC。然后,行 FDC 数据的计算结果使用转角(数据集的行变为列式)发送到下一组处理器,然后由该处理器处理列的 FDC。
图 4:传统的高压灭菌器 SAR
在某些情况下,FDC将主要由快速傅里叶变换(FFT)组成。FFT是将数据从内存移动到处理器,执行计算,然后将结果发送到内存以用于另一个后续计算的功能。这意味着,从本质上讲,SAR 算法的性能直接取决于数据移动的优化。
在 SAR 系统中,算法通常分为内循环和外循环。使用内部循环,数据在处理器内存(高速缓存或 DRAM 存储器)中处理。使用外部循环,数据被传输到其他处理器。通过将大多数数据传输发送到最快的可用内存,算法的延迟最小化。因此,保持数据持久或更接近处理器可获得最佳性能(或降低延迟),因为与 DRAM 或结构网络相比,缓存中的数据移动速度更快。提高 SAR 算法性能的明显策略是将尽可能多的行 FDC 数据和列 FDC 数据集分散到多个处理器上。
最大限度地减少在一个处理器上处理的数据量可以改善系统的延迟,但缺点是这会增加外部环路或连接处理器的网络结构的压力。SWaP 约束限制了可部署 SAR 系统的大小和重量,导致处理器数量和结构功能之间的折衷。不幸的是,提高整体系统性能并不像提高处理器性能那么简单。这是因为对于这些类型的 I/O(输入和输出)绑定应用程序,网络结构的性能可能成为瓶颈,从而成为关键的性能限制因素。我们需要的是HPEC系统,该系统能够以最佳方式将更高的速度与更高带宽的结构网络(能够跟上更高速度的处理器的功能)和更高带宽的结构网络进行最佳组合。
搜救和空气速度
同样,轻量级SAR性能的一个关键障碍是系统性能与飞机速度之间的直接关系。SAR使用飞机的运动来帮助“成像”地形。它可以检测来自光束的反射,然后将这些反射“添加”在一起以形成复合图像。SAR系统DSP的速度决定了飞机在所需地形上的飞行速度。如果DSP太慢,飞机必须降低速度,以便可以正确成像物体。超过DSP能力的空气速度将导致图像数据丢失,这可能是关键的。
GP-GPU 是目前速度最高的处理器之一。它们具有数百个连接到高速DRAM的内核。使用GP-GPU创建传统的SAR系统似乎只是选择正确的网络结构以用于在多个GP-GPU集群上有效流式传输数据的练习。然而,即使是最快的嵌入式网络,如10千兆以太网和20千兆位/秒的RapidIO,也无法跟上GP-GPU提供的性能优势。
因此,显著提高 SAR DSP 速度的一种方法是对其进行设计,以便将完整的 SAR 传感器数据帧放入 GP-GPU 内存中。这样就可以用单个 GP-GPU 替换 HPEC 系统中计算 FDC 的部分。实际上,GP-GPU 在芯片上充当了 HPEC 系统。通过扩展,现在这使得GP-GPU FDC计算的性能决定了可能的有效飞行器速度。例如,每秒传输 20 兆字节传感器数据的 SAR 雷达需要 100 秒来填充 GP-GPU 内存。一些基于英伟达费米架构的新型GP-GPU可以实现4320亿次浮点运算(或4320亿次浮点运算 - GFLOPS)的峰值性能。这意味着在100秒内,GP-GPU将能够进行超过40万亿次浮点运算-TFLOP。凭借这种 GP-GPU 性能能力,FDC 和其他计算要求苛刻的算法(如变化检测、GMTI、交错 SAR 和 GMTI 以及实时图像压缩)可以在小型轻量级 SAR 中使用基于 COTS 的 HPEC 系统来实现。
图 5: GP-GPU 架构(主板上的高速光纤)
此外,如果SAR数据被分发到一个GP-GPU集群,飞机速度将由集群中的处理速度和/或GP-GPU的数量决定。例如,如果包含十 (10) 个 GP-GPU 的集群面对每秒 20 MB 的传感器数据,则集群中的单个 GP-GPU 可以提供 300 万 TFLOPS 的性能。
GP-GPU 在处理数据移动时也具有显著优势,这通常是 SAR 算法性能的最大决定因素。与传统的 CPU 内存控制器相比,使用 GP-GPU 的数据移动速度提高了 4 倍,与结构相比,使用 GP-GPU 的数据移动速度提高了 80 GB/s,而使用 GP-GPU 的数据移动速度提高了 80 倍。由于SAR算法与数据移动速度有关,因此基于GP-GPU的SARS处理速度可以比传统的基于处理器的HPEC系统快4到10倍。处理性能的显著提高将使飞机能够飞得更快、更高,提供更多的成像能力,而不会降低传统基于CPU的HPEC SAR系统提供的图像分辨率质量。
图 6:缩放的 GP-GPU 系统。
下一步是采用基于 GP-GPU 的 HPEC 系统,并在实际应用中对其进行测试。在具有“人性化”环境的飞机中,机舱加压且冲击和振动最小,并且没有限制性的MTBF要求,台式PC型系统可能就足够了。对于部署在恶劣环境中的应用,例如无压、高振动条件,应考虑使用坚固耐用的 COTS GP-GPU 模块,例如柯蒂斯·赖特控制防御解决方案 (CWCDS) 的 6U OpenVPX (VITA 46/65) VPX6-490 GP-GPU 板。当与配套的单链系统(如 CWCDS VPX6-1956 或 CHAMP-AV8)结合使用时,VPX6-490 可提供一个万亿次浮点运算峰值处理性能。每个 VPX6-490 基于英伟达费米的 GP-GPU 都有 2 千兆字节的 GDDR3 内存,带宽超过 80 GB/s。该板套件具有各种冷却架构,包括风冷和扩展温度风冷,但也提供更极端的加固型封装,如传导冷却或气流通孔(AFT)。
通过将 4 (四) 组 VPX6-490/VPX6-1956 或 CHAMP AV8 卡(八个 1“ 间距 VPX 板)集成到一个重量小于 40 磅的紧凑型 10”x12“x14” 传导冷却机箱中,可以构建完整的超级计算机级 HPEC 系统。该示例坚固耐用的 GP-GPU HPEC 系统可为需要 SAR 的最具挑战性的平台提供 4 万亿次 SWaP 优化处理能力。VPX6-490 运行英伟达的库不变。经过开源社区的多年优化,CUDA 库使 SAR 算法要求更易于实现。因此,用于无人机SAR系统算法处理的多核GP-GPU将比以往任何时候都更高,更快。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !