以DSP芯片作为微处理器来实现ATR算法的优势

消耗积分:1 | 格式:rar | 大小:0.4 MB | 2017-11-02

分享资料个

　自动目标识别（ATR）算法通常包括自动地对目标进行检测、跟踪、识别和选择攻击点等算法。战场环境的复杂性和目标类型的不断增长使ATR算法的运算量越来越大，因此ATR算法对微处理器的处理能力提出了更高的要求。由于通用数字信号处理芯片能够通过编程实现各种复杂的运算，处理精度高，具有较大的灵活性，而且尺寸小、功耗低、速度快，所以一般选择DSP芯片作为微处理器来实现ATR算法的工程化和实用化。
　　为了保证在DSP处理器上实时地实现ATR算法，用算法并行化技术。算法并行化处理的三要素是：①并行体系结构；②并行软件系统；③并行算法。并行体系结构是算法并行化的硬件基础，并行算法都是针对特定的并行体系结构开发的并行程序。根据DSP处理器的数目，ATR算法的并行实现可以分为处理器间并行和处理器内并行。处理器间并行是指多个DSP处理器以某种方式连接起来的多处理器并行系统，ATR算法在多个处理器上并行招待。根据处理器使用存储器的情况，多处理器并行系统又可分为共享存储器多处理器并行系统和分布式多处理器并行系统。处理器内并行是指在单个DSP处理器内通过多个功能单元的指令级并行（ILP）来实现ATR算法的并行化。本文分别对在共享存储器多处理器并行系统、分布式多处理器并行系统和指令级并行DSP处理器上并行实现ATR算法进行了探讨。
　　1 在共享存储器多处理并行系统上实现ATR算法
　　在共享存储器多处理器并行系统中，各个处理器通过共享总线对所有的存储器进行操作，实现各个处理器之间的数据通信。而在任一时刻，只允许一个处理器对共享总线进行操作。所以处理器对存储器进行读/写操作时就必须先获得对共享总线的控制权，这通过总线仲裁电路实现。然而，由于所有的处理器只能通过一条共享总线对存储器进行访问，这在处理器数目比较多或者处理器之间频繁交换数据的情况下容易引起总线冲突和等待而降低整个并行系统的运行速度。共享存储器多处理器并行系统的优点是结构简单，当处理器的数目较少时，可以达到较高的加速比。
　　ADSP2106x处理器支持最为常用的共享存储器多处理器并行系统，组成多处理器系统的每一片ADSP2106x的片内存储器统一编址，任一ADSP2106x可以访问其它任何一片ADSP2106x的片内存储器。由于片内SRAM为双口存储器，因而这种访问并不中断被访问处理器的正常工作。每个处理器片内SRAM既是该处理器的局部存储器，又是共享存储器的部分。在不增加辅助电容的情况下，通过外部总线接口直接相连的处理器数量最多为6个。由于每个处理器的工作程序放在其片内的双口SRAM中，因此各个处理器可以实现并行处理，这是ADSP2106x的存储器结构所决定的。
　　ATR算法在共享存储器多处理器并行系统中实现时，在编写并行算法程序方面应当重点考虑的问题包括：
　　（1）均衡地把任务分配给各个处理器
　　ATR算法在共享存储器多处理器并行系统中实现任务级并行，因此必须把ATR算法划分为计算量均衡的多个任务，把各个任务分配给多个处理器，才能发挥多处理器并行系统的最大并行效率。
　　（2）尽量减少多处理器之间数据通信
　　由于多处理器只能通过一条共享总线对存储器进行访问，这在多处理器之间频繁交换数据的情况下容易引起总线竞争而降低整个并行系统的运行速度。
　　（3）利用单个处理器的并行编程特性
　　充分应用单个处理器的并行编程特性，有利于缩短各个处理器上任务的运行时间。例如，ADSP2106x的32位浮点运算单元包含一个乘法器、一个加法器和移位逻辑电路，它们并行工作；比特倒转寻址在傅立叶变换运算时非常有用；循环寻址在作卷积、数字滤波运算时经常用到等。
　　2 在分布式多处理器并行系统上实现ATR算法
　　在分布式多处理器并行系统中，多处理器有各自独立的存储器，多个处理器通过通信口相连构成分布式多处理器并行系统。分布式多处理器并行系统的加速比和处理器的数目呈线性关系，所以只要增加处理器的数目，分布式多处理器并行系统的处理能力就能够成比例地增加。分布式多处理器比较适合于构成大规模并行系统。
　　目前，计算量过大仍然是制约许多有效的ATR算法实时实现的个主要因素。ATR算法在分布式多处理器并行系统上实时实现是一个很有潜力的研究领域，特别在地基和天基雷达信号处理系统中有广阔的应用前景。分布式多处理器并行系统的连接方式有线形、树形、星形、网孔和超立方体结构等。树形和星形网络的优点是网络管理容易、数据通信进寻径简单；缺点是树形网络的根节点处理器和星形网络的中央节点处理器的输入/输出吞吐量大，易造成通信瓶颈。所以树形和星形网络不适合ATR算法各个任务数据通信量较大的应用场合。
　　在分布式多处理器并行系统中并行实现ATR算法目前还处于研究的初始阶段，在编写并行算法程序应当重点考虑两个方面：
　　（1）各处理器任务的均衡分配
　　在分布式多处理器并行系统中处理器的数目通常较多，只有合理地对众多的处理器均衡地分配任务，才能最大地发挥并行系统的总体性能，提高并行系统的加速比。
　　（2）处理器节点间的高效通信
　　在分布式多处理器并行系统中数据通信都是点对点通信。即两个相邻的处理器之间通过通信口通信。因此需要合理安排各个处理器节点在网络结构中的位置，尽可能地缩短处理器节点间的通信路径长度，从而实现处理器节点间的高效数据通信。
　　3 在指令级并行DSP处理器上实现ATR算法
　　在单片DSP处理器内通过多个功能单元的指令级并行（ILP）实现ATR算法的并行化处理，目前适合ATR算法实时处理的指令级并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP处理器是第一个使用超长指令字（VLIW）体系结构的数字信号处理芯片。下面以TMS320C62x定点系列DSP为例说明指令级并行的原理和ATR并行算法软件开发方法。
　　3.1 VLIW体系结构
　　TMS320C62x的内核结构如图1所示。内核中的8个功能单元可以完全并行运行，功能单元执行逻辑、位移、乘法、加法和数据寻址等操作。内核采用VLIW体系结构，单指令字长32位，取指令、指令分配和指令译码单元每周期可以从程序存储器传递8条指令到功能单元。这8条指令组成一个指令包，总字长为256位。芯片内部设置了专门的指令分配模块，可以将每个256位的指令分配到8个功能单元中，并由8个功能单元并行运行。TMS320C62x芯片的最高时钟频率可以达到200MHz。当8个功能单元同时运行时，该芯片的处理能力高达1600MIPS。
　　3.2 基于TMS320C62x的并行算法软件开发方法
　　基于TMS320C62x的并行编译系统支持C语言和汇编语言开发并行程序代码。通常，开发ATR并行算法按照代码开发流程的三个阶段进行并行程序设计：第一阶段是开发C代码；第二阶段是优化C代码；第三阶段是编写线性汇编代码。以上三个阶段不是必须的，如果在某一阶段已经实现了ATR算法的功能和性能要求，就不必进入下一阶段。
　　（1）开发C代码
　　开发C代码需要考虑的要点包括：
　　①数据结构
　　TMS320C62x编译器定义了各种数据结构的长度：字符型（char）为8位，短整型（short）为16位，整型（int）为32位，长整形（long）为40位，浮点型（float）为32位，双精度浮点型（double）为64位。在编写C代码时应当遵循的规则是：避免在代码中将int和long型作为同样长度处理；对于定点乘法，应当尽可能使用short型数据；对循环计数器使用int或者无符号int类型，避免不必要的符号扩展。
　　②提高C代码性能
　　应用调试器的Profile工具可以得到一个关于C代码中各特定代码段执行情况的统计表，也可以得到特定代码段招待所用的CPU时钟周期数。因此可以找出影响软件程序总体性能的C代码段加以改进，通常是循环代码段影响软件程序总体性能。
　　③数据的定标
　　由于TMS320C62x是定点系列芯片，不支持浮点操作。在程序编写过程中，应当尽量采用定点的数据结构。而实际处理的数据通常都是浮点的，所以需要把浮点数据通过定标转化为整型数据处理，提高程序的处理速度。数据的定标是十分关键的步骤，既要使数据处理精度满足性能要求，又要防止在数据处理过程中出现溢出。
　　（2）优化C代码
　　优化C代码包括向编译器指明不相关的指令、循环展开、循环合并、使用内联函数、使用字访问短整型数据和软件流水等方法。
　　①向编译器指明不相关的指令
　　为使指令并行操作，编译器必须确定指令间的相关性，只有不相关的指令才可以并行执行。如果编译器不能确定两条指令是不相关的，则认为是相关的，安排它们串行招待。用户可通过如下方法指明相关的指令：
　　·关键字const可以指定一个目标，const表示一个变量或者一个变量的存储单元保持不变，使用const可以提高代码的性能和适应性。
　　·一起使用-pm选项和-03选项可以确定程序优先级。在程序优先级中，所有源文件都被编译成一个模块，从而使编译器更有效地消除相关性。
　　·使用-mt选项向编译器说明在代码中不存在存储器相关性，即允许编译器在无存储器相关性的假设下进行优化。
　　②循环展开
　　循环展开就是把循环计数小的循环展开，成为非循环形式的串行程序，或者把循环计数大的循环部分展开，减少循环迭代次数，增加单个循环内的代码，使得循环内的操作可以均匀分布在各个功能单元上，保持DSP处理器的各个功能单元满负荷运行。
　　③循环合并
　　如果两个循环计数差不多、循环执行互不相同的操作，可以把它们合并在一起组成一个循不。当两个循环的负荷都不满时，这是非常有用的。
　　④使用内联函数
　　TMS320C62x编译器提供的内联函数是直接映射为内联指令的特殊函数，内联函数的代码高效、代码长度短。用户可以使用内联函数并行优化C代码。
　　⑤使用字节访问短整型数据
　　内联函数中有些指令是对存储在32位寄存器的高16位和低16位字段进行操作的。当有大量短整型数据进行操作时，可以使用字（整型数）一次访问两个短整型数据。然后使用内联函数对这些数据进行操作，从而减少对内存的访问。
　　⑥软件流水
　　软件流水是用来安排循环指令，使这个循环多次迭代并行执行的一种技术。在编译时使用-o2和-o3选项，编译器可对循环代码实现软件流水；使用-o3和-pm选项，使优化器访问整个程序，了解循环次数；使用_nassert内联函数，防止冗余循环产生；使用投机执行（_mh选项）消除软件注流水循环的排空，从而减少代码尺寸。
　　在嵌套循环中，编译器仅对最里面的循环执行软件流水，因此对招待周期很少的内循环作循环展开，外循环进行软件流水，这样可以改进C代码并行执行的性能。使用软件流水还应当注意：尽管软件流水循环可以包含内联函数，但是不能包含函数调用；在循环中不可以有条件终止指令；在循环体中不可以修改循环控制变量。
　　（3）编写线性汇编代码
　　编写线性汇编代码是并行算法软件开发流程的第三个阶段。了提高并行算法软件代码的性能，对影响并行程序速度的关键C代码可以用线性编重新编写。编写线性汇编代码不需要指明使用的寄存器、指令的并行与否、指令的延迟周期和指令使用的功能单元，汇编优化器会根据情况确定这些住处。优化线性汇编代码的方法包括：为线性汇编指令指定功能单元，使得最后的汇编指令并行执行；使用字访问短整型数据；使用软件流水对循环进行优化。编写线性汇编代码的工作量非常大，需要很长的开发周期，而且开发后的汇编代码不能像C代码那样移植在其它的DSP平台上。
　　应用上述并行程序开发方法，在TMS320C6201 EVM板上实现了宽带毫米波雷达目标时延神经网络识别算法。经过实际测试，并行算法程序执行时间为0.850ms，满足了目标识别算法的实时性需求。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

ECM96智能电测仪表使用说明书
2026-04-21 7次下载

下载
矽力杰 Silergy SY7215A 同步升压调节器规格书 Datasheet 佰祥电子
2026-04-10 5次下载

下载
WTK6900FC 鼾声识别功能说明书V1
2026-04-01 4次下载

下载
斯丹电子 | 磁传感技术在数据中心市场应用
2026-04-17 2次下载

下载
WD1117产品规格书
2026-04-21 2次下载

下载
SY52341 次级侧同步整流英文手册
2026-04-01 2次下载

下载

以DSP芯片作为微处理器来实现ATR算法的优势

AP0809ES3-S 3脚微处理器复位电路芯片

微控制器和微处理器的区别（含课本原图）

微处理器监控电路MAX690用户手册

微处理器监控电路MAX690A系列数据手册

基于ARM微处理器的嵌入式TCP-IP协议的实现与应用

DSP单片机以及嵌入式微处理器区别

嵌入式微处理器与应用

如何选择DSP处理器？

基于微处理器的数字集成电路测试系统

DSP软件编程与算法实现

基于DSP芯片的足球机器人实现与设计

数字信号处理器(DSP)实验报告

微处理器体系结构

微处理器体系结构

Intel多核微处理器技术

ARM嵌入式微处理器体系结构

如何使用FPGA实现顺序形态图像处理器的硬件实现

如何实现坐标逻辑的形态图像处理器

一文读懂ARM微处理器指令系统

如何使用FPGA和DSP实现CCD图像相关处理系统

如何使用FPGA实现星载SAR实时成像处理器

如何使用DSP和FPGA实现场发射平板显示器视频信号处理系统的方案说明

如何使用FPGA实现数字信号处理算法的研究

DSP处理器及应用的复习题资料合集

如何进行DSP的软件编程及使用算法实现的学习教程说明

如何在DSP芯片上实现Matlab的仿真算法

DSP的发展是怎么样的与DSP芯片在图像处理中的典型应用详细说明

DSP的常见算法应该如何实现

使用PROTUES仿真8086微处理器芯片的资料合集

ARM微处理器的详细资料介绍

DSP数字信号处理器到底是什么？DSP在流量测量上应用的资料说明

MAX8620Y：便携式设备微处理器或DSP的理想µPMIC

微处理器芯片正常工作应具备哪些基本条件?

微处理器执行指令的基本过程

微处理器的指令集有哪些

双DSP音效处理芯片有什么作用

微处理器内部结构介绍

充电也要算法？储能充电芯片中的算法处理器

嵌入式系统的微处理器选择

嵌入式微处理器的分类 嵌入式微处理器的种类和型号

嵌入式微处理器的定义与发展 嵌入式微处理器种类和型号

嵌入式微处理器的类型与特点 嵌入式微处理器技术的优缺点

嵌入式微处理器有哪几类 嵌入式微处理器包含哪些重要参数

嵌入式微处理器的功能 嵌入式微处理器原理与应用

什么是嵌入式微处理器? 嵌入式微处理器的区别

dsp和嵌入式微处理器的区别和联系 嵌入式微处理器应用领域分析

dsp与单片机,嵌入式微处理器的区别

dsp是嵌入式微处理器的一种设备吗 ARM嵌入式微处理器有何特点?

dsp和嵌入式微处理器的区别和联系

dsp和嵌入式微处理器的区别是什么

什么是嵌入式微处理器？嵌入式微处理器有哪些？

嵌入式微处理器的原理和应用

微处理器由什么组成 微处理器和cpu的关系

dsp处理器是专门用于什么方面的处理器

微处理器的GPIO通信的基本操作

DSP处理器上并行实现ATR算法

浅谈微处理器的发展历程

基于PowerPC 405微处理器和VME总线实现以太网接口设计

基于数字信号处理器实现雷达信号处理系统的设计

dsp芯片是什么_dsp芯片和通用微处理器有什么区别

基于FPGA的VLIW微处理器基本功能实现设计

下载排行榜

ECM96智能电测仪表使用说明书

矽力杰 Silergy SY7215A 同步升压调节器 规格书 Datasheet 佰祥电子

WTK6900FC 鼾声识别功能说明书V1

斯丹电子 | 磁传感技术在数据中心市场应用

WD1117产品规格书

SY52341 次级侧同步整流英文手册

嵌入式微处理器的分类嵌入式微处理器的种类和型号

嵌入式微处理器的定义与发展嵌入式微处理器种类和型号

嵌入式微处理器的类型与特点嵌入式微处理器技术的优缺点

嵌入式微处理器有哪几类嵌入式微处理器包含哪些重要参数

嵌入式微处理器的功能嵌入式微处理器原理与应用

dsp和嵌入式微处理器的区别和联系嵌入式微处理器应用领域分析

微处理器由什么组成微处理器和cpu的关系

矽力杰 Silergy SY7215A 同步升压调节器规格书 Datasheet 佰祥电子