双向特征融合的数据自适应SAR图像舰船目标检测模型

li1234567890123 2021-11-12 2467

今日头条

1192人已加入

描述

双向特征融合的数据自适应SAR图像舰船目标检测模型

人工智能技术与咨询昨天

本文来自《中国图象图形学报》，作者张筱晗等

关注微信公众号：人工智能技术与咨询。了解更多咨询！

摘要：利用合成孔径雷达（synthetic aperture radar，SAR）图像进行舰船目标检测是实施海洋监视的重要手段。基于深度学习的目标检测模型在自然图像目标检测任务中取得了巨大成功，但由于自然图像与SAR图像的差异，不能将其直接迁移到SAR图像目标检测中。针对SAR图像目标检测实际应用中对速度和精度的需求，借鉴经典的单阶段目标检测模型（single shot detector，SSD）框架，提出一种基于特征优化的轻量化SAR图像舰船目标检测网络。方法改进模型并精简网络结构，提出一种数据驱动的目标分布聚类算法，学习SAR数据集的目标尺度、长宽比分布特性，用于网络参数设定；对卷积神经网络（convolutional neural network，CNN）提取的特征进行优化，提出一种双向高低层特征融合机制，将高层特征的语义信息通过语义聚合模块加成到低层特征中，在低层特征中提取特征平均图，处理后作为高层特征的注意力权重图对高层特征进行逐像素加权，将低层特征丰富的空间信息融入到高层特征中。结果利用公开的SAR舰船目标检测数据集（SAR ship detection dataset，SSDD）进行实验，与原始的SSD模型相比，轻量化结构设计在不损失检测精度的前提下，样本测试时间仅为SSD的65%；双向特征融合机制将平均精确度（average precision，AP）值由77.93%提升至80.13%，训练和测试时间分别为SSD的64.1%和72.6%；与公开的基于深度学习的SAR舰船目标检测方法相比，本文方法在速度和精度上都取得了最佳性能，AP值较精度次优模型提升了1.23%，训练和测试时间较精度次优模型分别提升了559.34 ms和175.35 ms。结论实验充分验证了本文所提模型的有效性，本文模型兼具检测速度与精度优势，具有很强的实用性。

舰船目标检测是实施海洋监视的重要环节，在军事侦察、海洋运输管理、海上犯罪打击等领域都有着重要应用(Allard等，2008)。得益于全天时、全天候的优势，合成孔径雷达(synthetic aperture radar，SAR)图像成为一种有效的舰船目标遥感数据源，SAR舰船目标检测得到了广泛研究。传统的基于海杂波建模思想的SAR舰船检测方法通常针对某一场景进行建模(Dalal和Triggs，2005；Agrawal等，2015；Pappas等，2018)，无法同时兼顾多类应用场景。而基于数据驱动的深度学习目标检测方法则不受场景影响，只要提供充足多样的数据，即可训练深度网络自动提取图像特征，实现目标检测。

得益于计算机技术与人工智能技术的发展，在计算机视觉领域，基于深度学习的目标检测方法取得了很多检测任务的最佳性能。经典的目标检测模型，包括以Faster RCNN(region convolutional neural network)(Ren等，2017)为代表的双阶段检测模型、以YOLO(you only look once)(Redmon等，2015)和SSD(single shot multi-box detector)(Liu等，2016)为代表的单阶段检测模型都被引入到SAR舰船检测中。与传统方法相比，这些模型多是端到端的，并且在精度和泛化能力上有了很大提升。但是，将这些模型从自然图像目标检测迁移到SAR舰船目标检测时仍面临着一些问题:1)这些模型参数，如网络层数和锚框设置多是针对Pascal VOC(visual object classes)(Everingham等，2015)和MS COCO(Lin等，2014)等自然图像数据集设定的，而这些设置未必适合SAR舰船数据; 2)数据量相对较小的检测数据集往往不足以从头训练规模较大的检测模型，通常做法是在检测模型初始化时，将特征提取部分直接载入大型自然图像分类数据集(如ImageNet等)预训练好的模型参数，然后使用检测数据集进行微调; 3)分类任务与检测任务、自然分类数据集与SAR目标检测数据集存在偏差; 4)SAR图像自身的一些特点给检测增加了难度，如受空间分辨率与成像机理影响，图像中舰船目标细节信息少，各类舰船尺度不一、分布各异等。在设计SAR舰船目标检测模型时, 要考虑这些问题。Kang等人(2017)和Yang等人(2018)根据使用的遥感舰船数据重新设置了检测模型参数。Deng等人(2019)利用密集连接网络作为特征提取网络，并采用了特征重用等策略，可以从头训练。为了提升SAR舰船目标检测的精度，学者利用多种方式对网络提取的特征进行优化，其中，特征融合是一项常用策略(Jiao等，2018；Zhang等，2019)。自从Lin等人(2017)提出特征金字塔网络(feature pyramid network，FPN)，其高低特征层融合的思想大量用于多种模型。卷积神经网络(convolutional neural network, CNN)在提取特征过程中，随着网络层数的加深与池化层的应用，深特征层有着更大的感受野，能够提取出更多抽象的全局语义特征，而浅层特征空间信息更加丰富。为弥补浅层特征语义信息的不足，将高层特征处理后加入到浅层特征。Wang等人(2018)将FPN中的语义聚合策略应用在SAR舰船检测中，与原始的SSD模型相比，显著提升了舰船检测精度。Kang等人(2017)将浅层特征、中层特征与高层特征都融合起来，输入到Faster RCNN模型。特征融合的策略能够提升模型性能，但也增加了运算量，此外，大部分融合模型的融合通道是由上至下的，没有考虑高层信息中空间信息的不足。

针对上述问题，本文对SAR图像舰船目标检测进行研究，针对SAR图像的特点改进了经典检测模型SSD，同时提升了目标检测的速度和精度。本文工作包括两部分：1)根据SAR数据的特点，精简了SSD模型结构，提出了一种数据集目标特性聚类算法，用于指导网络参数的设置；2)借鉴特征融合思想，提出一种双向特征融合机制，除了利用语义聚合增强浅层特征的语义信息，同时设计了一种新的基于注意力机制的融合方法，将浅层特征丰富的空间信息加成到高层特征。前者主要改进模型适应SAR舰船检测任务，后者进一步优化模型，提升检测精度。在公开SAR舰船目标检测数据集SSDD(SAR ship detection dataset)(Li等，2017)上的实验充分验证了本文方法的有效性。

1 LSSD检测模型

1.1 模型结构

本文模型是在经典的SSD模型基础上改进的，并以VGG-16(visual geometry group 16)作为特征提取网络。标准的SSD-300模型(输入图像大小为300 × 300 × 3)保留了VGG-16的前5个卷积单元，去掉全连接层，并继续在后面连接了6个卷积单元，最终卷积单元输出的特征图空间维变成1×1。但是，对SAR图像来说，某种极化模式下获取的图像是单通道的。在使用通用检测模型时，通常做法是将单通道SAR图像扩展为3通道作为输入，这种做法增加了网络的冗余信息。此外，SAR遥感图像中的舰船目标尺度变化很大，所占像素从几个到几百不等，但受空间分辨率影响，单个舰船目标通常不会占满图像(300 × 300像素标准输入大小)。因此，对模型进行更改，直接以单通道图像作为输入，去掉SSD模型的后3个卷积模块，并将全部卷积层的通道维减半。这样，与SSD相比，网络需要训练的参数量少于原来的1/4，模型显著变轻量化，将其命名为LSSD(lightweight SSD)。经验证，即使是较小的检测数据集如SSDD也可以从头训练LSSD，使其不必依赖于分类任务预训练模型。借鉴SSD模型的设置，同时考虑SAR图像中的小舰船目标，选取conv3_3、conv4_3、conv7、conv8输出的特征图输入到检测器中进行后续检测。

本文模型整体框架如图 1所示，图中右侧为LSSD网络的具体设置，图中S代表语义聚合，A代表注意力引导的融合。

图 1 本文模型框架图

Fig. 1 Framework of proposed model

1.2 基于聚类算法的数据集目标特性统计

与Faster RCNN和SSD模型相同，LSSD也是基于锚框(anchor)实施检测。锚框的设置包括尺度和比例，能够反映数据集中目标的尺度和比例分布特性，对网络检测性能具有重要影响。受YOLOv2(Redmon和Farhadi，2017)中的维度聚类算法启发，本文设计了一种基于聚类的目标特性分布自动学习算法，具体内容以SSDD数据集为例进行说明。

假设图像大小为M×NM×N，舰船目标检测框大小为w×hw×h。目标尺度ss和长宽比rr的定义为

s=w×hM×Ns=w×hM×N

(1)

r=whr=wh

(2)

1) 学习数据集中舰船目标的尺度分布。假设数据集中所有舰船目标的尺度集合为S:{s1,s2,…,sk}S:{s1,s2,…,sk}，设定kk个尺度聚类中心U:{μ1,μ2,⋅⋅⋅,μk}U:{μ1,μ2,···,μk}，其中μiμi初值为[0,1][0,1]区间的随机值，μ1μ1到μkμk从小到大排列。通过最小化目标各尺度与聚类中心欧氏距离之和dsds，以更新UU的参数，即

minds=∑i=1n∥si−μj∥2minds=∑i=1n‖si−μj‖2

(3)

式中，j∈{1,2,⋅⋅⋅,k}j∈{1,2,···,k}，μjμj为最接近sisi的聚类中心。每次迭代中，μjμj更新为以其为聚类中心的所有目标尺度的均值，不断迭代直到dsds小于设定阈值。迭代完成后，将学习到的尺度聚类中心UU分配到合适的特征层中，较小的尺度分配给低的特征层，大的锚框尺度则分配给高特征层。

2) 学习数据集中舰船目标的长宽比分布特性。设定特征层lxlx的长宽比聚类中心个数为gg，尺度接近该层各尺度聚类中心的舰船目标长宽比构成集合Rx:{rx1,rx2,…}Rx:{rx1,rx2,…}，gg个长宽比聚类中心构成集合Vx:{τ1,τ2,…,τg}Vx:{τ1,τ2,…,τg}，τiτi初值设为随机正数，通过最小化目标长宽比到各自聚类中心欧氏距离之和drsdrs进行优化，即

mindrs=∑xi=1nx∥rxi−τj∥2mindrs=∑xi=1nx‖rxi−τj‖2

(4)

式中，j∈{1,2,…,g}j∈{1,2,…,g}，τjτj为最接近rxirxi的长宽比聚类中心。每次迭代中，τjτj更新为聚类中心目标长宽比的均值。不断进行迭代，直到drsdrs小于设定阈值。最后根据长宽比聚类中心的值设置该层锚框的长宽比参数。

2 基于双向融合的特征优化

2.1 原理分析

卷积神经网络提取的分层特征有着不同的特点。与SSD一样，为检测多尺度目标，LSSD也使用了多层特征。其中浅层特征通常包含更多目标细节信息，缺乏高级语义信息; 深层特征信息更加抽象，但缺乏空间位置信息。以FPN网络为代表的从上到下的语义聚合的特征融合方式已经得到了广泛应用，针对如何将浅层丰富的空间信息传递到深特征层，本文提出了基于注意力机制的融合方式。

为直观理解CNN提取的特征，本文将训练好的LSSD模型中不同层的特征进行可视化。图 2是训练好的LSSD模型提取的两幅SAR图像conv3_3、conv4_3、conv7、conv8的第1通道和第64通道的特征图及各通道平均热力图。可以看出，针对输入的特定图像，不同卷积层在不同通道提取了不同特征，但很难解释特定通道特征的含义。为展示每个卷积层提取的整体特征，在特征层通道维进行全局平均池化，得到特征的空间维平均图，并以热图的形式展示。从平均图可以看出，随着特征层的增深，平均特征中关于目标的表征越来越抽象。其中，在conv4_3的特征平均图中，无论背景是较为简单的水面，还是更复杂的陆地，舰船目标与背景分离最明显。受计算机视觉中注意力机制(Woo等，2018)启发，将conv4_3特征平均图视为空间注意力显著图，指导网络更关注的位置。可以直接利用conv4_3特征平均图作为权重图，去对其余更深的特征层进行加权，以这种方式将低特征层的目标位置信息传递到更深的特征层中，实现特征自下而上的融合。

图 2 训练好的LSSD模型从SAR图像提取的特征图

Fig. 2 Feature maps extracted by our trained model from SAR image

((a) original images; (b) conv3_3; (c) conv4_3; (d) conv7; (e) conv8)

2.2 特征双向融合实施流程

采用的双向特征融合操作流程如图 3所示。首先进行自上而下的语义聚合，然后实施注意力机制引导下的自下而上的特征融合。语义聚合模型(图 3(a))主要包括深层特征上采样、特征图通道维串联以及1×1卷积修正通道数等过程，最终融合特征与浅层特征在空间维和通道维的尺寸相同。基于注意力引导的特征融合模块如图 3(b)所示，来自conv4_3的特征图在通道维进行平均池化，得到大小为pp的平均特征图FF，作为融合中的注意力图。FF通过sigmoid函数进行归一化，得到注意力权重图，具体计算为

F(x)=11+e−xF(x)=11+e−x

(5)

图 3 特征融合算法流程图

Fig. 3 Framework of our feature fusion module

((a) semantic aggregation block; (b) attention guided fusion block)

式中，xx代表FF中各像素值，F(x)∈(0,1)F(x)∈(0,1)。该权重图被用来对其余特征层进行加权。融合前，需要通过下采样等方式将权重图的大小改为高层特征图的空间大小，然后对高层特征的每个通道的特征图进行逐元素相乘的操作，得到融合特征图。注意该操作只自下而上进行，conv4_3特征图得到的注意力权重图不再影响conv3_3。

3 实验与结果分析

对本文方法利用公开的SSDD数据集进行实验，首先利用基于聚类的数据集目标特性统计方法指导的网络参数设置与原SSD网络参数设置进行对比，然后逐步对比本文方法每一模块的效果，最后将本文方法与其他SAR舰船目标检测的方法进行对比。

3.1 数据集说明与实验设置

SSDD数据集是国内第1个公开的SAR舰船目标检测数据集，包含1 160幅图像与2 456个舰船实例。实验平台操作系统为64位单GTX 1080Ti GPU计算机，操作系统为Ubuntu 16.06，编程语言为Python，使用的深度学习框架为TensorFlow，并使用CUDA9.0与cuDNN7.0加速。训练次数设为12万次，前2万次初始学习率为0.000 1，接下来6万次学习率设为0.000 01，最后4万次学习率设为0.000 001。训练中，批次容量设为24，使用momentum训练优化器。

为评价测试结果，采用精确率(precision)、召回率(recall)以及平均精确率(average precision，AP)作为客观评价指标，指标的具体定义与Kang等人(2017)采用的定义相同。精确率和召回率是在交并比(intersection-over-union，IoU)阈值设为0.5、分类得分阈值设为0.2的情况下计算的。这些指标值越高，说明算法检测性能越好。此外，利用单幅图像的平均训练与测试时间衡量算法的运行速度。

3.2 实验结果

3.2.1 网络参数设置对检测结果的影响

实验采用两组参数设置在SSD模型上进行。一组为SSD原始参数，锚框采用SSD模型中的6层特征，如表 1所示；另一组为使用本文提出的基于聚类的数据集目标特性学习方法为指导的网络参数，锚框采用LSSD模型中的4层特征，如表 2所示。

表 1 采用SSD模型中6层特征的锚框参数
Table 1 Anchor settings of SSD in the 6 feature layers

卷积层	尺度	长宽比	额外尺度
conv4_3	0.1	1 :1, 1 :2, 2 :1	0.141 4
conv7	0.2	1 :1, 1 :2, 2 :1, 1 :3, 3 :1	0.273 9
conv8_2	0.375	1 :1, 1 :2, 2 :1, 1 :3, 3 :1	0.454 1
conv9	0.55	1 :1, 1 :2, 2 :1, 1 :3, 3 :1	0.631 5
conv10	0.725	1 :1, 1 :2, 2 :1	0.807 8
conv11	0.9	1 :1, 1 :2, 2 :1	0.983 6

表 2 采用LSSD模型中4层特征的锚框参数
Table 2 Anchor settings of LSSD in the 4 feature layers

卷积层	尺度	长宽比	额外尺度
conv3_3	0.005	1 :1, 1 :2, 2 :1	0.01
conv4_3	0.020	1 :1, 4 :7, 20 :11	0.04
conv7	0.060	1 :1, 4 :7, 3 :1, 1 :4, 20 :11	0.12
conv8_2	0.250	1 :1, 4 :7, 3 :1, 1 :4, 20 :11	0.40

两组实验除锚框设置不同外，其余实验条件均相同，实验结果如表 3所示。可以看出，锚框的参数设置对检测结果有很大影响。在其他条件不变的前提下，适合检测数据集的网络参数设置对挖掘模型的性能潜力非常重要。本文方法不受人为经验影响，完全基于数据集特性优化网络参数设置。

表 3 SSD模型采用不同锚框参数的检测结果
Table 3 Detection results of SSD with different anchors parameters

/%
参数	平均精确率	精确率	召回率
SSD中6层特征的锚框参数	76.95	86.35	87.00
LSSD中4层特征的锚框参数	78.03	89.15	88.80
注：加粗字体为每列最优结果。

3.2.2 模型简化实验

通过模型简化实验的方法验证所提轻量化设置、双向特征融合模块对检测结果的影响。将采用LSSD模型中4层特征的锚框参数设置的SSD模型作为比较的基准模型，与LSSD模型、结合了语义聚合的LSSD模型、结合了注意力引导融合的LSSD模型以及结合了双向特征融合方法的LSSD模型分别进行性能指标与速度指标的对比，结果如表 4所示。可以看出，与SSD模型相比，本文提出的LSSD模型在速度方面具有显著优势，测试时间仅为SSD模型的65%，而检测精度与SSD模型基本一致。语义聚合和注意力引导特征融合都可以提高检测的精度，而在训练和测试中，只增加了很少的时间。两个模块的组合在精度方面实现了最佳性能，平均精确率与SSD相比提高了2.1%。

表 4 模型简化实验结果
Table 4 The testing results in ablation study

模型	语义聚合	注意力引导融合	平均精确率/%	精确率/%	召回率/%	训练时间/ms	测试时间/ms
SSD	-	-	78.03	89.15	88.80	20.79	14.02
LSSD	-	-	77.93	89.54	88.60	12.74	9.17
LSSD +语义聚合	√	-	78.68	94.55	88.00	13.01	9.72
LSSD +注意力引导融合	-	√	72.20	95.26	89.20	12.97	9.57
LSSD +双向特征融合	√	√	80.13	96.68	89.60	13.33	10.18
注：加粗字体为每列最优结果。“-”表示没有采用对应方法，“√”表示采用了该方法。

为进一步展示这些模型的检测结果，图 4给出了部分典型检测结果样例。可以看出，结合了双向特征融合模块的模型在提升召回率、减少虚警率等方面表现最佳，说明本文的融合方法是一种有效的特征优化方法。

图 4 不同方法部分检测结果样例图

Fig. 4 Some samples of detecting results using different methods((a) ground truths; (b) SSD; (c) LSSD; (d) LSSD with semantic aggregation module; (e) LSSD with attention fusion module; (f) LSSD with bi-directional fusion module)

3.2.3 与其他方法对比

为进一步验证本文方法的有效性与实用性，与Faster RCNN(Ren等，2017)、基于卷积神经网络的检测模型(CNN-based model)(李健伟等，2018)、基于生成对抗网络(generative adversarial network，GAN)和线上难例挖掘(online hard example mining，OHEM)的检测模型(李健伟等，2019)以及密集连接的端到端检测网络(densely connected end-to-end neural network)(Jiao等，2018)等模型进行对比实验，以上对比模型依次称为模型1、模型2、模型3、模型4，结果如表 5所示。

表 5 本文方法与其他舰船检测方法对比结果
Table 5 Detection results of different models for comparison

模型	平均精确率/%	精确率/%	召回率/%	训练时间/ms	测试时间/ms
模型1	73.24	92.31	88.80	540.42	159.11
模型2	78.90	93.10	86.40	572.67	185.53
模型3	70.24	82.01	78.40	2 152.09	330.78
模型4	77.84	95.21	83.60	561.82	180.95
本文	80.13	96.68	89.60	13.33	10.18
注：加粗字体为每列最优结果。

模型2和模型4都是基于Faster RCNN模型提出的，与Faster RCNN模型相比，它们提高了检测精度，同时也增加了平均训练和测试的时间。但是，与本文的单阶段检测方法相比，Faster RCNN在训练精度上并没有表现出太大优势，原因可能由于Faster RCNN系列结构更复杂，像SSDD这样的小型检测数据集无法很好地对其进行训练。模型3利用生成对抗网络和在线难例挖掘技术来扩大训练中的数据，并基于RCNN方法进行检测，不仅速度慢，而且精度也是几种方法中最低的。而本文方法在召回率和检测精度等方面都实现了最佳性能，并且在速度方面具有明显优势，反映出本文方法的有效性与实用性。

4 结论

本文主要研究SAR图像舰船目标检测，着重解决了检测中速度与精度的平衡问题。为了提高算法的处理速度，设计了轻量化的LSSD模型，与SSD模型相比，需训练的参数大幅减少，模型可从头开始训练而不必依赖预训练模型。为了提高模型检测的精度，提出了一种用于参数设置的基于聚类的目标分布特性学习算法，并采用语义聚合块和新的注意力引导融合块的双向特征融合模块来优化检测特征，改进了传统方法中单向特征融合不能优化高层特征的不足。利用公开的SSDD数据集验证了所提各模块的效果，结果表明，所提模型在速度和精度方面均表现出良好性能，与基准模型以及其他经典检测算法相比，训练和测试速度均有明显提升，检测精度也高于其他检测算法，从检测结果图中也可以看出，所提模型有效降低了目标漏检情况。

然而，尽管本文模型较其他检测模型表现出更好的速度和精度性能，但测试中仍存在一些失败案例，如无法较好地检测密集排列的舰船目标，这也是实验中各检测模型存在的普遍问题。其原因主要在于包括本文模型在内的这些模型都采用了垂直矩形边框作为目标边界框实施检测，而相邻的密集排列舰船目标的检测框存在大量重叠区域，容易被模型自动合并、删减，造成检测框位置不准确甚至漏检。而采用目标最小外接倾斜矩形框作为目标边界检测框可以有效避免这类问题。因此，在今后工作中，将继续研究基于目标倾斜边界框的检测算法，提高检测效果。此外，本文模型没有利用SAR图像的极化信息。如何利用SAR图像的极化信息提升检测性能也是接下来一个有意义的研究重点。

【转载声明】转载目的在于传递更多信息。如涉及作品版权和其它问题，请在30日内与本号联系，我们将在第一时间删除！

关注微信公众号：人工智能技术与咨询。了解更多咨询！

编辑：fqj

打开APP阅读更多精彩内容