基于深度学习的道路小目标检测优化方法

4sNj_vision263c 2023-11-07 944

人工智能

641人已加入

描述

作者：曹健，陈怡梅，李海生，蔡强

复杂道路场景下的小目标检测能够提高车辆对于周边环境的感知能力，是计算机视觉和智慧交通领域的重要研究方向。

随着深度学习技术的发展，将深度学习方法与道路小目标检测相结合能够有效提高检测精度，使车辆快速对周边环境做出反应。

本文从经典及最新的道路小目标检测的研究成果出发，给出小目标的两种定义方式，分析造成道路小目标检测困难的原因，阐述数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等5类基于深度学习的提高道路小目标检测精度的优化方法，总结归纳各类方法的核心思想及目前国内外最新的研究进展。

另外介绍了常用于道路小目标检测的大型和公共数据集，提供相应的用于评估小目标检测性能的指标，对比分析各类方法在不同数据集上的性能检测结果，指出道路小目标检测研究目前仍存在的问题，并结合这些问题从多个角度对其未来研究方向进行展望。

00 概述

道路目标检测是智能交通监控[1]、自动驾驶[2]、车牌识别[3]、行人跟踪[4]、车辆检测[5]等领域的重要研究分支之一，旨在识别和检测整个道路场景图像中感兴趣的目标，尤其是在复杂场景中的准确性和实时性是评测整个模型系统的重要指标，具有广泛的应用价值。但是自然交通场景的复杂多变以及道路各类目标本身在尺寸与距离上的干扰，使得目标识别和检测难度大大增加，其中小目标检测就是研究者关注的一个难点问题。对于大中型的车辆、行人等目标，通用的Two-stage和One-stage目标检测模型已经能够达到不错的检测效果，然而小目标的尺寸较小，不具备相应的形状和纹理特征，这些特性导致其检测性能仍有所欠缺，不能满足实际需求。

道路小目标的具体定义方式可参考小目标的定义方式，大致可分为两种：一种是绝对尺寸的定义方式，在通用的目标检测数据集MS COCO[6]中，尺寸小于32×32像素的目标被定义为小目标；另一种是相对尺寸的定义方式，根据国际光电仪器工程师协会（SPIE）的定义，小目标是指在大小为256×256像素的图像中目标区域小于9×9像素。

目前，道路小目标检测困难和效果相对较差的原因大致可以归结为以下4种：

1）相较于中大型行人车辆目标，包含小目标实例的图像较少，且道路场景复杂多变，小目标容易隐藏在背景中；

2）小目标在道路图像中面积占比小、分辨率低，携带的信息少，位置缺乏多样性，难以定位，因此，卷积神经网络提取到的可利用的有效信息非常有限；

3）特征提取时，输入图像经过卷积神经网络的多次下采样后，小目标的细节信息丢失严重，影响小目标的检测效果；

4）道路目标检测领域缺乏大规模通用的小目标检测数据集，目前该领域发布的公共数据集多为针对中大型的行人车辆进行检测，难以满足小目标的检测需求。

针对上述问题，国内外许多研究者提出了相应的改进和优化方法来提高小目标的检测精度。本文将主要从数据增强、多尺度策略、生成超分辨率（Super-Resolution，SR）细节信息、加强上下文信息联系、改进损失函数等5类改进方向出发进行归纳梳理，对各类方法的特点和优缺点进行比较，在MS COCO公共数据集以及其他不同道路场景数据集上对各类方法的检测性能进行评估和对比分析，并对道路小目标检测的未来研究方向进行展望。

01 针对小目标检测的优化方法

1.1 数据增强

数据增强是一种扩展数据的技术，在缺乏数据或数据量有限的情况下，该技术可以利用有限的数据来创造尽可能多的价值并尽可能满足研究者的需求。尽管现在有很多用于各种任务的公开数据集，但数据量在使用中远远不够，而收集和制作这些数据的成本其实是非常高的且不便于采集，因此数据增强便成为了一种快速有效的改进方法。在大部分目标检测的数据集中，小目标的实例数量占比少，在训练和检测中容易被忽略。通过数据增强来增加小目标的样本数量，可有效改进小目标的检测精准度。常用的数据增强方法可大致分为单样本数据增强和多样本数据增强两类。

典型的单样本数据增强方法主要是在一张预检测的图像上进行翻转、裁剪、缩放、添加噪声、变换颜色等操作，改变图像原有的状态，可有效增加数据集的样本数量和提高网络的泛化能力。文献[7]使用过采样和基于复制粘贴的增强方法进行改进，并在将对象粘贴到新位置前，对其应用两种缩放图像和旋转图像的随机变换，然后将小目标粘贴到新的位置，并确保新粘贴的目标不与任何现有目标相重叠，且距离图像边界至少5个像素。文献[8]对输入的每一张图像先采用缩放操作，在缩放操作后进行增强对比度、翻转、改变亮度和以0.5的概率随机角度旋转等操作。文献[9]在小目标数据集上，将每张图片上的小目标物体在训练时复制3次，使得网络在训练过程中可以更容易地提取目标的特征信息。文献[10]通过几何变换和颜色变换等进行数据增强，增加了数据集的数据量。文献[11]提出自动数据增强策略，与手工制定的策略不同，该策略利用自动算法在多种增强候选者中进行搜索，且该策略也可以应用于其他数据集和框级任务。文献[12]利用自动机器学习（Auto Machine Learning，Auto ML）原理设计自动搜索数据增强技术用于行人检测，从而产生最佳的数据增强策略。

近些年，许多研究者也提出了多种通用的多样本数据增强方法，包括MixUp[13]、CutOut[14]、CutMix[15]、Mosaic[16]等方法，这些方法通过将多张图像以某种方式合成到一起形成新的样本，达到扩充数据集容量的目的。MixUp方法将两张图像以一定的概率和比例拼凑到一起，比例分配决定了分类结果。CutOut是在图像中随机选择某一部分区域进行裁剪。CutMix是将两种方法相结合，先裁剪掉一张图像的某一部分，再使用另一张图像中的某一部分进行填充形成新的样本。Mosaic数据增强方法是目前最常用的数据增强方法之一，该方法借鉴了CutMix增强方法，将采用的2张图像扩充为4张图像，先对4张图像进行随机裁剪、缩放、翻转等操作，然后将4张图像拼接形成一张新的图像。这个操作在扩充了数据集的同时也增加了小样本的数量，并且极大地丰富了检测对象的背景。在YOLOv4[16]和YOLOv5[17]模型结构中，均使用了Mosaic数据增强方法，以此提高了模型学习能力和效率。文献[18]也将Mosaic数据增强方法引入改进后的CenterNet[19]中，以此优化算法的训练模式，丰富检测背景，优化检测性能。

1.2 多尺度策略

在使用卷积神经网络进行特征提取时，不同的网络深度对应不同层次的特征。低层特征的分辨率更高，像素更丰富，包含更多的细节信息和位置信息，对于目标的定位有极大帮助，但包含的语义信息较少；高层特征包含更丰富的语义信息，极大地促进了对象的分类，但分辨率较低，像素较少，对细节位置信息的感知能力较差。对于小目标行人、车辆以及指示牌而言，它们的尺寸小，分辨率低，在多次下采样后，特征图不断缩小，致使小目标的细节信息严重丢失，而多数通用检测器仅采用最后一层的特征图来定位目标和预测置信度分数，其中包含丰富的分类信息但缺乏详细信息，使得小目标物体容易出现误检和漏检的情况。多尺度策略的提出有效缓解了这一问题，在计算量不大的情况下，增强了物体特征的表达能力，提高小目标检测的性能。目前，典型的多尺度策略有图像金字塔、SSD算法和特征金字塔网络（Feature Pyramid Network，FPN）。

图像金字塔是图像多尺度表达的一种，通过对原始图像进行下采样，得到一系列以金字塔形状排列的分辨率逐渐降低的子图集合，构成图像金字塔。图像金字塔结构如图 3所示。

深度学习

图3 图像金字塔结构

文献[20]将背景差分目标检测模型与高斯图像金字塔相结合用于多目标的检测，减少了误检测。文献[21]指出当前在极端尺度变化下目标检测训练存在的缺点，在此基础上提出一种新的训练方案，即图像金字塔尺度标准化（Scale Normalization for Image Pyramid，SNIP），在训练和反向传播更新参数时，只考虑在指定的尺度范围内的目标，即只对大小合适的某些目标进行训练，以此提高小目标的检测效率。然而，图像金字塔方法的一个明显限制是它在处理一张图像时需要较大的计算量，模型必须对来自所有尺度的图像执行独立的计算。

SSD算法使用步长为2的卷积来降低特征图的大小，以不同尺度的特征图作为检测层来分别预测不同尺度目标的类别和位置坐标，较大的特征图用来检测小目标，较小的特征图用来检测大目标，实现多尺度目标的检测。SSD算法的多尺度检测如图 4所示。

深度学习

图4 SSD算法的多尺度检测

文献[22]提出DSSD网络，使用ResNet-101更换SSD的骨干网络VGG16，提高了模型的特征提取能力，并使用反卷积层增加了上下文信息，提升了多尺度目标及小目标的检测精度。文献[23]提出一种基于稀疏连接和多尺度融合的Inception-SSD行人检测方法，使用Inception模型代替骨干网络的基础部分，将全连接转换为稀疏连接，有效缓解了参数空间大、容易过拟合、梯度分散、模型性能下降等问题。

由于SSD多层特征图为非连续结构，所得到的信息不足，影响检测性能，因此特征金字塔通过引入自上而下的连接[24]来解决SSD模型存在的问题。特征金字塔是目前最常使用的多尺度特征融合方法，针对图像中不同物体具有不同的尺度，利用自下而上的路径、自上而下的路径和横向连接三部分完成多尺度检测。自下而上的路径是卷积神经网络的前向过程，选取每个阶段最后一层的输出构成特征金字塔；自上而下的路径通过从更高的金字塔级别对空间上更抽象但语义更强的特征图进行上采样来生成更高分辨率的特征图；横向连接合并了自下而上路径和自上而下路径的相同空间大小的特征图，将来自低层特征图的详细位置信息和来自高层特征图的丰富语义信息相融合，实现了不同尺度的特征提取，显著提升了小目标的检测性能。特征金字塔结构如图 5所示。

深度学习

图5 特征金字塔结构

文献[25]将FPN网络中的Add融合方式更改为Concat方式来融合经多次卷积后提取的特征。文献[26]提出一种融合FPN和Faster R-CNN[27]的行人检测算法，获得了较好的检测效果。文献[28]提出基于FPN的路径聚合网络（PANet），在FPN后增加自下向上的路径增强，能够缩短信息路径并利用低层中存在的准确定位信息来增强特征金字塔，得到语义信息和定位精度上的双重提升，从而提高了对于多尺度目标的检测能力。PANet结构如图 6所示，其中，Pi和Ni表示不同层级的特征图，Ni是由包括Pi等多个特征图融合后的结果。

深度学习

图6 PANet结构

文献[29]针对FPN网络存在自顶向下路径中信息稀释导致较低层获得的语义信息有限、高层特征缺乏空间信息的问题，将语义金字塔模块和语义特征融合模块加入检测模型，提出语义特征金字塔网络（SFPN），以解决信息不平衡问题并防止在特征融合过程中发生稀释。文献[30]提出新的图像金字塔引导网络（IPG-Net），创建了一条新的路径来缓解空间信息和语义信息之间的不平衡和错位问题，将IPG-Net信息不断融入主干流，解决了深层空间信息不足和小物体特征丢失的问题。文献[31]提出图特征金字塔网络（GraphFPN），该网络的拓扑结构能够动态适应输入图像的内在结构，并支持所有尺度特征的同时交互，继承输入图像的超像素层次结构，使用上下文层和等级间交互层来分别促进相同尺度内和不同尺度间的特征交互，避免了FPN网络中来自非相邻尺度的特征只能间接交互的问题。

1.3 超分辨率细节信息生成

相较于低分辨率（Low-Resolution，LR）图像，高分辨率（High-Resolution，HR）图像的像素密度较高，能够提供更多原始场景下精细的细节信息和可区分的特征，在检测中能够获得更佳的检测效果。因此，生成超分辨率图像也是对小目标的检测精度进行改进的一种有效方法，旨在从相应的低分辨率特征中恢复高分辨率特征，将生成的高分辨率图像作为检测模型的输入，获得更多小物体的细节信息。

目前，该类方法大部分主要通过生成对抗网络（Generative Adversarial Network，GAN）[32]的方式将小目标的特征转化为与中大型目标一样或相近的特征表达来恢复或重建高分辨率图像，其中生成器用于从低分辨率图像中生成超分辨率图像来欺骗判别器，判别器对真实图像和生成器生成的仿真超分辨率图像进行区分，预测目标的类别和位置，整体流程如图 7所示。

深度学习

图7 基于GAN的细节信息生成流程

文献[33]将GAN引入小目标检测构建一种Perceptual GAN，基于深度残差特征的生成器模型将底层特征作为输入，将小物体的原始较差特征转换为具有高判别力的特征，从而在中间表示上生成超分辨率图像，判别器通过对细粒度细节信息的生成进行指导以提高生成目标的质量，有利于小目标的检测。文献[34]提出一种可与多种检测器相结合的SOD-MTGAN，在生成器中引入超分辨率网络实现对小目标图像的大范围上采样，生成超分辨率图像，并在判别器中引入用于目标检测的分类和回归损失进行联合识别与反向传播，以进一步指导生成器网络生成超分辨率图像，使得小目标在检测中更易定位和识别。文献[35]提出一种新的特征级超分辨率图像生成方法，通过空洞卷积对网络输入的低分辨率特征感受野和目标高分辨率特征感受野进行匹配，提高超分辨率图像生成质量，并对超分辨率生成器进行直接监督，提高训练稳定性，总体模型结构如图 8所示，其中，I为原始输入图像，×0.5表示对图像进行下采样，F为来自原始图像的低分辨率特征，T为SR目标提取器提取到的真实目标的超分辨率特征，S为生成的超分辨率特征。

深度学习

图8 特征级超分辨率图像生成模型结构

文献[36]使用超分辨率子网络从大规模行人中恢复小规模行人的详细信息，将分类任务和超分辨率图像生成任务集成在一个统一的JCS-Net框架中，使得重建图像特征更适合小尺度行人的检测。文献[37]提出一种新的静止小波扩张残差超分辨率图像生成网络（SWDR-SR），以极大地增强图像的边缘信息并减少模糊现象，从而改善行人的检测效果。

1.4 上下文信息联系加强

在一张道路图像中，小目标占比较小，在检测中能够提取到的信息和特征稀少且有限，但小目标周围的区域总是包含很多其他对象的信息以及场景信息，这些信息在检测中能够提供帮助但却容易被忽略，因此加强小目标附近的上下文信息联系，将上下文信息加入小目标的检测，能够有助于增强特征表示，提高小目标的检测精度。

文献[38]引入一个简单而强大的空间记忆网络框架（SMN），对实例级上下文进行建模，该网络本质上是将对象实例重新组合成一个伪图像表示。文献[39]对对象之间的关系进行建模，在检测模型中添加对象关系模块以增强检测效果。文献[40]构建一个网络，利用行人实例之间的相关性，将行人目标的头顶区域和较低区域作为空间上下文，利用行人与场景之间的相关性，引入GRU[41]模块，将编码的上下文作为输入来指导每个候选目标的特征选择和融合，具体的关系上下文结构如图 9所示，其中，节点v表示选中的感兴趣区域，r表示每对实例节点之间的关系，f表示感兴趣区域的视觉特征，m表示其他节点到节点vi的关系消息，ht+1为GRU模型输出的节点状态。

深度学习

图9 关系上下文结构

文献[42]提出一种用于目标重新检测的空间上下文分析方法（FS-SSD），通过考虑一定距离内多类对象的相互作用，计算不同对象实例之间的类间和类内距离作为空间上下文，以重新验证某些对象实例的置信度，这种重检测方法充分利用空间关系，有助于处理多类小目标检测。文献[43]使用来自更高层的更多抽象特征作为上下文，并从小物体的周围像素中提取上下文信息，然后将上下文感知信息添加到SSD网络，以便更好地进行检测。文献[44]提出高效的选择性上下文网络（ESCNet）来解决SSD网络上下文探索不足的问题，其中增强上下文模块（ECM）通过利用原始尺度、小尺度和大规模上下文信息来增强浅层特征，而三重注意力模块（TAM）用来融合上下文信息并选择性地细化特征。

1.5 损失函数改进

在目标检测任务中，损失函数具有重要作用。损失函数往往用于检测模型最后一部分，一般的目标检测算法包含两类损失函数：一类是分类损失函数；另一类是回归损失函数，而YOLO系列检测算法还包含置信度损失函数。针对不同的检测器和检测场景，选择或设计不同的损失函数会产生不同的收敛效果，通过对损失函数进行改进，可以对小目标取得更高的检测准确率。目前，常用的损失函数改进方法大致可分为两种：一种是对模型本身的损失函数进行优化；另一种是更换模型的损失函数。

针对实验中所选用的不同数据集，根据实际需求，对模型本身的损失函数进行优化和调整是提高小目标检测精度的一种有效方法。文献[45]考虑到尺寸小的待检测目标的损失函数通常会被忽略，使得小目标检测精度受到影响，通过调整大小尺度目标对损失值的影响权重，降低大目标误差对小目标检测效果的影响，使得小目标和大目标对损失函数的影响程度相同。文献[46]考虑到道路行人、车辆等各类目标数据量的不同，增加损失函数中目标分类误差的权重，并增强负样本对损失贡献的惩罚，有效降低了小目标的误检率。

虽然对模型本身损失函数进行调整能适当提高小目标检测精度，但由于小目标物体在道路图像中占比低、数量少，训练阶段小目标对损失函数的贡献较小，且会加剧样本不均衡的问题。为了缓解这种情况，采用性能更优、收敛速度更快的损失函数替代模型原有的分类损失函数成为目前常用的改进方法。文献[47]设计一种新的损失函数（CUA），通过进一步考虑训练阶段的类别不确定性来指导目标检测，使得网络专注于输出小目标不明确等情况。文献[48]针对现有锚框匹配不平衡的问题，设计尺度平衡损失函数取代FSSD[49]、RefineDet[50]等方法中使用的保持匹配平衡的对应函数，通过在原有的基础上进行加权运算，减少匹配次数多的目标所占的比例，增大匹配次数少的小目标的权重，提高小目标的检测精度和召回率。文献[51]鉴于小目标物体属于困难检测样本，在引入Focal Loss增大困难样本的损失权重的同时结合反馈机制与空洞卷积，提高了道路小目标的检测精度。文献[52]针对目标预测框出现在真实框的内部时GIoU[53]退化为IoU[54]使得位置关系无法区分的问题，使用CIoU[55]代替GIoU作为回归损失，使得目标框在回归过程中更稳定，收敛精度更高。各类道路小目标检测优化方法的优缺点对比如表 1所示。

表 1　各类道路小目标检测优化方法的优缺点对比

深度学习

02 数据集、评价指标及性能对比

2.1 数据集

构建一个小目标检测数据集需要花费大量时间，并且对于小目标的有限像素而言，正确放置边界框的定位等都是有困难的。在目前的研究中，对于小目标的检测并没有通用的数据集，多数研究者选择在一些大型公共的数据集上进行性能验证。当前，道路目标检测领域已经公开了许多公共的大型数据集，包括KITTI[56]、BDD100K[57]、ApolloScape[58]、D2-City[59]和Waymo[60]，这些数据集通常包括数据量大、数据源丰富、应用场景覆盖全面等特点，这对于道路目标检测的方法研究和成果展示起着至关重要的推动作用和贡献。除了前面介绍的几种数据集，研究者还提出了其他的道路目标检测数据集，例如A*3D[61]、nuScenes[62]等。

1）KITTI数据集

2012年，德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办了KITTI数据集，该数据集是目前自动驾驶场景下常用的计算机视觉算法评测数据集之一。KITTI数据集中的图像包含在卡尔斯鲁厄市区、乡村、高速公路等场景中采集到的真实图像数据，采集到的每张图像中最多可达15辆车和30个行人以及各种不同程度的遮挡与截断，包含的类别可分为汽车、货车、卡车、有轨电车、行人、坐着的行人、骑自行车的人等7种与道路交通有关的对象类别。

2）BDD100K数据集

2018年，美国伯克利人工智能研究实验室发布了BDD100K开源视觉驾驶场景数据集，该数据集收集了美国不同地区的城市街道、居民区和高速公路的100 000个视频，每个视频时长约40 s，在每个视频的第10秒对关键帧进行采样，得到100 000张1 280×720像素的图像。该数据集涵盖了晴天、多云、阴天、雨天、雾天、下雪等6种不同的天气状况以及黎明、黄昏、白天、夜间等不同时段，包含的目标类别可分为公共汽车、交通灯、交通标志、行人、自行车、卡车、摩托车、小汽车、火车、骑手等。

3）ApolloScape数据集

2018年，百度发布了一个大规模自动驾驶数据集——ApolloScape，其是一个像素级标注的场景解析数据集，图像采集来自中国的北京、上海和深圳。该数据集包括143 906张像素级语义标注图像，属于业界环境复杂、标注精准、数据量大的公开3D自动驾驶数据集，标注精度上超过了同类型的KITTI和BDD100K数据集，致力于向研究者提供具有挑战性的数据支持。

4）D2-City数据集

D2-City是一个大规模行车视频数据集，采集自运行在中国多个城市的市区和郊区的滴滴运营车辆，涵盖了中国不同城市的道路行车场景，提供了更多复杂和具有挑战性的天气、交通等状况，包括道路拥堵、雨雾天气、低光环境、图像清晰度低等。该数据集提供了12类道路对象的注释，包括汽车、面包车、公共汽车、卡车、人、自行车、摩托车、开放式三轮车、封闭式三轮车、叉车以及大小街区。

5）Waymo数据集

2019年，自动驾驶公司Waymo发布了大规模、高质量、多样化的Waymo数据集，该数据集包含1 150个场景，每个场景跨越20 s，包括在美国凤凰城、山景城和旧金山的城市和郊区捕获的经过良好同步和校准的高质量LiDAR和相机数据。目前，该数据集定义了2D和3D对象检测和跟踪任务，未来研究者计划添加地图信息、更多标记和未标记数据，使其更加多样化。

表 2根据不同的应用场景，简要对这些比较有影响力的常用大型道路目标检测数据集进行了介绍。

表2 道路场景数据集

深度学习

除了上述列举的常用大型数据集外，很多研究者也会在MS COCO[6]、PASCAL VOC[63]等包含有关小目标类别的大型数据集或自建的数据集上对检测模型或优化方法进行验证。表 3对MS COCO、PASCAL VOC这两类常用的公共数据集进行了简要介绍。

表3 MS COCO 和 PASCAL VOC 数据集

深度学习

2.2 评价指标

对于道路场景小目标检测的评价指标主要包括检测精度和检测速度这两方面。检测精度主要使用平均精度（Average Precision，AP）和多个类别的平均精度均值（mean Average Precision，mAP）来衡量模型检测性能的优劣，AP和mAP的计算公式分别如式（1）和式（2）所示：

深度学习

其中：深度学习代表所有类别数；代表模型对于第i个类别的物体的平均精度。

模型检测速度主要反映了算法的实时性，也是一个重要的评价指标，通常采用每秒帧率（Frame Per Second，FPS），即算法平均每秒检测的图像数量进行衡量。FPS越高，模型检测速度越快，实时性能越好。

2.3 性能对比

一部分优化方法基于MS COCO数据集训练模型并进行验证，另外一部分优化方法在PASCAL VOC 2007、KITTI道路场景数据集以及自建的数据集上进行模型性能验证，这里将分为两部分进行性能对比。

不同检测模型在MS COCO数据集上的性能测试结果如表 4所示，其中，AP50和AP75分别表示IoU阈值为0.5和0.75时目标检测的平均精度，APS、APM和APL分别表示小、中、大尺度检测目标的平均精度，最优指标值用加粗字体标示。

表4 不同检测模型在 MS COCO 数据集上的测试结果

深度学习

由表 4可以看出，文献[21]模型在多个指标上都取得了最佳的检测结果，在多尺度策略的基础上，采用一种新的图像金字塔尺度归一化（SNIP）训练策略，只选取分辨率落入所需尺度范围的目标进行训练，忽略其他目标。通过这种训练设置，可在最合理的范围内处理小目标物体，以此提高了小目标的检测精度，却不影响对中大型对象的检测性能。文献[7]模型基于数据增强的优化方法相比于其他模型性能较差，主要原因为其在大型数据集中仅使用数据增强，对小目标检测的性能提升是有限的，还需与其他方法结合使用。对于同一个优化方法，IoU阈值设置为0.5时取得的AP值较高，当IoU提高时，精度也会降低。虽然优化后的模型在小尺度目标上的检测精度有所提升，但整体上小尺度的检测精度与中大尺度的检测精度仍有着明显的差距，仅约为大尺度目标的1/2，这也说明了小目检测的难度较大。

总体来看，针对小目标检测的优化方法对于3个尺度目标的检测性能均有一定提升，各类检测模型均在大尺度目标上的敏感性更好，获得的检测精度最高，而其中基于多尺度策略的检测模型在3个尺度目标的检测上得到了最好的检测结果，基于超分辨率细节信息生成的检测模型次之，而仅基于数据增强方法的检测模型对目标的敏感度最低，性能提升微弱。因此，当数据集容量偏小且数据集构成比较简单时，采用数据增强能对目标检测性能有一定的提升，而在大型复杂数据集中，其他方法改进效果更加显著，而使用基于多尺度策略的优化方法得到的小目标的平均精度要高于其他方法，因此可以成为未来一个主要的研究方向。

表 5展示了一些检测模型在KITTI等道路场景数据集及自建的数据集上的检测性能，与原始模型相比，优化后的模型在精度和速度上都得到了一定的提升，但与在MS COCO数据集上进行的实验结果相比，在这些数据集上的实验结果无法表现出明显的交叉评估性能。

表5 不同检测模型在其他数据集上的测试结果

深度学习

03 未来研究方向

目前，在道路场景下的小目标检测已取得了较大进步，下一步将对其在多个数据集上的检测性能以及在可靠性、通用性、鲁棒性等方面的表现做进一步研究。

1）构建适应性和普适性更强的检测模型。许多通用的检测模型对于复杂道路场景下行人、车辆等小目标的类型、大小等较敏感，需要根据不同的场景调整参数，例如学习率：当设置较大的学习率时模型可能永远不会收敛，当设置较小的学习率时模型会给出次优结果。因此，建立适应性和普适性更强的检测模型是一个重要的研究方向。

2）设计性能更优和更适合小目标检测的专用骨干网络。深层次的骨干网络可能不利于小目标提取高质量的特征表示，因此需要设计一个有效的骨干网络，既具有强大的特征提取能力，能更好地提升小目标的检测性能，又能减少高昂的计算成本和目标信息的丢失，这也是目前研究的一大趋势。

3）构建更轻量化的检测模型。不同的应用场景对检测精度和速度的侧重不同，当应用于智能交通等领域时，对于检测速度的追求是首选，在检测模型中融入特征融合结构已成为道路小目标检测中的最常用的研究方法，但该方法会降低检测速度，增加时间消耗，因此需要构建更轻量化的检测模型，在保持一定精度的前提下设计灵活度更高的网络结构，满足模型轻量化、易于移植的需求，实现模型在车辆设备上的快速部署，具有很强的现实意义。

4）构建大规模通用的道路小目标检测数据集。小目标数据集的缺乏是影响小目标检测的一个重要因素，现有的数据集或自建的数据集包含多类小目标的数量非常有限，无法支持基于深度学习的小目标检测定制模型的训练以及性能评估，因此构建小目标数据集对于推进小目标检测的发展具有重要的意义。

5）采用合适的训练策略。在大部分数据集中，小目标物体占比小、数量少，因此可采用一些特定的训练方式，包括多尺度训练、增加小目标的训练权重以及多个数据集进行联合训练等，使得模型对小尺度目标的泛化能力增强，在训练时对小目标的学习更加充分。这也是提高小目标检测性能的有效措施，具有广阔的发展前景。

04 结束语

道路小目标检测是计算机视觉领域的一个极具挑战性的问题。本文从数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等5个方面对基于深度学习的道路场景下的小目标检测优化方法的最新研究进展进行归纳和总结，并根据定量和定性结果对各类优化方法的性能进行评估。后续将对探索设计性能更优和更轻量化的检测模型、构建小目标数据集、改进训练策略等方向进行更深入研究。

编辑：黄飞

打开APP阅读更多精彩内容