百度开源DETRs在实时目标检测中胜过YOLOs

3D视觉工坊 2024-03-06 329

描述

这篇论文介绍了一种名为RT-DETR的实时检测Transformer，是第一个实时端到端目标检测器。该方法通过设计高效的混合编码器和IoU感知的查询选择，有效处理多尺度特征，并支持灵活调整推断速度，无需重新训练。在COCO val2017数据集上，RT-DETR-L实现了53.0%的AP和114 FPS，RT-DETR-X实现了54.8%的AP和74 FPS，RT-DETR-R50实现了53.1%的AP和108 FPS，性能优于同等规模的YOLO检测器和DINO-DeformableDETR-R50模型。

FPS

读者理解：

本文提出了一种新的实时端到端目标检测器RT-DETR，并通过详细的分析和实验证明了其在速度和准确性方面的优势。文章对NMS进行了深入的分析，并指出了当前实时检测器中存在的问题，为提出新的解决方案提供了理论基础。RT-DETR的设计理念和实验结果为实时目标检测领域的研究和应用提供了新的思路和方法。整体来说，这篇文章对实时目标检测领域具有重要的学术和应用价值。

1 引言

目标检测是一项重要的视觉任务，涉及在图像中识别和定位物体。现代目标检测器有两种典型架构：基于CNN和基于Transformer。基于CNN的检测器架构从最初的两阶段发展到单阶段，并出现了基于锚点和基于无锚点的检测范式。这些研究取得了显著进展。基于Transformer的目标检测器（DETRs）自提出以来受到广泛关注，因为它消除了各种手工制作的组件，如非最大抑制（NMS），实现了端到端的目标检测。实时目标检测是一个重要的研究领域，现有的实时检测器通常采用基于CNN的架构，但需要NMS进行后处理，导致推理速度延迟。

近年来，基于Transformer的检测器取得了显著进展，但其高计算成本限制了实际应用。为了解决这些问题，作者提出了实时检测Transformer（RT-DETR），是第一个实时端到端目标检测器，不需要后处理，推理速度稳定。RT-DETR在速度和准确性上均优于当前最先进的实时检测器，成为新的SOTA。

FPS

2 探测器端到端速度

2.1 NMS的分析

本部分介绍了目标检测中常用的后处理算法非极大值抑制（NMS），用于消除检测器输出的重叠预测框。NMS需要两个超参数：分数阈值和IoU阈值。作者通过实验验证了NMS对这两个超参数的敏感性，并展示了NMS操作在不同超参数下的执行时间。实验结果表明，NMS的执行时间主要取决于输入预测框的数量和超参数的选择。此外，作者还介绍了实验中使用的模型（YOLOv5和YOLOv8）以及评估准确性和执行时间的方法。这些实验结果有助于更好地理解NMS在目标检测中的作用和影响。

2.2 端到端速度基准

本部分介绍了建立了一个端到端速度测试基准，以公平比较各种实时检测器的推理速度。选择了COCO val2017作为默认数据集，并使用了TensorRT的NMS后处理插件。通过测试基于锚点的检测器（如YOLOv5和YOLOv7）以及无锚点检测器（如PP-YOLOE、YOLOv6和YOLOv8）在T4 GPU上的端到端速度，发现无锚点检测器在等效准确性下优于基于锚点的检测器，因为前者的后处理时间明显少于后者。这对于实时检测器的后处理时间进行了新的探讨，为实时目标检测提供了重要的参考。

3 实时DETR

FPS

3.1

本部分介绍了提出的实时DETR（RT-DETR）的模型架构。RT-DETR由骨干网络、混合编码器和Transformer解码器组成，解码器带有辅助预测头。模型利用骨干网络最后三个阶段的输出特征作为编码器的输入，然后通过混合编码器将多尺度特征转换为图像特征序列。接下来，使用IoU感知的查询选择从编码器输出序列中选择一定数量的图像特征作为解码器的初始对象查询。最后，解码器利用辅助预测头迭代优化对象查询，生成框和置信度分数。这种架构使得RT-DETR能够实现端到端的实时目标检测。

FPS

3.2 高效混合编码器

本部分详细介绍了实时DETR中的高效混合编码器的设计和优化。作者通过分析多尺度Transformer编码器中的计算冗余，提出了一种新颖的编码器结构。该编码器包括两个模块，即基于注意力的内部尺度特征交互（AIFI）模块和基于CNN的跨尺度特征融合模块（CCFM）。AIFI模块在高级特征上执行内部尺度交互，以捕捉图像中概念实体之间的关系。而CCFM模块则通过融合块实现跨尺度特征融合，进一步优化了编码器性能。通过实验验证，这种编码器结构显著降低了计算成本，同时提高了模型的准确性和实时性，为实时目标检测提供了重要的技术支持。

3.3 基于IoU的查询选择

本部分介绍了IoU感知的查询选择方法，用于在DETR模型中选择高质量的编码器特征作为对象查询的初始化。传统的查询选择方法可能导致选择具有高分类分数但低IoU分数的特征，从而降低了检测器的性能。为了解决这个问题，提出了IoU感知的查询选择，通过在训练期间约束模型对具有高IoU分数的特征产生高分类分数，并对具有低IoU分数的特征产生低分类分数。实验结果表明，这种方法可以提供更准确的分类和定位结果，从而提高了检测器的准确性。

3.4 缩放RT-DETR

本部分介绍了缩放的RT-DETR，通过将ResNet骨干网络替换为HGNetv2来提供可扩展的版本。我们使用深度倍增器和宽度倍增器一起缩放骨干网络和混合编码器。因此，我们得到了两个具有不同参数数量和FPS的RT-DETR版本。对于我们的混合编码器，我们通过调整CCFM中RepBlocks的数量和编码器的嵌入维度来控制深度倍增器和宽度倍增器。值得注意的是，我们提出的不同规模的RT-DETR保持了相同的解码器，这有助于使用高精度大型DETR模型对轻量级检测器进行蒸馏。

FPS

4 实验

该部分介绍了实验设置和结果。实验在Microsoft COCO数据集上进行，使用COCO train2017进行训练，使用COCO val2017进行验证。使用单尺度图像作为输入，采用标准的COCO AP指标评估性能。使用在ImageNet上预训练的ResNet和HGNetv2作为骨干网络，AIFI由1个transformer层组成，CCMF中的融合块默认由3个RepBlocks组成。在IoU感知的查询选择中，选择前300个编码器特征来初始化解码器的对象查询。训练策略和解码器的超参数几乎遵循DINO。使用AdamW优化器进行训练，基础学习率为0.0001，权重衰减为0.0001，全局梯度剪裁范数为5。实验结果表明，使用IoU感知的查询选择可以提高检测器的准确性。

FPS FPS

总结

在本文中，提出了RT-DETR，据作者所知是第一个实时端到端检测器。作者首先对NMS进行了详细分析，并建立了一个端到端速度基准，验证了当前实时检测器的推理速度受到NMS延迟的事实。作者还从NMS的分析中得出结论，无锚点检测器在相同准确性下优于基于锚点的检测器。为了避免NMS造成的延迟，设计了一个实时端到端检测器，包括两个关键改进组件：一个能够高效处理多尺度特征的混合编码器和提高对象查询初始化的IoU感知查询选择。大量实验证明，与其他实时检测器和相似大小的端到端检测器相比，RT-DETR在速度和准确性上均达到了最先进的水平。此外，提出的检测器支持通过使用不同的解码器层灵活调整推理速度，无需重新训练，这有利于实时目标检测器的实际应用。

审核编辑：刘清

打开APP阅读更多精彩内容