PyTorch教程14.7之单发多框检测-电子发烧友网

在第 14.3 节到第 14.6 节中，我们介绍了边界框、锚框、多尺度目标检测和目标检测数据集。现在我们准备使用这些背景知识来设计一个目标检测模型：单次多框检测（SSD）（Liu et al. , 2016）。该模型简单、快速、应用广泛。虽然这只是大量目标检测模型中的一种，但本节中的一些设计原则和实现细节也适用于其他模型。

14.7.1。模型

图 14.7.1提供了单次多框检测设计的概述。该模型主要由一个基础网络和几个多尺度特征图块组成。基础网络用于从输入图像中提取特征，因此可以使用深度 CNN。例如，原始的单次多框检测论文采用在分类层之前截断的VGG网络（Liu et al. , 2016），而 ResNet 也被普遍使用。通过我们的设计，我们可以让基础网络输出更大的特征图，从而生成更多的锚框来检测更小的物体。随后，每个多尺度特征图块从前一个块减少（例如，减半）特征图的高度和宽度，并使特征图的每个单元增加其在输入图像上的感受野。

回想一下14.5 节中深度神经网络通过图像的分层表示进行多尺度目标检测的设计。由于靠近图 14.7.1顶部的多尺度特征图较小但具有较大的感受野，因此它们适用于检测较少但较大的对象。

简而言之，通过其基础网络和多个多尺度特征图块，单次多框检测生成不同数量的不同大小的锚框，并通过预测这些锚框的类别和偏移量（因此边界盒）；因此，这是一个多尺度目标检测模型。

https://file.elecfans.com/web2/M00/A9/CC/poYBAGR9O62ARusYAAorLEsLQmk559.svg

图 14.7.1作为多尺度目标检测模型，单次多框检测主要由一个基础网络和几个多尺度特征图块组成。

下面，我们将描述图14.7.1中不同块的实现细节。首先，我们讨论如何实现类和边界框预测。

14.7.1.1。类别预测层

让对象类的数量为q. 然后anchor boxes有 q+1类，其中类 0 是背景。在某种程度上，假设特征图的高度和宽度是h和w，分别。什么时候a以这些特征图的每个空间位置为中心生成anchor boxes，一共 hwaanchor boxes需要分类。由于参数化成本可能很高，这通常会使完全连接层的分类变得不可行。回想一下我们在8.3 节中如何使用卷积层的通道来预测类别。单次多框检测使用相同的技术来降低模型的复杂性。

具体来说，类预测层使用卷积层而不改变特征图的宽度或高度。这样，在特征图的相同空间维度（宽度和高度）下，输出和输入之间可以存在一一对应关系。更具体地说，输出特征映射的通道在任何空间位置（x, y) 表示以 (x,y) 输入特征图。为了产生有效的预测，必须有a(q+1)输出通道，其中对于相同的空间位置，具有索引的输出通道i(q+1)+j 代表类别的预测j (0≤j≤q) 对于锚框i (0≤i).

下面我们定义这样一个类预测层，指定a和 q分别通过参数num_anchors和num_classes。该层使用了3×3填充为1的卷积层。该卷积层的输入和输出的宽度和高度保持不变。

								%matplotlib inline
import torch
import torchvision
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l


def cls_predictor(num_inputs, num_anchors, num_classes):
  return nn.Conv2d(num_inputs, num_anchors * (num_classes + 1),
           kernel_size=3, padding=1)

								 

								%matplotlib inline
from mxnet import autograd, gluon, image, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

def cls_predictor(num_anchors, num_classes):
  return nn.Conv2D(num_anchors * (num_classes + 1), kernel_size=3,
           padding=1)

								 

14.7.1.2。边界框预测层

边界框预测层的设计与类预测层的设计类似。唯一的区别在于每个锚框的输出数量：这里我们需要预测四个偏移量而不是q+1类。

								def bbox_predictor(num_inputs, num_anchors):
  return nn.Conv2d(num_inputs, num_anchors * 4, kernel_size=3, padding=1)

								def bbox_predictor(num_anchors):
  return nn.Conv2D(num_anchors * 4, kernel_size=3, padding=1)

14.7.1.3。连接多个尺度的预测

正如我们提到的，单次多框检测使用多尺度特征图来生成锚框并预测它们的类别和偏移量。在不同的尺度下，特征图的形状或以同一单元为中心的锚框数量可能会有所不同。因此，不同尺度的预测输出的形状可能会有所不同。

在下面的例子中，我们构建了两种不同比例的特征图，Y1并且Y2，对于同一个小批量，其中的高度和宽度Y2是的一半Y1。让我们以类别预测为例。Y1假设分别为和中的每个单元生成 5 个和 3 个锚框Y2。进一步假设对象类的数量为 10。对于特征图Y1和Y2类预测输出中的通道数为5×(10+1)=55 和3×(10+1)=33，其中任一输出形状为（批量大小、通道数、高度、宽度）。

								def forward(x, block):
  return block(x)

Y1 = forward(torch.zeros((2, 8, 20, 20)), cls_predictor(8, 5, 10))
Y2 = forward(torch.zeros((2, 16, 10, 10)), cls_predictor(16, 3, 10))
Y1.shape, Y2.shape

								 

								(torch.Size([2, 55, 20, 20]), torch.Size([2, 33, 10, 10]))

							

								def forward(x, block):
  block.initialize()
  return block(x)

Y1 = forward(np.zeros((2, 8, 20, 20)), cls_predictor(5, 10))
Y2 = forward(np.zeros((2, 16, 10, 10)), cls_predictor(3, 10))
Y1.shape, Y2
							

PyTorch教程14.7之单发多框检测

14.7.1。模型

14.7.1.1。类别预测层

14.7.1.2。边界框预测层

14.7.1.3。连接多个尺度的预测

PyTorch教程21.3之矩阵分解

PyTorch教程23.4之使用Google Colab

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程6.2之参数管理

PyTorch教程6.1之层和模块

PyTorch教程10.8之波束搜索

PyTorch教程12.1之优化和深度学习

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程2.3之线性代数

PyTorch教程3.1之线性回归

PyTorch教程2.6之概率统计

PyTorch教程14.6之对象检测数据集

PyTorch教程14.4之锚箱

PyTorch教程14.11之全卷积网络

PyTorch教程21.1之推荐系统概述

PyTorch教程7.3之填充和步幅

PyTorch教程7.2之图像卷积

PyTorch教程8.2之使用块的网络(VGG)

单端逻辑电平之互联综述

引入锚框掩码网络机制的孪生RPN模型

MAX20361：小型单/多电池太阳能收集器的卓越之选

手机中框气密性检测仪的使用方法

pytorch怎么在pycharm中运行

pytorch中有神经网络模型吗

PyTorch的介绍与使用案例

tensorflow和pytorch哪个更简单?

如何使用PyTorch建立网络模型

气密性检测仪：单工位与多工位之间的区别

Fedora 40发布，全方位升级并新增PyTorch支持

对象检测边界框损失函数–从IOU到ProbIOU介绍

单目视觉系统检测车辆的测距方法

PCB技术指南之板框绘制和布局怎么处理？

labview多列列表框写入数据

基于PyTorch AMD的解决方案

使用PyTorch加速图像分割

深度学习框架pytorch介绍

PyTorch教程-14.8。基于区域的 CNN (R-CNN)

PyTorch教程-14.4. 锚箱

PyTorch教程-14.7。单发多框检测

什么是无框电机 为什么要使用无框电机

PyTorch 的 Autograd 机制和使用

ISE14.7基本介绍及安装

基于PyTorch的物体检测包围框数据增强包

解读目标检测中的框位置优化

PyTorch 1.8发布，支持AMD ROCm

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

基于PyTorch的深度学习入门教程之DataParallel使用多GPU

GUI测试之对话框、消息框篇

下载排行榜

瑞芯微RK3588系列开发板-产品资料更新-2026.06

ZS73XGaN 高性能 PWM+D-GaN 芯片数据手册

OK3506-S12 Mini开发板产品资料-2025.10

FS4054H 输入电压范围3.8V~6.8V 输入最大耐压28V 输入过压关闭充电阈值6.8V

LZC9300A 高性能恒压恒流碳化硅驱动控制芯片

ZS7606XY同步整流使用规格书

什么是无框电机为什么要使用无框电机