PyTorch教程14.8之基于区域的CNN(R-CNN)-电子发烧友网

除了第 14.7 节中描述的单次多框检测之外，基于区域的 CNN 或具有 CNN 特征的区域 (R-CNN) 也是将深度学习应用于对象检测的许多开创性方法之一（Girshick等人，2014 年）。在本节中，我们将介绍 R-CNN 及其一系列改进：fast R-CNN ( Girshick, 2015 )、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等，2017）。由于篇幅有限，我们将只关注这些模型的设计。

14.8.1。R-CNN

R -CNN首先从输入图像中提取许多（例如，2000 个）region proposals （例如，anchor boxes 也可以被认为是 region proposals），标记它们的类别和边界框（例如，offsets）。

（Girshick等人，2014 年）

然后使用 CNN 对每个候选区域执行前向传播以提取其特征。接下来，每个区域提案的特征用于预测该区域提案的类别和边界框。

https://file.elecfans.com/web2/M00/A9/CD/poYBAGR9O8KAMP_vAAQHJgcCVic113.svg

图 14.8.1 R-CNN 模型。

图 14.8.1显示了 R-CNN 模型。更具体地说，R-CNN包括以下四个步骤：

执行选择性搜索以在输入图像上提取多个高质量区域建议（Uijlings等人，2013 年）。这些提议的区域通常是在具有不同形状和大小的多个尺度上选择的。每个区域提案都将标有一个类别和一个真实边界框。
选择一个预训练的 CNN 并在输出层之前截断它。resize每个region proposal到网络需要的输入大小，通过前向传播输出为region proposal提取的特征。
以每个region proposal的提取特征和标注类别为例。训练多个支持向量机对对象进行分类，其中每个支持向量机单独确定示例是否包含特定类。
以每个region proposal的提取特征和标注bounding box为例。训练线性回归模型来预测地面实况边界框。

尽管 R-CNN 模型使用预训练的 CNNs 来有效地提取图像特征，但速度很慢。想象一下，我们从单个输入图像中选择了数千个区域建议：这需要数千个 CNN 前向传播来执行对象检测。这种庞大的计算负载使得在实际应用中广泛使用 R-CNN 变得不可行。

14.8.2。快速 R-CNN

R-CNN 的主要性能瓶颈在于每个 region proposal 的独立 CNN 前向传播，没有共享计算。由于这些区域通常有重叠，独立的特征提取会导致大量重复计算。Fast R-CNN相比 R-CNN的主要改进之一是 CNN 前向传播仅在整个图像上进行 ( Girshick, 2015 )。

https://file.elecfans.com/web2/M00/AA/47/pYYBAGR9O8WATfePAAfvq7owwD4432.svg

图 14.8.2快速 R-CNN 模型。

图 14.8.2描述了快速 R-CNN 模型。其主要计算如下：

与 R-CNN 相比，在快速 R-CNN 中，CNN 用于特征提取的输入是整个图像，而不是单个区域建议。此外，这个 CNN 是可训练的。给定输入图像，让 CNN 输出的形状为 1×c×h1×w1.
假设选择性搜索生成n区域提案。这些区域提议（不同形状）在 CNN 输出上标记感兴趣区域（不同形状）。然后这些感兴趣的区域进一步提取相同形状的特征（比如高度 h2和宽度w2指定）以便于连接。为了实现这一点，快速 R-CNN 引入了 感兴趣区域 (RoI) 池化层：CNN 输出和区域提议被输入到该层，输出形状的级联特征n×c×h2×w2为所有区域提案进一步提取。
使用全连接层，将连接的特征转换为形状的输出n×d，在哪里d取决于模型设计。
预测每个类别和边界框n区域提案。更具体地说，在类和边界框预测中，将全连接层输出转换为形状的输出 n×q(q是类的数量）和形状的输出n×4，分别。类别预测使用 softmax 回归。

fast R-CNN 中提出的感兴趣区域池化层与7.5 节中介绍的池化层不同。在池化层中，我们通过指定池化窗口、填充和步幅的大小来间接控制输出形状。相反，我们可以直接在感兴趣区域池化层中指定输出形状。

例如，让我们将每个区域的输出高度和宽度指定为h2和w2，分别。对于形状的任何感兴趣区域窗口h×w, 这个窗口被分为 h2×w2子窗口的网格，其中每个子窗口的形状大约是(h/h2)×(w/w2). 在实际应用中，任何一个子窗口的高和宽都要向上取整，最大的元素作为子窗口的输出。因此，即使感兴趣区域具有不同的形状，感兴趣区域池化层也可以提取相同形状的特征。

作为说明性示例，在图 14.8.3中，左上角 3×3感兴趣的区域被选择在4×4 输入。对于这个感兴趣的区域，我们使用2×2感兴趣区域池化层以获得2×2输出。请注意，四个划分的子窗口中的每一个都包含元素 0、1、4 和 5（5 是最大值）；2 和 6（6 是最大值）；8 和 9（9 是最大值）；和 10。

https://file.elecfans.com/web2/M00/AA/47/pYYBAGR9O8iAF6hzAAC-ikVsQiI293.svg

图 14.8.3 A2×2感兴趣区域池化层。

下面我们演示感兴趣区域池化层的计算。假设CNN提取的特征的高和宽 X都是4，并且只有一个通道。

							import torch
import torchvision

X = torch.arange(16.).reshape(1, 1, 4, 4)
X

							tensor([[[[ 0., 1., 2., 3.],
     [ 4., 5., 6., 7.],
     [ 8., 9., 10., 11.],
     [12., 13., 14., 15.]]]])

						

							from mxnet import np, npx

npx.set_np()

X = np.arange(16).reshape(1, 1, 4, 4)
X

							array([[[[ 0., 1., 2., 3.],
     [ 4., 5., 6., 7.],
     [ 8., 9., 10., 11.],
     [12., 13., 14., 15.]]]])

						

让我们进一步假设输入图像的高度和宽度均为 40 像素，并且选择性搜索在该图像上生成两个区域建议。每个区域建议由五个元素表示：其对象类，后跟(x,y)- 其左上角和右下角的坐标。

							rois = torch.Tensor([[0
						

PyTorch教程14.8之基于区域的CNN(R-CNN)

14.8.1。R-CNN

14.8.2。快速 R-CNN

自己动手写CNN Inference框架之 (一) 开篇

自己动手写CNN Inference框架之 (三) dense

自己动手写CNN Inference框架之 (四) avgpool

电子学报第七期《一种可配置的CNN协加速器的FPGA实现方法》

基于多通道时频信号的CNN智能故障诊断技术

基于改进CNN等的左心室射血分数精准计算

基于CNN分类回归联合学习等的左心室检测方法

基于CNN与约束概率矩阵分解的推荐算法

基于R-CNN和PRN的超声图像肿瘤自动识别

CNN和DBN在肺结节影像分类识别的对比分析

基于CNN和LSTM的蛋白质亚细胞定位研究对比

基于轻量级CNN等的恶意软件家族分类模型

基于日志信息和CNN-text的软件系统异常检测

基于改进CNN网络与集成学习的人脸识别算法

基于差分进化算法的CNN推断任务卸载策略

基于Mask R-CNN的遥感图像处理技术综述

一种Attention-CNN恶意代码检测模型

基于CNN的Leap Motion手部运动数据优化方法

MATLAB实现卷积神经网络CNN的源代码

一种基于Mask R-CNN的人脸检测及分割方法

融合双层多头自注意力与CNN的回归模型

基于全局特征金字塔网络的信息融合方法

一种基于多通道极深CNN的图像超分辨算法

基于改进Faster R-CNN的目标检测方法

基于LSTM和CNN融合的深度神经网络个人信用评分方法

一种改进FAST-CNN的超新星目标检测方法

集成WL-CNN和SL-Bi-LSTM的旅游问句文本分类算法

如何结合改进主动学习的SVD-CNN进行弹幕文本分类算法资料说明

如何使用平稳小波域深度残差CNN进行低剂量CT图像估计

基于R-CNN模型的车辆检测方法

CNN与RNN的关系​

CNN的定义和优势

如何利用CNN实现图像识别

cnn卷积神经网络分类有哪些

cnn卷积神经网络三大特点是什么

卷积神经网络cnn模型有哪些

基于CNN-LSTM网络的电力负荷预测

cnn卷积神经网络简介 cnn卷积神经网络代码

cnn卷积神经网络matlab代码

cnn卷积神经网络算法 cnn卷积神经网络模型

cnn卷积神经网络原理 cnn卷积神经网络的特点是什么

python卷积神经网络cnn的训练算法

CNN到底是怎么回事？

基于FPGA的深度学习CNN加速器设计方案

PyTorch教程-14.8。基于区域的 CNN (R-CNN)

可视化CNN和特征图

手把手教你使用LabVIEW实现Mask R-CNN图像实例分割（含源码）

使用CNN进行2D路径规划

基于深度学习的目标检测算法解析

深入了解目标检测深度学习算法的技术细节

用于实例分割的Mask R-CNN框架

如何去理解CNN卷积层与池化层计算？

一种新的带有不确定性的边界框回归损失，可用于学习更准确的目标定位

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask

手把手教你操作Faster R-CNN和Mask R-CNN

微软亚洲研究院视觉计算组又一个令人拍案叫绝的操作

卷积神经网络CNN架构分析 － LeNet

CNN和RNN结合与对比，实例讲解

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别

什么是Mask R-CNN？Mask R-CNN的工作原理

下载排行榜

A7159和A7139射频芯片的资料免费下载

DeepSeek:从入门到精通

零死角玩转STM32F103—指南者

PIC12F629/675 数据手册免费下载

OAH0428最新规格书（中文）

PIC16F716 数据手册免费下载

CNN与RNN的关系

卷积神经网络CNN架构分析－ LeNet