可以将深度学习图像分类器用于目标检测吗？

8g3K_AI_Thinker 2018-05-24 14040

电子说

1.2w人已加入

描述

本文编译自 Adrian Rosebrock 发表在 PyImageSearch 上的一篇博文。该博文缘起于一位网友向原作者请教的两个关于目标检测的问题：

如何过滤或忽略我不感兴趣的类？

如何在目标检测模型中添加新的类？这是否可行？

Adrian Rosebrock 认为这两个问题是学习目标检测的同学经常问到的问题，于是创作了本篇文章统一回答。

具体来说，在这篇文章中你会了解到：

图像分类和目标检测的区别；

深度学习目标检测模型的构成，包括目标检测框架和基本模型框架的不同；

如何将训练好的深度网络模型用于目标检测；

如何过滤和忽略深度学习模型所检测的类别；

在深度神经网络中，添加或删除检测类别时常见误区。

想要了解更多的关于深度学习目标检测方面的知识，或者想要解开关于深度学习目标检测的相关疑惑，请继续阅读。

▌深度学习目标检测指南

今天的博客旨在简单介绍基于深度学习的目标检测。

我已经尽量提供关于深度学习目标检测模型构成的内容，包括提供使用预先训练的目标检测模型实现深度学习的 OpenCV + Python 的源代码。

使用这个指南能够帮助你初步了解深度学习目标检测，但同时你也会意识到，涉及目标检测的很多技术细节，我无法在这篇博客中讲得面面俱到。

也就是说，我们将通过讨论图像分类和目标检测的本质区别来引出今天的博客内容，包括图像分类训练好的模型能否用于目标检测（以及在什么情况下）。

我们一旦理解了什么是目标检测后，我们将会回顾深度学习目标检测模型的核心部分，包括目标检测框架和基础模型，这是初次接触目标检测的读者感到疑惑的两个关键部分。

在这基础上，我们将会使用 OpenCV 运行实时深度学习目标检测模型。

在不改动网络结构和重新训练模型的前提下，我将会演示如何能够忽略和过滤你不感兴趣的目标类别。

最后，我们将讨论在深度学习目标检测中如何添加或删减类别，我们将以此结束今天的博客，包括我推荐的资源来帮助你入门。

让我们开始深入了解深度学习目标检测吧！

▌图像分类和目标检测的区别

神经网络

图1：分类（左边）和目标检测（右边）的直观区别。对于图像分类，是将整张图片进行分类，并且是单一标签。对于目标检测的情况，我们的神经网络会对图片中的（潜在的多个）目标进行定位。

当进行标准图像分类时，指定一个输入图像，我们将它输入到我们的神经网络中，我们会获得一个类标签，或者是相应被分类标签的概率。

这个类标签旨在描述整张图像的内容，或至少是图像中最主要的可视内容。

举例子来说，如图1中指定的输入图像（左边），我们的卷积神经网络把图像标记为“比格犬”。

因此，我们可以将图像分类视为：

一张图片输入；

一个类标签输出。

目标检测，无论是通过深度学习还是其他计算机视觉技术实现，目标检测均基于图像分类，同时试图精准定位图像中每个目标的位置。

在执行目标检测时，给定一个输入图像，我们希望能够获得：

边框列表，或者图像中每个目标的 (x, y) 坐标；

每个边框所对应的类标签；

每个边框和类标签相应的概率和置信度分数。