图像分类的方法之深度学习与传统机器学习

消耗积分:2 | 格式:rar | 大小:0.21 MB | 2017-09-28

分享资料个

　　图像分类，顾名思义，是一个输入图像，输出对该图像内容分类的描述的问题。它是计算机视觉的核心，实际应用广泛。

　　图像分类的传统方法是特征描述及检测，这类传统方法可能对于一些简单的图像分类是有效的，但由于实际情况非常复杂，传统的分类方法不堪重负。现在，我们不再试图用代码来描述每一个图像类别，决定转而使用机器学习的方法处理图像分类问题。

　　目前，许多研究者使用CNN等深度学习模型进行图像分类；另外，经典的KNN和SVM算法也取得不错的结果。然而，我们似乎无法断言，哪种方法对于图像分来问题效果最佳。

　　本项目中，我们做了一些有意思的事情：

　　1. 将业内普遍用于图像分类的CNN和迁移学习算法与KNN，SVM，BP神经网络进行比较。

　　2. 获取深度学习经验。

　　3. 探索谷歌机器学习框架TensorFlow。

　　下面是具体实施细节。

　　系统设计

　　在本项目中，用于实验的5种算法为KNN、SVM、BP神经网络、CNN以及迁移学习。我们采用如下三种方式进行实验：

　　1. KNN、SVM、BP神经网络是我们在学校能够学到的。功能强大而且易部署。所以第一步，我们主要使用sklearn实现KNN，SVM，和BP神经网络。

　　2. 由于传统的多层感知机模型在图像识别方面效果甚佳，但由于其节点间的全连接模式对于其延展性造成了阻碍，因此对于高分辨率的图像，识别率不是很理想。所以这一步，我们用Google TensorFlow框架构建CNN。

　　3. 对于已经预训练过的深度神经网络Inception V3进行重训练。Inception V3由TensorFlow提供，使用ImageNet自2012年以来的数据进行训练。ImageNet是计算机视觉领域一个经典挑战，参赛者试图用模型将全部图像放至1000个分类中。为了要重新训练已经预训练好的模型，我们必须保证我们自己的数据集没有被预训练过。

　　实施

　　第一种方法：使用sklearn预处理数据以及实现KNN，SVM和BP神经网络。

　　步骤1，使用openCV包，定义2个预处理函数，分别是图像特征向量（用来调整图像大小并将图像扁平化成一系列行像素）和提取颜色直方图（使用cv2.normalize从HSV色域中提取一个3D颜色直方图并做平滑处理）。

　　步骤2，构造参数。由于我们试图在整个数据集以及具有不同类别数目的子数据集上进行性能测试，所以我们把各个数据集看作为参数，以便进行实验分析。另外，我们还设置了KNN中的邻居数目作为参数。

　　步骤3，提取图像特征并写入数组。我们使用cv2.imread函数读取图像，根据规范化的图像名称进行分类。然后运行第步骤1中提到的2个函数，分别得到2种图像特征并写入数组。

　　步骤4，使用函数train_test_split分割数据集。85%的数据作为训练集，15%的数据作为测试集。

　　步骤5，使用KNN，SVM和BP神经网络方法去评估数据。对于KNN，使用KNeighborsClassifier，对于SVM，使用SVC，对于BP神经网络，使用MLPClassifier。

　　第二种方法：基于TensorFlow构建CNN。使用TensorFlow得到计算图并在C++中实现，比Python更高效。

　　TensorFlow中使用到的的几个概念：占位符，变量，数学公式，成本计量，最优方法，CNN体系结构。

　　步骤1，第一层放置图像。

　　步骤2，构建3层卷积层（3 Convolutional layers），2X2的max-pooling和ReLU。输入是4维张量：【图像编号，Y坐标，X坐标，通道】。输出是另一个经处理得到的4维张量：【图像编号（不变），Y坐标，X坐标，通道】。

　　步骤3，构建2层全连接层（2 Fully-Connected Layers）。输入是2维张量：【图像编号，输入编号】。输出是2维张量【图像编号，输出编号】。使用

　　步骤4，使用合并层（Flatten Layer）链接卷积层和全连接层。

　　步骤5，使用softmax layer标准化输出。

　　步骤6，优化训练结果。我们使用交叉熵（cross entropy）作为成本计量函数，取其均值。最优方法使用tf.train.AdamOptimizer（）。

　　第三种方法：Retrain Inception V3。使用Retrain Inception V3 ，并利用迁移学习减少工作量。

　　我们得到pre-trained模型，移除原有顶层，训练新模型。然后分析在磁盘上的所有图像并计算它们的bottleneck值。脚本会运行4000次。每次运行都会从训练集中随机选取10个图像，找到它们的bottleneck值并注入最后一层得到预测结果。然后在反向传播过程中，根据预测结果和实际标签的比较结果去更新每层的权重。

　　实验

　　实验中使用到的数据集是Oxford-IIIT Pet 数据集。

　　http://www.robots.ox.ac.uk/~vgg/data/pets/

　　其中有犬类25类，猫类12类。每类有200个图像。我们使用到该数据集中的10个类别的猫的数据，分别是［‘Sphynx’，’Siamese’，’Ragdoll’，’Persian’，’Maine-Coon’，’British-shorthair’，’Bombay’，’Birman’，’Bengal’，’Abyssinian’］。即，共有2000个图像，由于图像大小不一，我们调整大小统一为固定尺寸64X64或128X128。

　　本项目中，我们主要使用OpenCV预处理图像。一般通过变形、剪裁或亮化随机处理训练集。

　　github：https://github.com/aleju/imgaug

　　赋值

　　第一种方法：KNN，SVM，和BP神经网络

　　第一部分：使用sklearn预处理数据以及实现KNN，SVM和BP神经网络。在image_to_feature_vector函数中，我们设定尺寸128X128。经试验表明，图像尺寸越大，结果越精确，运行负担越大。最终我们决定使用128X128的尺寸。在extract_color_histogram函数中，设定每个通道的容器数量为32，32，32。对于数据集，使用3种数据集。第一个是具有400个图像，2个标签的子数据集。第二个是具有1000个图像，5个标签的子数据集。第三个是整个数据集，1997个图像，10个标签。

　　在KNeighborsClassifier中，我们只改变邻居数量且存储结果作为每个数据集的最佳K值，其他参数默认。

　　在MLPClassifier中，我们设定每层有50个神经元。

　　在SVC中，最大迭代次数是1000，类权重是“balanced”。

　　依据数据集，2个标签到10个标签不同，运行时间大约为3到5分钟不等。

　　第二种方法：基于TensorFlow构建CNN

　　由于在整个数据集中运行时间过长，我们在每个迭代中分批次处理。每批次一般有32个或64个图像。数据集分为1600个图像的训练集，400个图像的验证集，300个图像的测试集。

　　本方法中有大量的参数可调整。学习速率设定为1x10^-4；图像大小设定为64x64和128x128；然后是层和形状，然而有太多的参数可调整，我们依据经验并进行实验去得到最佳结果。

　　为了得到最佳的layers，我们进行实验。首先，参数如下：

　　# Convolutional Layer 1. filter_size1 = 5 num_filters1 = 64

　　# Convolutional Layer 2. filter_size2 = 5 num_filters2 = 64

　　# Convolutional Layer 3. filter_size3 = 5 num_filters3 = 128

　　# Fully-connected layer 1. fc1_size = 256

　　# Fully-connected layer 2. fc1_size = 256

　　我们使用了3个卷积层和2个全连接层，然而悲剧的是过度拟合。经过研究发现，对于该构造，我们的数据集过小，网络过于复杂。

　　最终，我们使用如下参数：

　　# Convolutional Layer 1. filter_size1 = 5 num_filters1 = 64

　　# Convolutional Layer 2. filter_size2 = 3 num_filters2 = 64

　　# Fully-connected layer 1. fc1_size = 128

　　# Number of neurons in fully-connected layer.

　　# Fully-connected layer 2. fc2_size = 128

　　# Number of neurons in fully-connected layer.

　　# Number of color channels for the images：

　　# 1 channel for gray-scale. num_channels = 3

　　我们只使用了2个卷积层和2个全连接层。依然不尽人意，经过4000次迭代，结果仍旧过拟合，不过好在测试结果10%优于前者。最终，经过5000次迭代，我们得到43%的精确度，运行时间是半小时以上。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

图像分类的方法之深度学习与传统机器学习

机器学习之新功能对象分类

MATLAB深度学习简介电子书

使用深度学习方法对音乐流派进行分类

基于深度学习的小样本墙壁缺陷目标检测及分类

基于深度学习的机器人示教系统设计与实现

基于CNN分类回归联合学习等的左心室检测方法

基于深度学习的信息级联预测方法研究综述

基于成对学习和图像聚类的肺癌亚型识别

基于深度学习的二维人体姿态估计算法

采用自监督CNN进行单图像深度估计的方法

基于深度学习的社交图像标签和分组联合推荐模型

基于模板、检索和深度学习的图像描述生成方法

3小时学习神经网络与深度学习课件下载

基于深度学习的图像修复模型及实验对比

基于深度神经网络的图像语义分割方法

基于RNN和深度学习的Linux远控木马检测

基于深度学习的视频质量评价方法及模型研究

使用TensorFlow建立深度学习和机器学习网络

分析总结基于深度神经网络的图像语义分割方法

一种基于深度学习的焊点位置检测方法

深度学习模型的对抗攻击及防御措施

针对遥感图像场景分类的多粒度特征蒸馏方法

基于深度神经网络的文本分类分析

如何使用深度卷积神经网络改进服装图像分类检索算法

使用多孔卷积神经网络解决机器学习的图像深度不准确的方法说明

使用深度模型迁移进行细粒度图像分类的方法说明

深度学习优化器方法及学习率衰减方式的详细资料概述

机器学习教程之机器学习导论的详细电子教材免费下载

如何使用深度学习进行视频行人目标检测

python机器学习和深度学习的学习书籍资料免费下载

深度学习是什么？了解深度学习难吗?让你快速了解深度学习的视频讲解

传统机器学习方法和应用指导

AI入门之深度学习：基本概念篇

深度学习中的时间序列分类方法

深度学习中的无监督学习方法综述

深度学习与传统机器学习的对比

机器学习和深度学习的区别

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

机器学习和深度学习的区别

深度学习框架和深度学习算法教程

什么是深度学习算法？深度学习算法的应用

基于机器学习理论之图像辨识技术应用-传统水表附加远程抄表功能

机器学习和深度学习的区别

联合学习在传统机器学习方法中的应用

深度学习中的图像分割

传统CV和深度学习方法的比较

机器学习和深度学习算法流程

机器学习和深度学习有什么区别？

图像分割的方法，包括传统方法和深度学习方法

详解深度学习之图像分割

深度学习：四种利用少量标注数据进行命名实体识别的方法

深度学习中图像分割的方法和应用

运用多种机器学习方法比较短文本分类处理过程与结果差别

深度学习崛起后，传统计算机视觉方法被淘汰了吗？

人工智能、机器学习以及深度学习三者之间的关系是什么？

深度学习与机器阅读

如何使用MATLAB实现深度学习的方法研究分析

为什么学习深度学习需要使用PyTorch和TensorFlow框架

针对线性回归模型和深度学习模型，介绍了确定训练数据集规模的方法

Xilinx FPGA如何通过深度学习图像分类加速机器学习

深度学习和机器学习深度的不同之处 浅谈深度学习的训练和调参

下载排行榜

深度学习和机器学习深度的不同之处浅谈深度学习的训练和调参