图像识别与分类在许多领域都有着广泛的应用

新机器视觉 2021-06-18 12300

描述

图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉的核心，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像识别与分类在许多领域都有着广泛的应用。

一、垃圾图像识别及分类

研究背景：垃圾分类可以实现资源的回收利用，是解决垃圾处理问题的有效方式。传统的手工垃圾分拣的效率低、成本高，因此，如何将垃圾自动按类处理具有重要的研究意义。

[1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.

数据来源：TrashNet数据集和自制越南垃圾数据集（VN-trash dataset），该数据集由来自越南的有机、无机和医疗废物三个不同类别的5904幅图像组成。

数据处理方法：选择ResNext架构作为应用迁移学习的基础模型，修改了原始ResNext-101模型，在全局平均池层之后添加了两个完全连接的层。输入图像的被归一化为0和1之间的值。在训练和测试阶段，通过水平翻转和随机裁剪方式，进行数据增强处理生成更多的图像。在训练阶段，为每个特定的废物类别呈现的输入图像被输入到我们建议的体系结构中。在最后一层，选用softmax函数的对数作为分类器，Adam作为优化器。在TrashNet数据集和VN-trash数据集60%的图像作为训练集，20%作为验证集，20%作为测试集。选择Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作为对比试验，验证所设计模型的有效性。

研究结论：DNN垃圾分类器在垃圾网和虚拟垃圾数据集上的准确率分别为94%和98%，在这两个实验数据集上均优于现有的垃圾分类方法。

与同类研究相比优缺点：提供了两个实验数据集，一个基于公开数据集，一个自制数据集，使模型训练更具泛化性。但是对图像的分割并没有针对性，图像背景比较平衡，未考虑不平衡背景下的图像分类。

文献阅读价值：开发了用于垃圾分类的深度神经网络模型DNN-TC，对ResNext模型的改进，提高了预测性能。

[2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.

数据来源：WaDaBa数据集，包括聚酯（PET）、聚乙烯（PE-HD）、聚苯乙烯（PS）、聚丙烯（PP）四类垃圾图像。

数据处理方法：对PET图像旋转24°、PE-HD图像旋转6°、PS图像旋转5°、PP图像旋转7°对图像进行增强，获得33000张PET图像，36000张PE-HD图像、37440张PS图像，3380张PP图像。对图像进行分割，得到尺寸为120×120和227×227像素的输入图像。构建两个卷积神经网络，第一个基于AlexNet网络构建，包含23层，第一个卷积层大小为11×11，输入图像大小为227×227；第二个神经网络为自己构建的网络结构，包括15层，第一个卷积层由64个大小为9×9的卷积核构成，输入图像大小为120×120。学习率初始值设为0.001，每4次迭代减少一次，借助Matlab实现模型训练与测试。90%数据用来训练，10%数据用来测试模型。对比文章所设计模型与AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。

研究结论：15层网络对于120×120像素的图像比23层网络对于227×227像素的图像具有更好的性能，而且时间短，但效率低于其他神经网络模型。

与同类研究相比优缺点：所设计的卷积神经网络结构与其他模型相比规模小得多，但同时也损失了一部分效率。

文献阅读价值：提出了一种可应用于便携式设备的废物识别技术，有助于解决城市塑料废物问题。

[3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).

数据来源：从Yahoo，Bing，Google， Baidu， andNaver网站采集到95类图像数据69737张。

数据处理方法：所有图像数据储存为224 × 224的彩色图像。90%图像作为训练集，10%作为测试集。在训练阶段选择VGG-19、ResNet50和Inception-V3网络进行参数训练，对比三个网络的性能，选择最优性能的网络VGG-19。对VGG-19进行微调：预训练模型的所有卷积层都被初始化，并且前几个卷积层的参数被冻结。在汇集层和最后一个卷积块的卷积层之间增加两个卷积核大小为3×3的卷积层。第五个卷积块中的卷积层数从4变为6，在两个全连接层之间添加批量标准化层。采用基于低价敏感直接学习法和集成学习法的三种方法处理图像数据不平衡问题：通过设置权重参数来减少不平衡数据的影响，被称为CW_VGG19；从VGG-19模型中提取的特征分别被馈送到XGBoost分类器(XGB_VGG19)和LightGBM分类器(LGB_VGG19)来处理不平衡数据，对比三种方法的性能，选择LGB_VGG19方法。进一步测试原始VGG-19、微调后的VGG-19和LGB-VGG19的性能，并在垃圾网数据集上与DNN-TC模型进行比较。最后基于Kaggle数据集将不同CNN架构，包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net进行对比。

研究结论：微调VGG-19是收集数据集的最佳模型，精度为86.19%；LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相对稳定，随着不平衡率的增加，LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于运行时间，LGB_VGG19型号比其他型号快得多。

与同类研究相比优缺点：数据集图像种类丰富，但最终的VGG-19模型由于参数多，对计算机内存的要求更高。而且在训练采集的数据集之前，由于采集的数据集较大，对背景复杂的图像没有进行图像预处理操作，对识别结果有影响。

文献阅读价值：选用多种方法解决图像数据不平衡问题，为数据不平衡的处理提供了思路。

[4]王莉,何牧天,徐硕,袁天,赵天翊,刘建飞.基于YOLOv5s网络的垃圾分类和检测[J].包装工程,2021,42(08):50-56.

数据来源：实验自制了一个垃圾数据集，包括纸盒、塑料瓶、易拉罐、玻璃瓶、药瓶、电池、塑料袋、废纸、衣服、砖头、水果和蔬菜12类垃圾。

数据处理方法：采用数据增广的方式将样本个数增至原来的4倍，用labelimg工具对图片中垃圾物体进行了标注，按照8∶2 的比例将数据集划分为训练集和测试集。实验的运行环境为CPU为Intel i77800X，GPU为GeForceGTX 1080ti，内存为16G，操作系统为ubuntu16.04，安装CUDA9.0库文件，开发语言为Python，Pytorch框架。Coco和Voc数据集上的训练结果初始化Yolov5s的网络参数，参数训练采用SGD优化算法，参数设置Batch为32；最大迭代次数为400；动量因子为0.9；权重衰减系数为0.0005。采用余弦退火策略动态调整学习率，初始学习率为0.01。采用GIOU Loss作为损失函数。绘制损失函数图，将Yolov5s和Yolov3在自制垃圾数据集上进行实验对比，验证实验方法的有效性。

研究结论：基于 YOLOv5s 网络的垃圾分类检测模型在不同光照、视角等条件下，检测准确率高，鲁棒性好、计算速度快，有助于促进垃圾处理公司实现智能分拣，提高工作效率。

与同类研究相比优缺点：自制的垃圾分类数据集考虑了不同光照、角度、距离和遮挡情况，使模型更具普适性。

文献阅读价值：通过研究基于视觉的垃圾检测与分类模型，实现对垃圾的自动识别和检测。

[5]康庄,杨杰,郭濠奇.基于机器视觉的垃圾自动分类系统设计[J].浙江大学学报(工学版),2020,54(07):1272-1280+1307.

数据来源：数据集来源于网上和现实生活拍照，共14种物体4168张图片。

数据处理方法：利用设计好的垃圾分类硬件系统将所有垃圾分为可回收和不可回收两大类，其中训练样本占60%，即2500张；验证样本数量占20%，即834张；测试样本占20%，即834张。以Inception v3为特征提取网络，优化算法使用RMSprop替代SGD，使用LSR方法降低过拟合，采用独热编码的形式进行模型训练。使用2个1×n和n×1的卷积核取代n×n的卷积核，在模型的全连接层进行批标准化操作。采用迁移学习方法对 Inceptionv3模型进行重训练。基于Image Net数据集进行预训练，训练批次大小为32，激活函数选择ReLU函数，学习率为0.001得到预训练模型；将Inception v3全连接层前的所有卷积层参数保留不变，将最后的全连接层的输出由原来1000变为14（14中垃圾种类），在自制垃圾数据集上继续训练，得到垃圾识别分类模型。在公共数据集cifar-10上进行验证，将Inception v3模型与当下较流行的LeNet、Alex Net、Vgg和ResNet模型进行对比，进行105次迭代训练。训练完成后比较各模型的准确率和损失值。

研究结论：系统能够有效地进行垃圾种类的识别和完成垃圾的分类回收。

与同类研究相比优缺点：以研究设计多箱体垃圾桶或者其他结构的垃圾回收装置，满足更多目标类别的分拣需求。

文献阅读价值：提出基于机器视觉的垃圾自动分类系统，设计垃圾分类的硬件系统，该系统可以满足可回收和不可回收垃圾分类的要求。

[6]和泽.基于迁移学习的垃圾分类研究[D].宁夏大学,2020.

数据来源：数据集使用华为云的公开数据集，该数据集包括可回收物、厨余垃圾、有害垃圾和其他垃圾四个大类，每类分为若干小类，共40个类别14802张图片。

数据处理方法：首先通过标注新数据的方法增加4100张图片，增加了少类别样本数量。使用Keras提供的ImageDataGenerator方法对样本数量在300张以下的类别数据进行随机几何变换进行数据增强。使每个类别的样本数均在300张以上，数据集的各类别样本数据趋于平衡。将数据集进行9：1拆分，90%的样本当作训练集，10%的样本当作测试集进行训练。采用MobileNetV2模型，设置相同的数据集和参数，进行三组预训练对比实验：随机权重分类器对权重随机初始化，并进行训练；训练全连接层分类器对模型卷积层冻结，训练全连接层；微调分类器冻结模型的前128层，训练其余的卷积层和全连接层。每个实验训练过程中都迭代200次，采用AdamOptimizer优化函数，学习率设置0.0001，在分类层使用softmax层作为分类器，损失函数使用多分类交叉熵损失函数。使用微调模型的迁移学习方法，采用VGG16、ResNET50与MobileNetV2进行模型对比实验，采用100张图片进行推理实验，并用平均值计算单张图片推理时间。

研究结论：三个分类器分类效果最好的是微调分类器，最差的是随机权重分类器，训练全连接层分类器是处于中间的性能，MobileNetV2模型相对于VGG16、ResNET50模型在移动和嵌入式等便携式设备上做了明显的优化，提升了模型精度且降低了存储空间的要求。最后使用训练好的MobileNetV2模型对垃圾进行分类。

与同类研究相比优缺点：分别从预训练模型三种策略和不同模型之间进行对比，基于微调分类器的MobileNetV2模型更具说服力。但是研究所获取的数据集偏少且类别不平衡。

文献阅读价值：以迁移学习为基础提出了基于轻量型网络MobileNetV2的垃圾分类算法和基于迁移学习的移动端垃圾分类方案，解决了垃圾类别庞杂和垃圾分类难的问题。

[7]袁建野,南新元,蔡鑫,李成荣.基于轻量级残差网路的垃圾图片分类方法[J].环境工程,2021,39(02):110-115.

数据来源：数据集由中国科学院自动化研究所智能服务机器人实验室所提供，共收集了2400张垃圾图片信息。训练集共1920张，每类分别为320张，测试集共510张，每类分别为85张，训练集和测试集总共分为6类。

数据处理方法：以ResNet50为基础进行优化构建轻量级网络，提出最大平均组合池化替换ResNet50的池化层，用深度可分离卷积代替ResNet50中Bottleneck的3×3标准卷积。Mode数量一共4个，Mode数设置为［1，1，1，1］，每个Mode的结构都是1×1、3×3、1×1的结构，其中3×3的卷积核用深度可分离卷积替换。实验batch size设置为32，学习率设置为0.01，每经过一次步长为5时，学习率变为之前的95%，训练完成迭代100次。对不同的池化层以及不同模型进行对比。

研究结论：提出的最大平均池化轻量级网络使得网路达到参数量小、计算量小、内存消耗小，运行时间短的目的。

与同类研究相比优缺点：提出的轻量级残差网路参数更加简化，但是测试集510张，实际操作测试集只利用了1张，测试集应用数据较少。

文献阅读价值：提出的轻量级网络适用于移动端嵌入式设备的垃圾分类系统应用。

[8]董子源.基于深度学习的垃圾分类系统设计与实现[D].中国科学院大学(中国科学院沈阳计算技术研究所),2020.

数据来源：单帧图像垃圾检测：华为公开数据集（国内唯一公开数据集），共14683张垃圾图像和对应的分类标签，加上实地拍摄一些垃圾场景中的图片。

数据处理方法：单帧图像垃圾检测：将华为数据集按照不同的大类别和小类别进行组合，保存在相应的文件夹下。通过python手动标注图像中垃圾的位置信息，利用记录鼠标位置的相应函数，记录鼠标画取的垃圾外接矩形，并将矩形的四个顶点坐标记录在文本文件中。对数据集中不同小类的垃圾数据进行采样并标注，得到2000张不同种类的垃圾图像的数据标注，作为初始的检测网络训练数据集。通过第一轮的训练，得到了垃圾检测模型初始结果。使用初始模型对未经训练的数据集中其他图像进行检测，得到垃圾的初始预测位置，并修正检测错误图像的检测框作为图像中目标位置的标签，得到初始训练后的扩充数据集。用华为数据集对ResNet101、Inception v3和VGG16主干网络进行评估，选定ResNet101网络作为垃圾检测的基线网络。在分类阶段，将数据增强后的图像按4：1的比例分为训练集和测试集，选用ADAM优化算法训练模型动量系数为0.9，共设50个迭代周期，初始学习率设为0.01，每隔10个迭代周期学习率衰减0.1倍，一阶矩估计的指数衰减率为0.99，二阶矩估计的指数衰减率为0.999。在ResNet101网络的不同的Bottle Neck位置仅插入空间注意力模块、仅插入通道注意力模块、插入特征融合模块分别进行对比试验，对模型的注意力模块、通道注意力模块、特征融合模块分别进行评估。以GCNet作为主干提取网络并入到SSD作为垃圾检测网络的基础，与加入特征融合与注意力机制的ResNet101网络相结合。实地拍摄了一些垃圾场景中的图片（手动绘制检测框）与华为数据集作为检测任务的训练集和测试集。使用批量32来训练模型，使用0.0001的权重衰减和0.9的动量，SGD优化器，设置Dropout为0.8，在每个conv模块激活函数后添加BatchNormalization层以防止过拟合以及加快网络收敛。在相同测试集上对DSSD算法进行评估与改进的SSD算法进行对比。

研究结论：加入了注意力机制、特征融合机制以及残差预测模块的SSD在小目标方面，效果明显好于SSD与DSSD算法，检测速度方面也明显好于DSSD，稍微低于SSD。

与同类研究相比优缺点：针对样本集中类内垃圾形态差异大，背景变化大，不利于分类的情况，本文在分类网络中加入了空间注意力与通道注意力机制，有效地提升了分类准确率。

文献阅读价值：提出了对ResNet101 加入注意力机制和特征融合机制的改进方法，更好地提取到了垃圾图像中的有用信息，成功地解决了图片中类内差异大不利于分类的问题。

[9]陈非予,杨婷婷,蒋铭阳.基于深度学习技术的生活垃圾分类模型设计[J].电子元器件与信息技术,2020,4(07):94-96.

数据来源：垃圾图像数据是在TrashNet数据集的基础上增加手机拍照以及网络搜索所得，共确定3727张。

数据处理方法：采用Inception-v3模型在大型图像分类数据集ImageNet训练的参数模型。特征提取模型采用预训练模型的网络结构和参数，通过输入并处理一张垃圾图像，提取图像2048维向量特征，经softmax回归完成垃圾图像分类。训练数据为数据集中的80%，另20%数据作为测试验证数据集。在训练中，设置超参ECHO为50，即迭代训练训练数据集50次，每次选取其中16张图像进行训练，在每次训练的图像输入阶段，将所选图像进行数据增强处理，初始化学习率为0.001。

研究结论：分类正确率可以达到95.3%，证明了该模型对于实现垃圾分类的有效性。

与同类研究相比优缺点：垃圾图像涉及种类只包含塑料、金属、纸板、废报纸、玻璃、以及废料六类垃圾图像，数据类别较少。

文献阅读价值：模型通过数据增强方法降低了图像成像要求，对光照、距离、大小不敏感，具有相当高的鲁棒性和泛化能力。

[10]吕程熙.基于深度学习实现自动垃圾分类[J].电子制作,2019(24):36-38.

数据来源：数据集共包含10类物品的图片共2000张，每一类200张。

数据处理方法：1800张为训练集，200张为测试集。每一类共180张为训练集，20张为测试集。将训练集与测试集的输入图片随机裁减成32×32×3大小的图片，将图片信息归一化。建立基于卷积神经网络的垃圾分类分类器，学习率为0.01，batch_size为5，对比深度神经网络和卷积神经网络的测试结果分类准确度。进一步对数据集进行二分类，划分为可回收利用和不可回收利用，由十分类变为二分类再次进行实验。

研究结论：CNN模型的效果要比DNN 模型的效果好。从十分类变为二分类，模型选择正确的概率大大加大，使得准确率升高。

与同类研究相比优缺点：对比DNN与CNN分类识别效果，证明CNN对垃圾分类识别应用效果更好。但是针对物品的不同部位属于不同类型的垃圾，还需要增加预识别功能。

文献阅读价值：利用算法对图像识别可以大大提高垃圾分类的效率，为人们的生活带来便利。

[11]高明,陈玉涵,张泽慧,冯雨,樊卫国.基于新型空间注意力机制和迁移学习的垃圾图像分类算法[J].系统工程理论与实践,2021,41(02):498-512.

数据来源：“华为云人工智能大赛垃圾分类挑战杯”竞赛提供的数据集，共包括14000余张垃圾图片。

数据处理方法：将图片尺寸统一处理为224×224像素。将数据集随机划分为训练集、验证集与测试集，训练集中划分为包含14372张图片，验证集与测试集各包含215张图片。选择EfficientNet-B5、ResNet50、DenseNet-169网络架构分别对华为垃圾分类数据集和ImageNet数据集进行无迁移学习与有迁移学习的训练，其中预训练权重均由Keras库提供，最后选择EfficientNet-B5作为GANet中的主干网络结构。运用以EfficientNet-B5为主干的GANet构架，尝试对提出的新型的像素级空间注意力机制PSATT的基础结构微调后的模型进行有效性验证，选择出性能最好的PSATT结构。将GANet结构的注意力模块分别换成PSATT、Squeeze-and-Excitation block、Non-Local block与注意增强卷积在ImageNet数据集上进行多次训练对比。通过训练策略消融实验、迭代延长实验和交叉验证实验来检验GANet架构在训练过程中是否出现过拟合情况。依次用ResNet50和DenseNet-169架构替换GANet主干结构中的EfficientNet-B5进行迁移学习，验证PSATT在不同网络架构上的适用性。将输入图片尺寸设为456×456，借助该比赛的自动化测试系统对GANet进行云端评估，测试集为赛方未公开的4000张盲测图片。对于GANet模型的训练中选用RAdam优化，损失函数选择标签平滑正则化+Focal loss，用在OCL基础上提出的阶梯形OneCycle控制学习率，在训练的最后几个轮次，对于权重平滑选择进行SWA处理。

研究结论：基于PSATT机制的GANet在细粒度垃圾图像分类问题中，整体准确率相较对比方法得到了显著提升。

与同类研究相比优缺点：改进的阶梯形OneCycle学习率控制方法和RAdam优化方法的结合使用加快收敛速度，缩短实验周期；运用标签平滑和Focalloss缓解样本不平衡问题；优化方法与阶梯形OneCycle学习策略的结合使用缓解了模型收敛阶段的不稳定性。但是图像数据集在不同光照条件、不同终端采集的图像存在格式、噪音、分辨率等差异。

文献阅读价值：针对问题特点，提出了一种新型的像素级空间注意力机制，建立了一套端到端的面向细粒度垃圾图像分类的迁移学习架构GANet。

[12]王洋.垃圾分类数据的机器学习方法研究[D].黑龙江大学,2020.

数据来源：选择了来自Kaggle网站上提供的包括湿垃圾、可回收物两类垃圾的图像数据，包含训练集22564张，测试集2513张，练集中包含12565张湿垃圾图像，9999张可回收垃圾图像；而测试集中包含1401张湿垃圾图像，1112张可回收垃圾图像。

数据处理方法：预处理：对图像进行灰度化处理，选择将所有图像尺寸设为64×64将图像尺寸归一化。运用python从两类垃圾图像中分别提取颜色特征和纹理特征作为分类依据。选用灰度直方图作为图像的颜色特征，将灰度直方图和图像标签作为KNN和SVM算法的输入。对图像的LBP和HOG特征向量进行PCA降维以提高计算机运行速度，保留原数据95%的信息提取出降维后的LBP特征和HOG特征。传统机器学习算法：使用sklearn库中的KNeighborsClassifier函数搭建KNN模型，距离定义为欧式距离，分别以GH，HOG，LBP特征向量导入模型并分别建模，参数

责任编辑：lq

打开APP阅读更多精彩内容