基于卷积神经网络的垃圾图像分类模型

新机器视觉 2020-12-31 5223

描述

　　垃圾分类作为资源回收利用的重要环节之一，可以有效地提高资源回收利用效率，进一步减轻环境污染带来的危害。随着现代工业逐步智能化，传统的图像分类算法已经不能满足垃圾分拣设备的要求。本文提出一种基于卷积神经网络的垃圾图像分类模型（Garbage Classification Network， GCNet）。通过构建注意力机制，模型完成局部和全局的特征提取，能够获取到更加完善、有效的特征信息; 同时，通过特征融合机制，将不同层级、尺寸的特征进行融合，更加有效地利用特征，避免梯度消失现象。实验结果证明， GCNet 在相关垃圾分类数据集上取得了优异的结果，能够有效地提高垃圾识别精度。

　　1 引言

　　垃圾回收利用作为发展循环经济的必经之路，是根治污染、提高环境治理效果的关键所在。随着我国生产力水平的发展，生活垃圾、工业垃圾数量不断增加，困扰着很多城市。据统计，仅 2018 年，中国垃圾的清运量已经达到了 2.28 亿吨［1］。在人们将垃圾投放进垃圾箱之后，垃圾被运送到垃圾处理厂统一处理。当前国内的垃圾处理厂，更多依靠人工在流水线上作业去分拣垃圾，对作业者健康不利且分拣效率较低，已不能满足大量垃圾处理需求。此外，人工分拣的垃圾种类极为有限，大部分垃圾无法重新回收利用，造成很大浪费。随着深度学习技术的发展，卷积神经网络使图像分类算法在精度和速度上得到了巨大的提升，让我们看到了借助视觉技术自动分拣垃圾的可能性。通过摄像头拍摄垃圾图片，利用卷积神经网络检测出垃圾的类别，之后就可以借助机械手或推板自动完成分拣任务，可以降低人工成本，提高分拣效率。因此，开展垃圾图像分类算法的研究，具有重要的应用价值。

　　2 相关工作

　　早期，学者们只能借助经典的图像分类算法［2–5］完成垃圾图像分类任务，这要通过手动提取的图像特征并结合相应的分类器完成。吴健等［6］利用颜色和纹理特征，初步完成了废物垃圾识别。由于不同数据集的图像背景、尺寸、质量不尽相同，传统算法需要根据相应数据人工提取不同的特征，算法的鲁棒性较差，并且处理方式复杂，所需时间较长，无法达到实时的效果。随着卷积神经网络（Convolution Neural Network， CNN）的飞速发展，深度学习广泛应用于图像识别领域。

　　作为数据驱动的算法， CNN 具有强大的特征拟合能力，可以有效、自动地提取图像特征，并具有较快的运行速度。 2012 年， AlexNet［7］取得了 ImageNet 图像分类竞赛的冠军，标志着深度学习的崛起。随后几年， GoogleNet［8］、VGGNet［9］、ResNet［10］等算法提升了图像分类的精度，并成功应用于人脸识别、车辆检测等多个领域。垃圾图像分类，在深度学习算法的帮助下同样取得了较大的突破。

　　斯坦福大学的 Yang 等建立了 TrashNet Dataset 公开数据集，包含 6 个类别，共计 2527 张图片。 Ozkaya 等［11］通过对比不同 CNN 网络的分类能力，搭建神经网络（本文称之为 TrashNet）并进行参数微调，在数据集 TrashNet Dataset 上取得了 97.86% 的准确率，是目前这一数据集上最佳分类网络。在非公开数据集方面， Mittal 等［12］自制了 2561 张的垃圾图片数据集 GINI，使用 GarbNet 模型，得到了 87.69% 的准确率。国内方面，郑海龙等［13］用 SVM 方法进行了建筑垃圾分类方面的研究。向伟等［14］使用分类网络 CaffeNet，调整卷积核尺寸和网络深度，使其适用于水面垃圾分类，在其自制的 1500 张图片数据集上取得了 95.75% 的识别率。 2019 年，华为举办垃圾图像分类竞赛，构建了样本容量为一万余张的数据集，进一步促进了该领域的发展。

　　我国各地区生活垃圾分类标准有所不同，大致可分为可回收垃圾、有害垃圾、厨余垃圾和其他垃圾这 4 大类，且每个类别下又包含若干子类别，种类繁多且十分复杂。按照这样的分类标准做的垃圾图像识别研究，国内目前还处于起步阶段。现有的图形分类算法在垃圾处理领域的应用较少，且存在准确率不足、泛化性能差、处理效率低的缺点。针对现有方法的不足，本文提出一种基于卷积神经网络的垃圾图像分类算法（Garbage Classification Net， GCNet），在网络结构中融合了注意力机制模块与特征融合模块，提高了模型在垃圾分类任务上的准确性与鲁棒性。

　　3 算法设计

　　3.1 模型结构

　　本文构建的 GCNet 模型包括特征提取器、分类器两部分，整体结构如图 1 所示。图中特征提取器由 Resnet101 作为主干部分，共包括 5 个 bottleneck，并在不同的 bottleneck 后加入注意力机制模块，同时对不同模块提取到的特征进行特征融合（如图 1 中虚线所示）以从输入中提取图像的特征信息：

　　机器视觉

　　其中， Me表示特征提取器。 F1 yi 分类器由两层全连接层和一个 Softmax 分类器组成，对提取到的特征信息进行分类，以得到图像在每个类别下的最终得分：

　　机器视觉

　　其中， Mc表示分类器。

　　3.2 注意力机制

　　注意力机制源于对人类视觉的研究，人类会根据实际需要选择视网膜内特定区域进行集中关注，可以将有限的处理资源分配至重要的部分。由于相同类别垃圾的特征表征差异性可能较大，不利于图片的正确分类，这就要求准确地关注图像中的显著区域。受这一思想的启发，通过构建注意力机制模块，使网络模型重点关注有利于分类的特征区域，以实现更好的特征提取功能，其具体结构如图 2 所示。

机器视觉

　　5 结论

　　本文针对垃圾图像分类问题，构建了一种基于卷积神经网络的算法 GCNet，该网络通过构建注意力机制和特征融合机制，能够有效地提取图像特征、降低类别差异性带来的影响，并在相关数据集上取得了 96.73% 的平均准确率，相较于现有的分类算法提升了约 4% 的准确率，满足了实际的应用需求，具有良好的应用前景。

　　原文标题：基于卷积神经网络的垃圾图像分类算法

　　文章出处：【微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

　　责任编辑：haq

打开APP阅读更多精彩内容