计算机视觉应用存在的3大瓶颈问题总结分析

4sNj_vision263c 2023-05-31 2421

工业控制

1283人已加入

描述

本文摘自于：雷林建, 孙胜利, 向玉开, 张悦, 刘会凯. 2020. 智能制造中的计算机视觉应用瓶颈问题. 中国图象图形学报,

计算机视觉在智能制造工业检测中发挥着检测识别和定位分析的重要作用，为提高工业检测的检测速率和准确率以及智能自动化程度做出了巨大的贡献。然而计算机视觉在应用过程中一直存在技术应用难点，其中3大瓶颈问题是：

计算机视觉应用易受光照影响

样本数据难以支持深度学习

先验知识难以加入演化算法

本文针对计算机视觉应用存在的3大瓶颈问题总结分析了问题现状和已有解决方法。经过深入分析发现：

针对受光照影响大的问题，可以通过算法和图像采集两个环节解决；

针对样本数据难以支持深度学习的问题，可以通过小样本数据处理算法和样本数量分布平衡方法解决；

针对先验知识难以加入演化算法的问题，可以通过机器学习和强化学习解决。

【正文部分】

1 智能制造中的计算机视觉发展现状及需求

1.1 智能制造中的计算机视觉发展现状

计算机视觉的发展主要经历了4个阶段，第1阶段称为计算视觉，第2阶段是主动和目的视觉，第3阶段是分层3维重建理论，第4阶段是基于学习的视觉，如图 1所示。

机器视觉

计算机视觉发展的4个阶段具体到智能制造业的应用，工业检测是计算机视觉应用的主要方向。由于生产中不可避免会产生缺陷和误差，导致部件或者产品出现残次品。因此，在流水线后端需要检测环节。目前大多采用人工检测方法或是自动化程度不高的机器方法，这导致原本效率提高的流水线因为检测环节再次缓慢下来。

因此计算机视觉检测技术在智能制造工业检测领域的应用至关重要。目前各类相关研究非常广泛，大到汽车制造业中的汽车车身视觉检测，小到轴承表面缺陷检测。表 1给出了基于图像的轴承故障诊断的计算机视觉方法。表 1 轴承故障诊断的计算机视觉方法对比 Table 2 Comparison of computer visual methods for fault diagnosis of bearing

方法	平均故障识别率/%	特点
基于加权FCM(fuzzy C-means)算法(隋文涛，2011)	97.50	故障识别率无法提高，但鲁棒性高。
基于学习的深度信念网络分类识别算法(李巍华等，2016)	97.58	40%可以达到99.0%识别率，易出现效果极差的情况。

机器视觉

1.2 智能制造对计算机视觉技术的发展需求

智能制造业中涉及大量检测环节，如缺陷检测、形变检测、纹理检测、尺寸检测等。计算机视觉技术作为检测领域目前最有效的方法之一，必然会在工业检测的应用中掀起一场革命性的制造模式大转变。它能再一次解放劳动力，大幅度提高制造业的生产效率，降低生产成本，减少生产环节，促使生产线全自动化的形成。但目前计算机视觉在智能制造工业检测领域的实际应用存在诸多瓶颈问题尚未解决，其中3个关键的瓶颈问题值得研究讨论。

1) 实际智能制造业环境复杂、光源简单，容易造成光照不均匀，难以解决图像质量受光照影响大的问题。在检测领域的实际应用中，由于工业场地环境变化的不确定性，会使计算机视觉的图像采集环节受到影响。在工业检测中，检测的通常都是流水线上一致性很高的产品，需要检测的缺陷通常也是相对微小的，因此对图像的要求较高。除了保证相机的各参数一致以外，还需要控制环境因素的影响，这是工业检测中特有的控制因素之一。由于环境变化随机性大，使得控制光照成为智能制造检测领域的计算机视觉关键瓶颈问题。

2) 实际智能制造业中获取万级以上的平衡样本数据代价较大，难以解决样本数据不是以支持基于深度学习的计算机视觉检测任务的问题。在所有学习方法中，样本数据是最重要的因素之一。尤其是深度学习，往往需要非常大量的样本才能达到比较优异的检测效果。在一定数量级(欠学习)之内，样本和检测效果甚至成正比关系。而在智能制造业，样本数据的采集却是一大问题。因为企业追求利益，无法像做研究一样顺利进行样本数据采集，甚至有些产品的总产量都达不到深度学习所需的样本数据规模。

3) 智能制造业中，计算机判定难以达到专业判定的水准，如何在算法中加入先验知识以提高演化算法的效果是一大难题。如何有效利用先验知识，降低深度学习对大规模标注数据的依赖，成为目前业内的主攻方向之一。

由于先验知识的形式多变，如何与深度学习有效结合是一大难点。具体到工业检测领域，问题更加严峻，在需要解决上述问题的同时，还需要考虑如下难点：如何将比普通先验知识更复杂的工业检测专业知识转化为知识图谱等形式融入算法；如何建立工业检测先验知识的规范化、标准化和统一化；如何通过已有产品的先验知识推测知识库未收录的其他类似产品的先验知识。

2 智能制造中计算机视觉应用易受光照影响的问题

2.1 受光照影响大的问题概述

工业检测不同于其他检测领域，不同工业产品的检测通常也在不一样的环境中进行。一般来说，工业产品的生产过程在开放式的车间或者仓库环境中进行，自然采光差、光来源复杂、光照设备不专业是普遍存在的问题，加之智能制造领域对于检测的正确率和速率有着更为严苛的要求，光照控制作为提升识别率的重要途径需要更好的技术加持。对于大型智能制造工业现场，开放式的复杂工作环境容易造成拍摄图像的过程中光照强度的大范围变化。相比之下，小型工业现场的自然光照等其他干扰较小，但小型产品的检测精细度更高，对于光照稳定性的要求也随之提高，控制光照的难度反而更高。实验室稳定光照条件下获得的样本数据集训练出的模型并不能在工业现场取得很好的检测效果。不仅光照条件的苛刻性使得智能制造中的计算机视觉应用难度增加，而且智能制造领域对准确率的要求也更为严苛。因此，如何控制光照均匀性是目前一大瓶颈问题。

2.2 受光照影响大的解决方法

目前智能制造工业检测领域计算机视觉中的光照问题研究大多从算法上入手。如基于Retinex的X光非均匀钢丝绳芯输送带图像校正和增强算法提出了一种基于机器视觉的非均匀光照输送带图像校正和故障检测算法。基于统计特性的光照归一化方法充分考虑了图像的光照局部性，通过对图像局部的均值和方差进行调节，引入线性插值方法，将对数变换与本文方法结合调整图像的光照，可以很好地进行光照的归一化。工业检测的光照特性变化随机，而此法可根据图像的特性动态调整，具有可用性。智能制造工业检测领域中需要相机拍摄图像以进一步通过计算机视觉技术完成处理分析，因此在图像采集环节对光照加以控制是另一种常用方法。它的特点是可以避免复杂的算法实现，但会增加硬件成本和复杂度。在针对某物体的图像采集过程中，相机、镜头的配置会直接影响成像的效果，通过调试可确定最优的相机、镜头配置。同时，外加光源可以有效地减弱环境光对图像采集的干扰，保证一系列图像的稳定性，也能调整得到适合工业检测的特定光照。视觉获取的最优情形以及以光源和相机为主体的光照协调技术把相机和光源作为一个整体加以协调，利用交替法优化配置最优光照和相机位置，使得在当前环境下的图像具有较高的平均亮度和对比度。此方法能提高样本图像数据的质量，使光照的会聚指数上升约0.15 %，但也使得采集图像的复杂度上升。数字摄像机参数自适应调整算法用以提高机器视觉系统对光照变化的鲁棒性，它能根据外界环境的光照条件，在线调整数字摄像机的参数和设置，以采集像素灰度在预设值范围内的图像，有效减弱了光照变化对图像灰度的影响，缺点在于实时调整对相机和调整算法的要求都很高，很难保证长时间精准实现，易丢失实时性。

3 智能制造中计算机视觉应用的样本数据难以支持深度学习的问题

3.1 样本数据难以支持深度学习的问题概述

智能制造工业检测中，除传统的模板匹配方法，目前更主流的是基于深度学习的方法。因工业检测的高准确率需求，有监督的深度学习能满足要求。有监督的深度学习的一大特点是需要已知类别标签的训练图像数据集，这个训练集理论上包含的数据量越大，检测的效果越好。但结合工业检测的实际场景，难以采集这么大的样本数据量。另外，制造行业中缺陷品的数量远远少于合格品，随机获取的训练集样本将存在样本分布不平衡的问题。即使在大样本数据二分类问题中，样本分布也应该尽量做到每类占比50 %。

在智能制造领域，获取样本图像数据的方法有两种，一种是在流水线作业时在线采集，另一种是样本摆拍的离线采集。在流水线作业时在线采集的优势在于不影响工业生产即可完成样本图像数据的采集，图像数据来自于工业现场，并且可采集最大等同于生产数量的样本图像数据集。但问题在于样本类别按合格率分布，缺陷品的样本图像将远远小于合格品，样本分布不平衡。其次工业现场的拍摄环境无法保证，容易造成样本图像的质量不一，影响训练效果。相对地，样本摆拍的离线采集模式的优点是可控的样本分布，人工控制各类别的样本数量分布一致；可控的实验室拍摄环境，可以保证得到高质量的样本图像。缺点也很明显，收集样本需花费大量时间，拍摄耗时耗力，训练模型不一定能适用于工业现场检测，短时间内无法得到大样本图像数据集。因此，样本数据由于量小、不平衡难以支持深度学习，成为目前的一大瓶颈问题。

3.2 样本数据难以支持深度学习的解决方法

智能制造检测领域的样本数据存在难以获取大量有效样本数据的问题, 以及难以获取各类样本数量分布平衡的样本数据集的问题。难以获取大量有效样本数据的问题可以转化为针对小样本数据如何取得良好检测分类效果的问题，主要方法如表2所示。表 2 利用小样本数据检测分类的方法 Table 3 Methods for detection classification using small sample data

方法	基本思想	特点
基于微调(fine tune)的方法	基于一个已经被训练过的基础网络，根据现有的小样本数据对这个网络进行微调，使其在特定数据域上效果更好。	需要利用原先大样本数据训练好的模型并结合特定小样本进行参数微调，速度较快，能提升此特定领域预测效果。
基于度量(metric)的方法	对样本间的距离分布进行建模，使同类样本聚合，异类分离。	本质是基于小样本的分类器，通过距离或其他参数进行分类，学习快速，泛化能力强，收敛能力较弱。
基于元学习(meta learning)的方法	从之前的学习学会如何学习，对于新的任务不必从零开始，而是根据一定的元数据，自动学习如何解决新的任务。	灵活性强，泛化能力强，利用少量样本即可解决新的学习任务，需要更大的时间成本训练出学习模型。
基于图神经网络(graph neural network, GNN) (Garcia和Bruna，2018)的方法	用图的形式构建了神经网络，把样本看做节点，通过节点彼此间的连接做到信息扩散，可以把有标签的样本信息扩散到与之最相似的需要预测的样本上。	本质上是基于度量的方法，mini-ImageNet上5分类准确率大约在95%左右，小样本表现不稳定，应用有待深入。

针对难以获取各类别样本数量分布平衡的样本数据集有如表 3的解决方法。

表3 样本分布不平衡的解决方法 Table 5 Solution to sample distribution imbalance

方法	基本思想	特点
数据增广方法	对原图进行多种方法处理，形成稍有差异的图像数据，以补充数据过少或者数据单一的问题。	常用方法：色彩抖动、主成分分析(principal components analysis, PCA)抖动、尺度变换、裁剪缩放、平移翻转、旋转仿射、高斯噪声。能扩张数据集的数量，但质量不如原始数据集，并可能产生实际不存在的样本图像，预测效果会下降。
重采样方法	对样本数量大的样本进行欠采样，即删除部分样本；对样本数量小的样本进行过采样，即添加样本的副本。	在一定程度缓解了不同类样本数量差距悬殊的问题，但降低了数据集质量，增加了训练的误差，训练的效果不理想。
SMOTE(synthetic minority over-sampling technique)(Chawla等，2002)	本质上是过采样，构造新的小类样本，新样本不是原始样本的副本或增广，而是从小类样本中的两个或多个相似样本选择一个样本，从邻近的其他样本中选择一个属性添加到这个样本上形成。	属性一般是某种特征，产生的样本质量比样本副本和增广质量高很多，但非常容易产生实际不存在的样本，不具有很强的应用性，无法保证属性之间的线性关系。

研究结果表明，目前样本数据难以支撑深度学习的问题主要包括样本数据量小和样本数据不均衡，对于这两个问题的方法已有如上所述的研究体系和方法。此类样本数据处理算法都是针对样本的数量而不是样本的内容，因此在智能制造的工业检测领域，使用上述方法调整样本数据是完全可行的。

4 智能制造中计算机视觉应用的先验知识难以加入演化算法的问题

4.1 先验知识难以加入演化算法的问题概述

计算机视觉在智能制造中的应用本质上是一种基于数据的方法，但在工业检测领域难以获取大量均匀的样本数据，因此研究者们提出将先验知识加入计算机视觉算法中以期获得更好的检测效果。应用基于先验知识的方法，在训练阶段可以配合样本进行训练，提高模型参数的准确性，降低学习难度，利于训练过程的收敛，从而提高预测的准确度。在预测阶段，能通过先验知识对判定结果的校正，提高准确率，也能提升检测速度，避免偶然误差的产生。 目前先验知识难以加入演化算法，更难以指导机器学习和深度学习等算法，并且也有很多需要解决的瓶颈问题。例如，如何将知识图谱这种主要知识表示形式用于指导深度神经网络；如何用自然语言指导强化学习中的智能体快速准确地理解学习；如何将迁移学习作为知识结合进强化学习；如何通过领域知识将强化学习方法应用到工业检测中等。

4.2 先验知识无法支持演化算法的解决方法

针对如何将先验知识应用到学习中以及以何种形式应用的问题，目前有如下的研究和方法。一种是将样本的紧密度信息作为先验知识应用到支持向量机的构造中。通过对紧密度的置信度进行建模，通过模糊连接度可以将支持向量与含噪声样本进行区分。此方法能够得到具有更好抗噪性能及分类能力的支持向量机，通过将样本的紧密度信息作为先验知识，不仅考虑到样本类间中心距离，还考虑了样本与类内其他样本的关系，通过模糊支持向量机加以区分。在工业检测领域，缺陷样本和正常样本本身差距就不大，若能将样本的紧密度信息加入训练，将有助于提升训练效果，能够更加准确地分离小缺陷、弱缺陷样本。宣冬梅等给出了两种将先验知识与深度学习模型融合的方法。第1种实质上将深度学习得到的输出作为给定样本的条件概率，即加先验知识的随机深度学习分类器(random deep learning classifier with prior knowledge, RPK)。第2种加入一个参数用以调整先验知识的稀疏性，即加先验知识的确定型深度学习分类器(deterministic deep learning classifier with prior knowledge, DPK)。这两种方法得到的分类器都能更好地预测结果。但这两种方法在多分类任务的识别率上不够高，只能精确地进行二分类任务。两者都是在深度学习模型框架之内加入了以矩阵形式存在的先验知识，这些先验知识可以是任何可矩阵化形式的内容。在智能制造工业检测领域，诸如用于检测轴承缺陷的神经网络参数可作为用于检测圆形注塑件的先验知识矩阵。 另外，基于知识的强化学习在先验知识应用中有着较大的优势。此类方法在分析预测方向有较好的表现，因此在工业检测领域有巨大的发展前景。表4给出了4种典型方法。表4 基于知识的强化学习方法 Table 6 Knowledge-based reinforcement learning method

方法	特点	典型实例
专家指导	将专家引入到强化学习的智能体学习回路中，为智能体提供强化信号，而后通过监督学习对该信号进行建模。	Knox和Stone(2009)提出的TAMER框架通过专家做的决策动作预测长远的收益，填补了智能体自主学习无法预测深层利益的弊端。
回报函数指导	将先验知识或过程经验用以指导设计回报函数的方法，使回报函数更加科学和有助于收敛，如何准确地指导设计是其中的关键(Mataric，1994)。	Randløv和Alstrøm(1998)教会系统学习骑自行车，证明了此方法的有效性；Ng等人(1999)利用回报势函数衡量回报函数偏差，以衡量指导设计是否有效，使得80%的搜索具有目的性，仅20%是随机的，在缺乏领域知识的情况下，仍然无法保证回报函数是否设计合理。
搜索策略指导	在搜索策略中引入知识以提高探索能力，根据领域知识对Simhash函数输入的特征进行筛选，对权重进行修改可提高学习能力(Tang等，2017)。	Bianchi等人(2008)提出了定量的启发式信息选择动作函数，使千量级的搜索过程降低到100步之内，但未给出函数权重值的取值依据和方法。
模仿学习	通过模仿一批人类专家的决策轨迹数据解决强化学习任务中多步决策搜索空间巨大的问题。	Guo等人(2014)提出了蒙特卡罗树搜索加神经网络的方法，进行模仿学习策略，此方法能通过分类或回归学习符合人类专家决策轨迹的策略模型，但却因为通过拖慢节奏比实时慢几个数量级而带来较大的时间开销。

上述研究结果表明，在先验知识和深度学习结合的过程中，形成了基于知识的强化学习理论，它的诞生也进一步验证了先验知识在演化算法中应用的有效性，这为通过先验知识提高智能制造工业检测效果提供了一个重要方向。

5 结语

随着计算机视觉在智能制造领域的深入，它涉及的应用将更多更广，发挥的作用也越来越大。从理论到应用的这一过程中遇到了很多瓶颈问题，如何克服这些难点以及探索更实用的解决方案将是下一阶段需要着重开展的研究工作。目前针对3个瓶颈问题的研究方法众多，可从如下思路进一步研究：

1) 针对计算机视觉应用易受光照影响的问题，可设计黑箱式封装的图像采集设备，排除外界光照干扰，安装在工业生产线上，从而达到实验室级别的检测环境，从根本上解决光照影响问题。

2) 针对计算机视觉应用中样本数据难以支持深度学习的问题，可通过小样本和不平衡样本处理方法在不降低样本数据质量的同时增大样本数据量，并且结合传统方法如模板匹配和相似度检测来辅助增加检测准确率。

3) 针对计算机视觉应用中先验知识难以加入演化算法的问题，除了从训练和预测阶段入手，在决策的判断上也可做基于先验知识的判定。如在合格率较高的零件检测中，一些不常见的错误判定可以根据先验知识修改为正确判定，从而提高准确率。

编辑：黄飞

打开APP阅读更多精彩内容