人脸识别技术系统的基本逻辑架构

1bGT_GKYXT1508 2019-07-15 12831

电子说

1.3w人已加入

我们每天用人脸识别技术解锁手机、结账付款，是那么的自然，但相信很少有同学深入思考这项技术背后是怎样一个流程。

前面我们说，计算机视觉是人脸识别关系最紧密的技术。所以我们从这一点入手。

计算机视觉，通俗来说就是利用摄像头等设备代替人眼，来获取图像，利用计算机对图像信息进行处理，综合人类的认知模式来建立人类视觉的计算理论。

这其中，最难的无疑是如何处理图像信息、如何模拟人类的认知模式。

为了解决这些问题，计算机视觉还引入了图像处理、模式识别、图像理解、图像生成等学科的知识。

图像处理就是把原始图像转换成计算机更容易识别的图像；模式识别，就是计算机判断自己要识别的是什么和怎么识别的过程；图像理解，就是对图像中描述的景物进行分析；图像生成，举例来说就是当图像的部分信息缺失时，能够将缺失的信息补上……

这些都是计算机视觉需要借助的学科技术。这里面我们要着重讲的是模式识别，它是一个独立的理论体系，具体到计算机视觉领域的应用，它表示将计算机表示出来的图像和一致的类别进行匹配的过程。

有点懂是吧。在这里为大家通俗解释一下，所谓“识别”，就是先认识，然后辨别。认识什么？认识的是图像和从图像中总结的目标物体的特征。怎么辨别？就是将总结出来的特征和自己已经掌握的特征库进行比对，然后才能实现辨别。

我们人类识别一样物体也是遵循这个逻辑，先总结特征，然后比对。至于前面的“模式”，就有点抽象了，你可以理解为一种规律，它影响着特征和类型比对的结果。

没错，人脸识别本质上也是这个过程。

所以，我们沿着模式识别的思路，来看看它的整体过程：分别为预处理、特征提取和分类等。我们画出如下流程图：

预处理是第一步，但是这部分工作可能很多很杂，例如减少图像中的噪声干扰、提高清晰度、还有包括图像滤波、变换、转码、模数转化等。

特征提取，就是在预处理后的图像中，提取对识别有明显作用的特征，并在这个过程中降低模式特征的维数，令其便于处理。这是一个复杂的过程，后面我们讲到具体方法时候会有体现；

分类，就是对提取到的特征值按照一定的准则进行分类，便于决策。

举个例子，计算机要识别出这张照片中的男人，当它拿到照片时，可能觉得画面太暗，先提个亮度，然后又发现噪点太多，再做个降噪……一顿操作后感觉可以了，再将照片转化为数字信息，这个过程是预处理。

提取出来的特征值会进入单独的特征空间，因为这样可以更好地识别和做分类。接下来，就要对特征空间里的数据进行分类了，让它们眼睛归眼睛，鼻子归鼻子，头发归头发……基于这些分类好的数据，计算机才可以进行识别判断和决策。

当然，为了方便大家理解这个逻辑过程，小编在这里只是举例粗略地说明，可能不准确，实际的步骤也是相当复杂的，还要考虑各种干扰的因素，例如图像的质量不清晰、背景复杂、图像光照分布不均匀、目标姿势角度出现扭曲或者佩戴了头饰、眼镜以及张了胡须、化了妆等等各种情况。

还有要说明的一点是，这个模式识别的系统是需要一个自我训练、学习的过程的，其中最重要的是对前面分类错误率的训练（分类器训练），因为在前面的分类中，我们无法保证分类的结果是100%正确的，但必须控制在一定的错误率之类，这必须通过大量的训练样本来不断修正，令错误率符合要求。

好了，基于以上对计算机视觉模式识别的讨论，我们就可以给出人脸识别系统的主要功能模块了：

可能有小伙伴觉得上面这个举出功能模块太简单了，所以我们再精确一些，给出下面的逻辑架构图，相信不难理解：

打开APP阅读更多精彩内容