人脸识别算法遇到的困难和挑战

Imagination Tech 2018-08-28 7193

电子说

1.4w人已加入

描述

一个典型的基于视频图像的人脸识别系统一般都是自动检测人脸区域，从视频中提取特征，最后如果人脸存在则识别出人脸的身份。在视频监控、信息安全和出入控制等应用中，基于视频的人脸识别是一个非常重要的问题，也是目前人脸识别的一个热点和难点。基于视频比基于静态图像更具优越性，因为 Bruce 等人和 Knight 等人已证明，当人脸被求反或倒转时，运动信息有助于（熟悉的）人脸的识别。

虽然视频人脸识别是基于静态图像的人脸识别的直接扩展，但一般认为视频人脸识别算法需要同时用到空间和时间信息，这类方法直到近几年才开始受到重视并需要进一步的研究和发展。

视频人脸识别遇到的困难和挑战，具体来说有以下几种：

1、视频图像质量比较差：视频图像一般是在户外（或室内，但是采集条件比较差）获取的，通常没有用户的配合，所以视频人脸图像经常会有很大的光照和姿态变化。另外还可能会有遮挡和伪装。

2、人脸图像比较小：同样，由于采集条件比较差，视频人脸图像一般会比基于静态图像的人脸识别系统的预设尺寸小。小尺寸的图像不但会影响识别算法的性能，而且还会影响人脸检测，分割和关键点定位的精度，这必然会导致整个人脸识别系统性能的下降。

视频人脸识别起源于基于静态图像的人脸识别，即识别系统自动的检测和分割出人脸，然后用基于静态图像的识别方法进行识别。对这类方法的一个提高是加入了人脸跟踪。在这类系统中，通过利用姿态和从视频中估计到的深度信息合成一个虚拟的正面人脸。这个阶段的另外一个能提高识别率的方法是利用视频中充裕的帧图像，基于每帧图像的识别结果，使用“投票”机制。投票方法可以是确定的，但是概率投票方法一般来说更好。投票机制的一个缺点是计算结果的代价比较昂贵。

视频人脸识别的第二个发展阶段是利用多模态信息。因为人类一般会利用多种信息识别人的身份，所以一个多模态系统将比只利用人脸的识别系统性能更好。更重要的是利用多模态信息提供了一种方法，它能全面解决那些只靠人脸无法识别的任务。例如，在一个完全没有配合的环境（比如抢劫），歹徒的脸一般是蒙着的，这时唯一能进行无人脸识别的方法就是分析歹徒躯体的运动特性。除了指纹，人脸和声音是最常用于身份识别的信息。它们已经被用于很多多模态身份识别系统。 1997 年以来，每两年，就会召开一个专门关于基于视频和语音身份识别的国际会议。

最近几年，视频人脸识别进入第三个发展阶段，这个阶段方法的特点是同时采用空间信息（在每帧中）和时间信息（比如人脸特征的运动轨迹）。区别于概率投票方法的一个很大的不同之处在于，此类方法是在时间和空间的联合空间中描述人脸和识别人脸的。

视频图像的一个非常重要的特性是它的时间连续性，以及由此产生的人脸信息的不确定性。在人脸跟踪和识别中利用时间信息是视频人脸识别算法和基于静态图像的人脸识别算法的最大区别。

目前这类算法大致可分为两类：

1、跟踪 - 然后 - 识别，这类方法首先检测出人脸，然后跟踪人脸特征随时间的变化。当捕捉到一帧符合一定标准（大小，姿势）的图像时，用基于静态图像的人脸识别算法进行识别。这类方法中跟踪和识别是单独进行的，时间信息只在跟踪阶段用到。识别还是采用基于静态图像的方法，没用到时间信息。

这种方法说白了其实就是，在检测到人脸之后，对其进行跟踪，找到某个人在一段时间内出现的所有帧中，最接近正脸且最清晰的图片，然后对其进行识别。省去了“人脸摆正”的过程。

2、跟踪 - 且 - 识别，这类方法中，人脸跟踪和识别是同时进行的，时间信息在跟踪阶段和识别阶段都用到。

打开APP阅读更多精彩内容