电子说
编者按:作为目前人工智能界著名的独角兽,商汤科技在图像处理和人脸识别技术领域处在世界前沿的位置。近日,该公司在arXiv上发表论文The Devil of Face Recognition is in the Noise,从图像数据角度为人脸识别准确率的提高提出了建议。
在进行人脸识别的任务时,数据集是其中的关键。从早期的FERET数据集到最近的LFW、MegaFace和MS-Celeb-1M,数据集在新技术的发展上有着不可或缺的作用。这些数据集不仅仅提供了更加丰富的资源,而且数据规模也有了非常大的提高例如,MS-Celeb-1M包含大约1000万张图片,其中有10万个人物,远远超过只有14126张图像、1199个人的FERET数据集。大型数据集,再加上深度学习技术,让人脸识别在这几年取得了巨大的成功。
然而,大型数据集不可避免地会受到标签噪声的影响。这一问题很普遍,因为经过良好标注的大型数据集得来的成本非常高昂,所以这也促使科学家们寻找便宜但并不完美的替代方法。一种常见的方法是根据人名在网络上查找他们的照片,再用自动或半自动方法对标签进行清理。另外还有些方法会在社交网站上手机照片。上述方法都是扩大训练样本的简便方法,但同时也会带来标签噪声,给训练和模型带来负面效果。图1就是含有标签噪声的一些样本:
图1
可以看到,MegaFace和MS-Celeb-1M都含有相当多的错误标签,有些噪声标签可以轻易消除,但是大部分想要消除还是很困难的。在MegaFace中还有很多重复的图像(最后一行)。
所以,本文的首要目标是探究标签噪声的来源,以及在深度卷积神经网络中,这些噪声会给人脸识别造成何种后果。我们主要考虑的问题有:想要达到清理数据的目的,需要多少噪声样本?噪声和最终的模型性能之间有何种关系?标注人脸的最佳策略是什么?对这些问题的理解将有助于我们设计更好的数据收集和清理方法,同时防止在训练过程中造成危险,以形成能应对现实问题的强大算法。
其次,本文的第二目标是为社区建立一个干净的人脸识别数据集。该数据集能帮助研究人员训练更好的模型,并且进一步了解噪声和人脸识别性能之间的关系。
这一部分中我们会介绍几种流行的数据集,之后会分析他们各自的信噪比。目前用于人脸识别研究的数据集大致如下表所示:
了解各数据集所含数据后,我们想大概估计每个数据集中的噪声分布。但由于数据集体积过大,想计算确切的数字不那么容易,所以我们随机选择了数据集的子集,然后手动将它们分为三个类别:“正确识别”、“待定”和“错误识别”。
从各数据集中抽取一部分数据后,大概情况如图2a所示:
图2a
可以看出,数据规模越大,信噪比越大。
之后,我们又对两个最大的数据集——MS-Celeb-1M和MegaFace进行噪声分布分析。我们首先根据图片数量对数据集中人物进行分类,最终生成了6个类别,通过下图可以看出每个类别的信噪比。
可以看出,大多数目标只有很少的图像与之对应,这一情况在MegaFace上更明显,因为它是用自动方法收集的数据。与MS-Celeb-1M相比,MegaFace的噪声似乎更少,但是我们发现在MegaFace干净的数据集中,有很多重复图像。
通过分析我们得出,一个含有超过一百万张图片的数据集,信噪比通常高达30%。为了创建一个干净的数据集,我们不仅在收集人脸数据时找寻更干净、更多样的来源,更重要的是找到一种高效的数据标记方法。
从IMDb中搜集人脸图像
被大家广泛使用的ImageNet是直接从谷歌图片中搜索来图像的,其他数据集也大多如此,但这样做的坏处是存在数据偏见。从图3中我们可以看出,从搜索引擎中搜到的图片背景都很简单,光线充足,大都是图片的前景。而在实际的视频中,人脸图像并没有这么清晰。另外,从搜索引擎中得到的图片通常查全率很低,经过研究我们发现,在200张照片中,平均查全率只有40%。
图3
在这项研究中,我们从IMDb网站搜集图像,因为该网站结构化程度更高,每个人物的照片种类也比较多,包括官方照片、生活照、电影剧照等等。另外,这里的查全率更高达90%。最终我们收集了170万张名人的照片,其中有5900位明星。
我们对数据进行了清洗,但是清洗的方法有以下三种:
第一种,志愿者们在图片中圈出目标人物;第二步,在三个候选图像中,志愿者们要选择对应目标图像的那张图片;第三步,直接进行判断,Yes or No。
最终,三种方法的ROC曲线如图:
可以看到第一种方法的F1分数最高,误报率不超过10%。第三种方法的效果最差。另外,我们还发现一个有趣的现象,即当志愿者标注的时间越长,标注的准确性越高。
实验分为四个部分。首先,我们在提出的数据集上添加模拟噪声,进行控制变量研究。这有助于我们观察在由噪音的情况下性能的下降。
之后,我们会在两个现有数据集上进一步实验,探索噪音的影响。
第三,将我们的数据集和其他传统数据集进行对比,验证其有效性。
最后,将在我们数据集上训练的模型和其他模型进行对比。最终结果如下表:
我们的模型IMDb-Face得到了目前的最高分数。
与目前流行的专注于复杂损失和CNN结构的研究不同,我们从数据的角度来研究人脸识别问题,尤其是对标记噪声的来源有了一定认识。最终我们新建的IMDb-Face数据集也成为了打造大型干净数据集的重要基础。
全部0条评论
快来发表一下你的评论吧 !