电子说
只需要打印一张彩色贴纸,然后将其粘贴到帽子上,顶级 Face ID 系统瞬间 “失灵” 了。来自华为莫斯科研究中心的新研究,破解了当前最好的公共 Face ID 系统。
一张贴纸能让你在面部识别软件面前 “隐身”!
今天,Reddit 上一条帖子火了:
我们使用对抗攻击技术攻破了目前最好的公共 Face ID 系统 ——ArcFace。
攻击一个 AI 系统不是什么新鲜事,但我们成功地在现实世界中做到了:只需要打印一张彩色贴纸,然后将其粘贴到帽子上,就能使人脸与真值的相似性显著下降!甚至这种攻击方法还可以迁移去攻击其他顶级的 Face ID 模型。
这个研究的两位作者 Stepan Komkov 和 Aleksandr Petiushko,来自莫斯科国立大学和华为莫斯科研究中心,他们公开了 demo,并开源了他们的方法。
正常使用的情况下,ArcFace 系统轻易识别出人脸:Person_1
接着,把一张普通的打印出来的彩色贴纸,贴到脑门上,看看会怎样?
出人意料的是,ArcFace 系统识别不出这是一张 “人脸” 了。一个先进的人脸识别模型如此轻易就被 “攻破” 了!
只需一张贴纸,人脸识别系统瞬间“失灵”
不仅如此,研究人员尝试了不同光照方向对系统的影响,包括关灯、侧面打光和正面打光,ArcFace 系统均识别不出人脸。
关灯:认不出
侧面打光:认不出
正面打光:认不出
直到把 “贴纸” 摘下,人脸识别系统马上恢复了正常。
摘下贴纸,人脸识别系统恢复正常
看到这里,很容易想起另一个近期的 “欺骗 AI 系统” 的研究:来自比利时鲁汶大学几位研究人员借助一张简单打印出来的图案,完美欺骗了 YOLO (v2) 开源对象识别系统。
如上图所示,AI 系统成功检测到左边的人,而右边的人被忽略了。右边的人身上挂着一块彩色纸板,在论文中被称为 “对抗性补丁”(adversarial patch),正是这块补丁 “欺骗” 了 AI 系统,让系统无法发现画面中还有一个人。
研究人员表示,他们设计的图像可以将整个人隐藏起来,不会让计算机视觉系统发现。但这个 “补丁” 并非万无一失,即使它的角度发生了变化,AI 系统也能迅速 “发现” 画面中的人类。
相比之下,莫斯科两位研究人员的方法更 “稳健”,他们称这种对抗攻击为 AdvHat,相比其他方法的优势有:
利用帽子上的贴纸,对最先进的公共人脸识别系统进行了现实世界的对抗性攻击。
这种攻击很容易重现,只需打印一张彩色贴纸;
攻击可以在不同的光照条件下工作;
提出了一种新颖的粘贴投影技术,使攻击过程中的图像具有真实感;
此外,同样的攻击还可以转移到其他面部识别模型。
看了演示,Reddit 网友纷纷表示 “很酷”、“非常有趣”,有人说:“感谢你们花时间和精力把这个已知概念从数字空间带到现实世界。该领域内的大多数人都知道这是可以做到的,我已经知道并尝试用对抗方法‘愚弄’AI 系统 4 年了,但这可能是我看到的第一个有人在现实世界对抗 Face ID 的视频!”
接下来,新智元带来对 AdvHat 方法的详细解读,以及实验和结果数据。
四步攻击,两种转换,诱导 Face ID 系统决策失灵
图 1:一种攻击人脸识别系统的新方法。帽子上的贴纸显著降低了与 ground truth 类的相似性。左边的对中,与 ground truth 的相似度下降了 0.592,右边对下降了 0.429。
在 Face ID 系统的实际使用场景中,并不是每个被捕获的人都是已知的。这就是为什么与 top-1 class 的预测相似性应该超过某个预定义的阈值,才能认为面孔被识别出来了。
我们目标是创建一个可以粘贴在帽子上的矩形图像,并诱导 Face ID 系统将人脸与ground truth 类的相似性降低到决策阈值以下。
为了达到这个目的,我们使用了一个攻击 pipeline,它的描述如下:
1) 我们对矩形图像应用一个新的平面外变换 (off-plane transformation),从而在贴在帽子上之后模仿矩形图像的样子。
2) 我们将得到的图像投影到高质量的人脸图像上,投影参数的扰动较小,使我们的攻击更加稳健。
3) 将得到的图像转换为 ArcFace 输入的标准模板。
4) 减少了两个参数的和:初始矩形图像的 TV loss,得到的图像的嵌入与 ArcFace 计算的锚点嵌入之间的余弦相似度。
整个的 pipeline 如图 2 所示。
图 2:攻击的整个流程架构。首先,我们将贴纸改造成真实的形状。其次,我们把它投射到面部图像上。第三,我们使用稍微不同的参数将图像转换为 ArcFace 输入模板。最后,我们将模板输入 ArcFace,评估余弦相似度和 TV loss。这样,我们可以得到梯度信号,用于修改贴纸图像。
非平面贴纸转换:
我们将在帽子上放置贴纸时发生的转换分为两个步骤:贴纸的平面外弯曲和贴纸的俯仰旋转。图 3 显示了这两个转换。
图 3:当在帽子上放一个矩形贴纸时,它会发生弯曲和旋转。
实验和结果
我们在实验中使用 400×900 像素的图像作为贴纸图像。然后,将贴纸图像投影到600x600 像素的人脸图像上,然后将其转换为 112x112 的图像。
攻击方法
如前所述,我们在将图像输入 ArcFace 之前随机修改了图像。我们构建了一批生成的图像,并使用整个 pipeline 计算初始贴纸的平均梯度。我们可以直接计算梯度,因为每个变换都是可微的。
我们把攻击分为两个阶段。在第一阶段,我们使用的 step value 等于,动量等于0.9。在第二阶段,我们使用 step value 等于,动量等于 0.995。TV loss 总是等于 1e - 4。
对抗性贴纸
图4:两个对抗贴纸的示例
典型的对抗贴纸的示例在图 4,看起来贴纸上画了一个凸起的眉毛。根据前人研究,眉毛是人类识别人脸的最重要特征。
固定条件下的实验
所有照片和真实世界的测试都在相同的条件下进行。我们评估了 10 个不同年龄和性别的人:年龄分别为 40 岁,23 岁,16 岁,5 岁(男性)和 36 岁,32 岁,29 岁,24 岁,24 岁,8 岁(女性)。每个人使用 3 张照片创建攻击:我们需要计算真实的嵌入图像中的简单照片,计算基线相似度并获得对抗性的图像贴纸。我们要找到这个人的贴纸转换参数。然后打印每个人的对抗贴纸,并用这些贴纸制作第四张照片以获得最终结果。
我们使用 boxplot 来显示所获得值的分布(参见图 5)。可以看出,对抗性贴纸明显降低了与实际图像的相似性。值得注意的是,在大多数情况下,对抗性贴纸在 0.5 以上时会降低与基础事实的相似性。两次降低相似度小于 0.5 的攻击都与 10 岁以下的儿童有关。儿童的基线相似度初始值较低。
图 6:我们为一些人额外制作了 11 张照片,以检测多种条件下贴纸攻击的威力
图 7:各种拍摄条件的基线结果和最终相似度。不同的人以不同的颜色表示
变化条件下的实验
为了检验我们针对不同拍摄条件的方法的稳健性,我们从前 10 张照片中选出 4 个人,又为他们制作了 22 张照片。这些照片分为 11 对。每对都是在相同的条件下照的。每对中的第一张照片是戴帽子的照片,用于评估基线相似度。第二张是带有对抗性贴纸的戴帽子的照片,用于评估最终的相似度。8 对照片对应于头部倾斜的不同组合和形式(向前倾,向后倾,向左转,向右转),3 对照片对应于不同的照明条件。拍摄条件示例如图 6 所示。值得注意的是,我们继续使用之前的贴纸,而不进行新的攻击。
结果如图 7 所示。尽管最终的相似性增加,但攻击仍然有效。这里不想给出什么结论,因为测试装置非常小,但我们认为,实验结果对于头部的不同旋转形式和组合是稳健的。
我们发现照片上贴纸的较大区域会导致相似性较低。当头部向前倾斜时,最终的相似性仍然小于 0.2。当头部逐步抬起,相似度会逐渐增加。使用更好的投射和渲染技术以及更大的对抗配饰(比如使用帽子部分的全部区域进行攻击)可以让监控摄像机完全无法识别。
图 8:不同模型上一次攻击的基线和最终相似性之间的差异
可转移性的实验
最后,我们检查了对其他 Face ID 模型的攻击的稳健性。这些模型取自 InsightFace Model Zoo 。这些网络具有不同的体系结构,与 LResNet100E-IR,ArcFace @ ms1m-refine-v2 相比,这些网络使用不同的损失函数和数据集进行训练。
我们使用第一个实验中的照片来评估相似度:全脸照片,戴帽子的照片,帽子上带有对抗贴纸的照片。我们计算了 10 个人中每个人的基线结果和最终相似度。使用箱线图在图 8 中描绘了每种模型的基线和最终相似度之间的差异。
结果显示,我们的真实世界的攻击行为就像数字域中的常见对抗性攻击一样。尽管攻击的强度降低,但人仍然很难识别出来。
全部0条评论
快来发表一下你的评论吧 !