一、方法简介
人脸识别系统很容易被在自然图像上添加了人眼不可见的对抗扰动的对抗样本攻破。针对于人脸识别系统的对抗样本攻击主要可以分为两种类型:目标攻击和无目标攻击。目标攻击的目的是使人脸识别系统将对抗样本识别为某一个特定的人,无目标攻击的目的是使人脸识别系统无法将对抗样本识别出来。在实际应用中,攻击者倾向于在攻破人脸识别系统使系统将其识别为受害者,并使人脸识别系统无法将其本身识别出来以逃避法律责任。这就要求生成的人脸对抗样本可以同时完成目标攻击与无目标攻击。然而,我们的实验表明在黑盒场景下,传统的人脸目标对抗样本攻击方法无法实现无目标攻击。这与图像分类领域的对抗样本样本攻击存在很大的不同。为此,我们对此进行了深入研究。我们发现传统的人脸目标对抗样本攻击方法生成的对抗样本在黑盒场景下大部分仅仅只能跨越受害者的决策边界,而无法跨越攻击者的决策边界。为了解决这个问题,我们提出了一种新的对抗样本攻击方法对抗剪枝(Adversarial Pruning,Adv-Pruning)以在维持目标攻击性能的条件下提高其无目标攻击性能。具体地,Adv-Pruning首先对对抗样本进行优化,使其具有一定的攻击性能。接着,Adv-Pruning通过对抗优先级量化模块对对抗扰动的优先级进行评估,识别并释放掉对绝对模型输出变化具有最小影响的扰动。最后,使用偏置梯度适应模块利用偏置梯度调整对抗样本以使其穿过攻击者和受害者的决策边界。 图1
图1 上:在黑盒场景下,即使传统的人脸对抗样本攻击方法生成的对抗样本可以成功进行目标攻击,然而无法保证其生成的对抗样本可以成功完成无目标攻击。与之相对,我们提出的包含Priming、Pruning和Restoration三个阶段的Adv-Pruning算法可以同时完成目标攻击与无目标攻击。下(左):自然多个体样本(Multi-identity Samples,MS)。下 (右):传统的攻击方法和我们提出的Adv-Pruning在不同模型下的无目标攻击成功率。
图2 Adv-Pruning算法的示意图
二、实验评估
我们以SIA作为基准,在不同的人脸识别模型上评估了Adv-Pruning算法的性能。实验结果如图3所示。从图中可以看出,添加我们提出的Adv-Pruning算法后,算法性能显著提升,验证了该算法的有效性。此外,我们以DI作为基准,在不同JPEG压缩条件下测试了Adv-Pruning算法的性能。实验结果如图4所示。图中显示,在不同JPEG压缩条件下,添加Adv-Pruning算法后,算法性能同样显著提升,进一步验证了该算法的有效性。图3 不同人脸识别模型下的无目标攻击成功率
图4 在不同的JPEG压缩的条件下无目标攻击成功率
论文信息
本文被ACM MM 2024录用。作者为华中科技大学的周风帆、凌贺飞(通讯作者)、上海交通大学的周千寓、马利庄,上海时装信息科技有限公司的尹邦杰、正辉,乐卓博大学的鲁学权。Fengfan Zhou, Qianyu Zhou, Bangjie Yin, Hui Zheng, Xuequan Lu, Lizhuang Ma, Hefei Ling*, Rethinking Impersonation and Dodging Attacks on Face Recognition Systems. ACM MM, 2024.
供稿:周风帆,凌贺飞