中国电信研究院&南方科技大学| 应对联合攻击检测的 La-SoftMoE CLIP

文摘   2024-10-14 08:30   广东  


人脸识别系统易受物理和数字攻击的影响,传统方法通常将这两种攻击类型分开处理,导致同时出现时难以应对。以往研究尝试结合这两种攻击的稀疏数据并找到共同特征空间,但这通常不现实。为了解决这些挑战,我们提出了一种新的方法来应对联合攻击检测(UAD,同时检测物理攻击和数字攻击)——使用稀疏模型来处理稀疏数据,利用不同的参数组来处理稀疏特征空间的不同区域。具体来说,我们在联合攻击检测框架中部署了专家混合(Mixture of Experts, MoE)机制,专家参数在训练期间根据不同的权重与token进行匹配,并在测试期间自适应激活。但是传统的MoE在处理此问题复杂且不规则的分类边界时存在困难;因此,我们引入了一种灵活的自适应加权机制,使模型能够更好地拟合和适应不同类型的攻击。在本文中,我们提出了La-SoftMoE CLIP,它能够更灵活地适应联合攻击检测(UAD)任务,显著增强了模型处理联合攻击的能力。  


图1 La-SoftMoE CLIP框架


该图展示了我们方法的整体框架。图的左侧展示了CLIP图像编码器的基本模块结构,整个图像编码器由12个Transformer模块组成。在每个Transformer模块中,MoE模块在与MLP并行处添加,并在其输入和输出处各有一个线性层。此外,我们用线性注意力机制替代了Soft MoE的token查询机制,以便更灵活地自适应UAD的稀疏特征分布。


实验结果表明,我们提出的方法在性能上达到了最新的状态(SOTA)。由表1可知,我们提出的La-SoftMoE CLIP在ACER方面达到了0.32%,ACC达到了99.54%,取得了SOTA性能。我们通过消融实验进一步验证了我们所提出的改进的有效性,如表2所示。我们还对消融结果进行了可视化处理,如图2所示,展示了使用UniAttackDat数据集的特征分布可视化分析。具体而言,图中包括了ResNet-50(左上)、vanilla CLIP(右上)、CLIP + Soft MoE(左下)和CLIP + La-SoftMoE(右下)的特征分布情况。可以看到,我们的La-SoftMoE能够使得联合攻击检测模型的分类边界变得更加清晰且形状规则。



表1 使用UniAttackData数据集的结果


表2 消融实验结果


图2 使用La-SoftMoE后模型分类边界的可视化分析


论文信息


Hang Zou1* ,Chenxi Du2,3* ,Hui Zhang4, Yuan Zhang1, Ajian Liu5† ,Jun Wan5, Zhen Lei5,6,7 1China Telecom Research Institute (CTRI); 2SIAT, Chinese Academy of Sciences; 3Southern University of Science and Technology; 4Tianjin University of Science & Technology; 5MAIS, CASIA, China; 6SAI, UCAS, China; 7CAIR, HKISI, CAS.


邹航(中国电信研究院,研究人员,共一),

杜晨曦(南方科技大学,硕士生,共一),

张慧(天津科技大学,教授),

张园(中国电信研究院,副所长),

刘阿建(中国科学院自动化研究所,助理研究员,通讯作者),

万军(中国科学院自动化研究所,研究员),

雷震(中国科学院自动化研究所,研究员)  



供稿: 邹航、杜晨曦



隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章