中国科学院自动化研究所&澳门科技大学|用于灵活模态人脸活体检测的CLIP(ACM MM 2024)

文摘   2024-09-20 08:30   上海  


灵活模态人脸活体检测(FAS)旨在聚合所有可用训练模态的数据来训练模型,并对任何给定的模态样本进行灵活测试。在这项工作中,我们避免直接从视觉特征中去除模态特定的信号,而是基于视觉-语言多模态框架CLIP提出了一种用于灵活模态FAS的CLIP(FM-CLIP),它可以利用文本特征动态调整视觉特征,使其与模态无关。在视觉分支中,考虑到同一攻击在不同模态中的巨大视觉差异,这使得分类器难以灵活识别不同模态中的微妙伪造线索,我们提出了跨模态伪造增强器。它包括频率提取器(FE)和跨模态交互器(CMI),旨在在共享频率空间中映射不同的模态攻击,以减少特定模态信号的干扰,并通过利用共享频率空间的跨模态学习来增强伪造线索。在文本分支中,我们引入了一种基于提示学习的语言引导补丁对齐(LGPA),通过文本特征的动态加权,进一步引导图像编码器专注于补丁级的伪造表示。我们大量的实验表明FM-CLIP可以通过识别和增强模态无关的伪造线索来灵活地测试不同的模态样本。

图1 FM-CLIP框架的示意图


论文信息


论文由中国科学院自动化研究所和澳门科技大学合作完成,目前已被2024 ACM Multimedia (ACM MM 2024) 接收。作者为刘阿建(中国科学院自动化研究所,助理研究员),马辉(澳门科技大学,博士生),郑钧泽(澳门科技大学,博士生),原昊成(澳门科技大学,本科生),于晓渊(澳门科技大学,助理研究员),梁延研(澳门科技大学,副研究员,通信作者),Sergio Escalera (巴塞罗那大学,教授),万军(中国科学院自动化研究所,研究员),雷震(中国科学院自动化研究所,研究员)

Ajian Liu, Hui Ma, Junze Zheng, et al. FM-CLIP: Flexible Modal CLIP for Face Anti-Spoofing. ACM Multimedia, 2024.(点击下方阅读原文查看论文全文)



供稿:刘阿建


隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章