中科院信工所|基于真实人脸视频自然一致性表征学习的深度伪造检测(ECCV 2024)

文摘   2024-09-27 08:40   上海  


如何有效检测深度伪造人脸视频以防止其被恶意利用是目前急需解决的问题,对此现有检测方法已经取得了显著的成效。然而,现有的全监督检测器可能容易过拟合于特定的伪造方法或源视频,而现有的自监督检测器对设计的辅助任务要求严格,例如需要音频或多模态数据,这导致其泛化能力和鲁棒性有限。本工作探讨了是否可以通过仅利用单模态真实人脸视频来解决这一问题。为此,提出了一种自监督学习真实人脸视频自然一致性表征的方法(NACO),这一方法的灵感来自于观察到伪造视频即使在伪造方法未知和不同扰动条件下均难以保持真实人脸视频自然的时空一致性。我们首先通过卷积神经网络(CNN)提取每一帧的空间特征,然后将其输入到Transformer中,以学习长距离的时空表示,该设计分别利用CNN和Transformer在局部空间感受野和长距离记忆上的优势以学习到包含更多时空信息的有效表征。此外,我们引入了空间预测模块 (SPM) 和时间对比模块 (TCM) 来增强自然一致性的表征学习。SPM旨在从时空表征中预测随机遮盖的空间特征,而TCM通过扰乱原始顺序以扰乱一致性来规范时空表示在隐空间的距离。在表征学习阶段后,通过微调一个多层感知机(MLP)来执行通常的视频分类任务。大量实验证明了我们所提出方法具有优秀的泛化性和鲁棒性,如下表1和表2所示。

图1 NACO深度伪造检测框架


表1 未知数据集上的泛化性能,采用视频级AUC(%)度量    


表2 未知操作上的泛化性能,采用视频级AUC(%)度量

论文信息


该工作已发表于ECCV 2024会议,作者为中国科学院信息工程研究所的张岱墀李世鲲、林繁钊和葛仕明(通讯作者)瑞莱智慧的萧子豪,清华大学的李建民

Daihi Zhang, Zihao Xiao, Shikun Li, Fanzhao Lin, Jianmin Li, and Shiming Ge*. Learning Natural Consistency Representation for Face Forgery Video Detection. ECCV, 2024.(点击下方阅读原文查看论文全文)




供稿:张岱墀、葛仕明


隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章