中山大学|基于多视角不一致衡量的视频人脸伪造检测与定位(TDSC 2024)

文摘   2024-11-18 09:00   北京  


随着深度学习和生成技术的不断进步,视频人脸伪造的效果越来越好,这也对检测提出了更高的要求,仅对视频帧进行真伪的二分类判定已经不能满足检测的更高要求,细粒度的定位判定同样至关重要。通过对视频帧内的伪造区域进行标定,可以为人脸视频的真伪性判断提供更可信的依据,尤其是在视频中有多个人脸的情况下,仅对整个视频帧进行判定是不够的,定位出具体被伪造的人脸才能更好地分析出伪造者的意图,防止进一步产生不良影响。

图1 模型整体结构图


为了对多人脸视频的真伪进行判定,并定位出具体的伪造区域,本文提出了基于多视角不一致衡量的视频人脸伪造检测与定位方法。整体框架如图1所示,在噪声视角,考虑到多人脸场景中伪造人脸与真实人脸和背景相比,具有不一致的噪声模式,我们通过设计噪声不一致衡量模块来对不同区域的噪声相似性进行衡量,挖掘视频帧内的篡改痕迹,突出不一致的区域。在时序视角,由于深度伪造视频是逐帧替换人脸后合成的,伪造区域的面部抖动会比真实区域更加明显,我们通过设计时序不一致衡量模块来对时序不一致信息进行建模,挖掘视频相邻帧间的篡改痕迹。本文方法通过特征融合对两个视角挖掘的篡改痕迹进行分析,能够同时对伪造视频帧进行分类和定位。  
 

图2 噪声和时序视角不一致衡量模块结构图


实验结果表明,本文方法在分类和定位任务中均优于过往方法,且具有良好的鲁棒性,也得益于本文方法不是单一地依赖图像的空间纹理特征,而是综合考量了噪声和时序视角中的不一致性信息,更好地捕捉微妙的篡改痕迹,并进行更细致的边界估计。

表1 FFIW数据集上的分类和定位结果


表2 DFD数据集上的分类和定位结果


图3 定位可视化结果


论文信息


相关工作于2024年录用并发表于IEEE Transactions on Dependable and Secure Computing,作者为中山大学的张博林,殷琪林,卢伟(通讯作者),数学工程与高级计算国家重点实验室的罗向阳。   

B.Zhang, et al., "Deepfake Detection and Localization Using Multi-View Inconsistency Measurement," in IEEE Transactions on Dependable and Secure Computing, 2024, doi: 10.1109/TDSC.2024.3472064.‬



供稿:张博林、卢伟

隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章