北京大学|基于多模态大语言模型的可解释图像篡改检测定位(arXiv 2024)

文摘   2024-11-06 09:03   北京  


随着生成式AI技术的快速发展,图像伪造和篡改变得越来越普遍,在真实性与安全性方面带来挑战。传统的图像伪造检测与定位(IFDL)方法存在检测原理未知和泛化性较差等问题。为了应对这些问题,本文提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。

如图1所示,与传统IFDL方法相比,FakeShield不仅能检测图像的真实性并生成篡改区域的掩膜,还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。与此同时,我们创建了多模态篡改描述数据集MMTD-Set,并结合数据域标签(domain tag)引导的可解释的伪造检测模块DTE-FDM与多模态伪造定位模块MFLM,以实现细粒度伪造检测与定位。实验结果显示,FakeShield在包含多种伪造方法的测试集上,展现了优越的性能以及出色的鲁棒性和泛化性,其中定位性能的定性结果如图2所示。   

图1:(a)传统IFDL方法,(b)可解释的IFDL方法


图2:FakeShield与主流IFDL方法的定位性能的定性比较


论文信息:


Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang*. FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models. arxiv preprint arxiv:2410.02761, 2024. (*张健为通讯作者)

arxiv链接:https://arxiv.org/abs/2410.02761

论文网站:https://zhipeixu.github.io/projects/FakeShield/

项目网址:https://github.com/zhipeixu/FakeShield


实验室简介:


视觉信息智能学习实验室(VILLA)由张健助理教授于2019年创立并负责,主要围绕“智能可控图像生成”这一前沿领域,深入开展高效图像重建、可控图像生成和精准图像编辑三个关键方向的研究。创立至今已在Nature子刊Communications Engineering、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV、ICLR等高水平国际期刊和会议上发表论文90余篇。

近期工作包括无需GT自监督图像重建SCNet、超低采样率单光子压缩共焦显微成像DCCM、图像条件可控生成模型T2I-Adapter、全景视频生成模型360DVD、拖拽式细粒度图像编辑DragonDiffusion/DiffEditor、精确控制视频内容与运动的编辑ReVideo、面向3DGS动态场景重建与理解HiCoM/OpenGaussian、面向3DGS的隐写框架GS-Hider、面向AIGC内容篡改定位与版权保护的水印技术EditGuard/V2A-Mark等,欢迎关注!

更多信息可访问VILLA实验室主页(https://villa.jianzhang.tech/)或张健助理教授个人主页(https://jianzhang.tech/)。   

供稿:张健

隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章