复旦大学|基于预训练模型和可学习prompt的图像篡改定位方法 (ACM MM 2024)

文摘   2024-10-11 08:30   广东  



图像篡改定位任务中已经涌现了许多精心设计的网络架构,包括基于CNN和ViT的多种类型。但是,这些模型的性能却受制于图像篡改定位领域数据集匮乏的现状。常见的做法是在COCO等数据集上通过数据增强、风格迁移、对抗学习等方法构建大规模训练集,但私有训练集无法获取、人工制作数据集的成本太高等问题仍然存在。为了应对这一问题,我们试图充分利用其他视觉任务中的预训练模型的先验知识,来提升定位图像篡改区域的准确率。如图1所示,我们使用基于ViT类型的单个预训练模型作为主干网络,并在训练的过程中保持参数冻结,仅通过两组prompts对多视图特征(图像的空域特征、频域特征)进行调整。此外,我们设计了一个即插即用的特征对齐融合模块以实现多视图特征间的交互过程,该模块可以直接放置在预训练网络的层间,而无需对预训练网络本身的架构进行调整。


图1  基于预训练模型和可学习prompt的图像篡改定位方法


我们仅在CASIA2上微调预训练模型,并在其余6个常见的篡改数据集上进行跨库测试。我们以F1分数为评价指标,对比了篡改定位任务中的多个SOTA方法。实验结果表明,我们利用预训练模型先验知识的策略在其中5个篡改数据集上都取得了最优的效果,并且获得了平均4.7%的F1性能提升。此外,我们的方法也具有更强的鲁棒性,这得益于预训练模型庞大的训练数据集。

表1 与其他SOTA方法的比较(F1分数)

  

图2  方法的鲁棒性测试


论文信息


相关论文已被ACM Multimedia 2024录用,作者是复旦大学的柳勋涛,杨昱洲,王皓月,NVIDIA的应祺超,复旦大学的钱振兴(通讯作者),张新鹏,李晟。


Xuntao Liu, Yuzhou Yang, Haoyue Wang, Qichao Ying, Zhenxing Qian*, Xinpeng Zhang, and Sheng Li. Multi-view Feature Extraction via Tunable Prompts is Enough for Image Manipulation Localization. In Proceedings of the 32nd ACM International Conference on Multimedia (MM ’24). DOI: https://doi.org/10.1145/3664647.3681137.(点击下方阅读原文查看论文全文)




供稿:柳勋涛,钱振兴



隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章