北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位！

科技 2024-10-13 09:00 上海

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

随着生成式AI技术的快速发展，图像伪造和篡改变得越来越普遍，在真实性与安全性方面带来挑战。传统的图像伪造检测与定位（IFDL）方法存在检测原理未知和泛化性较差等问题。
为了应对这些问题，本文提出了一种全新的任务：可解释的图像伪造检测与定位（e-IFDL），并设计了一个新颖的多模态伪造检测定位框架：FakeShield。
如图1所示，与传统IFDL方法相比，FakeShield不仅能检测图像的真实性并生成篡改区域的掩膜，还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。
此外，我们创建了多模态篡改描述数据集MMTD-Set，并结合数据域标签（domain tag）引导的可解释的伪造检测模块DTE-FDM与多模态伪造定位模块MFLM，以实现细粒度伪造检测与定位。
实验结果显示，FakeShield在包含多种伪造方法的测试集上，展现了优越的性能以及出色的鲁棒性，泛化性。

图1：(a)传统IFDL方法，(b)可解释的IFDL方法

MMTD-Set数据集构建：如图2所示，我们根据篡改方法，将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现有的IFDL数据集，我们利用GPT-4o生成对于篡改图像的分析与描述，构建“图像-掩膜-描述”三元组，以支持模型的多模态训练。

另外，针对不同篡改类型，我们设计了特定的描述提示，引导GPT关注不同的像素伪影和语义错误。

图2：MMTD-Set数据集构建过程

FakeShield框架：如图3所示，该框架包括域标签引导的可解释伪造检测模块（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模态伪造定位模块（Multi-modal Forgery Localization Module，MFLM）两个关键部分。

DTE-FDM负责图像伪造检测与检测结果分析，利用数据域标签（domain tag）弥合不同伪造类型数据之间的数据域冲突，引导多模态大语言模型生成检测结果及判定依据。

MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt，引导其精确定位篡改区域。

图3：FakeShield框架图

在实验结果方面，我们从检测，定位，解释三个方面来评价FakeShield的效果，其在多个IFDL测试集中表现出优越性能，定量结果如表1，表2，表3所示，定位性能的定性结果如图4所示。

表1：FakeShield与主流IFDL方法的定位性能比较

表2：FakeShield与主流通用MLLM方法的解释性能比较

表3：FakeShield与主流IFDL方法的定位性能比较

图4：FakeShield与主流IFDL方法的定位性能的定性比较

论文信息：

Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang*. FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models. arxiv preprint arxiv:2410.02761, 2024. （ *张健为通讯作者）

arxiv链接：https://arxiv.org/abs/2410.02761

论文网站：https://zhipeixu.github.io/projects/FakeShield/

项目网址：https://github.com/zhipeixu/FakeShield

实验室简介：

视觉信息智能学习实验室（VILLA）由张健助理教授于2019年创立并负责，主要围绕“智能可控图像生成”这一前沿领域，深入开展高效图像重建、可控图像生成和精准图像编辑三个关键方向的研究。

创立至今已在Nature子刊Communications Engineering、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV、ICLR等高水平国际期刊和会议上发表论文90余篇。

近期工作包括无需GT自监督图像重建SCNet、超低采样率单光子压缩共焦显微成像DCCM、图像条件可控生成模型T2I-Adapter、全景视频生成模型360DVD、拖拽式细粒度图像编辑DragonDiffusion/DiffEditor、精确控制视频内容与运动的编辑ReVideo、面向3DGS动态场景重建与理解 HiCoM/OpenGaussian、面向3DGS的隐写框架GS-Hider、面向AIGC内容篡改定位与版权保护的水印技术EditGuard/V2A-Mark等，欢迎关注！

更多信息可访问VILLA实验室主页（https://villa.jianzhang.tech/）或张健助理教授个人主页（https://jianzhang.tech/）。

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

http://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247524208&idx=1&sn=749509955dc18ddc58a6a2cebe23e2d9

集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

上海AI Lab/北大/港中文提出 AdaptivelSP 学习用于目标检测的自适应图像信号处理器！

快速学会AI核心架构，Transformer！

电子科大提出注意力机制创新，改进 MobileViT变体在早期降采样阶段的注意力 QKV 操作研究！

台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型！

清华大学提出 TANet 用于综合恶劣天气图像复原的三重注意网络！

YOLA: 利用 Lambertian 图像形成模型提升低光目标检测性能！

TransformerRanker 高效地为下游分类任务找到最适合的语言模型的工具！

通过重叠头自注意力增强视觉 Transformer 的学习能力！

OWOD：深度神经网络在开放式世界目标检测中的新探索 !

清华大学最新成果 3D 语义占用预测框架 GaussianFormer ！

被导师放养，后果可能很严重。。。

使用 YOLO 加速实时应用程序中的对象检测 !

无需额外训练，基于 Llama-2模型，通过 Model-GLUE 实现大规模语言模型的聚合与集成！

YOLOv8架构的改进：POLO 模型在多类目标检测中的突破 !

DuoDiff: 提升浅层 Transformer 性能的扩散模型，双 Backbone 件扩散模型在图像处理中的应用！

211本二战字节视觉算法岗，拿下70k offer!!!

复旦提出 CTA-Net | 卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

YOLO人脸识别与多领域目标检测开源项目练习合集：涵盖人体、交通、医疗、工业等！

优化之路 N-ReliefF 算法指导下的 CNN 超参数调整！

融合 Mamba 与 Transformer | MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

无需额外标注，SG-MIM 实现高效结构知识引导的 Mask图像建模！

UniMatch V2 推进半监督语义分割极限，以更低训练成本实现更优的语义分割结果！

利用知识蒸馏算法优化 YOLOv5 目标检测！

【集智书童】交流群成立了！

一文读懂 LLM 大模型的可解释性,附代码!

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

中科院提出 DA-Ada | 用于域自适应目标检测的学习域感知适配器！

清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !

中科大提出 D-FINE | 通过 FDR 和 GO-LSD 实现最先进的实时目标检测！

优化 YOLO 架构以实现最佳检测和分类:YOLOv7与YOLOv10 的比较研究！

降低标注成本，ESA 策略利用实体-超像素标注提高语义分割的主动学习效率！

目标检测开源项目合集！包含基于YOLOv5/v7/v8的人脸识别到车牌检测、交通标识检测、驾驶行为检测等！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

物体状态识别数据集 Changelt-Frames，评估了九个开源 VLM 对物体状态变化的识别能力！

2080Ti 也能跑起来，Transtreaming 用于实时流感知的自适应延迟感知Transformer !

上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究！

CAMOT 摄像机角度感知多目标跟踪 !

超越SOTA ！ YOLOv8-ResCBAM 集成注意力机制以提高检测性能！

快速学会登上nature的热门算法，LSTM！

0.26M 参数，0.483 GFLOPs，EfficientCrackNet 轻量级检测模型！

Grad-CAM 可视化下的 LADD 精确捕捉图像中物体的位置 !

北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位！

COCO-0cc 闭合全景分割和图像理解的基准，遮挡感知全图分割！

UDA框架下的模型合并策略，分割任务中无监督域适应的分层模型合并！

一种轻量级深度学习模型，在IoT设备上的实时行人检测！

汇总82个即插即用模块｜随便一个即可完成涨点任务！

FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

用于时态动作检测的预测反馈 DETR !

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位 ！

北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位！