点击下方卡片,关注“AI前沿速递”公众号
点击下方卡片,关注“AI前沿速递”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
1. 【导读】
【论文标题】Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer
【论文链接】https://arxiv.org/abs/2412.14598
【论文作者】Lei Su、Xiaochen Ma、Xuekang Zhu、Chaoqun Niu、Zeyu Lei、Ji-Zhe Zhou
【作者单位】四川大学(吕建成团队),澳门大学
【期 刊】AAAI 2025
【代码链接】GitHub:https://github.com/scu-zjz/SparseViT
2. 【摘要】
非语义特征对图像篡改定位(IML)很重要,但现有方法依赖手工制作的特征提取器,影响模型泛化能力。论文提出稀疏视觉 Transformer(SparseViT),将密集的全局自注意力机制转换为稀疏离散方式,自适应提取非语义特征。相比现有 IML 模型,该模型大幅减小模型规模,提升参数效率和计算效率。实验表明,SparseViT 在基准数据集上的泛化性和效率表现优异。
3. 【研究背景与意义】
随着图像编辑工具和图像生成技术的迅猛发展,图像篡改变得日益轻松。在此背景下,研究人员积极开发图像篡改定位(IML)技术,旨在精准识别图像中的篡改区域。图像在篡改后会留下痕迹,这些痕迹可分为语义特征和非语义(语义无关)特征。语义无关特征聚焦于低级篡改信息,与图像语义内容并无关联,在图像的篡改区域和未篡改区域呈现出明显不同的分布特征(Guillaro 等人,2023)。
当前,现有的骨干网络(Simonyan 和 Zisserman,2014;Wang 等人,2020;Dosovitskiy 等人,2020 )大多是针对语义相关任务设计的,在提取被篡改图像的语义特征方面效果显著。然而,在提取非语义特征时,这些网络存在一定的局限性。因此,大多数现有方法依赖手工制作的特征提取器(Zhou 等人,2018;Bayar 和 Stamm,2018;Cozzolino 和 Verdoliva,2019 )来完成这一任务。从表 1 中可以看出,几乎所有现有的 IML 模型都采用 “语义分割骨干网络” 与 “手工制作的非语义特征提取” 相结合的设计模式。
然而,这种依赖手工制作特征提取器的方法存在明显缺陷。它需要针对不同类型的非语义特征制定特定的提取策略,缺乏足够的适应性,这严重限制了模型在面对未知场景时的泛化能力。
与传统方法不同,研究人员提出了一种创新的自适应机制,用于提取被篡改图像中的非语义特征。研究人员发现,图像的语义特征具有很强的连续性和显著的上下文相关性(Wang 等人,2018),这意味着局部语义特征难以充分代表图像的全局语义。因此,需要通过局部区域之间紧密且连续的交互作用,才能构建出完整的全局语义特征。而图像的非语义特征,例如频率和噪声等,对篡改极为敏感,并且在图像的不同区域之间具有较高的独立性。基于这一特性,研究人员认为可以采用稀疏编码的方式为非语义特征建立全局交互,利用其对篡改的敏感性来有效检测图像中的篡改行为。
基于上述理念,研究人员引入了 SparseViT,这是一种全新的稀疏视觉 Transformer。SparseViT 运用了稀疏自注意力机制,对 ViT 中原本密集的全局自注意力进行重新设计,使其能够更好地适配非语义特征的统计特性。通过稀疏处理,自注意力机制能够有选择地抑制语义信息的表达,将重点聚焦于捕捉与图像篡改相关的非语义特征。同时,SparseViT 采用分层策略,在不同层次上应用不同程度的稀疏性,以此实现对非语义特征的精细提取。研究人员还设计了一个多尺度融合模块(LFF)作为解码器,该模块能够整合在不同稀疏性层次上提取的特征图,丰富模型在多个尺度上对非语义内容的理解,进而增强模型的鲁棒性。这种设计使得 SparseViT 能够专注于学习对篡改敏感的非语义特征,同时忽略语义特征的干扰,实现从图像中自适应地提取非语义特征的目标。
4.【贡献】
据了解,目前尚未出现专门为自适应提取非语义特征而设计的模型,因此 SparseViT 可被视为该领域的开创性工作。研究人员在相同的评估协议下开展了一系列实验,所有模型均在 CAT-Net(Kwon 等人,2021)数据集上进行训练,并在多个基准数据集上进行测试。实验结果表明,研究人员提出的方法在多个基准数据集上展现出了卓越的图像篡改定位能力。与其他模型相比,该模型的平均性能最为优异。
总的来说,研究人员的贡献主要体现在以下几个方面:
4.1
研究人员揭示了图像中语义特征和非语义特征在构建方式上的差异。语义特征需要通过连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,能够借助稀疏编码实现全局交互。基于语义和非语义特征的不同特性,研究人员提出利用稀疏自注意力机制,实现从图像中自适应地提取非语义特征。
4.2
为解决传统多尺度融合方法的不可学习性问题,研究人员引入了一种可学习的多尺度监督机制。
4.3
研究人员提出的 SparseViT 在不依赖特征提取器的情况下,依然保持了高效的参数利用效率。该模型在四个公共数据集上均取得了最先进(SoTA)的性能,展现出了出色的模型泛化能力。
5. 【研究方法】
在图像篡改检测领域,非语义信息具有独特的性质,其在局部和全局之间通常保持一致性,而且与语义信息相比,在图像的不同区域展现出更强的独立性。基于这一特性,研究团队创新性地提出了 SparseViT 架构,该架构以稀疏自注意力机制为核心,对传统 Vision Transformer (ViT) 的全局自注意力机制进行了革新性替代。
SparseViT 采用稀疏计算模式,通过精心设计的稀疏自注意力机制,将注意力集中于图像中的关键部分,有效避免了对大量冗余信息的处理。这种机制使得模型能够更加精准、自适应地提取图像篡改检测所需的非语义特征,从而在复杂的图像数据中准确识别出篡改痕迹。
为了全面评估 SparseViT 的性能,研究团队在统一的评估协议下,对多个现有的最先进方法进行了复现与对比。通过大量的实验和深入的分析,系统地验证了 SparseViT 相较于其他方法的优越性。实验结果充分表明,SparseViT 在图像篡改检测任务中表现出色,能够更准确地定位篡改区域,具有更高的检测精度和可靠性。
SparseViT 框架采用了模块化的设计理念,这种设计为用户提供了极大的灵活性。用户可以根据具体的应用需求,轻松地对模型的核心模块进行定制或扩展。同时,研究团队还引入了可学习的多尺度监督机制,该机制能够充分整合不同尺度下的图像特征信息,让模型更好地理解图像的整体结构和局部细节,从而显著增强了模型对多种复杂场景的泛化能力,使其在面对各种不同类型的图像篡改时都能保持良好的性能表现。
在计算效率方面,SparseViT 取得了重大突破,其通过优化的稀疏计算方式,极大地降低了计算量,最高可减少 80% 的 FLOPs(浮点运算次数)。这一优化使得 SparseViT 在保持高性能的同时,显著提升了参数效率,实现了计算资源与模型性能的完美平衡。在多个基准数据集上的实验结果显示,SparseViT 在不同数据集上均展现出卓越的性能,无论是在简单场景还是复杂场景下,都能稳定地输出高精度的检测结果。
综上所述,SparseViT 的出现为图像篡改检测领域带来了全新的思路和方法,有望为该领域的理论研究和实际应用开辟新的方向,为后续的相关研究奠定坚实的基础。SparseViT 总体架构的设计概览图如下所示:
6. 【主要组件】
6.1 负责高效特征捕获的 Sparse Self-Attention
在 SparseViT 框架中,Sparse Self-Attention 无疑是其最为核心的组件,它肩负看一项至关重要的任务,那就是在有效降低计算复杂度的前提下,能够高效地捕获篡改图像中的关键特征,而这些关键特征正是非语义特征。回顾传统的自注意力机制,其运作方式是针对 patch 进行 token-to-token 的注意力计算。这种方式存在一个明显的弊端,那就是模型会过度拟合语义信息。在这个过程中,非语义信息的重要性被严重低估了。尤其是当图像受到篡改时,非语义信息所表现出的局部不一致性这一关键特征,往往被模型所忽视,从而导致模型在图像篡改检测方面的性能大打折扣。
为了有效解决这一问题,Sparse Self-Attention 另辟蹊径,提出了一种基于稀疏编码的自注意力机制。具体而言,如图2所示,该机制首先对输入的特征图施加了稀疏性约束。假设输入的特征图为,这里的、和分别表示特征图的高度、宽度和通道数。与传统方法不同的是,Sparse Self-Attention 并不是对整个的特征图应用注意力,而是将特征图巧妙地分解为形状为的张量块。这意味着特征图被分解成了个大小为的互不重叠的张量块,然后分别在这些张量块上进行自注意力计算。通过这种方式,Sparse Self-Attention 能够更加精准地聚焦于非语义特征,有效避免了对语义信息的过度依赖,从而显著提升了模型在图像篡改检测任务中的性能和效率。
该机制通过对特征图实施巧妙的区域划分策略,成功引导模型在训练过程中将注意力高度集中于非语义特征的提取之上,进而显著增强了对图像篡改所产生伪影的捕捉能力。与传统的自注意力机制相比,Sparse Self-Attention展现出了巨大的优势,其能够大幅减少约80%的FLOPs(浮点运算次数),在降低计算量的同时,依旧完好地保留了高效的特征捕获能力,尤其在面对各种复杂场景时,其性能表现更是出类拔萃。此外,得益于其模块化的实现方式,用户可以根据自身的实际需求,灵活地对稀疏策略进行相应的调整,如此一来,便能够充分满足不同任务的多样化需求,为模型的广泛应用提供了极大的便利。
6.2. 负责多尺度特征融合的 Learnable Feature Fusion (LFF)
Learnable Feature Fusion(LFF)作为SparseViT的关键模块,在提升模型性能方面发挥着举足轻重的作用。其核心目标是借助多尺度特征融合机制,全方位提高模型的泛化能力,并使其能够更好地适应各种复杂场景。
传统的特征融合方法往往遵循固定规则,这种方式在面对复杂多变的图像篡改情况时,显得力不从心。而LFF模块则独树一帜,通过引入可学习参数这一创新举措,实现了对不同尺度特征重要性的动态调整。这种动态调整机制使得模型能够更加敏锐地捕捉到图像篡改所产生的伪影,显著增强了模型对这些伪影的敏感度。
具体而言,LFF模块从稀疏自注意力模块输出的多尺度特征中,精心学习特定的融合权重。在这一过程中,它能够优先强化与篡改相关的低频特征,这些低频特征对于检测图像篡改至关重要。同时,它还巧妙地保留了语义信息较强的高频特征,确保了模型在处理图像时不会丢失重要的语义信息。
LFF模块的设计充分考虑了图像篡改定位(IML)任务的多样化需求。它不仅能够对微弱的非语义伪影进行精细入微的处理,不放过任何细微的篡改痕迹,还能够胜任大尺度的全局特征提取任务,从宏观角度把握图像的整体特征。正是由于LFF模块的引入,SparseViT在跨场景、多样化数据集上的性能得到了显著提升。它有效减少了无关特征对模型的干扰,为进一步优化IML模型性能开辟了一条灵活且高效的途径,为该领域的发展提供了极具价值的解决方案。
6. 【实验结果】
论文通过一系列实验,对 SparseViT 模型进行了全面评估,主要包括消融实验、与现有方法对比等,结果显示该模型性能卓越。
消融实验
稀疏注意力的有效性:对比稀疏注意力和全局注意力在五个数据集上的性能,发现稀疏注意力能有效捕捉非语义信息,在提取被篡改图像的非语义特征上优势显著,部分手工特征提取方法甚至会导致模型性能下降。同时,稀疏注意力减少了约 15% 的模型浮点运算量,提升了模型对细微篡改痕迹的敏感性和泛化能力。
LFF 的影响
对比单尺度特征、LFF 和 MLP 预测头的性能,发现 LFF 和 MLP 相比单尺度特征都显著提升了平均 F1 分数,且 LFF 在平均 F1 分数上表现更优,证明可学习的特征融合在性能上优于简单的特征相加。多尺度特征能提供不同层次的语义和非语义信息,有助于模型更准确地预测。
与现有方法对比
定位和检测结果:
在像素级定位实验中,SparseViT 的平均 F1 分数在所有数据集上排名第一,在检测实验中,SparseViT 在几乎所有测试数据集上的 AUC 值最佳,平均 AUC 值最高,表明其在广泛的性能评估指标上优于现有基线模型。
模型大小和鲁棒性:
与当前性能最佳的 Trufor 相比,SparseViT 在相同训练数据尺寸下,不仅 F1 和 AUC 性能更优,模型大小还减少了超 80%,相比使用更小训练数据的 ManTraNet,在减少计算负载上也有显著优势。在抵抗 JPEG 压缩、高斯模糊和高斯噪声等攻击时,SparseViT 表现出比现有最先进模型更强的鲁棒性。
其他评估指标结果:
在像素级 IoU 分数评估中,SparseViT 在所有四个数据集上均取得最佳结果,表明其在整体图像分割和识别任务中具有高精度和鲁棒性。
7. 【总结】
简而言之,SparseViT 有四大突出贡献:
1.研究发现,篡改图像的语义特征需借助连续的局部交互构建全局语义,而非语义特征因其局部独立性,可通过稀疏编码达成全局交互。2.基于语义与非语义特征的不同特性,提出运用稀疏自注意机制,自适应地从图像中提取非语义特征。3.针对传统多尺度融合方法不可学习的问题,引入可学习的多尺度监督机制。SparseViT 无需依赖手工特征提取器,既保持了参数高效性,又在四个公共数据集上实现了最先进(SoTA)的性能,展现出卓越的模型泛化能力。4.SparseViT 利用语义和非语义特征的差异,让模型能自适应提取对图像篡改定位极为关键的非语义特征,为精准定位篡改区域开辟了新路径。
相关代码、操作文档及使用教程已在 GitHub 完全开源
8. 【代码】
(https://github.com/scu-zjz/SparseViT ) 总之,SparseViT利用了语义特征和非语义特征之间的差异,使模型能够自适应地提取对于图像篡改定位更为关键的非语义特征。这为精确识别图像中的篡改区域提供了一种全新的方法。
测试设置(代码+模型)
设置编码环境 下载预训练模型权重
脚本
这非常简单!只需运行:
python main_test.py
这里,我们只是提供了SparseViT的一个基础测试。当然,你也可以在我们提出的IMDL-BenCo框架内对SparseViT进行训练和测试,因为它们完全兼容。
引用
@misc{su2024can,
title={Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization Through Spare-Coding Transformer},
author={Su, Lei and Ma, Xiaochen and Zhu, Xuekang and Niu, Chaoqun and Lei, Zeyu and Zhou, Ji-Zhe},
year={2024},
eprint={2412.14598},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。