AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

科技 2024-12-31 22:00 广东

↑ 点击蓝字关注极市平台

作者丨CVer粉丝投稿

来源丨CVer

编辑丨极市平台

极市导读

本文介绍了四川大学吕建成团队与澳门大学合作提出的SparseViT模型，这是一种参数高效的稀疏化视觉Transformer，专门针对图像篡改检测（IML）领域设计。SparseViT通过稀疏自注意力机制和可学习的多尺度监督机制，实现了对非语义特征的自适应提取，并在多个基准数据集上展现了卓越的性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文：https://arxiv.org/abs/2412.14598

代码：https://github.com/scu-zjz/SparseViT

单位：四川大学（吕建成团队），澳门大学

背景简介：

随着图像编辑工具和图像生成技术的快速发展，图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影（操作痕迹），这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型（IML）都遵循“语义分割主干网络”与“精心制作的手工制作非语义特征提取”相结合的设计，这种方法严重限制了模型在未知场景的伪影提取能力。

研究内容：

利用非语义信息往往在局部和全局之间保持一致性，同时相较于语义信息在图像不同区域表现出更大的独立性，SparseViT 提出了以稀疏自注意力为核心的架构，取代传统 Vision Transformer (ViT) 的全局自注意力机制，通过稀疏计算模式，使得模型自适应提取图像篡改检测中的非语义特征。研究团队在统一的评估协议下复现并对比多个现有的最先进方法，系统验证了 SparseViT 的优越性。同时，框架采用模块化设计，用户可以灵活定制或扩展模型的核心模块，并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。此外，SparseViT 极大地降低了计算量（最高减少 80% 的 FLOPs），实现了参数效率与性能的兼顾，展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角，为后续研究奠定基础。

SparseViT总体架构的设计概览图如下所示：

主要的组件包含：

1. 负责高效特征捕获的 Sparse Self-Attention

Sparse Self－Attention 是 SparseViT 框架的核心组件，专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于patch进行token－to－token的注意力计算，导致模型对语义信息过度拟合，使得非语义信息在受到篡改后表现出的局部不一致性被忽视。为此，Sparse Self－Attention 提出了基于稀疏编码的自注意力机制，如 \｛ REF ＿Ref184761431 \h 图 2}所示, 通过对输入特征图施加稀疏性约束, 设输入的特征图，我们不是对的整个特征上应用注意力，而是将特征分成形状为的张量块，表示将特征图分解为个大小为的不重叠的张量块，分别在这些张量块上进行自注意力计算。

这一机制通过对特征图进行区域划分，使模型在训练中专注于非语义特征的提取，提升了对图像篡改伪影的捕捉能力。相比传统自注意力，Sparse Self-Attention 减少了约 80% 的 FLOPs，同时保留了高效的特征捕获能力，特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整，从而满足不同任务的需求。

2. 负责多尺度特征融合的 Learnable Feature Fusion (LFF)

Learnable Feature Fusion (LFF) 是 SparseViT 中的重要模块，旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法，LFF 模块通过引入可学习参数，动态调整不同尺度特征的重要性，从而增强了模型对图像篡改伪影的敏感度。

LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重，优先强化与篡改相关的低频特征，同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求，既能针对微弱的非语义伪影进行细粒度处理，又能适应大尺度的全局特征提取。LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能，同时减少了无关特征对模型的干扰，为进一步优化 IML 模型性能提供了灵活的解决方案。

研究总结：

简而言之：

SparseViT具有以下四个贡献：

我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义，而非语义特征由于其局部独立性，可以通过稀疏编码实现全局交互。
基于语义和非语义特征的不同行为，我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。
为了解决传统多尺度融合方法的不可学习性，我们引入了一种可学习的多尺度监督机制。
我们提出的SparseViT在不依赖手工特征提取器的情况下保持了参数效率，并在四个公共数据集上实现了最先进的（SoTA）性能和出色的模型泛化能力。 SparseViT通过利用语义特征和非语义特征之间的差异性，使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征，为篡改区域的精准定位提供了全新的研究思路。相关代码和操作文档、使用教程已完全开源在GitHub上（https://github.com/scu-zjz/SparseViT）。该代码有着完善的更新计划，仓库将被长期维护，欢迎全球研究者使用和提出改进意见。

SparseViT的主要科研成员来自四川大学吕建成团队，合作方为澳门大学潘治文教授团队。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

聊一聊大模型六小虎和四大厂的2024！

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

AAAI'25开源 | SUTrack：简单的模型，统一全部单目标跟踪任务！

AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

每月都有重磅研究，2024全年值得一读的论文都在这了

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

CUDA-MODE课程笔记｜GPU集合通信(NCCL)

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

当红炸子鸡 LoRA，是当代微调 LLMs 的正确姿势？

大模型轻量化解读系列 (五)：QuaRot：基于 Rotation 的 4-bit LLM 量化

谈谈DeepSeek-v3在算力约束下的出色工作

我与vLLM的2024：清华大佬的vLLM开发之路

NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

实践教程｜图解NumPy，这是理解数组最形象的一份教程了

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

超越ControlNet++！腾讯优图提出动态条件选择新架构

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

写代码的时候，请心疼一下读代码的同事

文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

大模型轻量化系列解读 (四)：LLM.int8()：大语言模型 8-bit 量化初探

AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

深度学习工作：从追求 SoTA 到揭示新现象

[vLLM vs TensorRT-LLM] #5 动态序列长度场景对比

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

使用 PyTorch 加速生成式 AI 之 GPT Fast

我在 NeurIPS’24 上感受到了焦虑和挫败

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

使用OpenCV测量图像中物体之间的距离

李飞飞曾入选的AI2050最新名单出炉！清华校友等25位Fellow上榜

恺明新作Fluid：文生图质量刷新纪录

低空经济万字综述｜基于深度学习的无人机检测和识别研究

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉