CVPR 2024 | 最新即插即用注意力机制+ffn层

文摘 2025-01-14 11:13 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

标题：Adapt or Perish: Adaptive Sparse Transformer with Attentive Feature Refinement for Image Restoration

论文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Zhou_Adapt_or_Perish_Adaptive_Sparse_Transformer_with_Attentive_Feature_Refinement_CVPR_2024_paper.pdf

代码链接：https://github.com/joshyZhou/AST

来源：CVPR 2024

ASSA模块

定义与结构

- 双分支模式：ASSA模块采用双分支模式，包括稀疏自注意力分支（SSA）和密集自注意力分支（DSA）。SSA用于过滤掉低查询-键匹配分数的负面影响，而DSA则确保足够的信息流通过网络，以学习判别性表示。- 自适应加权：通过自适应的加权机制，将SSA和DSA的输出进行融合。这种设计使模型能够动态调整稀疏与密集注意力的权重，从而根据具体的任务和输入内容有效地平衡信息流，既能过滤掉无关特征，又保留必要的信息。

工作原理

- 稀疏自注意力（SSA）：使用基于ReLU的稀疏注意力机制，过滤掉查询与键之间低匹配的无关交互，减少无效特征的参与，帮助聚焦在最有价值的信息交互上。- 密集自注意力（DSA）：采用标准的softmax密集注意力机制，补充SSA，以确保在稀疏处理过程中不会丢失关键信息。

应用场景

- 图像恢复任务：ASSA最早应用于图像恢复任务，通过减少噪声交互并保留重要的特征信息，显著提升了模型的处理效率。- 目标检测：在YOLOv11模型中引入ASSA机制，可以优化特征提取过程，减少特征冗余或噪声干扰，进一步提升模型对复杂场景的适应性和检测性能。- 时间序列预测：将ASSA机制和LSTM处理后的特征输入到Transformer网络进行预测，可以进一步提高预测的准确性和效率，在顶刊ETTh开源数据集达到了不错的效果- 医疗影像处理：对于需要从复杂的医学图像中提取关键特征的任务，如癌症检测、CT或MRI图像分析，ASSA能够有效过滤无用信息，提升对病灶区域的关注和检测精度。

FRFN模块

定义与结构

特征细化前馈网络（Feature Refinement Feed-forward Network, FRFN）是一种专门设计的深度学习结构，旨在提高图像处理任务中的特征表示能力。其核心设计理念是通过逐层细化和优化特征图，从而实现更高的分类和检测精度。

- 线性层1：将输入特征维度扩展到隐藏维度的两倍，并通过激活函数进行非线性变换。- 深度可分离卷积：对扩展后的特征进行深度可分离卷积操作，进一步提取局部特征。- 线性层2：将特征维度压缩回原始维度。- 部分卷积：对部分特征通道进行卷积操作，以增强特征中的有用元素。- 门控机制：通过门控机制减少冗余信息的处理负担，提升特征的纯净度。

工作原理

FRFN模块的工作原理可以概括为以下几个步骤：- 特征扩展：通过线性层将输入特征的维度扩展到隐藏维度的两倍，增加特征的表达能力。- 深度可分离卷积：对扩展后的特征进行深度可分离卷积操作，提取局部特征，同时减少计算量。- 特征压缩：通过线性层将特征维度压缩回原始维度，减少特征冗余。- 部分卷积：对部分特征通道进行卷积操作，增强特征中的有用元素。- 门控机制：通过门控机制减少冗余信息的处理负担，提升特征的纯净度。

应用场景

- 图像恢复任务：在去噪、去雨滴、去雾、超分辨率等场景中，FRFN能够有效减少通道维度上的冗余信息，提升重要特征的表达，从而提高恢复图像的质量和细节还原能力。

- 图像分类和检测任务：在处理复杂图像时，FRFN可以通过精炼和增强有价值的特征，帮助模型更准确地分类或检测目标，特别是在多类或高维度特征的任务中表现出色。

- 高分辨率图像处理：在高分辨率图像或视频处理中，FRFN能够减少不必要的信息流，增强重要特征的表达，使模型更高效地处理大规模图像数据。

- 医学图像分析：在处理复杂的医学影像时，FRFN有助于减少噪声和干扰，聚焦于病变区域的关键特征，提升医疗影像分析的精度和效率。

集成到YOLOv11和RT-DETR

将FRFN模块集成到YOLOv11和RT-DETR模型中的步骤如下：

创建脚本文件：在ultralytics->nn路径下创建blocks.py脚本，用于存放模块代码。
复制代码：将上述FRFN模块的代码复制到blocks.py脚本中。
更改task.py文件：在ultralytics->nn->modules->task.py中导入FRFN模块。
修改模型配置：在模型配置文件中添加FRFN模块的配置。
训练模型：创建训练脚本，使用修改后的模型配置进行训练。

代码实现

ASSA模块代码

import torchimport torch.nn as nnfrom timm.models.layers import trunc_normal_from einops import repeat
class LinearProjection(nn.Module):    def __init__(self, dim, heads=8, dim_head=64, bias=True):        super().__init__()        inner_dim = dim_head * heads        self.heads = heads        self.to_q = nn.Linear(dim, inner_dim, bias=bias)        self.to_kv = nn.Linear(dim, inner_dim * 2, bias=bias)        self.dim = dim        self.inner_dim = inner_dim
    def forward(self, x, attn_kv=None):        B_, N, C = x.shape        if attn_kv is not None:            attn_kv = attn_kv.unsqueeze(0).repeat(B_, 1, 1)        else:            attn_kv = x        N_kv = attn_kv.size(1)        q = self.to_q(x).reshape(B_, N, 1, self.heads, C // self.heads).permute(2, 0, 3, 1, 4)        kv = self.to_kv(attn_kv).reshape(B_, N_kv, 2, self.heads, C // self.heads).permute(2, 0, 3, 1, 4)        q = q[0]        k, v = kv[0], kv[1]        return q, k, v
class WindowAttention_sparse(nn.Module):    def __init__(self, dim, win_size, num_heads=8, token_projection='linear', qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.):        super().__init__()        self.dim = dim        self.win_size = win_size  # Wh, Ww        self.num_heads = num_heads        head_dim = dim // num_heads        self.scale = qk_scale or head_dim ** -0.5        # define a parameter table of relative position bias        self.relative_position_bias_table = nn.Parameter(            torch.zeros((2 * win_size[0] - 1) * (2 * win_size[1] - 1), num_heads))  # 2*Wh-1 * 2*Ww-1, nH        # get pair-wise relative position index for each token inside the window        coords_h = torch.arange(self.win_size[0])  # [0,...,Wh-1]        coords_w = torch.arange(self.win_size[1])  # [0,...,Ww-1]        coords = torch.stack(torch.meshgrid([coords_h, coords_w], indexing='ij'))  # 2, Wh, Ww        coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww        relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2        relative_coords[:, :, 0] += self.win_size[0] - 1  # shift to start from 0        relative_coords[:, :, 1] += self.win_size[1] - 1        relative_coords[:, :, 0] *= 2 * self.win_size[1] - 1        relative_position_index = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww        self.register_buffer("relative_position_index", relative_position_index)        trunc_normal_(self.relative_position_bias_table, std=.02)        if token_projection == 'linear':            self.qkv = LinearProjection(dim, num_heads, dim // num_heads, bias=qkv_bias)        else:            raise Exception("Projection error!")        self.token_projection = token_projection        self.attn_drop = nn.Dropout(attn_drop)        self.proj = nn.Linear(dim, dim)        self.proj_drop = nn.Dropout(proj_drop)        self.softmax = nn.Softmax(dim=-1)        self.relu = nn.ReLU()        self.w = nn.Parameter(torch.ones(2))  # 自适应权重参数
    def forward(self, x, attn_kv=None, mask=None):        # 调整输入维度，从 (B, C, H, W) 转为 (B, H, W, C)        x = x.permute(0, 2, 3, 1).reshape(x.shape[0], x.shape[2] * x.shape[3], x.shape[1])        B_, N, C = x.shape        q, k, v = self.qkv(x, attn_kv)        q = q * self.scale        attn = (q @ k.transpose(-2, -1))        relative_position_bias = self.relative_position_bias_table[self.relative_position_index.view(-1)].view(            self.win_size[0] * self.win_size[1], self.win_size[0] * self.win_size[1], -1)  # Wh*Ww,Wh*Ww,nH        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww        ratio = attn.size(-1) // relative_position_bias.size(-1)        relative_position_bias = repeat(relative_position_bias, 'nH l c -> nH l (c d)', d=ratio)        attn = attn + relative_position_bias.unsqueeze(0)        if mask is not None:            nW = mask.shape[0]            mask = repeat(mask, 'nW m n -> nW m (n d)', d=ratio)            attn = attn.view(B_ // nW, nW, self.num_heads, N, N * ratio) + mask.unsqueeze(1).unsqueeze(0)            attn = attn.view(-1, self.num_heads, N, N * ratio)        attn0 = self.softmax(attn)        attn1 = self.relu(attn) ** 2  # b,h,w,c        w1 = torch.exp(self.w[0]) / torch.sum(torch.exp(self.w))        w2 = torch.exp(self.w[1]) / torch.sum(torch.exp(self.w))        attn = attn0 * w1 + attn1 * w2        attn = self.attn_drop(attn)        x = (attn @ v).transpose(1, 2).reshape(B_, N, C)        x = self.proj(x)        x = self.proj_drop(x)        x = x.reshape(x.shape[0], int(math.sqrt(x.shape[1])), int(math.sqrt(x.shape[1])), x.shape[2]).permute(0, 3, 1, 2)        return x
    def extra_repr(self) -> str:        return f'dim={self.dim}, win_size={self.win_size}, num_heads={self.num_heads}'

FRFN模块

import torchimport torch.nn as nnfrom einops import rearrange
class FRFN(nn.Module):    def __init__(self, dim=32, hidden_dim=128, act_layer=nn.GELU, drop=0., use_eca=False):        super().__init__()        self.linear1 = nn.Sequential(nn.Linear(dim, hidden_dim * 2), act_layer())        self.dwconv = nn.Sequential(            nn.Conv2d(hidden_dim, hidden_dim, groups=hidden_dim, kernel_size=3, stride=1, padding=1),            act_layer()        )        self.linear2 = nn.Sequential(nn.Linear(hidden_dim, dim))        self.dim = dim        self.hidden_dim = hidden_dim        self.dim_conv = self.dim // 4        self.dim_untouched = self.dim - self.dim_conv        self.partial_conv3 = nn.Conv2d(self.dim_conv, self.dim_conv, 3, 1, 1, bias=False)
    def forward(self, x):        c, bs, hh, hw = x.size()        x1, x2 = torch.split(x, [self.dim_conv, self.dim_untouched], dim=1)        x1 = self.partial_conv3(x1)        x = torch.cat((x1, x2), 1)        x = rearrange(x, 'b c h w -> b (h w) c', h=hh, w=hw)        x = self.linear1(x)        x_1, x_2 = x.chunk(2, dim=-1)        x_1 = rearrange(x_1, 'b (h w) c -> b c h w', h=hh, w=hw)        x_1 = self.dwconv(x_1)        x_1 = rearrange(x_1, 'b c h w -> b (h w) c', h=hh, w=hw)        x = x_1 * x_2        x = self.linear2(x)        return rearrange(x, 'b (h w) c -> b c h w', h=hh, w=hw)

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉