点击下方“深度学习爱好者”,选择加p"星标"或“置顶”
论文信息
题目:A Hybrid Transformer-Mamba Network for Single Image Deraining
混合Transformer-Mamba网络用于单图像去雨
作者:Shangquan Sun, Wenqi Ren, Juxiang Zhou, Jianhou Gan, Rui Wang, Xiaochun Cao, Senior
源码:https://github.com/sunshangquan/TransMamba
摘要
现有的去雨Transformer采用自注意力机制,其范围固定或仅沿通道维度,限制了对非局部感受野的利用。为了解决这一问题,作者提出了一种新颖的双分支混合Transformer-Mamba网络(TransMamba),旨在有效捕获与雨相关的长距离依赖关系。基于雨退化和背景在频域特征的不同光谱域先验,我们设计了频带Transformer块在第一个分支上。自注意力在频域通道维度的组合中执行,提高了建模长距离依赖的能力。为了增强频率特定信息,我们提出了一个频谱增强前馈模块,该模块在频域中聚合特征。在第二个分支中,Mamba层配备了级联的双向状态空间模型模块,以额外捕获局部和全局信息的建模。在编码器和解码器的每个阶段,我们通过通道维的拼接实现双分支特征的融合,并通过通道缩减实现特征融合,从而更有效地整合来自Transformer和Mamba分支的多尺度信息。为了更好地重建干净图像内固有的信号级关系,我们还开发了一个频谱一致性损失。广泛的实验在不同的数据集和现实世界图像上证明了我们方法与最先进的方法相比的优越性。我们已经在Github上发布了代码和预训练模型。
关键词
单图像去雨
雨痕移除
图像恢复
频域
Transformer
状态空间模型
混合模型
方法
A. 总体网络架构
B. 频域Transformer块
频谱带自注意力模块:为了更好地捕获动态分布的雨引起的退化,我们引入了一个频谱带自注意力(SBSA)模块。该模块包括一系列操作,包括一组可分离的卷积(由逐点卷积和深度卷积组成)、2D FFT操作和频谱带注意力机制。可分离的卷积用于提取查询、键和值的雨相关退化特征。这种提取允许后续的注意力机制有效地加权特征令牌的值。FFT操作将空间域特征转换到频域,其中每个像素嵌入了原始空间特征的特定频率的正弦波分量。由于分解属性,修改频域中的单个令牌会在原始图像的全局信号中产生变化。因此,我们认为每个频域令牌编码了全局知识的局部依赖关系,令牌的提取使作者能够捕获长距离信息。通过采用上述特征提取过程,我们的SBSA实现了全局和局部动态特征聚合的结合。该过程如下所述:
频谱增强前馈模块:先前的研究[3]–[5]、[87]通常依赖于单一范围或单一尺度的卷积来增强前馈网络中的局部上下文。然而,这些方法经常忽视了不同范围和尺度上动态分布的雨引起的退化之间的相关性。在实践中,可以通过扩大核大小或利用扩张机制[89]–[91]来提取多尺度信息。因此,我们在前馈模块中集成了两个不同的多范围深度卷积路径。我们还利用了频域中卷积等同于空间域中逐元素乘法的属性,从而构思出了频谱增强前馈(SEFF)模块。在SEFF中,一对权重和偏置被调整大小并广播,以在频域特征上充当有偏滤波器。这使得每个代表频率分量的令牌能够被自适应地增强或过滤,以便更好地分离与雨相关的和背景令牌。给定一个输入张量,我们首先使用逐点卷积操作来扩大通道维度r倍。然后,将展开的张量引导到两个并行分支中。在特征转换过程中,使用3×3和扩张的3×3深度卷积来增强多范围信息的提取。两个分支上的特征然后被转换到频域,并通过一对可学习的权重和偏置变量进行增强,以便增强频域信息。权重有一个预定义的大小,但可以插值到适合输入特征的形状,并像自适应频率传递滤波器一样起作用,保留背景令牌并过滤掉与雨相关的退化。根据门控机制[92],一个分支的激活输出,其接收场范围更长,作为另一个分支的门控单元。因此,SEFF模块内完整的特征融合过程如下所示:
C. 级联双向状态空间模型模块
D. 重建损失和一致性损失
实验
声明
下载1:Pytoch常用函数手册 在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~