【Mamba应用前沿】CAMS: 基于Mamba的无卷积和无注意力的图像分割

科技   2024-11-19 10:05   中国香港  

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

论文信息

题目:CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation

CAMS: 基于Mamba的无卷积和无注意力心脏图像分割

作者:Abbas Khan,Muhammad Asad,Martin Benning,Caroline Roney,Gregory Slabaugh

论文创新点

本文提出了一种基于Mamba的无卷积和无自注意力的心脏图像分割网络CAMS-Net,具有以下四个创新点:

  1. 无卷积和自注意力的Mamba基网络:作者首次提出了一个不依赖于卷积操作和自注意力机制的Mamba基分割网络CAMS-Net,展示了基于状态空间模型(SSM)的架构在医学图像分割中的潜力。

  2. 线性互联分解Mamba(LIFM)块:提出了LIFM块来减少Mamba块的训练参数并增强其决策函数,通过在两个分解的Mamba块之间引入非线性,进一步降低了计算复杂度。

  3. 基于Mamba的通道和空间聚合器:作者设计了Mamba通道聚合器(MCA)和Mamba空间聚合器(MSA),分别独立应用于每个编解码器阶段,以提取不同通道和空间位置的信息。

  4. 双向权重共享策略:提出了一种双向扫描策略,并结合权重共享,以减少参数数量并提高模型性能,特别是在较小数据集上的有效性。

摘要

卷积神经网络(CNN)和基于Transformer的自注意力模型已成为医学图像分割的标准。本文展示了卷积和自注意力虽然广泛使用,但并非分割任务中唯一有效的方法。打破常规,作者提出了一种无卷积和自注意力的基于Mamba的语义分割网络,名为CAMS-Net。具体来说,作者设计了基于Mamba的通道聚合器和空间聚合器,它们分别独立应用于每个编解码器阶段。通道聚合器提取不同通道之间的信息,空间聚合器学习不同空间位置的特征。作者还提出了一个线性互联的分解Mamba(LIFM)块,通过在两个分解的Mamba块之间引入非线性来降低Mamba块的计算复杂性,并增强其决策函数。作者的模型在CMR和M&Ms-2心脏分割数据集上超越了现有的最先进的CNN、自注意力和基于Mamba的方法,展示了这种创新的、无卷积和自注意力的方法如何激发超越CNN和Transformer范式进一步研究,实现线性复杂度并减少参数数量。源代码和预训练模型将在接收后公开提供。

2. 方法

所提出的无卷积和自注意力分割网络CAMS-Net如图1(a)所示。输入图像被转换为不重叠的2×2块,通过2的因子降低平面空间分辨率,并使用线性嵌入层将特征投影到维度C1=64。它还结合了正弦位置嵌入来编码空间上下文信息,使编码器能够理解图像内不同区域的相对位置。特征在每个编码器阶段也通过2×2平均池化层进行下采样。在下一个编码器阶段和瓶颈中,作者实现了CS-IF模块,允许模型沿通道和空间维度学习更丰富的特征。

在解码器侧,特征在每个阶段通过2×2的双线性插值窗口上采样以匹配输出维度,然后在瓶颈后的第一个阶段后跟CS-IF模块,在所有其他解码器阶段后跟MCA。跳跃连接也在每个编码器-解码器阶段实现,以重用特征并加快收敛。最后,生成一个五类分割图(每个类别一个,LA、RA、LV、RA和背景),然后通过Softmax激活。本节将解释CAMS-Net的组成部分。

3.1. 分解Mamba

受深度卷积神经网络的启发,其中两个3×3卷积滤波器的堆叠具有5×5的有效感受野,作者提出了分解Mamba的思想,这使得决策函数更具辨识力,同时也减少了参数数量。“Mamba块扩展因子”(E)和“SSM状态扩展因子”(D)控制Mamba块的整体复杂度。更具体地说,E使用具有学习权重W1和W2的线性层扩展Mamba块的维度,而D在SSM内投影维度。作者在Mamba块中实现了不同的E和D因子,并分析了它们的计算复杂度,如补充材料中的表1所示。在Mamba块中,大多数参数来自E,D的增加很小。大多数基于Mamba的网络使用默认的SSM和Mamba块扩展,如图1(c)所示,这在计算上是昂贵的,单个Mamba块带来了11,776个可训练参数(对于cin=32和cout=64)。数学上,

其中W1、W2、W3是图1(b)中用于输入xin投影的线性层的可学习权重,⊙代表逐元素乘法,σ是SiLU激活。作者的分解Mamba块分离了SSM和Mamba的扩展参数,如图1(d)所示。作者还在两个Mamba块之间添加了一个线性层,随后是SiLU激活,以增加更多的非线性,并将其命名为线性互联分解Mamba(LIFM)块,在作者的架构中使用。单个分解Mamba块有4,608个参数(对于cin=32和cout=64),提出的LIFM-Block仅需要9,184个可训练参数。对于第一个分解Mamba块和线性层,Cin = Cout = 32,对于第二个分解Mamba块,Cout = 64。数学上,作者可以将LIFM块表示为
其中,D1 = D2 = 2,E1 = E2 = 1,Wfm代表两个分解Mamba块之间的线性层。从经验上,作者还发现大的Mamba块可以轻易地过拟合数据,增加网络的整体计算负担。因此,作者在每个阶段分解了较大的Mamba块,并使用了两个连续的相对较小的块。这种分解方法减少了可训练参数的数量,并帮助网络增加其非线性,以学习数据中更复杂的模式和表示。

3.2. Mamba通道聚合器

Mamba通道聚合器(MCA)旨在学习跨通道的信息,如图1(e)所示,学习不同通道的每个位置的特征。类似于UNet结构,通道数在每个编码器阶段增加为{64, 128, 256, 512, 1024},在每个解码器阶段减少为{512, 256, 128, 64}。对于通道聚合器,传入的特征RB×C×H×W被重塑为RB×L×C,其中L = H × W。然后,输入被分为两个分支,在其中一个分支中应用LIFM块,第二个分支作为残差连接,其中使用线性层,随后进行逐元素加法操作与第一个分支的特征。数学上,它可以表示为,
其中,f1 : RB×C×H×W → RB×L×C表示重塑函数,f1 : RB×L×C → RB×C×H×W执行逆操作,Wc是MCA的残差线性层,⊕代表逐元素加法。

3.3. Mamba空间聚合器

如图1(f)所示,Mamba空间聚合器(MSA)旨在学习不同空间位置的信息,并使它们之间能够通信。空间聚合器的计算复杂度取决于特征的空间维度,因此它仅用于U形网络的低维特征。更具体地说,它用于瓶颈、瓶颈前的一个编码器阶段和瓶颈后的一个解码器阶段,如图1(a)所示。对于空间聚合器,传入的特征RB×C×H×W被重塑为RB×C×L。特征遵循与MCA相同的协议,最后,使用线性层在编码器中扩展(在解码器中压缩)通道数。用数学术语来说,
这里,f2 : RB×C×H×W → RB×C×L表示一个重塑函数,f2 : RB×C×L → RB×C×H×W执行逆操作,WS是MSA的残差线性层,Wci是一个线性层,它在MSA中增加或减少通道数,以与MCA匹配。

3.4. 双向信息学习

受Vision Mamba的启发,作者实现了MCA和MSA,使用双向扫描安排方案,如图1的补充材料所示。作者结合了双向SSMs使网络在空间上具有意识。与Vision Mamba不同,作者发现两个方向方案的权重共享可以带来更好的平均性能,并且也降低了计算复杂度,如消融研究的表3所示。作者还尝试了多方向扫描安排,如四方向[29]和八方向方案[18]。然而,由于较小的数据集和方法的复杂度降低,双向扫描方案加上提出的权重共享策略是手头任务的最佳实践。

3.5. 通道-空间信息融合模块

通道-空间信息融合(CS-IF)模块由MCA和MSA组成,合并沿通道和空间维度提取的信息,如图1(g)所示。传入的特征被传递到MCA和MSA,每个聚合器都使用相同的实例学习两个正向和反向扫描方向的特征,使其可以共享权重。逐元素加法操作汇总了两个通道的输出,为了避免过拟合,对每个聚合器的输出应用了0.1的dropout。

4. 实验验证

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章