【Mamba应用前沿】CAMS: 基于Mamba的无卷积和无注意力的图像分割

科技 2024-11-19 10:05 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

论文信息

题目：CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation

CAMS: 基于Mamba的无卷积和无注意力心脏图像分割

作者：Abbas Khan，Muhammad Asad，Martin Benning，Caroline Roney，Gregory Slabaugh

论文创新点

本文提出了一种基于Mamba的无卷积和无自注意力的心脏图像分割网络CAMS-Net，具有以下四个创新点：

无卷积和自注意力的Mamba基网络：作者首次提出了一个不依赖于卷积操作和自注意力机制的Mamba基分割网络CAMS-Net，展示了基于状态空间模型（SSM）的架构在医学图像分割中的潜力。
线性互联分解Mamba（LIFM）块：提出了LIFM块来减少Mamba块的训练参数并增强其决策函数，通过在两个分解的Mamba块之间引入非线性，进一步降低了计算复杂度。
基于Mamba的通道和空间聚合器：作者设计了Mamba通道聚合器（MCA）和Mamba空间聚合器（MSA），分别独立应用于每个编解码器阶段，以提取不同通道和空间位置的信息。
双向权重共享策略：提出了一种双向扫描策略，并结合权重共享，以减少参数数量并提高模型性能，特别是在较小数据集上的有效性。

摘要

卷积神经网络（CNN）和基于Transformer的自注意力模型已成为医学图像分割的标准。本文展示了卷积和自注意力虽然广泛使用，但并非分割任务中唯一有效的方法。打破常规，作者提出了一种无卷积和自注意力的基于Mamba的语义分割网络，名为CAMS-Net。具体来说，作者设计了基于Mamba的通道聚合器和空间聚合器，它们分别独立应用于每个编解码器阶段。通道聚合器提取不同通道之间的信息，空间聚合器学习不同空间位置的特征。作者还提出了一个线性互联的分解Mamba（LIFM）块，通过在两个分解的Mamba块之间引入非线性来降低Mamba块的计算复杂性，并增强其决策函数。作者的模型在CMR和M&Ms-2心脏分割数据集上超越了现有的最先进的CNN、自注意力和基于Mamba的方法，展示了这种创新的、无卷积和自注意力的方法如何激发超越CNN和Transformer范式进一步研究，实现线性复杂度并减少参数数量。源代码和预训练模型将在接收后公开提供。

2. 方法

所提出的无卷积和自注意力分割网络CAMS-Net如图1(a)所示。输入图像被转换为不重叠的2×2块，通过2的因子降低平面空间分辨率，并使用线性嵌入层将特征投影到维度C1=64。它还结合了正弦位置嵌入来编码空间上下文信息，使编码器能够理解图像内不同区域的相对位置。特征在每个编码器阶段也通过2×2平均池化层进行下采样。在下一个编码器阶段和瓶颈中，作者实现了CS-IF模块，允许模型沿通道和空间维度学习更丰富的特征。

在解码器侧，特征在每个阶段通过2×2的双线性插值窗口上采样以匹配输出维度，然后在瓶颈后的第一个阶段后跟CS-IF模块，在所有其他解码器阶段后跟MCA。跳跃连接也在每个编码器-解码器阶段实现，以重用特征并加快收敛。最后，生成一个五类分割图（每个类别一个，LA、RA、LV、RA和背景），然后通过Softmax激活。本节将解释CAMS-Net的组成部分。

3.1. 分解Mamba

受深度卷积神经网络的启发，其中两个3×3卷积滤波器的堆叠具有5×5的有效感受野，作者提出了分解Mamba的思想，这使得决策函数更具辨识力，同时也减少了参数数量。“Mamba块扩展因子”（E）和“SSM状态扩展因子”（D）控制Mamba块的整体复杂度。更具体地说，E使用具有学习权重W1和W2的线性层扩展Mamba块的维度，而D在SSM内投影维度。作者在Mamba块中实现了不同的E和D因子，并分析了它们的计算复杂度，如补充材料中的表1所示。在Mamba块中，大多数参数来自E，D的增加很小。大多数基于Mamba的网络使用默认的SSM和Mamba块扩展，如图1(c)所示，这在计算上是昂贵的，单个Mamba块带来了11,776个可训练参数（对于cin=32和cout=64）。数学上，

其中W1、W2、W3是图1(b)中用于输入xin投影的线性层的可学习权重，⊙代表逐元素乘法，σ是SiLU激活。作者的分解Mamba块分离了SSM和Mamba的扩展参数，如图1(d)所示。作者还在两个Mamba块之间添加了一个线性层，随后是SiLU激活，以增加更多的非线性，并将其命名为线性互联分解Mamba（LIFM）块，在作者的架构中使用。单个分解Mamba块有4,608个参数（对于cin=32和cout=64），提出的LIFM-Block仅需要9,184个可训练参数。对于第一个分解Mamba块和线性层，Cin = Cout = 32，对于第二个分解Mamba块，Cout = 64。数学上，作者可以将LIFM块表示为

其中，D1 = D2 = 2，E1 = E2 = 1，Wfm代表两个分解Mamba块之间的线性层。从经验上，作者还发现大的Mamba块可以轻易地过拟合数据，增加网络的整体计算负担。因此，作者在每个阶段分解了较大的Mamba块，并使用了两个连续的相对较小的块。这种分解方法减少了可训练参数的数量，并帮助网络增加其非线性，以学习数据中更复杂的模式和表示。

3.2. Mamba通道聚合器

Mamba通道聚合器（MCA）旨在学习跨通道的信息，如图1(e)所示，学习不同通道的每个位置的特征。类似于UNet结构，通道数在每个编码器阶段增加为{64, 128, 256, 512, 1024}，在每个解码器阶段减少为{512, 256, 128, 64}。对于通道聚合器，传入的特征RB×C×H×W被重塑为RB×L×C，其中L = H × W。然后，输入被分为两个分支，在其中一个分支中应用LIFM块，第二个分支作为残差连接，其中使用线性层，随后进行逐元素加法操作与第一个分支的特征。数学上，它可以表示为，

其中，f1 : RB×C×H×W → RB×L×C表示重塑函数，f1 : RB×L×C → RB×C×H×W执行逆操作，Wc是MCA的残差线性层，⊕代表逐元素加法。

3.3. Mamba空间聚合器

如图1(f)所示，Mamba空间聚合器（MSA）旨在学习不同空间位置的信息，并使它们之间能够通信。空间聚合器的计算复杂度取决于特征的空间维度，因此它仅用于U形网络的低维特征。更具体地说，它用于瓶颈、瓶颈前的一个编码器阶段和瓶颈后的一个解码器阶段，如图1(a)所示。对于空间聚合器，传入的特征RB×C×H×W被重塑为RB×C×L。特征遵循与MCA相同的协议，最后，使用线性层在编码器中扩展（在解码器中压缩）通道数。用数学术语来说，

这里，f2 : RB×C×H×W → RB×C×L表示一个重塑函数，f2 : RB×C×L → RB×C×H×W执行逆操作，WS是MSA的残差线性层，Wci是一个线性层，它在MSA中增加或减少通道数，以与MCA匹配。

3.4. 双向信息学习

受Vision Mamba的启发，作者实现了MCA和MSA，使用双向扫描安排方案，如图1的补充材料所示。作者结合了双向SSMs使网络在空间上具有意识。与Vision Mamba不同，作者发现两个方向方案的权重共享可以带来更好的平均性能，并且也降低了计算复杂度，如消融研究的表3所示。作者还尝试了多方向扫描安排，如四方向[29]和八方向方案[18]。然而，由于较小的数据集和方法的复杂度降低，双向扫描方案加上提出的权重共享策略是手头任务的最佳实践。

3.5. 通道-空间信息融合模块

通道-空间信息融合（CS-IF）模块由MCA和MSA组成，合并沿通道和空间维度提取的信息，如图1(g)所示。传入的特征被传递到MCA和MSA，每个聚合器都使用相同的实例学习两个正向和反向扫描方向的特征，使其可以共享权重。逐元素加法操作汇总了两个通道的输出，为了避免过拟合，对每个聚合器的输出应用了0.1的dropout。

4. 实验验证

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与作者联系，作者将在第一时间回复并处理。

下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247626606&idx=2&sn=d7cd8165ff018114034805d9516bca62

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

博士招生 | 约翰霍普金斯大学PENSA实验室Sijia Geng 博士招生

【魔改Mamba系列】UU-Mamba：用于图像分割的不确定性感知U-Mamba

利用 YOLO11做停车管理

BT-Unet:医学图像分割的自监督学习框架

【魔改Mamba系列】HC-Mamba：用于医学图像分割的混合卷积技术视觉Mamba

详解机器学习中的7种交叉验证方法！

一文搞懂梯度下降

快速学会登上nature的热门算法，LSTM！

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

手把手教你用YOLOv8训练自己的数据集以及YOLOv8的多任务使用

手撕自动驾驶算法—无迹卡尔曼滤波

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改UNet系列】IAUNet：实例感知的U-Net

收藏 | 10种顶级聚类算法实现

详解基于深度学习的伪装目标检测

年薪80w，我入局了

【Mamba应用前沿】CAMS: 基于Mamba的无卷积和无注意力的图像分割

数字图像基本处理算法小结

收藏 | 卷积神经网络压缩方法总结

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

十个python图像处理工具

实践教程｜扩散模型代码复现

使用PyTorch进行知识蒸馏的代码示例

中文版的TPAMI，你听说过么！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

如何消除摄影中的运动模糊?

漂亮，LSTM模型结构的可视化

目标检测和感受野的总结和想法

目标检测中的框位置优化总结

如何看待神经网络的黑箱？

如何使用深度学习进行缺陷检测

深度学习的图原理

饶毅：中国存在大量粗制滥造研究生的问题，很多博士不合格

路面语义分割

招生信息 | Emory大学计算机科学系Dr. Guo Zhichun实验室博士生招生

深度学习中的Normalization你懂了多少？

神经网络与傅立叶变换到底有没有关系？

从零开始构建DINO模型与PyTorch：自监督视觉transformer

涨点神器！100个即插即用缝合模块【合集下载】

深度学习最常用的10个激活函数！（数学原理+优缺点）

招生信息 | 香港城市大学计算机科学系Dr. Luo Yuhan诚邀加入BiWell实验室

实操教程｜PyTorch实现断点继续训练

又一本开源免费的大模型书来了，449页pdf！

有哪些东西是你读博士以后才懂的？

图像处理常用算法(基础)

少样本学习综述：技术、算法和模型

学术 | 热议：寒门硕士要不要继续读博士？

怎么才能优雅地向博士导师表达「这周科研没什么进展」？

医学影像相关开源数据集资源汇总

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【Mamba应用前沿】CAMS: 基于Mamba的无卷积和无注意力的图像分割

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达论文信息

论文信息

题目：CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation

CAMS: 基于Mamba的无卷积和无注意力心脏图像分割

作者：Abbas Khan，Muhammad Asad，Martin Benning，Caroline Roney，Gregory Slabaugh

论文创新点

摘要

2. 方法

3.1. 分解Mamba

3.2. Mamba通道聚合器

3.3. Mamba空间聚合器

3.4. 双向信息学习

3.5. 通道-空间信息融合模块

4. 实验验证

声明

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达
论文信息