【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

科技 2024-10-30 10:34 中国香港

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

论文信息

Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation

Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

作者：Ziyang Wang, Jian-Qing Zheng, Yichi Zhang, Ge Cui, Lei Li

源码：https://github.com/ziyangwang007/MambaUNet

论文创新点

新颖的架构融合：Mamba-UNet结合了UNet的对称编码器-解码器风格架构和Mamba架构的能力，特别擅长处理长序列和全局上下文信息。这种融合在医学图像分割领域是创新的，旨在改进长距离依赖的建模。
纯视觉Mamba（VMamba）基础的编码器-解码器结构：该网络采用了基于纯视觉Mamba的编码器-解码器结构，并注入了跳跃连接以保留不同尺度上的空间信息。这种设计促进了全面的特征学习过程，能够在医学图像中捕捉复杂的细节和更广泛的语义上下文。
视觉状态空间（VSS）块的引入：Mamba-UNet在编码器和解码器中使用了视觉状态空间（VSS）块，这些块通过交叉扫描模块（CSM）将非因果视觉图像转换为有序的补丁序列，增强了模型在计算机视觉任务中的适用性。
针对医学图像分割优化的集成机制：作者在VMamba块内引入了一种新颖的集成机制，确保了编码器和解码器路径之间的无缝连接和信息流动，从而增强了分割性能。这一机制针对医学图像分割任务进行了特别优化。

摘要

在医学图像分析的最新进展中，卷积神经网络（CNN）和视觉变换器（ViT）树立了重要的基准。前者通过其卷积操作擅长捕捉局部特征，后者通过自注意力机制实现了显著的全局上下文理解。然而，这两种架构在有效建模医学图像中的长距离依赖方面都存在局限性，这对于精确分割至关重要。受Mamba架构的启发，该架构以其在处理长序列和全局上下文信息方面的专业性而闻名，并且作为状态空间模型（SSM），我们提出了Mamba-UNet，这是一种新颖的架构，它将UNet在医学图像分割中的能力与Mamba的能力相结合。Mamba-UNet采用了基于纯视觉Mamba（VMamba）的编码器-解码器结构，并注入了跳跃连接以保留网络不同尺度上的空间信息。这种设计促进了全面的特征学习过程，在医学图像中捕捉复杂的细节和更广泛的语义上下文。我们引入了一种新颖的集成机制，在VMamba块内确保编码器和解码器路径之间的无缝连接和信息流动，从而增强了分割性能。我们在公开可用的ACDC MRI心脏分割数据集和Synapse CT腹部分割数据集上进行了实验。结果表明，在相同的超参数设置下，Mamba-UNet在医学图像分割方面优于几种类型的UNet。

关键字

医学图像分割 · 卷积 · 变换器 · Mamba · 状态空间模型

2 方法

2.1 架构概述

所提出的Mamba-UNet的架构在图2中进行了概述，其灵感来自UNet和Swin-UNet。输入的2D灰度图像大小为H × W × 1，首先被分割成类似于ViT和VMamba的补丁，然后转换为1-D序列，尺寸为H/4 × W/4 × 16。一个初始的线性嵌入层将特征维度调整为任意大小，表示为C。这些补丁令牌随后通过多个VSS块和补丁合并层进行处理，创建层次化特征。每个编码器阶段的输出分辨率分别为H/4 × W/4 × C、H/8 × W/8 × 2C、H/16 × W/16 × 4C和H/32 × W/32 × 8C。解码器由VSS块和补丁扩展层组成，遵循编码器的风格，使得输出的特征大小完全相同，从而通过跳跃连接增强了在下采样过程中丢失的空间细节。在编码器和解码器中，每个阶段都使用了2个VSS块，并且在编码器中加载了预训练的VMamba-Tiny，遵循与Swin-UNet加载预训练的SwinViT-Tiny相同的过程。VSS块、编码器的补丁合并和解码器的补丁扩展的细节在以下小节中讨论。

2.2 VSS块

VSS网络块在图3中进行了说明，主要基于视觉Mamba。具体来说，传统的SSM作为线性时不变系统，通过隐藏状态h(t) ∈ RN，将x(t) ∈ R映射到y(t) ∈ R，给定A ∈ CN×N作为演化参数，B、C ∈ CN作为状态大小N的投影参数，以及跳跃连接D ∈ C1。该模型可以被公式化为线性常微分方程（ODEs），如方程1所示：

这个线性模型的离散版本可以通过零阶保持在一个时间尺度参数∆ ∈ RD下进行转换。

其中A = e^∆A, B = (e^∆A − I)A−1B, C = C, B, C ∈ RD×N。使用一阶泰勒级数对B进行精细化的近似B = ∆A(∆A)−1 ∆B = ∆B。视觉Mamba进一步引入了交叉扫描模块（CSM），然后将卷积操作集成到块中，详细内容见[7,16]。在VSS块中，输入特征首先通过一个线性嵌入层，然后分成两个路径。一个分支经过深度卷积和SiLU激活，然后进入SS2D模块，并在层归一化后与另一个经过SiLU激活的分支合并。这个VSS块不像典型的视觉变换器那样使用位置嵌入，而是选择一个没有MLP阶段的流线型结构，使得在相同的深度预算内可以堆叠更密集的块。

2.3 编码器

在编码器中，C维的标记化输入在降低分辨率的情况下经历了两个连续的VSS块进行特征学习，保持维度和分辨率。补丁合并作为下采样过程在Mamba-UNet的编码器中使用了三次，通过将输入分割成1/4的象限，将它们连接起来，然后每次通过layernorm归一化维度，将令牌数量减少1/2，并将特征维度加倍2倍。

2.4 解码器

与编码器相镜像，解码器使用两个连续的VSS块进行特征重建，使用补丁扩展层而不是合并层进行上采样深度特征[3]。这些层增强了分辨率（2倍上采样），同时将特征维度减半1/2，例如，一个初始层在重新组织和降低它们以增强分辨率之前将特征维度加倍。

2.5 瓶颈和跳跃连接

Mamba-UNet的瓶颈使用了两个VSS块。编码器和解码器的每个级别都采用了跳跃连接，将多尺度特征与上采样输出混合，通过合并浅层和深层来增强空间细节。随后的线性层保持了这个集成特征集的维度，确保与上采样分辨率的一致性。

3 实验和结果

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569375&idx=1&sn=27dadf4aad2def6968c1e6511aeaf9b5

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

特征选择：11 种特征选择策略总结！

YOLO 系列目标检测大合集

Swin-UMamba：基于ImageNet的预训练的基于Mamba的UNet网络

项目案例：基于 YOLO 的铝型材表面缺陷识别

Batch Normalization原理与实战

Jupyter Notebook 五大效率插件

卷积核的基本概况

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

padding 在深度学习模型中重要吗？

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

如何评价Ultralytics出的YOLOv11？

有哪些东西是你读博士以后才懂的？

Jupyter Lab 十大高生产力插件

AODet: 基于 Transformers 的前景区域航空目标检测

黄仁勋预言成真了！！

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

使用姿态估计轻松辅助健身房训练

传统图像处理还有前景么？

使用YOLO检测眼睛闭合 | 设定警报

一个神经元顶5到8层神经网络，深度学习的计算复杂度被生物碾压了

稚晖君玩了个大的：开源人形机器人全套图纸+代码

最全的损失函数汇总

pytorch优化器与学习率设置详解

PyCharm vs VSCode，是时候改变你的 IDE 了！

特征提取：传统算法 vs 深度学习

注意力机制是如何学习到模型所应注意的区域的？

深度学习常用损失函数总览：基本形式、原理、特点

一份微调YOLOv11的小指南

顶会 MICCAI'24 | LB-UNet：一种用于皮肤病变分割的轻量级边界辅助UNet

EI会议精选盘点：高校联办，IEEE Fellow助阵，可推优发表SCI

顶刊MIA'24 | 用于OCT图像分割的双坐标交叉注意力Transformer

如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

使用YOLOv8和ByteTracker进行实时人员跟踪和计数

用python写一个图像文字识别OCR工具

我导师啥时候得诺奖！Hinton致谢自己的研究生：“活都是他们干的”！

如何系统得对目标检测模型的误差分析？

【魔改YOLO系列】YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

一个博士生接受怎样的训练，才是完整而全面的科研训练？

一文让你通俗理解奇异值分解

YOLO-CCS：将坐标注意力机制引入YOLO用于车辆检测

针对不平衡问题建模的有趣Loss

使用YOLO World进行高性能目标检测

顶刊 TRGS'24 | 针对小型目标检测的增强层间特征相关性的轻量级融合策略

顶刊 MIA'24 | MA-SAM: 用于医学图像分割的模态无关SAM适应框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉