CV | 医学影像上的图像分类分割模型调研【更新于20241015】

文摘   2024-10-15 02:13   马来西亚  

本文主要对于医学影像上的图像分类,分割模型进行调研以及经验总结。

1.综述类

2024.10.03_A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond

论文深入研究了 结构化状态空间模型(SSM) 的核心概念及其在 医疗影像分析 中的应用,尤其是通过 Mamba 架构 实现的优化方案。论文首先介绍了不同层次的状态空间模型,包括基础的结构化模型与针对序列建模的简化版本(S4 和 S5)。接着,针对 SSM 在医疗影像分析中的具体应用,介绍了 Mamba 体系架构的多种变体,如 U-Net 及混合架构。

在优化部分,研究强调了架构的轻量化与高效性,同时也引入了多种学习技术,包括 弱监督、半监督、以及自监督学习,并支持 多模态学习,以应对复杂医疗场景的需求。此外,论文重点介绍了 Mamba 在不同医疗领域的具体应用,如影像分割、分类、图像修复与重建、以及影像配准。

实验部分展示了针对不同数据集的实验结果,证明了该模型在 分割、分类和配准 等任务上的卓越表现。在讨论与未来方向部分,作者分析了现有方法的局限性,并展望了 Mamba 架构在未来医疗影像研究中的应用前景。

2.模型算法

2023.07.27_LViT

论文:LViT: Language meets Vision Transformer in Medical Image SegmentationLViT:医学图像分割中的语言与视觉转换器的结合

2206.14718v4.pdf (arxiv.org)

代码:HUANGLIZI/LViT: [IEEE Transactions on Medical Imaging/TMI] This repo is the official implementation of "LViT: Language meets Vision Transformer in Medical Image Segmentation" 

深度学习在医学图像分割等方面得到了广泛的应用。然而,由于数据注释成本过高,无法获得足够的高质量标记数据,现有医学图像分割模型的性能受到限制,提出了一种新的文本增强医学图像分割模型LViT(语言与视觉转换器的结合)。在LViT模型中,结合了医学文本注释来弥补图像数据的质量不足。此外,文本信息可以指导在半监督学习中生成质量提高的伪标签。还提出了一种指数伪标签迭代机制(EPI),以帮助像素级注意力模块(PLAM)在半监督LViT设置中保留局部图像特征。在我们的模型中,LV(语言视觉)损失旨在直接使用文本信息监督未标记图像的训练。为了进行评估,构建了三个包含 X 射线和 CT 图像的多模态医学分割数据集(图像 + 文本)。实验结果表明,所提出的LViT在全监督和半监督环境下均具有优异的分割性能。代码和数据集可在 https://github.com/HUANGLIZI/LViT 上获得。


2024.01.01_BRAU-Net++

论文:BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation

代码:https://arxiv.org/pdf/2401.00722.pdf

2024.01.09_U-Mamba

论文:U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation arxiv.org/pdf/2401.04722.pdf

代码:bowang-lab/U-Mamba: U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation (github.com)

受状态空间序列模型(SSM)这一新的深度序列模型家族的启发,该模型以其处理长序列的强大能力而闻名,论文设计了一个混合 CNN-SSM 模块,它将卷积层的局部特征提取能力与以下能力集成在一起:用于捕获远程依赖性的 SSM。此外,U-Mamba 具有自我配置机制,无需人工干预即可自动适应各种数据集。

2024.02.04_VM-UNet

论文:VM-UNet: Vision Mamba UNet for Medical Image Segmentation2402.02491.pdf (arxiv.org)

代码:JCruan519/VM-UNet: This is the official code repository for "VM-UNet: Vision Mamba UNet for Medical Image Segmentation".

论文框架包含了:Patch Embedding layer, an encoder, a decoder, a Final Projection layer, and skip connections.

结果

2024.02.05_Swin-UMamba:基于Mamba和ImageNet预训练的医学图像分割模型

论文:Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining 2402.03302.pdf (arxiv.org)

代码:JiarunLiu/Swin-UMamba: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining (github.com)

相比较于U-Mamba,Swin-UMamba在三种医学图像分割任务指标上可以取得平均3.58%的提升。

该篇工作通过实验验证了ImageNet预训练对基于Mamba的医学图像分割模型起到非常重要的作用,在迭代次数不变的情况下最高可为Swin-UMamba带来13.08%的DSC提升。

提出了一种变体网络Swin-UMamba,其仅需要相比于U-Mamba不到1/2的网络参数量和约1/3的FLOPs就能够实现与Swin-UMamba相近的性能。

2024.02.07_Mamba-UNet

论文:Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation2402.05079.pdf (arxiv.org)

代码:JCruan519/VM-UNet: This is the official code repository for "VM-UNet: Vision Mamba UNet for Medical Image Segmentation". 

在本论文中,简单介绍了之前论文的VSS块,编码器,解码器,Bottleneck & Skip Connetions。

在本文中作者认为与典型的视觉转换器不同,VSS 模块了位置嵌入。视觉转换器不同,它没有 MLP 结构、所以就能在相同的深度预算内堆叠更密集的区块。

2024.06.25_v2_LKM-UNet

论文:LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation

https://arxiv.org/abs/2403.07332

代码:https://github.com/wjh892521292/LKM-UNet

在临床实践中,医学图像分割提供了有关目标器官或组织轮廓和尺寸的有用信息,有助于改善诊断、分析和治疗。在过去的几年中,卷积神经网络 (CNN) 和 Transformers 主导了这一领域,但它们仍然存在接受域有限或远程建模成本高的问题。Mamba 是一种状态空间序列模型 (SSM),最近成为具有线性复杂度的远程依赖关系建模的有前途的范例。在本文中,我们介绍了一种用于医学图像分割的大型内核视觉 Mamba U 形网络 (LKM-UNet)。我们的 LKM-UNet 的一个显着特点是它利用了大型 Mamba 内核,与基于小内核的 CNN 和 Transformers 相比,它在局部空间建模方面表现出色,同时与具有二次复杂度的自注意力相比,在全局建模方面保持了卓越的效率。此外,我们设计了一个新颖的分层双向 Mamba 块,以进一步增强 Mamba 对视觉输入的全局和邻域空间建模能力。综合实验证明了使用大尺寸 Mamba 内核实现大感受野的可行性和有效性。

2024.08.05_MambaConvT

论文:Medical Image Classification with a Hybrid SSM Model Based on CNN and Transformer

代码:暂无

CNN 在局部特征提取方面实力雄厚,但在捕捉全局背景方面却存在不足,而 Transformers 擅长全局信息,但可能会忽略细粒度的细节。将 CNN 和 Transformers 集成到混合模型中旨在通过同时进行局部和全局特征提取来弥补这一差距。解决这些问题,论文引入了 MambaConvT 模型,该模型采用状态空间方法。它首先通过多核卷积在本地处理输入特征,从而增强对深度、有判别力的局部细节的提取。接下来,利用深度可分离卷积和二维选择性扫描模块(SS2D)来维持全局感受野并建立长距离连接,从而捕获细粒度特征。然后,该模型结合混合特征进行全面的特征提取,然后进行全局特征建模,以强调全局细节信息并优化特征表示。本文在四个公开数据集和两个私有数据集上对不同算法进行了深入的性能实验。结果表明,MambaConvT 在准确率、精确率、召回率、F1 分数和 AUC 值评分方面均优于最新的分类算法,在医学图像的精确分类中取得了优异的性能。

2024.09.27_Semi-Mamba-UNet

论文:Semi-Mamba-UNet: Pixel-level contrastive and cross-supervised visual Mamba-based UNet for semi-supervised medical image segmentation

代码:https://github.com/ziyangwang007/Mamba-UNet

主要方法

  • 在 U 形分割网络中探索基于 Visual Mamba 的网络块

  • 提出像素级对比学习,利用所有数据进行网络训练

  • 提出像素级交叉监督学习,使两个分割网络能够一起训练



2024.09.29_v5_MedMamba

论文:MEDMAMBA: VISION MAMBA FOR MEDICAL IMAGE CLASSIFICATION

https://arxiv.org/pdf/2403.03849

代码:https://github.com/YubiaoYue/MedMamba

自深度学习时代以来,卷积神经网络 (CNN) 和视觉变换器 (ViT) 得到了广泛的研究,并广泛应用于医学图像分类任务。不幸的是,CNN 在建模长距离依赖关系方面的局限性导致分类性能不佳。相比之下,ViT 受到其自注意力机制的二次计算复杂度的阻碍,使其难以在计算资源有限的现实环境中部署。最近的研究表明,以 Mamba 为代表的状态空间模型 (SSM) 可以有效地建模长距离依赖关系,同时保持线性计算复杂度。受此启发,我们提出了 MedMamba,这是第一个用于广义医学图像分类的 Vision Mamba。论文引入了一种名为 SS-Conv-SSM 的新型混合基本块,它将用于提取局部特征的卷积层与 SSM 捕获长距离依赖关系的能力纯粹地结合起来,旨在有效地对来自不同图像模态的医学图像进行建模。通过采用分组卷积策略和通道改组操作,MedMamba 成功地为高效应用提供了更少的模型参数和更低的计算负担,同时又不牺牲准确性。使用包含十种成像模式和 411,007 张图像的 16 个数据集对 MedMamba 进行了全面评估。实验结果表明,与最先进的方法相比,MedMamba 在大多数任务上都表现出了竞争力。这项工作旨在探索 Vision Mamba 的潜力并为医学图像分类建立新的基线,从而为开发更强大的基于 Mamba 的人工智能算法和医学应用提供宝贵的见解。

参考文献

[1]2024.01.18_VMamba: Visual State Space Model2401.10166.pdf (arxiv.org)


别忘了点赞👍+关注✨哟~~     

AI Pulse
\x26quot;AI Pulse - AI脉动\x26quot;,探索AI技术前沿,深入解析算法精髓,分享行业应用案例,洞察智能科技未来。欢迎关注,与我们共赴AI学习之旅。
 最新文章