论文调研 | 医学影像上的图像分类分割模型

文摘 2024-11-02 14:08 马来西亚

本文主要对于医学影像上的图像分类，分割模型进行调研以及经验总结。

1.综述类

2024.10.03_A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond

论文深入研究了 结构化状态空间模型（SSM） 的核心概念及其在 医疗影像分析 中的应用，尤其是通过 Mamba 架构 实现的优化方案。论文首先介绍了不同层次的状态空间模型，包括基础的结构化模型与针对序列建模的简化版本（S4 和 S5）。接着，针对 SSM 在医疗影像分析中的具体应用，介绍了 Mamba 体系架构的多种变体，如 U-Net 及混合架构。

在优化部分，研究强调了架构的轻量化与高效性，同时也引入了多种学习技术，包括 弱监督、半监督、以及自监督学习，并支持 多模态学习，以应对复杂医疗场景的需求。此外，论文重点介绍了 Mamba 在不同医疗领域的具体应用，如影像分割、分类、图像修复与重建、以及影像配准。

实验部分展示了针对不同数据集的实验结果，证明了该模型在 分割、分类和配准 等任务上的卓越表现。在讨论与未来方向部分，作者分析了现有方法的局限性，并展望了 Mamba 架构在未来医疗影像研究中的应用前景。

2.模型算法

2023.07.27_LViT

论文：LViT: Language meets Vision Transformer in Medical Image SegmentationLViT：医学图像分割中的语言与视觉转换器的结合
2206.14718v4.pdf (arxiv.org)
代码：HUANGLIZI/LViT: [IEEE Transactions on Medical Imaging/TMI] This repo is the official implementation of "LViT: Language meets Vision Transformer in Medical Image Segmentation"

深度学习在医学图像分割等方面得到了广泛的应用。然而，由于数据注释成本过高，无法获得足够的高质量标记数据，现有医学图像分割模型的性能受到限制,提出了一种新的文本增强医学图像分割模型LViT（语言与视觉转换器的结合）。在LViT模型中，结合了医学文本注释来弥补图像数据的质量不足。此外，文本信息可以指导在半监督学习中生成质量提高的伪标签。还提出了一种指数伪标签迭代机制（EPI），以帮助像素级注意力模块（PLAM）在半监督LViT设置中保留局部图像特征。在我们的模型中，LV（语言视觉）损失旨在直接使用文本信息监督未标记图像的训练。为了进行评估，构建了三个包含 X 射线和 CT 图像的多模态医学分割数据集（图像 + 文本）。实验结果表明，所提出的LViT在全监督和半监督环境下均具有优异的分割性能。代码和数据集可在 https://github.com/HUANGLIZI/LViT 上获得。

2024.01.01_BRAU-Net++

论文：BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation
代码：https://arxiv.org/pdf/2401.00722.pdf

2024.01.09_U-Mamba

论文：U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation arxiv.org/pdf/2401.04722.pdf
代码：bowang-lab/U-Mamba: U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation (github.com)

受状态空间序列模型（SSM）这一新的深度序列模型家族的启发，该模型以其处理长序列的强大能力而闻名，论文设计了一个混合 CNN-SSM 模块，它将卷积层的局部特征提取能力与以下能力集成在一起：用于捕获远程依赖性的 SSM。此外，U-Mamba 具有自我配置机制，无需人工干预即可自动适应各种数据集。

2024.02.04_VM-UNet

论文：VM-UNet: Vision Mamba UNet for Medical Image Segmentation2402.02491.pdf (arxiv.org)
代码：JCruan519/VM-UNet: This is the official code repository for "VM-UNet: Vision Mamba UNet for Medical Image Segmentation".

论文框架包含了：Patch Embedding layer, an encoder, a decoder, a Final Projection layer, and skip connections.

结果

2024.02.05_Swin-UMamba：基于Mamba和ImageNet预训练的医学图像分割模型

论文：Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining 2402.03302.pdf (arxiv.org)
代码：JiarunLiu/Swin-UMamba: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining (github.com)

相比较于U-Mamba，Swin-UMamba在三种医学图像分割任务指标上可以取得平均3.58%的提升。

该篇工作通过实验验证了ImageNet预训练对基于Mamba的医学图像分割模型起到非常重要的作用，在迭代次数不变的情况下最高可为Swin-UMamba带来13.08%的DSC提升。

提出了一种变体网络Swin-UMamba，其仅需要相比于U-Mamba不到1/2的网络参数量和约1/3的FLOPs就能够实现与Swin-UMamba相近的性能。

2024.02.07_Mamba-UNet

论文：Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation2402.05079.pdf (arxiv.org)
代码：JCruan519/VM-UNet: This is the official code repository for "VM-UNet: Vision Mamba UNet for Medical Image Segmentation".

在本论文中，简单介绍了之前论文的VSS块，编码器，解码器，Bottleneck & Skip Connetions。

在本文中作者认为与典型的视觉转换器不同，VSS 模块了位置嵌入。视觉转换器不同，它没有 MLP 结构、所以就能在相同的深度预算内堆叠更密集的区块。

2024.06.25_v2_LKM-UNet

论文：LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation
https://arxiv.org/abs/2403.07332
代码：https://github.com/wjh892521292/LKM-UNet

在临床实践中，医学图像分割提供了有关目标器官或组织轮廓和尺寸的有用信息，有助于改善诊断、分析和治疗。在过去的几年中，卷积神经网络 (CNN) 和 Transformers 主导了这一领域，但它们仍然存在接受域有限或远程建模成本高的问题。Mamba 是一种状态空间序列模型 (SSM)，最近成为具有线性复杂度的远程依赖关系建模的有前途的范例。在本文中，我们介绍了一种用于医学图像分割的大型内核视觉 Mamba U 形网络 (LKM-UNet)。我们的 LKM-UNet 的一个显着特点是它利用了大型 Mamba 内核，与基于小内核的 CNN 和 Transformers 相比，它在局部空间建模方面表现出色，同时与具有二次复杂度的自注意力相比，在全局建模方面保持了卓越的效率。此外，我们设计了一个新颖的分层双向 Mamba 块，以进一步增强 Mamba 对视觉输入的全局和邻域空间建模能力。综合实验证明了使用大尺寸 Mamba 内核实现大感受野的可行性和有效性。

2024.08.05_MambaConvT

论文：Medical Image Classification with a Hybrid SSM Model Based on CNN and Transformer
代码：暂无

CNN 在局部特征提取方面实力雄厚，但在捕捉全局背景方面却存在不足，而 Transformers 擅长全局信息，但可能会忽略细粒度的细节。将 CNN 和 Transformers 集成到混合模型中旨在通过同时进行局部和全局特征提取来弥补这一差距。解决这些问题，论文引入了 MambaConvT 模型，该模型采用状态空间方法。它首先通过多核卷积在本地处理输入特征，从而增强对深度、有判别力的局部细节的提取。接下来，利用深度可分离卷积和二维选择性扫描模块（SS2D）来维持全局感受野并建立长距离连接，从而捕获细粒度特征。然后，该模型结合混合特征进行全面的特征提取，然后进行全局特征建模，以强调全局细节信息并优化特征表示。本文在四个公开数据集和两个私有数据集上对不同算法进行了深入的性能实验。结果表明，MambaConvT 在准确率、精确率、召回率、F1 分数和 AUC 值评分方面均优于最新的分类算法，在医学图像的精确分类中取得了优异的性能。

2024.09.27_Semi-Mamba-UNet

论文：Semi-Mamba-UNet: Pixel-level contrastive and cross-supervised visual Mamba-based UNet for semi-supervised medical image segmentation
代码：https://github.com/ziyangwang007/Mamba-UNet

主要方法

在 U 形分割网络中探索基于 Visual Mamba 的网络块
提出像素级对比学习，利用所有数据进行网络训练
提出像素级交叉监督学习，使两个分割网络能够一起训练

2024.09.29_v5_MedMamba

论文：MEDMAMBA: VISION MAMBA FOR MEDICAL IMAGE CLASSIFICATION
https://arxiv.org/pdf/2403.03849
代码：https://github.com/YubiaoYue/MedMamba

自深度学习时代以来，卷积神经网络 (CNN) 和视觉变换器 (ViT) 得到了广泛的研究，并广泛应用于医学图像分类任务。不幸的是，CNN 在建模长距离依赖关系方面的局限性导致分类性能不佳。相比之下，ViT 受到其自注意力机制的二次计算复杂度的阻碍，使其难以在计算资源有限的现实环境中部署。最近的研究表明，以 Mamba 为代表的状态空间模型 (SSM) 可以有效地建模长距离依赖关系，同时保持线性计算复杂度。受此启发，我们提出了 MedMamba，这是第一个用于广义医学图像分类的 Vision Mamba。论文引入了一种名为 SS-Conv-SSM 的新型混合基本块，它将用于提取局部特征的卷积层与 SSM 捕获长距离依赖关系的能力纯粹地结合起来，旨在有效地对来自不同图像模态的医学图像进行建模。通过采用分组卷积策略和通道改组操作，MedMamba 成功地为高效应用提供了更少的模型参数和更低的计算负担，同时又不牺牲准确性。使用包含十种成像模式和 411,007 张图像的 16 个数据集对 MedMamba 进行了全面评估。实验结果表明，与最先进的方法相比，MedMamba 在大多数任务上都表现出了竞争力。这项工作旨在探索 Vision Mamba 的潜力并为医学图像分类建立新的基线，从而为开发更强大的基于 Mamba 的人工智能算法和医学应用提供宝贵的见解。

参考文献

[1]2024.01.18_VMamba: Visual State Space Model2401.10166.pdf (arxiv.org)

别忘了点赞👍＋关注✨哟~~

http://mp.weixin.qq.com/s?__biz=MzIzODI0MzQ5Mw==&mid=2650903854&idx=4&sn=ad057320dfb76cbc632820bdb541a207

AI Pulse

\x26quot;AI Pulse - AI脉动\x26quot;，探索AI技术前沿，深入解析算法精髓，分享行业应用案例，洞察智能科技未来。欢迎关注，与我们共赴AI学习之旅。

最新文章

NLP | GloVe(带有全局向量的词嵌入) 图文详解及代码

NLP | 自然语言处理经典seq2seq网络BERT详解及代码

NLP | XLNet ：用于语言理解的广义自回归预训练论文详解

数据集调研 | 语音合成,语音识别常见数据集及数据格式详情

Speech | 分割单个/批量音频python实现语音处理代码

Speech | 文本转语音中的声码器(Vocoder)

生成模型 | 代码简单实现生成对抗网络GAN

论文调研 | 一文总览万字语音合成系列基础知识及论文总结

论文调研合集：计算机视觉篇

论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

论文调研 | 室内语义建图(Semantic Image Segmentation)

论文调研 | 医学影像上的图像分类分割模型

NLP | SentenceTransformer将句子进行编码并计算句子语义相似度实战

CV | [顶刊CVPR2024]YOLO-World论文详解

Speech | NaturalSpeech2语音合成论文解析

论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

Speech | 人工智能中语音质量评估方法详解及代码

生成模型 | GAN生成系列论文及代码调研总结

CV | Medical-SAM-Adapter论文详解及项目实现

CV | 室内语义建图(Semantic Image Segmentation)的论文调研

Speech | 提取语音(数据集)的语音特征工具合集数据处理教程

实用篇 | 一文学会使用huggingface🤗

论文调研 | 2010-2024年万字情绪识别(EmotionRecognition)论文总结

数据集 | 基于语音（Speech）/多模态（Multimodal）的情绪识别数据集，格式及下载(图文详情)

API相关 | 一文学会人工智能中API的Flask编写(内含模板)

API相关 | 一文快速构建人工智能前端展示streamlit应用

CV | 手把手教你使用YOLO11训练自己的数据集

环境配置 | 在VSCode配置anaconda环境(图文详情)

CV | 医学影像上的图像分类分割模型调研【更新于20241015】

论文Idea | 人工智能与建筑的交叉领域探索

Mamba：使用选择性状态空间的线性时间序列建模

从银幕到现实：擎天柱机器人即将改变我们的生活

一文快速构建人工智能前端展示streamlit应用

LLM | 一些开源的AI代码生成模型调研及总结

MLLM | 多模态论文调研

TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)

YOLO | 用YOLOv7训练自己的数据集（超详细版）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉