论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

文摘 2024-10-29 14:38 马来西亚

👆点击上方名片关注哟👆

本文主要是SAM（Segment Anything Model）在医学影像上的模型调研.

算法模型

2023.04_SAM

论文：2018.08.05v_Segment Anything
论文地址：https://arxiv.org/pdf/2304.02643
代码地址：https://github.com/facebookresearch/segment-anything

论文推出了 Segment Anything (SA) 项目：一种用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们的高效模型，构建了迄今为止最大的分割数据集，在 1100 万张获得许可且尊重隐私的图像上包含超过 10 亿个掩码。该模型经过设计和训练，可立即使用，因此它可以将零样本转移到新的图像分布和任务中。在众多任务上评估了它的能力，发现它的零样本性能令人印象深刻 - 通常可以与之前的完全监督结果相媲美甚至更胜一筹。

2023.04.02v1_SAM-Adapter

论文：SAM Fails to Segment Anything? – SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More
论文地址：https://arxiv.org/pdf/2304.09148

两个 MLP 和一个激活函数组成的Adapter。解码器中不输入任何提示。

2023.04_Medical-SAM-Adapter

论文：Adapting Segment Anything Model for Medical Image Segmentation
论文地址：https://arxiv.org/pdf/2304.12620
论文代码：https://github.com/MedicineToken/Medical-SAM-Adapter/tree/main

对医疗图像分割任务的 SAM 架构进行微调，插入 Adapter 模块。

2023.06.01_DeSAM

论文：DeSAM: Decoupling Segment Anything Model for Generalizable Medical Image Segmentation
论文地址：https://arxiv.org/pdf/2306.00499

论文主要有以下创新点：

修改 SAM 的mask decoder，以解耦mask生成和提示嵌入，同时利用预先训练的权重
提示相关的 IoU 模块(PRIM)，包括一个交叉注意变压器层和一个 IoU 预测头，丢弃掩码预测头，从交叉注意变压器层提取掩码嵌入
提示不变掩码模块(PIMM)，CNN结果输出mask

2023.06.10_AutoSAM

论文：AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt Encoder通过重载提示编码器使 SAM 适应医学图像
论文地址：https://arxiv.org/pdf/2306.06370

论文主要有以下创新点：

对同一输入图像进行操作的编码器替换了SAM的条件，在多个医学图像和视频基准上获得最先进的结果。
这种新编码器通过冻结的 SAM 提供的梯度进行训练，并提供轻量级的分割解决方案，还学习通过浅层反卷积网络将其解码为掩码。

2023.06.23_How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images

论文地址：https://arxiv.org/pdf/2306.13731
代码地址：xhu248/AutoSAM: finetuning SAM with non-promptable decoder on medical images (github.com)

基于SAM的基础上，如下图所示，对于SAM解码器，除了prompt Token 和图像嵌入之外，还有可训练的输出 Token ，包括用于生成Mask的Mask Token 和用于预测Mask置信度的IoU Token 。

Mask Token 包括前景Mask Token 和背景Mask Token 。输出 Token 与prompt Token 连接，作者将其命名为辅助嵌入。在双向注意力模块中，每一层都进行自注意力和交叉注意力。关于交叉注意力，它包括从 Token 到图像嵌入，以及从图像嵌入到 Token （作为密钥和值）。然后，通过2个转置的conv层对图像嵌入进行放大，并选择前景Mask Token 与放大的嵌入进行逐点乘积以获得Mask。

2023.07.17_MedSAM

论文：Segment Anything in Medical Images
论文地址：https://arxiv.org/pdf/2304.12306

MedSAM 的目标是创建一种用于细分各种医疗图像的通用工具。为了使 SAM 适应医学图像分割，需要选择适当的用户 Prompt 和网络组件进行微调。SAM 的网络架构包含三个主要组件：图像编码器、提示编码器和掩码解码器。

MedSAM 选择微调掩码解码器组件。图像编码器基于 VIT，它在 SAM 中具有最大的计算开销。为了最大限度地降低计算成本，冻结了图像编码器。提示编码器对边界框的位置信息进行编码，可以从 SAM 中预先训练的边界框编码器中重复使用，因此也会冻结该组件。其余需要微调的部分是掩码解码器。

此外，预先计算了所有训练图像的图像嵌入，以避免重复计算每个提示的图像嵌入，这显著提高了训练效率。掩码解码器只需要生成一个掩码而不是三个掩码，因为在大多数情况下，边界框提示符可以清楚地指定预期的分割目标。

大规模医学图像分割数据集。使用基于边界框的提示。

2023.07.18v2_A medical image annotation framework based on large vision model

论文地址：https://arxiv.org/pdf/2307.05617

提出了俩个子模型

SAM assist：根据提示有效的提高下游医学分割细分任务的泛化能力。

SAM auto：通过自动生成输入Prompt来加快标注过程。

2023.08.07_AdaptiveSAM

论文：AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation
论文地址：https://arxiv.org/pdf/2308.03726
代码地址：https://github.com/JayParanjape/biastuning

使用Text信息，使用Text Affine补上调整SAM中文本没有医学信息的缺点，image encoder微调对偏置进行微调。

2023.08.12_Polyp-SAM++

论文：Polyp-SAM++: Can A Text Guided SAM Perform Better for Polyp Segmentation?
论文地址：https://arxiv.org/pdf/2308.06623
论文代码：https://github.com/RisabBiswas/Polyp-SAM-PlusPlus

Meta 发布了 SAM（Segment Anything Model），这是一种通用的分割模型。SAM 在包括医学图像分割在内的各种分割任务中都表现出了良好的效果。在医学图像分割领域，息肉分割占有重要地位，因此创建一个稳健而精确的模型非常具有挑战性。息肉分割是确保更好地诊断和治愈结直肠癌的一项基本任务。因此，在本研究中，将了解文本提示辅助 SAM Polyp-SAM++ 如何更好地利用 SAM，使用文本提示进行稳健且更精确的息肉分割。在基准数据集上评估文本引导的 SAM 在息肉分割任务上的表现。还将比较文本引导的 SAM 和无提示的 SAM 的结果。通过这项研究，希望推动息肉分割领域的发展，并激发更多有趣的研究。

补充文本提示，使用grounded-DINO

2023.08.15_Self-Prompting Large Vision Models for Few-Shot Medical Image Segmentation

论文地址：https://arxiv.org/pdf/2308.07624v1
代码地址：https://github.com/PeterYYZhang/few-shot-self-prompt-SAM

利用简单的像素分类器自提示 SAM 模型，采取图像嵌入提供边界框和点

2023.08.17_SurgicalSAM

论文：SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation
论文地址：https://arxiv.org/pdf/2308.08746‍

论文创新点如下:

提出了一个轻量级的基于原型的类提示编码器，直接生成提示嵌入类原型，并消除了显式提示的使用
进一步提出了对比原型学习，利用对比损失来获得有区别的学习类原型

2023.08.30_SAM-Med2d

论文：SAM-Med2D
论文地址：https://arxiv.org/pdf/2308.16184
论文代码：https://github.com/OpenGVLab/SAM-Med2D

任何事物分割模型 (SAM) 代表了自然图像分割领域最先进的研究进展，通过输入提示（例如点和边界框）取得了令人印象深刻的结果。然而，我们的评估和最近的研究表明，直接将预训练的 SAM 应用于医学图像分割并不能产生令人满意的性能。这种限制主要源于自然图像和医学图像之间存在巨大的领域差距。为了弥合这一差距，我们引入了 SAM-Med2D，这是将 SAM 应用于医学 2D 图像的最全面的研究。具体来说，我们首先从公共和私人数据集中收集和整理大约 460 万张图像和 1970 万张蒙版，构建了一个涵盖各种模态和对象的大规模医学图像分割数据集。然后，我们在这个数据集上全面微调 SAM 并将其转换为 SAM-Med2D。与以前仅采用边界框或点提示作为交互式分割方法的方法不同，我们通过涉及边界框、点和蒙版的更全面的提示将 SAM 应用于医学图像分割。我们还对原始 SAM 的编码器和解码器进行了微调，以获得性能良好的 SAM-Med2D，从而形成迄今为止最全面的微调策略。最后，我们进行了全面的评估和分析，以研究 SAM-Med2D 在各种模式、解剖结构和器官的医学图像分割中的性能。同时，我们在 MICCAI 2023 挑战赛的 9 个数据集上验证了 SAM-Med2D 的泛化能力。总体而言，与 SAM 相比，我们的方法表现出明显优越的性能和泛化能力。

对于 2D 数据集，仅检查像素值是否在 [0, 255] 范围内，并将所有处理后的图像以 PNG 格式保存以保持数据加载的一致性；

2023.09_SAMUS

论文：Beyond Adapting SAM: Towards End-to-End Ultrasound Image Segmentation via Auto Prompting
论文地址：https://arxiv.org/pdf/2309.06824
论文代码：https://github.com/xianlin7/SAMUS

在 SAM 的基础上，引入了一个并行的 CNN 分支

提出位置Adapter和特征Adapter，以适应 SAM 从自然到医学领域

2023.10.03_ Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image Segmentation

论文：Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image Segmentation
论文地址：https://arxiv.org/pdf/2310.02381

任何分割模型 (SAM) 是一个强大的基础模型，它为自然图像分割带来了革命性的进步。然而，在描绘生物医学图像的复杂结构时，其性能仍然不是最优的，因为在单个图像中，多个器官和组织相互交织。在本研究中，论文引入了一个新颖的微调框架，该框架利用 SAM 捆绑和处理每个图像的多个提示的能力，并寻求提高 SAM 在医学图像中的性能。首先整理了一个医学图像数据集，该数据集由各种器官病变的 CT 扫描组成，每个扫描分别有两个器官和病变的注释。然后，通过批处理从地面实况掩码生成的两个边界框作为参考，在框架内微调了 SAM 的掩码解码器。引入的分批提示策略不仅解决了医学图像中经常发现的固有复杂性和模糊性，而且在应用于广泛的分割任务时还可以显著提高性能指标。

2023.11.13v2_MediViSTA-SAM

论文：MediViSTA-SAM: Zero-shot Medical Video Analysis with Spatio-temporal SAM Adaptation
论文地址：https://arxiv.org/pdf/2309.13539
论文代码：https://github.com/kimsekeun/MediViSTA-SAM

论文对比了之前的SAM结构及相关论文，介绍了第一项关于在视频分割上调整SAM的研究，称为MediViSTA-SAM，这是一种专为医学视频分割而设计的新方法。

论文给定视频数据，MediViSTA 时空适配器通过跨帧注意力机制捕获长距离和短距离时间注意力，有效地约束了其将前一帧视频作为参考，同时也有效地考虑了空间信息。

通过使用 U 形编码器和改进的掩码解码器来处理不同大小的物体，从而实现了多尺度融合。

[ECCV2024]2024.07.31_CC_SAM

论文：CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation
论文地址：https://arxiv.org/pdf/2408.00181
代码地址：暂无

任何分割模型 (SAM) 在自然图像分割领域取得了显著成功，但其在医学成像领域的部署却遇到了挑战。具体而言，该模型在处理低对比度、模糊边界、复杂形态和小尺寸物体的医学图像时会遇到困难。为了应对这些挑战并提高 SAM 在医学领域的性能，论文进行了全面修改。首先，将冻结的卷积神经网络 (CNN) 分支作为图像编码器，通过新颖的变分注意融合模块与 SAM 的原始视觉变换器 (ViT) 编码器协同工作。这种集成增强了模型捕获局部空间信息的能力，这在医学图像中通常至关重要。此外，为了进一步优化 SAM 以用于医学成像，论文在 ViT 分支中引入了特征和位置适配器，从而改进了编码器的表示。论文发现，与当前用于微调 SAM 进行超声医学分割的提示策略相比，使用文本描述作为 SAM 的文本提示有助于显著提高性能。利用 ChatGPT 的自然语言理解功能，我们生成提示，为 SAM 提供上下文信息和指导，使其能够更好地理解超声医学图像的细微差别并提高其分割准确性。论文的方法整体上代表了在使通用图像分割模型在医学领域更具适应性和效率方面迈出的重大一步。

2024.09.14.v3_SAM-Med3d

论文：SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images
论文地址：https://arxiv.org/pdf/2310.15161
论文代码：https://github.com/uni-medical/SAM-Med3D

现有的体积医学图像分割模型通常是针对特定任务的，擅长特定目标但难以推广到解剖结构或模态。这种限制限制了它们更广泛的临床应用。在本文中，论文介绍了 SAM-Med3D 用于体积医学图像的通用分割。只需给定几个 3D 提示点，SAM-Med3D 就可以准确地分割各种模态中的各种解剖结构和病变。为此，从公共来源和许可的私人数据集的混合中收集并处理了一个大规模 3D 医学图像数据集 SA-Med3D-140K。该数据集包括 22K 张 3D 图像和 143K 个相应的 3D 蒙版。然后使用两阶段程序在该数据集上训练 SAM-Med3D（一种以完全可学习的 3D 结构为特征的可提示分割模型），并且在可见和不可见的分割目标上均表现出色。我们在 16 个数据集上全面评估了 SAM-Med3D，这些数据集涵盖了各种医疗场景，包括不同的解剖结构、模态、目标以及零样本迁移到新/未见过的任务。评估显示了 SAM-Med3D 的效率和功效，以及其作为预训练模型在各种下游任务中的良好应用前景。我们的方法表明，可以利用大量医疗资源为各种潜在应用开发通用医疗 AI。

对于 3D 数据集，作者们将每个体积的强度值标准化到 [0, 255] 范围，并沿着 x、y、z 轴提取所有切片图像及其对应的掩码；

相关论文

When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation

论文地址：https://arxiv.org/pdf/2304.08506

学习在不使用大规模样本的情况下进行分割是人类与生俱来的能力。最近，Segment Anything 模型 (SAM) 执行了重要的零样本图像分割，引起了计算机视觉社区的广泛关注。在这里，从提示、数据分辨率、阶段等方面研究了 SAM 在医学图像分析方面的能力，尤其是多相肝肿瘤分割 (MPLiTS)。实验结果表明，SAM 与预期性能之间可能存在很大差距。幸运的是，定性结果表明 SAM 是交互式医学图像分割社区的强大注释工具。

2023.04.20_Accuracy of Segment-Anything Model (SAM) in Medical Image Segmentation Tasks

论文地址：https://ar5iv.labs.arxiv.org/html/2304.09324

论文概述了关于医疗图像数据和一切相关分割算法，对12 个不同的数据集上对 SAM 与其他分割网络在医学图像分割方面的性能进行了比较研究。

结果表明，未进行医学图像训练的SAM对各种医学图像的泛化能力有限。

2024.01.07_ Segment Anything Model for Medical Image Segmentation: Current Applications and Future Directions

由于提示本身的灵活性，基础模型已成为自然语言处理和计算机视觉领域的主导力量。最近推出的分割任何模型 (SAM) 标志着提示驱动范式显著扩展到图像分割领域，从而引入了大量以前未开发的功能。然而，鉴于自然图像和医学图像之间存在很大区别，其应用于医学图像分割的可行性仍不确定。在这项工作中，我们全面概述了最近旨在将 SAM 的功效扩展到医学图像分割任务的努力，包括经验基准测试和方法调整。此外，我们还探索了 SAM 在医学图像分割中的作用的未来研究方向的潜在途径。虽然到目前为止，将 SAM 直接应用于医学图像分割并不能在多模态和多目标医学数据集上产生令人满意的性能，但从这些努力中获得的许多见解为塑造医学图像分析领域基础模型的轨迹提供了宝贵的指导。

对于之前基于SAM模型的介绍及总结

想要了解更多内容，可在小程序搜索🔍AI Pulse,获取更多最新内容。

http://mp.weixin.qq.com/s?__biz=MzIzODI0MzQ5Mw==&mid=2650903795&idx=1&sn=a333b3a37418f452462ffc34a3fa2e79

AI Pulse

\x26quot;AI Pulse - AI脉动\x26quot;，探索AI技术前沿，深入解析算法精髓，分享行业应用案例，洞察智能科技未来。欢迎关注，与我们共赴AI学习之旅。