计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型

文摘 2025-02-06 10:02 福建

Basic Information

英文标题：A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities
中文标题：一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
发表日期：18 November 2024
文章类型：Article
所属期刊：Nature Methods
文章作者：Theodore Zhao | Sheng Wang
文章链接：https://www.nature.com/articles/s41592-024-02499-w

Abstract

Para_01

生物医学图像分析是生物医学发现的基础。
全面的图像分析包括相互依赖的子任务，如分割、检测和识别，这些任务传统上是分开处理的。
在这里，我们提出了BiomedParse，这是一种生物医学基础模型，可以联合进行九种成像模式的分割、检测和识别。
这种联合学习提高了各个任务的准确性，并且使新的应用成为可能，例如通过文本描述分割图像中的所有相关对象。
为了训练BiomedParse，我们创建了一个包含超过600万个图像、分割掩模和文本描述三元组的大规模数据集，利用了现有数据集中伴随的自然语言标签或描述。
我们展示了BiomedParse在九种成像模式的图像分割上优于现有方法，对于具有不规则形状的对象，改进更大。
我们进一步展示了BiomedParse可以同时分割并标记图像中的所有对象。
总之，BiomedParse是一个适用于所有主要成像模式的生物医学图像分析的一站式工具，为高效准确的基于图像的生物医学发现铺平了道路。

Main

Para_01

生物医学图像分析对于生物医学发现至关重要，因为成像是研究从细胞器水平到器官水平的生理学、解剖学和功能的最重要工具之一。
整体图像分析包括多个子任务，如生物医学对象的分割、检测和识别。
分割旨在将图像划分为表示不同对象的段，通常需要用户提供每个感兴趣对象的边界框。
检测旨在识别图像中感兴趣对象的位置。
而识别旨在识别图像中的所有对象。
标准的图像分析方法通常分别处理这些任务，使用专门的工具来完成个别任务。
尽管这些方法表现出色，但这种分离的方法错过了在这些相互依赖的任务之间进行联合学习和推理的机会。

Para_02

例如，许多先前的图像分析工作仅关注分割，从而忽略了来自相互依赖任务的关键语义信息，如元数据和对象类型名称。
这导致了次优分割，同时给用户带来了沉重的负担，因为许多最先进的分割工具要求用户提供一个表示感兴趣对象位置的紧密边界框。
边界框的要求导致了三个限制。
首先，用户必须在图像中手动绘制边界框，这需要领域专业知识来识别目标对象的位置和形状。
其次，边界框通常是矩形的，无法准确表示具有不规则或复杂形状的对象。
第三，基于边界框的方法对于包含大量对象的图像（如分割全幅病理图像中的细胞）来说不具备可扩展性，因为用户需要为每个对象提供一个边界框。

Para_03

本文提出将生物医学图像分析视为图像解析的方法，这是一个统一的框架，可以同时进行分割、检测和识别的学习与推理。
具体而言，我们开发了BiomedParse，这是一种用于图像分析的生物医学基础模型，能够通过利用这三个任务之间的相互依赖性来执行所有三个任务，从而解决传统方法中的关键限制。
特别是，对象检测和识别的联合学习消除了对用户指定边界框的需求，因为分割可以通过使用文本提示中的语义标签来完成。

Para_04

预训练BiomedParse的主要瓶颈是数据。虽然生物医学分割数据集比比皆是，但关于生物医学中的目标检测和识别的先前工作相对较少，更不用说涵盖所有三项任务的数据集。
为了解决这个问题，我们提出了一种新的方法，使用不超过标准分割数据集来预训练BiomedParse。
关键的见解是利用那些数据集附带的现成的自然语言标签或描述，并使用GPT-4将这些杂乱且非结构化的文本与既定的生物医学对象本体进行协调。
这使我们能够构建BiomedParseData，一个包含340万张图像、分割掩码和生物医学对象语义标签三元组以及680万张图像-掩码-描述三元组的生物医学图像分析数据集，数据来自超过100万张图像。
语义标签涵盖了9种成像模式下的82种主要生物医学对象类型。

Para_05

不同于专注于识别边界框内的显著分割边界的分割方法，BiomedParse 学习建模每个对象类的典型形状，从而模仿人类如何感知图像中的对象。
BiomedParse 可以仅使用文本提示（例如"乳腺病理学中的炎性细胞"）来分割图像，而无需任何用户指定的定位，如边界框。
因此，BiomedParse 能更好地识别和分割不规则和复杂形状的对象，这对于传统方法使用矩形边界框来说非常具有挑战性。
此外，BiomedParse 可以识别图像中的所有对象，而不需要任何用户文本提示。

Para_06

我们对BiomedParse进行了大规模研究，评估了它在九种模态下的102,855个图像-掩膜-标签三元组的分割、检测和识别性能。
在分割方面，BiomedParse建立了新的最先进技术成果，优于之前的最佳方法如MedSAM11和SAM10。
此外，仅使用文本提示，BiomedParse比这些先前的方法更具可扩展性，因为这些方法需要用户进行数量级更多的操作来指定特定对象的边界框才能竞争。
我们还证明了BiomedParse可以准确地检测描述不存在于图像中的对象的无效文本提示。
对于不规则形状的对象，BiomedParse在图像分析准确性上实现了更大的提升，达到了0.857的Dice得分，比最好的竞争方法高出39.6%。
在识别方面，我们展示了BiomedParse如何能够准确地分割并标记所有对象而无需任何用户指定的文本提示。
总体而言，我们介绍了一种用于生物医学图像分析的生物医学基础模型，在分割、检测和识别方面表现出色，为基于大规模图像的生物医学发现铺平了道路。

Results

Overview of BiomedParse and BiomedParseData

BiomedParse和BiomedParseData概述

Para_01

为了开发一个能够同时进行分割、检测和识别的模型，我们需要一个涵盖所有这三个任务的监督数据集。据我们所知，不存在这样的数据集。
为此，我们通过结合45个生物医学图像分割数据集，并使用GPT-4为每个分割对象生成规范的语义标签，创建了数据集BiomedParseData。

Para_02

关键见解在于现有的分割数据集通常包含关于被分割对象有价值的语义信息；然而，此类信息通常存在于嘈杂且不一致的自然语言文本描述中，这些描述不符合标准的生物医学本体。
为了解决这一挑战，我们使用GPT-4创建了一个统一的生物医学对象本体，用于图像分析，并将自然语言描述与该本体对齐（方法）。
该本体包括三大类别（组织学、器官和异常），15种元对象类型和82种特定对象类型（图1a）。
由此产生的BiomedParseData包含了340万个独特的图像-掩码-标签三元组，涵盖了九种成像模式和25个解剖部位（图1b和扩展数据图1），代表了一个大规模且多样化的基于语义的生物医学图像分析数据集。

Fig. 1: Overview of BiomedParse and BiomedParseData.

GPT-4构建的本体论展示了用于统一跨数据集的语义概念的对象类型层次结构。
柱状图显示包含该对象类型的图像数量。
柱状图显示BiomedParseData中每种模态的图像-掩码-描述三元组的数量。
CT代表计算机断层扫描；MRI代表磁共振成像；OCT代表光学相干断层扫描。
BiomedParse流程图。BiomedParse将图像和文本提示作为输入，然后输出在提示中指定的对象的分割掩码。
我们的框架不需要图像特定的手动交互，例如边界框或点击。
为了促进图像编码器的语义学习，BiomedParse还引入了一种分类元对象类型的训练目标。
对于在线推理，使用GPT-4通过对象本体解析文本提示为对象类型，该本体也使用BiomedParse输出的元对象类型来缩小候选语义标签。
均匀流形逼近和投影(UMAP)图对比了来自BiomedParse文本编码器（左）和PubMedBERT（右）的不同细胞类型的文本嵌入。
UMAP图对比了来自BiomedParse图像编码器（左）和Focal（右）的不同细胞类型的图像嵌入。

Para_03

为了使BiomedParse更好地处理超出规范语义标签范围的各种文本提示，我们还使用GPT-4为每个语义标签合成同义文本描述，并在训练过程中从中采样（方法和补充图1和2）。这总共产生了680万个图像-掩码-描述三元组。
这总共产生了680万个图像-掩码-描述三元组。

Para_04

我们的方法不使用边界框，而先前的最先进方法如MedSAM和SAM通常需要预设的边界框。
我们考虑了两种提供边界框的情况：oracle边界框（覆盖分割对象的最小矩形边界框）和由Grounding DINO19创建的边界框，这是一种最先进的目标检测方法，可以从对象标签的文本提示生成边界框。
Grounding DINO不执行分割。

Para_05

BiomedParse 采用了一种模块化设计，该设计基于 SEEM 架构20，包括图像编码器（用于编码输入图像）、文本编码器（用于编码文本提示）、掩码解码器（用于输出分割掩码）和元对象分类器（用于与目标语义联合训练图像编码器）（图1c）。
图像编码器和文本编码器分别使用了最先进的 Focal21 和 PubMedBERT22 进行初始化。

Para_06

在评估图像分析结果之前，我们首先检查了来自BiomedParse的嵌入质量。
具体来说，我们将BiomedParse的文本嵌入与PubMedBERT的文本嵌入进行了比较。
我们发现，BiomedParse的嵌入能够更好地区分细粒度的细胞类型，其轮廓系数为0.89，远高于使用PubMedBERT的嵌入（图1d和扩展数据图2）。
我们还比较了BiomedParse的图像嵌入与Focal的图像嵌入。
观察到BiomedParse的嵌入在病理学数据集上更能预测肿瘤恶性程度（图1e）。
由于BiomedParse的文本和图像嵌入表现优异，这促使我们使用BiomedParseData来训练BiomedParse，增强了我们对BiomedParse作为生物医学图像分析有效方法的信心。

Accurate and scalable segmentation across nine modalities

在九种模态下进行准确且可扩展的分割

Para_01

我们首先使用包含九种成像模式的102,855个测试实例（图像-掩膜-标签三元组）的预留集对BiomedParse进行了生物医学图像分割评估（图2a和扩展数据图2和3）。
我们观察到，即使在输入是最佳竞争方法MedSAM提供的oracle边界框的情况下，BiomedParse也获得了最高的Dice分数（成对t检验P值<10^-4）。
在MedSAM或SAM使用由Grounding DINO生成的边界框的更现实的设置下，当进行端到端的生物医学目标检测和分割时，BiomedParse的优势更加明显，尤其是在病理学和计算机断层扫描（CT）等更具挑战性的模态中，这些模态中存在大量不规则形状的对象。
通过在特定领域的数据集上训练，BiomedParse和MedSAM都优于通用领域的方法如SAM。
我们进一步观察到，BiomedParse在细胞分割方面优于其他基于文本提示的方法（补充图3和扩展数据图4），包括SEEM20、SegVol24和SAT25，以及专门针对分割的任务特定方法CellViT26（补充图4）。
此外，BiomedParse还优于Swin UNETR27（广泛使用的监督方法）、nnU-Net28和DeepLabV3+29（补充图5和6）以及通用生物医学分割模型UniverSeg30（补充图7）。
即使SAM和MedSAM都利用oracle边界框进行训练和推理，BiomedParse还优于在BiomedParseData上连续训练的SAM和在BiomedParseData上连续训练的MedSAM（扩展数据图5）。

Fig. 2: Comparison on large-scale biomedical image segmentation datasets.

比较我们方法与竞争方法在九种模态下的102,855个测试实例（图像-掩膜-标签三元组）之间的Dice分数的箱线图。
MedSAM和SAM需要边界框作为输入。
我们考虑两种设置：oracle边界框（覆盖金标准掩膜的最小边界框）；由最先进的基于文本的定位模型Grounding DINO从文本提示生成的边界框。
每个模态类别包含多种对象类型。
每种对象类型被聚合为实例中位数以显示在图表中。
图表中的n表示相应模态中的测试实例数量。
BiomedParse优于最佳竞争方法的显著性水平（双侧配对t检验）为P < 1 × 10^-2；P < 1 × 10^-3；和***P < 1 × 10^-4。
BiomedParse与MedSAM在oracle边界框提示下的精确P值为：All的P < 1.86 × 10^-12；CT的P < 2.49 × 10^-3；MRI的P < 3.33 × 10^-4；Pathology的P < 3.30 × 10^-16。
b，仅使用顶部文本提示比较BiomedParse和真实分割结果的九个例子。
c，比较我们方法与竞争方法在一个包含42张图像的细胞分割测试集上的Dice分数的箱线图。
BiomedParse只需要一次用户操作（文本提示‘结肠病理学中的腺体结构’）。
相比之下，为了获得具有竞争力的结果，MedSAM和SAM需要430次操作（每个单独的细胞一个边界框）。
BiomedParse优于MedSAM的显著性水平（单侧配对t检验）为P < 1 × 10^-2；P < 1 × 10^-3；和***P < 1 × 10^-4。
精确P值为：每个数据集的P < 1.74 × 10^-13；每个图像的P < 1.71 × 10^-7。
d，对比BiomedParse和MedSAM的分割结果以及BiomedParse使用的文本提示和MedSAM使用的边界框的五个例子。
e，良性肿瘤图像（顶部）和恶性肿瘤图像（底部）之间BiomedParse与MedSAM的比较。
BiomedParse在具有不规则形状的异常细胞上相对于MedSAM的改进更为明显。
f，比较有效文本提示和无效文本提示之间的双侧K-S检验P值的箱线图。
BiomedParse学会拒绝描述图像中不存在的对象类型的无效文本提示（小P值）。
我们总共评估了4,887个无效提示和22,355个有效提示。
g，显示我们的方法在检测不同K-S检验P值截止点下的无效文本提示的精度和召回率的图。
h，比较BiomedParse和Grounding DINO在检测无效描述方面的接收者操作特征曲线下面积（AUROC）的散点图。
i，比较BiomedParse和Grounding DINO在检测无效描述方面的F1分数的散点图。
在所有箱线图中，每个箱子显示分布的四分位数，中心为中位数，最小值为第一四分位数，最大值为第三四分位数。
须须延伸到最近四分位数之外2×四分位距（IQR）范围内的最远数据点。
超出须须的数据点显示为离群值。

Para_02

我们展示了比较BiomedParse分割和地面实况的多个成像模式的例子，证明了BiomedParse的普适性（图2b）。
我们进一步比较了MedSAM11创建的一个包含50项任务的基准测试中的BiomedParse，并再次观察到BiomedParse表现最佳，即使与MedSAM使用理想边界框的情况相比（配对t检验P值<10^-2），进一步证明了BiomedParse的优越性（扩展数据图6）。
除了更准确外，BiomedParse相比于基于边界框的方法更具可扩展性，这源于文本提示在相同成像模态或解剖部位图像中的普适性，从而消除了用户在为每个对象提供紧密边界框时所需的繁琐操作。
为了证明这一点，我们比较了BiomedParse、先前最先进的方法MedSAM和SAM在一个包含42张结肠病理图像的细胞分割数据集上的表现（图2c）。
使用单一文本提示‘结肠病理图像中的腺体结构’，BiomedParse达到了0.942的中位Dice得分，而没有紧密边界框作为输入时，SAM和MedSAM的中位Dice得分均未超过0.75。
事实上，为了使用单一文本提示获得与BiomedParse相当的竞争结果，MedSAM需要用户提供这些图像中430个细胞的紧密边界框（图2c）。
总体而言，我们的结果显示，基于边界框的方法在不规则形状的对象上准确性较低，如肿瘤和异常细胞（图2d，e）。
相比之下，BiomedParse仍然能够对这类对象进行高度准确的分割。
BiomedParse的可扩展性和准确性预示着它在实际应用中的实用性。

Para_03

BiomedParse 还可以通过使用 Kolmogorov–Smirnov (K–S) 检验计算 P 值来检测无效的文本提示（例如，在胸部 X 光图像中识别脑组织的请求）。
从初步实验中，我们发现无效的文本提示的平均 K–S 检验 P 值小于 10^-3，而有效的则具有大于 0.1 的平均 K–S 检验 P 值（图 2f）。
使用 0.01 作为 P 值截断值，BiomedParse 在检测无效输入时可以实现约 0.93 的精确度和 1.00 的召回率（图 2g）。
在无效输入检测方面，BiomedParse 显著优于 Grounding DINO（图 2h,i）。
这使得 BiomedParse 可以通过枚举本体中的候选对象类型来进行识别，跳过无效的文本提示，并为有效的对象标签生成分割掩码。

Accurate segmentation of irregular-shaped objects

不规则形状物体的精确分割

Para_01

在前一部分，我们展示了BiomedParse在总体上优于基于边界框的方法。
此外，由于BiomedParse学习了单个对象类型的语义表示，我们假设它相对于以前的方法在分割不规则形状的对象时优势将更加明显。
为了验证这一点，我们在训练期间未见过的测试图像上展示了BiomedParse学习到的每个对象类型的聚合注意力图，并观察到它们忠实地反映了对象形状，包括许多不规则形状的对象（图3a）。
接下来，我们定义了三个指标来评估一个对象的规则性，包括凸包比（对象大小与最紧致凸包大小之比）、框比（对象大小与最紧致矩形大小之比）和转动惯量（改变旋转速度的难度）（方法部分）。
我们发现，BiomedParse相对于SAM和MedSAM的改进与这些指标强相关（平均相关系数0.870），表明我们的方法在不规则形状对象上的改进更大（图3b-d和扩展数据图7）。
我们还发现，对于较小尺寸的对象，BiomedParse取得了更大的改进（补充图8）。
图3e展示了几个比较BiomedParse和MedSAM在检测不规则形状对象方面的例子。
此外，我们显示BiomedParseData具有比MedSAM使用的数据集更高的平均对象不规则性（图3f-g和补充图9），并且在BiomedParseData上BiomedParse的改进也更大（图3h），突显了在检测更具有挑战性的不规则形状对象时，联合学习对象语义所带来的好处。

Fig. 3: Evaluation on detecting irregular-shaped objects.

注意力图显示了对不规则形状物体的文本提示，表明BiomedParse学习了相当忠实的典型形状表示。
US代表超声。
散点图比较了BiomedParse相比MedSAM在凸性比率（b）、框比率（c）和反向旋转惯性（d）方面形状规则性的Dice分数改进情况。x轴上的较小数值意味着平均更高的不规则性。
每个点代表一个对象类型。
我们展示了回归图，并将95%的置信区间作为误差带。
P值显示了双侧Wald检验结果。
e，六个例子对比了BiomedParse和MedSAM在检测不规则形状物体方面的表现。图表从最不规则的物体开始（左），到最规则的物体结束（右）。
f，g，比较了BiomedParseData与MedSAM使用的基准数据集在凸性比率（f）和框比率（g）方面的表现。
BiomedParseData更忠实地反映了现实世界中不规则形状物体的挑战。
h，箱形图比较了BiomedParse和竞争方法在BiomedParseData及MedSAM使用的基准数据集上的表现。
BiomedParse在包含更多多样图像和更多不规则形状物体的BiomedParseData上表现出更大的改进。
对象类型的数量如下：MedSAM基准数据集中n=50，BiomedParseData中n=112。
BiomedParse显著优于竞争方法的水平，使用双侧配对t检验分别是**P<1×10−2和****P<1×10−4。
精确的P值分别为：MedSAM基准数据集中的P<2.98×10−3，BiomedParseData中的P<1.86×10−12。
每个箱形图显示分布的四分位数，其中心为中位数，最小值为第一四分位数，最大值为第三四分位数。
须线延伸至最近的四分位数外2×IQR范围内的最远数据点。
超出须线的数据点显示为异常值。

Object recognition using the segmentation ontology

使用分割本体进行对象识别

Para_01

在我们的最终分析中，我们探索了BiomedParse在目标识别方面的能力，该能力旨在同时对图像中的每个对象进行分割和标记。
提供一个图像以及它的模态和解剖部位，BiomedParse针对该模态和解剖部位的本体中所有候选对象类型，迭代地执行检测和分割。
分割出的掩码被聚合在一起，以确保相邻像素之间的空间一致性（方法部分）。
这使得BiomedParse能够准确地进行目标识别，如图4a所示，在该图中，对象被准确地识别和分割，平均Dice得分为0.94。

Fig. 4: Evaluation on object recognition.

六个示例展示了我们方法在物体识别方面得到的结果。物体识别能够识别并分割图像中的所有物体，而无需用户提供任何输入提示。
b-d，散点图比较了BiomedParse和Grounding DINO在识别图像中呈现的物体方面的F1（b）、精确度（c）和召回率（d）得分。
e，在不同数量的物体图像中，比较BiomedParse和Grounding DINO在物体识别方面的中位F1得分。
我们展示了带有95％置信区间作为误差带的折线图。
f，箱形图比较了BiomedParse和MedSAM/SAM（使用Grounding DINO生成的边界框）在端到端物体识别（包括分割）方面与各种模态的关系。
每个箱子显示分布的四分位数，其中心为中位数，最小值为第一四分位数，最大值为第三四分位数。
须触须延伸至最近四分位数2×IQR范围内的最远数据点。
超出触须的数据点显示为异常值。
每个模态类别包含具有不同物体集的图像实例。
每个物体集被聚合为实例中位数以显示在图表中。
每种模态类别中的物体集数量如下：CT有66个，MRI有25个，X射线有4个，病理学有20个，超声波有2个，眼底摄影有1个。
BiomedParse相对于竞争方法表现更优的显著性水平，双侧配对t检验为P < 1 × 10−2；P < 1 × 10−3；和***P < 1 × 10−4。
BiomedParse和MedSAM之间比较的精确P值为：CT的P < 1.96 × 10−57，MRI的P < 4.16 × 10−22，X射线的P < 3.43 × 10−6，病理学的P < 9.42 × 10−20，超声波的P < 2.19 × 10−2。
g，比较BiomedParse和MedSAM/SAM（使用Grounding DINO生成的边界框）在端到端物体识别（包括分割）方面与图像中不同物体数量的关系。
我们展示了带有95％置信区间作为误差带的折线图。

Para_02

Grounding DINO19 是最先进的通用领域目标识别系统，但它不进行分割，这使得 Grounding DINO 和 BiomedParse 无法直接比较。
我们通过将目标识别任务转化为二分类问题来规避这个问题：给定一个输入图像和一个候选对象类型，模型确定该图像是否包含至少一个给定类型的对象。
在这个分类表述中，我们观察到 BiomedParse 在精确度、召回率和 F1 值上分别比 Grounding DINO 提高了 25.0%，87.9% 和 74.5%（图 4b-d）。
当图像中存在更多对象时，BiomedParse 相对于 Grounding DINO 的改进更为显著（图 4e）。

Para_03

接下来，我们使用加权平均Dice评分评估了BiomedParse在端到端对象识别中的性能。
与使用Grounding DINO进行识别和边界框生成的MedSAM和SAM相比，BiomedParse的表现远远超过了它们（图4f和补充图10）。
类似于我们在对象识别上的观察，当图像中有更多的对象时，BiomedParse相对于比较方法的改进更为显著（图4g）。
这些结果表明BiomedParse能够识别图像中的所有对象，为整体图像分析提供了有效的工具。

Para_04

最后，我们在普罗维登斯健康系统的真实数据上评估了BiomedParse（图5）。
我们通过要求BiomedParse识别并分割病理切片中的所有相关细胞来执行对象识别。
我们发现，BiomedParse的注释正确地识别了免疫细胞和癌细胞的区域，并且与病理学家的注释高度一致。
虽然病理学家倾向于关注特定类型的细胞区域并提供粗粒度的注释，但BiomedParse可以精确地标记在本体中指定的所有相关细胞。
这表明BiomedParse在现实世界的临床应用中可能有助于减轻临床医生的负担。

Fig. 5: Evaluation of BiomedParse on real-world cell segmentation examples.

a–f，来自普罗维登斯健康系统的匿名病理图像用于比较病理学家的标注（a,c,e）和BiomedParse的标注（b,d,f）。
我们展示了病理学家的确切输出，包括对象名称（例如，淋巴细胞和基质）和对象位置，以及BiomedParse的确切输出。
BiomedParse不需要任何用户提供的文本提示，并且可以识别和分割包含在本体中的任何类型的细胞。

Discussion

Para_01

我们介绍了BiomedParse，一个基于图像解析的生物医学基础模型，用于图像分析。
同时，我们还介绍了一个大规模的图像解析数据集BiomedParseData，其中包含340万个图像-掩膜-标签三元组和680万个图像-掩膜-描述三元组。
与现有的生物医学基础模型不同，这些模型要求用户为每个对象提供一个紧密的边界框来进行分割，BiomedParse无需边界框，并且可以一次性进行整体图像分析，包括分割、检测和识别。
我们在九种模态下的102,855个测试图像-掩膜-标签三元组上进行了大规模评估。
BiomedParse达到了新的最先进水平，显著优于之前的最佳方法，如MedSAM和SAM，即使这些方法配备了作为输入的最优边界框。
当对象具有不规则形状或图像包含大量对象时，改进更为明显。
我们还在普罗维登斯健康系统提供的以前未见过的真实世界数据上验证了BiomedParse的准确性和可扩展性。
虽然BiomedParse在大多数成像模态上的性能与最先进的专用模型nnU-Net相当（补充图6所示），但BiomedParse仅使用一个通用模型就实现了如此有前景的性能，而nnU-Net则需要106个单独训练的模型。
总体而言，BiomedParse提供了一种准确、可扩展且稳健的生物医学图像分析工具，可以广泛应用于各种模态和应用，为基于图像的生物医学发现铺平了道路。

Para_02

图像分析领域在过去十年见证了快速的发展。
自2015年问世以来，U-Net架构通过监督训练彻底改变了像素级预测的自动领域31,32。
这一开创性的工作为各种网络结构奠定了基础，从高级卷积网络设计到视觉变换器模型27,28,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47。
图像检测和识别方面的最新进展，例如Faster R-CNN48和YOLOv4（参考文献49）等目标检测框架的发展，增强了高精度识别和定位解剖特征的能力。
SAM的引入标志着一个里程碑，展示了该模型利用点和边界框等视觉提示作为指导，能够将分割推广到以前未见过的类别10。

Para_03

尽管在通用领域取得了进步，但针对大量生物医学图像分析进行器官或组织类别的广泛适应的研究仍然相对较少。
MedSAM 是一个显著的例外，通过在大量的生物医学分割数据集上继续训练将 SAM 应用于医学领域，从而在生物医学图像分析方面建立了最先进的技术；然而，与 SAM 一样，MedSAM 仅专注于分割，因此忽略了来自检测和识别等关联任务的有价值语义信息。
因此，SAM 和 MedSAM 都要求用户提供密集的输入，例如每个对象的紧密边界框来进行分割，这对于具有不规则形状的对象来说很难扩展且非常具有挑战性。
因此，最近的工作利用了其他类型的用户操作来替代基于边界框的方法，例如用其他类型的操作来替换边界框或者无需边界框的分割方法。

Para_04

我们提出了BiomedParse来克服由于边界框带来的这些挑战。
通过在图像解析的统一框架中联合学习分割、检测和识别，并使用GPT-4来协调嘈杂的对象描述，BiomedParse能够获得新的能力，例如仅使用文本提示就能识别和分割感兴趣的物体，以及通过利用分割本体来识别图像中的所有物体。
这标志着向在生物医学和现实世界临床应用中扩展整体图像分析迈出了重要一步。
如果用户心中有特定的目标物体类型，BiomedParse可以仅基于文本提示进行物体检测和分割，该提示指定了所需的物体类型（图2b）。
或者，无需任何用户文本提示，BiomedParse也可以用来识别所有可用的物体类型。
在幕后，BiomedParse枚举所有可能的物体类型，以便同时执行物体检测和分割。

Para_05

一个特别令人兴奋的研究领域是生物医学图像分析在细胞图像中的应用，例如苏木精和伊红染色以及多重免疫荧光（MxIF）成像。
这有助于阐明单个细胞的大小、形状、纹理和空间关系，可能对新兴应用产生潜在影响，如建模肿瘤微环境以实现精准免疫治疗。
标准方法侧重于实例分割，通过为单个细胞分配唯一标识符来促进下游分析。
Hover-net 在解决分割任务中的语义广度和细胞分类限制方面代表了一个显著的进步，通过将细胞分类纳入分割过程中；然而，传统方法通常依赖于边界框检测，并且难以应对多样的细胞形态和不规则形状。
最近的努力旨在通过采用更精细的表示方式和适应生物学成像的多分辨率特性来克服这些挑战。
CellViT 是一个标志性的例子，它利用SAM的编码器骨干来改善层次表示，特别是在核分割方面。
BiomedParse 可以通过在一个多样化的图像模式和细胞类型上进行联合训练，从而一次性实现细胞分割和识别，并提高泛化能力，为这一系列令人激动的研究工作做出贡献。

Para_06

虽然BiomedParse在统一生物医学图像分析方面展示了有希望的潜力，但仍有许多增长领域。
首先，尽管BiomedParse在识别给定对象类型图像中的相关像素方面已经表现出高精度（例如Dice得分），但默认情况下它无法区分单个对象实例，并且需要后处理来分离实例掩码，这在某些应用中（如细胞计数）非常重要。
其次，虽然BiomedParse已经可以从文本提示单独进行图像分析，但它目前不支持像GPT-4那样以对话风格与用户进行交互。
为了应对这一问题，我们计划开发一个对话系统，可以更好地适应复杂的用户需求。
最后，BiomedParse目前通过将非二维（2D）模态（如CT和磁共振成像MRI）简化为2D切片来处理，从而未能利用原始模态中的空间和时间信息。
在未来的工作中，我们需要扩展BiomedParse以超越二维图像切片，以便促进三维（3D）分割、检测和识别。

Methods

Details of BiomedParseData

BiomedParseData的详细信息

Para_01

我们创建了一个大规模的生物医学图像解析数据集称为BiomedParseData，在这个数据集中每个图象都关联了一组对象。
每个对象都标注了分割掩码和一个规范化的语义标签，该标签指定了从生物医学对象本体中的一种对象类型。
此外，每个语义标签都有一组同义的文本描述用于模型训练。
BiomedParseData是由合成来自九种成像模式的45个公开可用的生物医学分割数据集而成的，包含110万张图象、340万个图象-掩码-标签三元组以及680万个图象-掩码-描述三元组（图1b和补充表1）。
为了确保BiomedParseData的质量，我们制定了严格的纳入标准：每张图象必须手动或半手动地逐像素分割，并且可以从数据集描述中为每个分割的对象获得名称。
对于诸如CT和MRI等三维成像模式，我们将每个体积预处理成平面二维切片，以便与其他模式保持一致。

Para_02

为了模型训练和评估，我们将每个原始数据集随机拆分为80%的训练集和20%的测试集。
来自每个三维体积的数据切片总是出现在相同的拆分中，以防止信息泄露。

Para_03

为了协调噪声对象描述中的自然语言变化，我们使用GPT-4来协助创建一个三层生物医学对象本体（图1a）。
基础层包含三个广泛的语义类别：器官、异常和组织学。
接下来的一层包含15个元对象类型（例如，器官中的心脏和异常中的肿瘤）。
最精细的一层包含82个对象类型，如左心室和增强型肿瘤。
具体来说，我们首先使用GPT-4生成了一个初步的生物医学图像分析层次结构，并为各个对象类型提出候选名称，这些名称来自源数据集中的各种任务和文本描述。
然后我们手动审查了这些候选者，并使用Athena64将它们映射到标准化的观察健康数据科学与信息学（OHDSI）词汇表。
其中大多数候选者通过在OHDSI词汇表中搜索被映射到15个元对象类型。
对于一些无法映射到元对象类型或元对象类型在OHDSI词汇表中不存在的情况，我们要求GPT-4建议适当的元对象类型名称并进行映射。
我们引入‘其他’作为万能类别。
为了未来的扩展，我们预计前两层相对稳定，而我们的框架可以轻松地在细粒度层中纳入新的对象类型。

Para_04

为了增强BiomedParse处理各种文本提示的鲁棒性，我们还使用了GPT-4为每个语义标签生成同义的文本描述，这与其他最近的努力一致，这些努力使用GPT-4进行合成数据生成。
具体来说，我们通过将统一的图像分析任务表述为‘[对象类型]在[解剖部位][成像方式]’来采用模板化规范，例如‘脑部MRI中的增强肿瘤’（扩展数据图1）。
然后，我们通过使用GPT-4生成专业语言的变化（补充图1），以及为每个组成部分引入同义变化（补充图2），向这些描述中引入语言多样性。
我们手动检查了所有用于引导GPT-4生成变化的模板，以避免错误和幻觉。
我们定义错误和幻觉为：（1）不提及目标对象；（2）仅描述图像；（3）提及另一个目标；（4）描述另一种图像成像方式。
我们发现GPT-4提供的描述通常是正确的，仅有不到10%的模板从最初的提示中被移除。
在训练过程中，提示的数量取决于对象类型，最小提示数量为1，平均提示数量为8.28，中位数提示数量为7，最大提示数量为36。
我们随机抽取一个提示用于训练。
对于推理阶段，我们为每个数据点仅使用一个提示，并使用原始描述作为提示。
我们比较了在推理阶段改变文本提示与基于原始描述使用固定提示之间的性能差异，未观察到显著的性能差异（补充图11）。
在每次训练周期中，我们为每幅图像-掩码对随机抽取一个描述，使BiomedParse能够理解各种文本提示。

Details of BiomedParse

BiomedParse的详细信息

Para_01

现有的图像分析方法通常只关注分割。
它们通常期望空间输入提示，例如对象的边界框或草图来分割对象，并专注于学习空间嵌入，例如边界框坐标。

Para_02

相反，BiomedParse遵循SEEM20并专注于学习文本提示。
具体来说，BiomedParse采用模块化设计，包括图像编码器、文本编码器、掩码解码器和元对象分类器（图1c）。
我们从SEEM初始化了模型，每个模块将在下面详细描述。

Para_03

BiomedParse的输入是一张图像和一个文本提示，它们分别传递给图像编码器和文本编码器。
文本提示指定了图像中用于分割和检测的对象类型。
图像编码器处理高分辨率图像，并输出下采样的嵌入。
我们提供了Focal21和SAM-ViT10两种骨干架构的选择。
文本编码器处理用户提供的提示，并生成语言嵌入。
我们提供了使用预训练的生物医学语言模型PubMedBERT22或从头开始训练一个Transformer的选择。
BiomedParse的基础版本采用Focal作为图像编码器，并且文本编码器Transformer完全在BiomedParseData上训练。

Para_04

掩码解码器输出的分割掩码与原始图像大小相同，每个像素有一个介于0和1之间的概率，表示该像素属于文本提示中标记对象的可能性。
元对象分类器包括来自图像和文本提示的输入，并输出对象语义。
我们遵循SEEM20和X-Decoder68构建分割解码器头部。
解码器是一个变换器，交叉关注图像和文本嵌入，并逐渐将图像特征上采样回高分辨率像素。
在最后一层，像素嵌入的注意力点积生成分割掩码。

Details of model training

模型训练的详细信息

Para_01

BiomedParse的训练集中在分词和定位文本上。因此，在训练过程中最小化以下损失函数的线性组合：

Para_02

其中 c 代表使用交叉熵损失（CE）的元概念分类，m 代表使用二元交叉熵和 Dice 损失的掩码预测。损失的公式如下：

Para_03

其中 y 是真实元概念的一维热向量，c = 1, ⋯, C，而 (\hat{y"}) 是预测的元概念概率分布。mp 是像素 p ∈ ({\mathcal{P"}}) 的真实二进制掩码，而 ({\hat{m"}}_{p"}) 是预测的像素概率。我们遵循 SEEM20，并在训练期间附加视觉采样器损失和其他辅助损失，以实现交互式空间细化，我们参考原始论文以获取更多细节。对于 BiomedParse 训练，我们为这三个损失分配相等的权重。
我们遵循 SEEM20，并在训练期间附加视觉采样器损失和其他辅助损失，以实现交互式空间细化，我们参考原始论文以获取更多细节。

Para_04

我们从预训练的SEEM模型初始化了BiomedParse。
因此，我们遵循SEEM论文中的确切超参数设置，进行基于文本提示的分割继续训练。
具体来说，我们将学习率固定为10−5，并训练20个周期。
为了训练BiomedParse，我们使用了16个NVIDIA A100-SXM4-40GB GPU，持续时间为58小时。
我们使用四个NVIDIA RTX A6000 GPU进行了推理评估。
使用单个NVIDIA RTX A6000 GPU进行推理的时间是每个数据点0.17秒。
进行推理所需的最低硬件需求是一个带有16 GB内存的V100 GPU。
在对象识别任务中，目标选择和掩码聚合阶段的平均后处理时间分别为0.11秒和0.07秒。

Mixed dataset training

混合数据集训练

错误！！！ - 待补充 [ul]- In each iteration i, we aggregate a batch from K mini-batches ({b}{1}^{i},\cdots ,,{b}{K}^{i}). For each mini-batch ({b}{k}^{i}), we randomly select dataset ({{\mathcal{D}}}{m}) for m = 1, ⋯, M with probability pm and sample the mini-batch without replacement. - Concatenate all mini-batches ({B}^{i}=[{b}{1}^{i},\cdots ,,{b}{K}^{i}]). - Perform training step with batch Bi.

Para_02

我们可以灵活地通过采样概率 pm 控制来自所有数据集的训练数据分布。
由于数据集之间的大小差异可能很大，我们定义了一个参数化的概率分布。

Para_03

当 λ = 1 时，我们按数据集的大小比例采样小批量，因此来自任何数据集的每个样本都有相等的机会被选中。
缺点是训练将被巨大的数据集淹没，而忽略了较小但同样重要的数据集。

Para_04

在另一个极端情况下，当λ = 0时，每个数据集在每次迭代中有相等的机会被选择。这确保了任务具有良好的多样性，但那些包含非常少样本的小型数据集将被重复大量时间，导致对训练样本的过拟合。
另一方面，大型数据集在有限数量的周期内永远不会被用尽。

Para_05

作为两个极端之间的平衡，我们在最初的五个周期内将 λ 设为 1/2，然后在接下来的十个周期内将 λ 设为 1，最后五个周期再次将 λ 设为 1/2。

Implementation of competing methods

竞争方法的实现

Para_01

我们比较了BiomedParse与最先进的分割模型SAM和MedSAM。我们认识到精确的边界框作为模型输入的重要性，因此我们在两种设置下评估了竞争方法：（1）使用黄金标准边界框，以及（2）利用最先进的目标检测模型Grounding DINO预测的边界框提示来提供边界框。
对于第一种设置，我们遵循先前的工作，通过从黄金标准掩码中导出边界框，确保每个框紧密包围掩码，并保持10像素的一致边距。
在第二种设置中，我们遵循Grounding DINO的推理流程，在有多个边界框预测时，选择置信度最高的一个。
这种文本到框再到分割的方法遵循了先前工作的想法。
除了比较当前基于SAM的最先进模型外，我们还评估了BiomedParse与（1）既定的医学分割方法nnU-Net，这是一种端到端的U-Net架构，采用纯粹的卷积模块和全监督学习，无需提示即可适应各种医学成像模式，以及（2）通用领域分割架构DeeplabV3+，该架构使用ResNet-101作为架构主干，具有空洞空间金字塔池化模块，用于解码和上采样瓶颈特征，具有多种视野。
为了在比较中保持一致性，所有输入图像都被调整为1,024 × 1,024像素。
我们使用相同的BiomedParseData测试集对所有竞争方法进行评估，并使用每个任务的中位Dice得分来量化性能。
我们认识到竞争方法的原始评估中的训练-测试分割不同，BiomedParseData测试集可能包含用于训练其他模型的例子。
我们注意到，MedSAM、SAM和Grounding DINO的实现被用于推理目的而未进行微调。
至于特定任务的nnU-Net模型和DeepLabV3+模型，我们在二维中训练了这两种网络架构，每种模态每种目标都有一个二进制分割模型，每种方法各有95个特定任务的模型。
我们采用了nnU-Net内置的自动超参数配置。
对于Deeplabv3网络，我们在50个周期内训练所有模型，批量大小为4，学习率为0.0003，权重衰减为0.0001，使用AdamW优化器。

Para_02

为了继续训练MedSAM和SAM实验，我们提供了用于训练BiomedParse的整个训练数据集。
在训练和推理过程中，MedSAM和SAM得到了最优边界框的支持。
我们分别固定了SAM和MedSAM的主干，并各自进一步训练了十个周期，分别得到了SAM-FT和MedSAM-FT。
在评估UniverSeg30时，我们为模型提供了16张支持图像作为示例，如原始论文所示为最佳支持图像数量。
对于CellViT26，我们使用PanNuke15数据集作为评估数据集，其中包含跨组织类型的细胞分割。
我们使用CT成像的Amos22（参考文献16）数据集，将BiomedParse与SegVol24、SAT25和Swin UNETR27进行了比较，因为SegVol专用于CT，而SAT专用于CT、MRI和正电子发射断层扫描。
SegVol和SAT都对SAM架构进行了三维医学体积的适应，并利用解剖区域的文本输入以及边界框和点的视觉提示。
基于Swin变换器的Swin UNETR是CT分割任务中的广泛使用的基准，并在BraTS挑战赛中取得了顶级表现。
我们使用了最强可用的模型权重，并使用了各篇论文中指定的相同文本提示。

Detecting invalid textual description

检测无效的文字描述

Para_01

BiomedParse 设计上可以输入任何图像和文本提示；然而，文本提示可能是无效的，指定了给定图像中不存在的对象66,72。
例如，在皮肤镜图像中请求识别和分割‘左心室’应该被模型判定为无效。
检测并拒绝无效的文本提示对于防止幻觉至关重要73。

Para_02

原则上，掩码解码器应该对无效的文字提示输出低像素概率；然而，考虑到像素数量庞大，一些像素可能会偶然获得相对较高的输出概率，从而导致错误的对象检测和分割结果。
为了解决这个问题，我们观察到虽然单个像素可能会出现噪声高的概率，但整体分布与有效对象中的像素分布会有显著不同。
因此，我们可以从训练数据中估计像素概率的分布，然后估计测试图像中的像素概率是否有可能来自相同的分布。

Para_03

具体来说，在BiomedParse训练之后，对于每种对象类型，我们计算了包含该类型对象的每个训练图像的对象像素概率的平均值，并对所有这些概率拟合了一个贝塔分布。
在测试阶段，对于给定的图像，我们计算了预测对象分割中该对象类型的平均对象像素概率，并使用单样本K-S检验74计算P值。
较小的P值表示预测的对象分割不太可能是正确的。
为了提高鲁棒性，除了像素概率外，我们还考虑了RGB值。
特别是，对于每个颜色通道（R、G和B），我们同样从训练中的有效对象的平均值拟合了一个贝塔分布，并计算了测试图像中预测对象分割的相应P值。
总体而言，我们将这四个测试视为独立的，并将其乘积作为汇总P值。

Para_04

通过这种方式，我们可以为任何给定的文本提示和图像获得一个汇总P值。
为了确定一个汇总P值阈值来区分有效的输入和无效的输入，我们通过混合不同模态的数据集创建了一个无效数据集。
例如，我们在某个模态下（例如MRI中的心脏解剖结构）选取一个目标，并应用相应的文本提示，如果该目标从未出现在另一种模态（例如内窥镜检查）中，则识别该目标。
现在，在内窥镜数据集中，针对心脏解剖结构的文本提示是无效的，这为我们提供了有效示例（原始模态下的提示）和无效示例（替代模态下的提示）。
我们将有效文本提示（对于给定图像）和无效文本提示的分布绘制出来（图2f）。
为了与Grounding DINO进行比较，我们使用它在给定文本提示和图像的情况下用于无效输入检测的置信分数。

Attention map conditioned on the textual description

基于文本描述的关注图

错误！！！ - 待补充

Details of experiments on irregular-shaped objects

不规则物体实验的详细信息

错误！！！ - 待补充

Details of experiments on object recognition

对象识别实验的详细信息

Para_01

我们建立了一个分层结构，将所有支持的目标置于一个模态下的一个解剖位置。
给定任何图像，例如腹部CT，我们会遍历该分支下所有可用的目标t = 1, ⋯, m，这些目标是互斥的，并按顺序提示BiomedParse模型得到m个掩码概率预测ρ1, ⋯, ρm。
有可能预测出的掩码之间会有重叠。
挑战在于如何在特定图像中选择正确的目标集以及如何确定所选目标的正确掩码区域以避免重叠。
我们使用了两阶段的方法进行对象识别，包括目标选择阶段和掩码聚合阶段。
在目标选择阶段，我们首先计算每个目标t的原始掩码面积At。
然后，我们遍历像素点。
对于每个像素点(i, j)，我们对那些像素概率ρijt > 0.5的目标进行排名。
分配给像素点(i, j)的目标是Tij=argmaxρijt'。
经过这一轮像素分配后，每个目标t的最终面积是At~ = ∑i,j1Tij=t。
那些最终面积At~ > λAt的目标被选为目标，其中λ是用户指定的阈值。
在掩码聚合阶段，我们完全丢弃所有未被选中的目标掩码，然后再次遍历像素点。
对于每个像素点，最可能的目标t（ρijt > 0.5）被分配。
对于所有选定的目标，如果预测概率ρijt≤0.5，则该像素点留为空白。

Data availability

Para_01

BiomedParseData 可以在 https://aka.ms/biomedparse-release 处获取。包含病理学家标注和 BiomedParse 标注的三个真实病理图像可以在 https://aka.ms/biomedparse-release 处获取。
包含病理学家标注和 BiomedParse 标注的三个真实病理图像可以在 https://aka.ms/biomedparse-release 处获取。

Code availability

Para_01

BiomedParse 可以在 https://aka.ms/biomedparse-release 访问，包括模型权重和相关源代码。
我们在方法部分包含详细的方法和实施步骤，以便于独立复制。

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

推荐账号，扫码关注