Nature Methods | 跨九种模态的生物医学对象的联合分割、检测和识别的基础模型

文摘   2024-11-22 09:03   天津  


关注+标星 邂逅每一篇经典


投稿或寻求报道:qunfunction@163.com


01






工作速览



生物医学图像分析对生物医学发现至关重要。整体图像分析包括分割、检测和识别等相互依赖的子任务,这些任务通常由传统方法分别处理。
2024年11月13日,华盛顿大学联合微软研究院Nature Methods发表题为A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities的研究论文该研究提出了BiomedParse,这是一个可以跨九种成像模态联合进行分割、检测和识别的生物医学基础模型。这种联合学习提高了各个任务的准确性,并使得新的应用成为可能,例如通过文本描述在图像中分割所有相关对象。为了训练BiomedParse,作者创建了一个大型数据集,包含超过600万张图像、分割掩码和文本描述的三元组,利用现有数据集中伴随的自然语言标签或描述。
        作者展示了BiomedParse在九种成像模态的图像分割上超越了现有方法,对于形状不规则的对象改进更大。作者进一步展示了BiomedParse可以同时对图像中的所有对象进行分割和标记。总之,BiomedParse是一个涵盖所有主要成像模态的生物医学图像分析的全能工具,为高效准确的基于图像的生物医学发现铺平了道路。

02








匠心独运


由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。


图1:BiomedParse和BiomedParseData的概览。a. 由GPT-4构建的本体论展示了用于统一跨数据集语义概念的对象类型的层次结构。条形图显示包含该类型对象的图像数量。b. 条形图显示BiomedParseData中每种模态的图像-掩码-描述三元组数量。CT代表计算机断层扫描;MRI代表磁共振成像;OCT代表光学相干断层扫描。c. BiomedParse的工作流程图。BiomedParse接收图像和文本提示作为输入,然后输出提示中指定对象的分割掩码。在作者的框架中不需要图像特定的手动交互,如边界框或点击。为了促进图像编码器的语义学习,BiomedParse还包含了一个学习目标,用于对元对象类型进行分类。在线推理时,GPT-4用于将文本提示解析为对象类型,使用对象本体论,这也使用BiomedParse输出的元对象类型来缩小候选语义标签的范围。d. 统一流形近似和投影(UMAP)图,对比了BiomedParse文本编码器(左)和PubMedBERT(右)派生的不同细胞类型的文本嵌入。e. UMAP图,对比了BiomedParse图像编码器(左)和Focal(右)派生的不同细胞类型的图像嵌入。

03






卓越性能



图2:在大规模生物医学图像分割数据集上的比较。a. 箱线图比较了作者的方法与竞争方法在九种模态的102,855个测试实例(图像-掩码-标签三元组)上的Dice得分。MedSAM和SAM需要边界框作为输入。作者考虑了两种设置:神谕边界框(覆盖金标准掩码的最小边界框);由基于文本的Grounding DINO(一种最先进的基于文本的定位模型)从文本提示生成的边界框。每个模态类别包含多个对象类型。每个对象类型被聚合为实例中位数以在图中显示。图中的n表示相应模态中的测试实例数量。BiomedParse优于最佳竞争方法的显著性水平,采用双尾配对t检验,分别为**P < 1 × 10^-2; *P < 1 × 10^-3; 和 ****P < 1 × 10^-4。BiomedParse与MedSAM在神谕框提示下的比较的确切P值分别为:所有模态P < 1.86 × 10^-12;CT模态P < 2.49 × 10^-3;MRI模态P < 3.33 × 10^-4;病理学模态P < 3.30 × 10^-16。b. 九个例子比较了BiomedParse和真实标注的分割结果,仅使用顶部的文本提示。c. 箱线图比较了作者的方法与竞争方法在n=42张图像的细胞分割测试集上的Dice得分。BiomedParse仅需要一个用户操作(文本提示“结肠病理中的腺体结构”)。相比之下,为了获得竞争结果,MedSAM和SAM需要430次操作(每个单独细胞一个边界框)。BiomedParse优于MedSAM的显著性水平,采用单尾配对t检验,分别为P < 1 × 10^-2; ***P < 1 × 10^-3; 和 ****P < 1 × 10^-4。确切的P值分别为:每个数据集P < 1.74 × 10^-13;每张图像P < 1.71 × 10^-7。d. 五个例子对比了BiomedParse和MedSAM的分割结果,以及BiomedParse使用的文本提示和MedSAM使用的边界框。e. BiomedParse与MedSAM在良性肿瘤图像(顶部)和恶性肿瘤图像(底部)上的比较。BiomedParse在形状不规则的异常细胞上的改进更为明显。f. 箱线图比较了有效文本提示和无效文本提示之间的双尾K-S检验P值。BiomedParse学会了拒绝描述图像中不存在的对象类型的无效文本提示(小P值)。总共评估了4,887个无效提示和22,355个有效提示。g. 显示了作者的方法在不同K-S检验P值截断下检测无效文本提示的精确度和召回率的图表。h,i. 散点图比较了BiomedParse和Grounding DINO在检测无效描述上的接收者操作特征曲线下面积(AUROC)(h)和F1(i)。在所有箱线图中,每个箱子显示了分布的四分位数,中心为中位数,最小值为第一四分位数,最大值为第三四分位数。触须延伸到最远的数据点,该数据点位于最近四分位数的2 × 四分位距(IQR)内。位于触须外的数据点显示为异常值。

参考:

Zhao, T., Gu, Y., Yang, J. et al. A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02499-w



关注+标星 邂逅每一篇经典


投稿或寻求报道:qunfunction@163.com




群函数
分享前沿的开源技术以及有趣的科普知识。敬请关注!
 最新文章