01
工作速览
02
匠心独运
图1:BiomedParse和BiomedParseData的概览。a. 由GPT-4构建的本体论展示了用于统一跨数据集语义概念的对象类型的层次结构。条形图显示包含该类型对象的图像数量。b. 条形图显示BiomedParseData中每种模态的图像-掩码-描述三元组数量。CT代表计算机断层扫描;MRI代表磁共振成像;OCT代表光学相干断层扫描。c. BiomedParse的工作流程图。BiomedParse接收图像和文本提示作为输入,然后输出提示中指定对象的分割掩码。在作者的框架中不需要图像特定的手动交互,如边界框或点击。为了促进图像编码器的语义学习,BiomedParse还包含了一个学习目标,用于对元对象类型进行分类。在线推理时,GPT-4用于将文本提示解析为对象类型,使用对象本体论,这也使用BiomedParse输出的元对象类型来缩小候选语义标签的范围。d. 统一流形近似和投影(UMAP)图,对比了BiomedParse文本编码器(左)和PubMedBERT(右)派生的不同细胞类型的文本嵌入。e. UMAP图,对比了BiomedParse图像编码器(左)和Focal(右)派生的不同细胞类型的图像嵌入。
03
卓越性能
图2:在大规模生物医学图像分割数据集上的比较。a. 箱线图比较了作者的方法与竞争方法在九种模态的102,855个测试实例(图像-掩码-标签三元组)上的Dice得分。MedSAM和SAM需要边界框作为输入。作者考虑了两种设置:神谕边界框(覆盖金标准掩码的最小边界框);由基于文本的Grounding DINO(一种最先进的基于文本的定位模型)从文本提示生成的边界框。每个模态类别包含多个对象类型。每个对象类型被聚合为实例中位数以在图中显示。图中的n表示相应模态中的测试实例数量。BiomedParse优于最佳竞争方法的显著性水平,采用双尾配对t检验,分别为**P < 1 × 10^-2; *P < 1 × 10^-3; 和 ****P < 1 × 10^-4。BiomedParse与MedSAM在神谕框提示下的比较的确切P值分别为:所有模态P < 1.86 × 10^-12;CT模态P < 2.49 × 10^-3;MRI模态P < 3.33 × 10^-4;病理学模态P < 3.30 × 10^-16。b. 九个例子比较了BiomedParse和真实标注的分割结果,仅使用顶部的文本提示。c. 箱线图比较了作者的方法与竞争方法在n=42张图像的细胞分割测试集上的Dice得分。BiomedParse仅需要一个用户操作(文本提示“结肠病理中的腺体结构”)。相比之下,为了获得竞争结果,MedSAM和SAM需要430次操作(每个单独细胞一个边界框)。BiomedParse优于MedSAM的显著性水平,采用单尾配对t检验,分别为P < 1 × 10^-2; ***P < 1 × 10^-3; 和 ****P < 1 × 10^-4。确切的P值分别为:每个数据集P < 1.74 × 10^-13;每张图像P < 1.71 × 10^-7。d. 五个例子对比了BiomedParse和MedSAM的分割结果,以及BiomedParse使用的文本提示和MedSAM使用的边界框。e. BiomedParse与MedSAM在良性肿瘤图像(顶部)和恶性肿瘤图像(底部)上的比较。BiomedParse在形状不规则的异常细胞上的改进更为明显。f. 箱线图比较了有效文本提示和无效文本提示之间的双尾K-S检验P值。BiomedParse学会了拒绝描述图像中不存在的对象类型的无效文本提示(小P值)。总共评估了4,887个无效提示和22,355个有效提示。g. 显示了作者的方法在不同K-S检验P值截断下检测无效文本提示的精确度和召回率的图表。h,i. 散点图比较了BiomedParse和Grounding DINO在检测无效描述上的接收者操作特征曲线下面积(AUROC)(h)和F1(i)。在所有箱线图中,每个箱子显示了分布的四分位数,中心为中位数,最小值为第一四分位数,最大值为第三四分位数。触须延伸到最远的数据点,该数据点位于最近四分位数的2 × 四分位距(IQR)内。位于触须外的数据点显示为异常值。
参考:
Zhao, T., Gu, Y., Yang, J. et al. A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02499-w
关注+标星 邂逅每一篇经典