基于大型视觉和语言模型的提示引导病理分割PFPs

文摘   2024-09-30 19:19   天津  

关注+标星,邂逅每一篇经典!


文章摘要

视觉基础模型最近在医学图像分析中受到了关注。其零样本学习能力加速了人工智能的部署,并增强了临床应用的泛化能力。然而,病理图像的分割特别关注分割目标的灵活性。例如,在全切片图像(WSI)上单击一次可能表示一个细胞、一个功能单元或层,为分割任务增加了复杂性。当前的模型主要预测潜在结果,但缺乏医生输入所需的灵活性在本文中,作者探索了通过引入各种任务提示并通过大型语言模型(LLM)与传统任务标记一起增强分割模型灵活性的潜力。贡献有四个方面:(1)构建了一个计算效率高的流程,使用微调的语言提示来指导灵活的多类分割;(2)比较了固定提示与自由文本的分割性能;(3)设计了一个多任务肾脏病理分割数据集及其相应的各种自由文本提示;以及(4)在肾脏病理数据集上评估了方法,在推理期间评估其对新案例的适应能力。

学术地址:

https://arxiv.org/pdf/2407.09979

代码地址:

未开源

前世今生

在病理学领域,对各种组织区域、功能单元和单个细胞的准确图像分析对于疾病诊断、治疗计划和研究探索至关重要。精确可靠的图像分析帮助病理学家识别异常,了解疾病进展,并制定有效的治疗策略。随着深度学习技术的快速发展,提出了许多多类分割模型来增强病理图像分析。这些模型旨在将图像分割成多个预定义的类别,每个类别代表不同类型的组织或细胞结构。

大多数现有的分割模型基于传统的多类分割方法,这些方法依赖于提前定义一个固定的类别数量。由于传统模型通常使用多个通道或多头架构来处理不同的类别,导致内存消耗高,尤其是在处理大量类别时,这会增加计算需求和资源使用。

在临床实践中,病理学家的需求通常与这些传统模型提供的能力不同。病理学家可能更感兴趣的是标注特定区域内的特定单元进行详细的统计分析,而不是要求分割病理图像中的整个区域。这种针对性方法允许对与特定疾病或研究问题相关的组织和细胞结构有更细微的理解。

最近,引入了包含空间提示(如边界框和点)的基础模型来指导分割过程。它们提供了一种更灵活、更互动的图像分割方法。然而,这些空间提示有时可能不清晰或含糊,特别是在医学成像中的病理学背景下。病理图像通常包含小的、多样化的结构,具有复杂的关系,这要求分割方法具有更高的精度和适应性。

例如,考虑图1中描绘的场景。当使用单个点作为分割提示时,可能不清楚分割目标是点中心的细胞还是小管。当病理学家对更具体的任务感兴趣时,复杂性会增加,例如,通过单个点识别的特定小管内的所有细胞进行分割。这些复杂的要求突出了需要先进的分割技术以提供更高的灵活性和准确性,以满足病理学医学成像的特定需求。

在这种情况下,语言提示提供了额外的帮助,以更准确地描述目标。例如,在图1中,当与语言提示结合以识别核或小管的对象时,病理学家可以提供灵活但清晰的请求。与简单的空间提示一起,这种方法确保了精确和针对性的分割,提高了分析的准确性和有用性。

图1. 问题定义:对于病理图像,小的、多样化的结构及其复杂的关系要求图像分割具有更高的灵活性,这可能是当前分割方法无法满足的。有时,没有语言提示,分割目标可能是含糊不清的。

大型语言模型(LLMs)的发展正在蓬勃发展,这在自然语言处理和理解方面取得了重大进展。像GPT-4、BERT和Llama这样的模型已经彻底改变了机器翻译、情感分析、文本摘要和会话代理等应用。它们生成类似人类文本和理解复杂语言细微差别的能力为增强人机交互开辟了新的可能性。

受到这些进展的启发,作者提出利用LLMs来指导使用语言的分割,显著增强传统分割模型的灵活性。

虽然以前的模型如SEEM和LiSA在自然图像领域提出了语言引导的分割。它们都是通过大量的配对自然图像和文本数据进行训练的,但由于病理图像分割需要特定的专业知识,训练的网络并未成功。目标是开发一个更有效的流程,该流程利用基础模型的预训练权重,并且可以在相对较小的数据集上进行微调,使其对医学图像分析更易访问和负担得起。通过将语言提示与空间线索整合,旨在提高分割模型的可解释性和可用性,从而实现更准确的诊断、更好的治疗计划和有洞察力的研究结果。

这项工作的贡献可以总结如下

• 介绍了一个流程,该流程使用EfficientSAM[5]作为骨干。这个流程结合了TinyLlama-1.1B(通过LoRA微调)的自由文本嵌入和点的空间嵌入作为提示,以指导多类和多任务肾脏病理图像分割。

• 对使用自由文本提示和两种固定ID嵌入策略在指导分割过程中的使用进行了比较。

• 设计了一个多任务和多类分割数据集,以及使用公共多类肾脏病理分割数据集的相应各种自由文本提示。

• 在肾脏病理数据集上评估了方法,评估了其在推理期间处理新分割案例的能力。

匠心独运

图2. 工作的思路:与仅使用空间注释相比,添加自由文本可以更清晰地准确描述分割目标。在这项工作中,模拟了一个多类和多任务的肾脏病理数据集。在肾脏病理图像分析中,多个类别的单元是必不可少的,例如近曲小管、远曲小管、肾小球、包膜、细胞核等。对于每个类别,可以有不同的分割任务。这张图展示了为工作准备的单元类别和任务。该方法研究了通过自然语言提示和基于点的方法控制分割模型的有效性,强调了这些提示与传统固定任务ID相比在灵活性方面的增强。

图3. 提出的流程:这张图展示了使用自由文本和点作为分割提示的流程。下半部分说明了分割的骨干部分,而上半部分展示了自由文本提示的嵌入是如何生成的,并在三个阶段整合到分割骨干中的。可训练的模块和冻结的模块分别用火焰和冰图标突出显示

卓越性能

总结展望

在这项工作中,作者设计了一个语言引导的病理图像分割模型,并在肾脏病理数据集上进行了多类和多任务分割的实验,随后进行了定量评估。实验表明,与独特且固定的任务编码相比,语言引导的分割提供了更大的多样性和灵活性,有效地处理了未见过的案例。通过使用LoRA进行微调,确保了模型有效地理解了特定于肾脏病理的分割提示。

由于数据和计算资源有限,没有进行大规模的实验然而,初步的探索已经显示出有希望的结果,表明该模型的有效性和未来发展的潜力。

参考:

https://arxiv.org/pdf/2407.09979


关注+标星,邂逅每一篇经典!

群函数
分享前沿的开源技术以及有趣的科普知识。敬请关注!
 最新文章