医图论文 Arxiv'24 | TP-UNet:用于医学图像分割的时间提示引导UNet

科技   2024-11-26 13:40   中国香港  

关注下方“PaperAccepted”卡片,每天获取前沿论文解读

论文信息

题目:TP-UNet: Temporal Prompt Guided UNet for Medical Image Segmentation

TP-UNet:用于医学图像分割的时间提示引导UNet

作者:Ranmin Wang, Limin Zhuang, Hongkun Chen, Boyan Xu, 和 Ruichu Cai

原文链接:https://arxiv.org/abs/2411.11305

论文创新点

  1. 时间提示引导学习:作者提出了一种新颖的框架TP-UNet,该框架利用时间提示来指导UNet模型学习医学图像中的时间信息。这是通过将器官构建关系等时间信息整合到分割模型中实现的,以提高分割的准确性。
  2. 语义对齐和模态融合:为了缩小时间提示和图像特征之间的语义差距,作者提出了一个包括语义对齐模态融合的两阶段过程。这一过程通过无监督对比学习和交叉注意力机制,有效地聚合了时间提示的文本表示和图像表示。
  3. 跨注意力机制:在模态融合阶段,作者采用了交叉注意力机制,这允许模型在融合过程中更加关注于相关信息,从而提高了模型对医学图像的理解和分割性能。

摘要

医学图像分割技术的进步得益于深度学习技术的应用,尤其是基于UNet的方法,这些方法利用语义信息来提高分割的准确性。然而,当前基于UNet的医学图像分割方法忽视了扫描图像中器官的顺序。此外,UNet的固有网络结构不提供直接整合时间信息的能力。为了有效地整合时间信息,作者提出了TP-UNet,它利用时间提示,包括器官构建关系,来指导分割UNet模型。具体来说,我们的框架以无监督对比学习为基础的交叉注意力和语义对齐为特点,有效地结合时间提示和图像特征。在两个医学图像分割数据集上的广泛评估表明,TP-UNet达到了最先进的性能。我们的实现将在被接受后开源。

关键字

  • 提示学习
  • 多模态对比学习
  • 医学图像分割

方法

在本节中,我们介绍了TP-UNet模型(如图2所示),它通过设计时间提示模块来解决医学图像分析中时间信息遗忘的问题。此外,我们还利用语义对齐模块来弥合时间提示和图像模态之间的语义差距。这两个关键组件的结合显著提高了TP-UNet在医学图像分割中的性能,使其能够更精确和一致地分割动态图像。

A. 时间提示

时间信息在提高模型分割性能中起着至关重要的作用。我们设计了一套提示来指导模型理解医学图像的时间信息。在这项研究中,时间信息被表示为Nth i /N,表明这些信息被映射到区间[0, 1]。器官的出现概率在这个区间内遵循正态分布,允许模型理解不同时间戳下器官出现的变异概率,从而相应地调整对不同器官的关注。本研究中定义的时间提示模板如下:“这是{一个MRI/一个CT}的{器官},分割周期为{Nth i /N}。”在这里,医学图像的类型和器官可以被选择,而N由切片集的大小决定。在这项研究中,时间提示是自动生成的。在输入TP-UNet之前,基于医生选择的图像类型,使用numpy和pandas库自动创建一组提示。在特定情况下,放射科医生也可以通过拖动选择所需的范围来选择分割的时间戳范围。这允许TP-UNet在推理期间节省大量时间,只生成特定范围切片的提示。为单个切片集生成时间提示的时间少于1ms,这对放射学中的临床应用具有重要意义。

B. 多模态编码器

我们首先定义输入医学图像为I,生成的时间提示为Pt。对于基于文本的时间提示和需要分割的医学图像,我们设计了一个多模态编码器。对于输入的文本模态Pt,我们采用了两种编码方法。第一种方法使用了流行的多模态文本编码器CLIP。虽然CLIP在通用自然语言中表现良好,但直接将其应用于医学文本可能会引入领域差距。因此,我们采用了参数高效微调(PEFT)[10]使用LoRA[11]方法使CLIP更有效地适应我们的任务。我们使用的第二个文本编码器是Electra,这是另一个流行的文本编码器。我们在实验部分比较了这两个编码器的性能。我们对预训练的Electra模型进行了监督微调(SFT)[13]。两个微调的文本编码器都表现出色。对于医学图像模态,我们使用了传统的UNet方法进行分割。我们将UNet提取的低级语义与时间提示整合,以指导模型根据时间信息进行更有效的分割。融合方法的详细信息将在第III-D节中介绍。

C. 语义对齐

在此背景下,我们将编码的图像特征定义为Fm ∈ RB×C×H×W,文本时间提示编码特征Ft ∈ RB×L×D。在模态融合之前,I经过UNet编码器块,而Pt通过文本编码器。由于两个模型的不同网络架构,它们来自不同的语义空间,融合后可能会导致性能下降。因此,在模态融合之前,对Fm和Ft的语义进行对齐变得至关重要。为了实现这一点,我们引入了一个语义对齐模块,旨在将语义相似的Fmi和Fti在批次中更接近,同时将语义不相似的Fmi和非对应的Ftj推得更远。因此,第一个对比损失函数是图像到文本的对比损失,针对第i对:
其中τ ∈ R+表示一个温度参数。第二个损失函数是文本到图像的对比损失,针对第i对:
最终,我们需要优化的损失是:
其中λ ∈ [0, 1]是一个标量权重。通过语义对齐模块,不同模态的语义表示被对齐。这为后续的模态融合奠定了坚实的基础。

D. 模态融合

时间提示对于提高模型的分割性能至关重要。因此,应该更加强调时间提示模态和视觉模态之间的模态融合设计。因此,我们设计了交叉注意力机制,可以表示如下:
其中[;]表示连接操作,F是逐像素的注意力图,dk是缩放因子。F'm和F't是Fm和Ft的投影。WQ、WK和WV是相应的权重矩阵。最后,特征图F与UNet的第一级跳跃连接特征图进行连接。它经过一个卷积层和一个ReLU激活函数,然后通过一个1×1的卷积层生成最终的分割图像。

四、实验

受限于知识能力,本文对原文的理解可能存在偏差。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

深度学习爱好者
分享机器学习、深度学习和Python等知识与原理,每天分享深度学习与计算机视觉领域的经典和最新的论文总结,带读者一起跟踪前言科技!
 最新文章