顶刊MIA'24 | 用于OCT图像分割的双坐标交叉注意力Transformer

科技   2024-10-23 10:25   中国香港  

点击下方“ReadingPapers”卡片,每天获取顶刊论文解读

论文信息

题目:DCCAT: Dual-Coordinate Cross-Attention Transformer for thrombus segmentation on coronary OCT

DCCAT:用于冠状动脉OCT上血栓分割的双坐标交叉注意力Transformer

作者:Miao Chu, Giovanni Luigi De Maria, Ruobing Dai, Stefano Benenati, Wei Yu, Jiaxin Zhong, Rafail Kotronias, Jason Walsh, Stefano Andreaggi, Vittorio Zuccarelli, Jason Chai, Keith Channon, Adrian Banning, Shengxian Tu

论文创新点

  1. 双坐标交叉注意力变换器(DCCAT):本文首次提出了一种新颖的双坐标交叉注意力变换器网络,用于冠状动脉OCT图像上血栓的自动分割。
  2. 自动血栓分割的实现:作者实现了冠状动脉OCT上血栓的首次自动分割,这是在该领域的一个创新进步。
  3. 笛卡尔和极坐标的融合:通过编码和融合笛卡尔和极坐标的成像特征,模型能够更准确地捕捉血栓的特征。
  4. 长距离对应关系的利用:利用多头交叉注意力机制对来自两种坐标的特征进行长距离对应关系的建模,增强了特征的表达能力。
  5. 数据效率:实验结果显示,DCCAT仅用总数据的10%就实现了竞争性能,这突出了模型的数据效率
  6. 对几何变换的鲁棒性:通过额外的极坐标图像输入,模型展示了对几何变换的鲁棒性,这在医学图像分析中尤为重要。
  7. 易于集成的设计:所提出的双坐标交叉注意力设计可以轻松地集成到其他开发的Transformer模型中,以提高性能

摘要

急性冠状动脉综合征(ACS)是全球死亡的主要原因之一,动脉粥样硬化斑块破裂和随后的血栓形成是其主要的潜在基质。评估血栓负担对于定制治疗疗法和预测预后很重要。冠状动脉光学相干断层扫描(OCT)能够在体内可视化血栓,这是其他成像方式无法实现的。然而,OCT上的血栓自动定量尚未实施。主要挑战是由于血栓的位置、大小和不规则性的变化,以及数据集的小规模。在本文中,我们提出了一种新颖的双坐标交叉注意力变换器网络,称为DCCAT,以克服上述挑战,并实现OCT上血栓的首次自动分割。基于多头交叉注意力机制的长距离对应关系,对笛卡尔和极坐标的成像特征进行编码和融合。双坐标交叉注意力块在多个层次上层次地堆叠在卷积层中,允许全面的特征增强。该模型基于来自339名患者的5,649个OCT帧开发,并使用来自52名患者的548帧独立外部OCT数据进行测试。DCCAT在分割血栓方面实现了0.706的Dice相似性分数(DSC),这明显高于基于CNN(0.656)和基于Transformer(0.584)的模型。我们证明了极坐标图像的额外输入不仅利用了另一个坐标的区分特征,还提高了模型对几何变换的鲁棒性。实验结果表明,DCCAT仅用总数据的10%就实现了竞争性能,突出了其数据效率。所提出的双坐标交叉注意力设计可以轻松地集成到其他开发的Transformer模型中以提高性能。

关键词

急性冠状动脉综合征、光学相干断层扫描、血栓分割、交叉注意力

3. 方法

 提出的框架

1. 整体结构

图3描述了所提出的模型的示意图。整体架构遵循U形设计,通过将其适应为镜像的双流结构。具体来说,输入的笛卡尔和极坐标OCT图像由单独的卷积块处理以提取局部特征。基本卷积块是“卷积-批量归一化(BN)-ReLU”的重复结构,具有残差连接:
其中指的是第层的特征。两个流之间的特征通信是通过所提出的双坐标交叉注意力(DCCA)块实现的,其中提取了两个流之间的长距离依赖性以相互增强。融合后,从两个坐标中利用的增强特征被传递到它们自己的卷积层,以进一步提取更高层次的局部特征。DCCA在模型的多个尺度上层次地堆叠。此外,多尺度融合(MSF)块用于进一步融合编码阶段的DCCA块中的特征,其输出被跳跃连接到相应的解码阶段。最后,对笛卡尔特征应用卷积头部,后跟1×1卷积层和SoftMax激活函数,生成多类别概率图。模型仅生成笛卡尔输出,以确保输出一致性并降低计算复杂性。在下一节中,我们详细描述了DCCA块的设计。

2. DCCA块

如图4所示,DCCA块包括多头交叉注意力(MHCA)、自注意力(SA)和基于卷积的前馈网络(con-FFW)。MHCA利用交叉注意力机制从笛卡尔和极坐标融合特征,旨在增强两个输入中的相关特征并提升语义理解。SA使用自注意力机制在极坐标特征内生成简洁的标记,旨在将MHCA的计算复杂度降低到线性水平。从笛卡尔和极坐标提取的双流特征根据以下方式进行通信和利用:
其中表示归一化,是增强的输出特征。将前馈网络中的线性层替换为卷积层。在以下段落中,我们详细说明SA和MHCA的设计。受MedFormer(Gao等人,2022)中高效多头注意力的启发,自注意力(SA)模块被采用为极坐标特征生成简洁的标记图。SA模块的详细设计如图5所示。具体来说,通过将应用卷积和SoftMax层,生成权重图,其中代表输入到SA的特征图的通道数、高度和宽度,是输出简洁特征图的缩减高度和宽度。
然后被展平为的形状,分别,用于通过点积和重塑生成简洁的标记图
通过指定一个固定大小的,其中,简洁的标记图将后续交叉注意力的计算复杂度降低到线性水平。
在MHCA模块(图6)中,首先对笛卡尔和简洁极坐标特征应用卷积,以投影到查询、键和值嵌入。查询和键的点积从两个坐标提取依赖性,无论使用的对是哪一对,都保持一致。为了进一步提高计算效率,只使用一对()以及每个对应的值,以交换彼此之间的信息,即,其中代表嵌入维度,是笛卡尔特征图的高度和宽度,是简洁极坐标特征图的高度和宽度。然后,嵌入被展平并重塑为序列的,并且被分割成个并行头,具有的维度,其中。在每个交叉注意力头中,通过计算的缩放点积来计算权重矩阵,以测量笛卡尔和极坐标特征之间的相似性。
然后使用权重矩阵进行加权,以聚合上下文信息。
其中。此外,所有交叉注意力头的输出被连接起来,并且通过1×1卷积层再次投影,产生最终输出的的形状为

3. 多尺度融合(MSF)桥

U-Net在医学图像领域的成功归因于编码器和解码器之间粗粒度和细粒度特征的有效融合,这对于恢复密集分割中的细节至关重要。为了补偿从简洁极坐标标记生成过程中的细节丢失,本研究应用多尺度融合桥(图7)以生成编码器和解码器跳跃连接的全面融合特征。编码阶段的DCCA块中的简洁极坐标特征)被展平、连接并输入到多头自注意力(MHSA)模块。之后,融合的特征被分割并重塑为原始形状。

4. 显式位置编码

为了促进Transformer的位置编码,我们生成位置图,以便进行显式位置编码。在笛卡尔坐标中,通过将每个像素到图像中心的欧几里得距离归一化到0-1范围内来生成地图。随后,将笛卡尔图转换为对数极坐标或线性极坐标,遵循与输入图像转换相同的公式。将双坐标图像与相应的地图在通道轴上连接,形成输入。位置图的可视化显示在补充图A1中。

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

深度学习爱好者
分享机器学习、深度学习和Python等知识与原理,每天分享深度学习与计算机视觉领域的经典和最新的论文总结,带读者一起跟踪前言科技!
 最新文章