GASA-UNet:用于医学图像分割的全局轴向自注意力U-Net

科技   2024-11-07 10:24   中国香港  

点击下方“ReadingPapers”卡片,每天获取顶刊论文解读

论文信息

题目:GASA-UNet: Global Axial Self-Attention U-Net for 3D Medical Image Segmentation

GASA-UNet:用于3D医学图像分割的全局轴向自注意力U-Net

作者:Chengkun Sun,Russell Stevens Terry,Jiang Bian, Jie Xu

论文创新点

  1. 全局轴向自注意力(GASA)块的提出:作者提出了一个创新的3D自注意力块,称为全局轴向自注意力(GASA)块。这个块被设计为利用ViT的全局注意力优势,同时将体素级空间细节纳入3D局部特征中。这是通过在不替换U-Net架构中的编码器和解码器的情况下,作为一个额外的分支集成到U-Net架构中实现的。
  2. 改进的视觉Transformer框架:作者的模型在修订的视觉Transformer框架内合并了全局和局部特征,赋予了U-Net模型3D全局轴向自注意力能力,同时参数增加最小。这种设计提高了特征的可辨性,同时保留了U-Net在详细局部特征提取方面的基础优势。
  3. 新的补丁生成方法:作者的模型引入了一种新的补丁生成方法,该方法利用三个2D卷积核,通过先进的空间编码改进了语义相似特征的区分。这包括扩展自注意力值的输出,连接通道维度,并使用位置嵌入,从而增强了模型对细微分类和模糊器官边界的处理能力。

摘要

在医学成像中,对多个器官进行精确分割以及区分病理组织是至关重要但又具有挑战性的任务,尤其是在对细微分类和模糊器官边界的处理上。为了应对这些挑战,作者介绍了GASA-UNet,这是一个改进的U-Net模型,特点是引入了一个新颖的全局轴向自注意力(GASA)块。该块将图像数据作为3D实体处理,每个2D平面代表不同的解剖横截面。在此空间上下文中定义体素特征,并利用多头自注意力(MHSA)机制对提取的1D补丁进行处理,以促进这些平面之间的连接。将位置嵌入(PE)纳入我们的注意力框架中,为体素特征增加了空间上下文,增强了组织分类和器官边缘勾勒。作者的模型在分割性能上显示出了有希望的改进,特别是在较小的解剖结构上,这一点通过在三个基准数据集,即BTCV、AMOS和KiTS23上的Dice分数和标准化表面Dice(NSD)得到了证明。

GASA-UNet

作者的GASA-UNet模型建立在流行的U-Net样式的3D编码器-解码器架构之上,通过引入一个新颖的GASA块。

GASA块

GASA块是作者提出模型的核心组件。它旨在利用ViT的全局注意力优势,同时将体素级空间细节纳入3D局部特征。图2展示了GASA块的示意图。对输入进行沿宽度(W)、高度(H)和深度(D)轴的三个卷积,每个卷积生成一个1D补丁。这些生成的补丁随后根据其各自的W、H和D轴顺序连接在一起。具体而言,W轴方向的卷积核大小设置为与全局特征的H × D维度相匹配。相应地,对于H轴方向,卷积核跨越W × D维度,而对于D轴方向,卷积核覆盖W × H维度。生成的补丁总数是W、H和D维度的总和。对于这些2D卷积的输入通道深度与全局特征相同,而输出通道深度是预设的,默认值为25——这一参数将在作者的消融研究中进一步探讨。补丁生成过程的数学表示如下:
其中表示输入的3D特征,分别表示沿W、H和D轴生成的补丁。表示聚合的补丁。这里,表示沿W轴、H轴和D轴的切片数量。补丁生成后,这些补丁直接输入到MHSA块中以计算GASA注意力值。这个特定的MHSA块是从ViT架构中改编而来,但通过省略通常包含的MLP层来简化结构。该块内的注意力机制处理输入补丁,使模型能够专注于图像的不同部分并提取相关特征。GASA注意力值的计算公式如下:
其中分别对应查询、键和值。表示键的维度。值得注意的是,整个过程中输出注意力的维度保持一致。随后,每个轴向注意力输出被扩展为2D特征,与生成它的卷积方向对齐。具体而言,W轴注意力被重塑为输入特征的H × D维度,而H和D轴的注意力分别匹配W × D和W × H维度。这些轴向特征随后沿通道维度连接,使输出维度相比于MHSA输出增加三倍。一个可学习的1D绝对位置嵌入被集成到GASA输出的每个体素中,为特征嵌入全面的全局信息。最后,这些GASA特征与初始全局特征在通道方向上合并,然后送入基于CNN的解码器,如图2所示。
GASA块位于编码器的末尾和3D CNN解码器的开头,是U-Net样式骨架的关键补充,促进了轴向注意力。它通过处理特征空间的W、H和D方向的切片,将3D空间位置信息编码到特征表示中。这使得在三个维度中提取轴向注意力成为可能。作者的损失函数是软Dice损失和鲁棒交叉熵损失的组合,来自nnUNet,每个损失的权重为1。损失函数的公式如下:
其中表示体素的总数,表示不同类别的数量。分别表示第类和第个体素的独热编码标签和预测概率。

实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章