标题:CFU-Net: A Coarse–Fine U-Net With Multilevel Attention for Medical Image Segmentation
1、研究背景:
最近,基于深度学习的方法在医学图像分割领域中逐渐得到推广,它们采用卷积神经网络逐像素分类提取图像特征。医学图像分割具有代表性的深度学习网络是以编码器-解码器架构的U-Net。但是现有的U-Net只采用了编码器和解码器之间的特征级传播,而忽略了决策级传播,且大多数方法都是针对具有单一图像模式设计的,多模态图像的特征之间存在很大差异,因此对于不同的病变和器官以及不同的模态图像,这些方法实现的效果不理想。
1、本文的网络结构提出了一种粗-细框架,即CFU-Net,通过嵌入粗U-Net和细U-Net,提供了更好的任务感知性,提高了网络的分割准确性。
2、本文提出了多级注意力模块(MLAM),有效地整合了决策引导、信道相互依赖和空间远程依赖等不同层次的注意信息。
3、本文编码器中采用动态卷积,使网络在不同分割任务上取得了可比较的结果,展现了较好的泛化能力。
3、研究方法:
本文将一个小的粗U-Net嵌入一个大的细U-Net中,形成一个粗-细框架。如图1所示,CFU-Net由一条编码路径、一条粗解码路径和一条精解码路径组成。
图2 编码器结构图
如图2所示,编码器的目标是对输入医学图像的语义特征进行编码。CFU-Net中的编码路径共包含5个编码器块,具体来说,每个编码器块由两个动态卷积层以及BN层和ReLU激活函数组成。传统卷积中的参数是静态的,所有输入都是共享的。相比之下,动态卷积层也被称为卷积核的注意力,它自适应地学习每个输入的权重,可以在不增加模型参数的情况下,网络的表达能力得到了提高。
如图3所示,解码器用于提取图像特征,进行逐像素分类。本文提出的CFU-Net包含两条解码路径,即粗解码路径和精解码路径。粗解码路径包含3个解码器块,该解码器块由两个3x3 卷积、BN和ReLU组成。解码器的上采样层由4x4转置卷积组成,该层将图像空间大小放大到2倍,信息通道减半。精细解码路径在跳连接和不同尺度的中间分割两个方面进行了创新。
如图4所示,MLAM模块由决策注意力块、通道注意力块和自注意力块三部分组成,分别实现决策先验指导解码,增强信息特征通道,捕获空间远程依赖关系。通过三层注意力模块之间的相互作用,MLAM不仅可以减少编码器和解码器之间的特征差距,还可以提高任务自适应能力和上下文信息依赖性。
CFU-Net网络损失函数由二值交叉熵损失和Dice Loss组成,并在精细解码路径并设计了一个多尺度监督损失函数。
论文的实验部分,本文将提出的CFU-Net模型与基于U-Net改进的六种深度学习分割方法包括U-Net,U-Net++,Attention UNet,Residual U-Net,ResU-Net++和UNeXt在标准数据集ISIC2018、BUSI、Kvasir-SEG、LiTS上进行比较,评价指标采用Dice、IoU、Accuracy、Precision、Recall、Specificity。
表4 LiTS数据集上与其他网络之间的分割定量比较
本文使用众所周知的千兆浮点运算(GFLOPs)、推理速度和参数量来量化计算复杂性,如表5所示。对于GFLOPs和推理速度,我们的方法分别排在第二和第三位,虽然模型参数量大小偏高,但是本文网络在分割精度和推理速度之间取得了较好的平衡。
表6 MLAM模块消融实验定量比较
最后,本文讨论了 CFU-Net的局限性,图7显示了从不同数据集中分割的一些失败案例。可以看出,第一行由于毛发和黄斑的严重干扰,第二行由于图像存在对比度极低的情况,第三行由于图像存在光照不均匀的问题,最后一行由于正常器官和病变器官界限不清会给分割带来一定的挑战,导致分割不准确。本文也表明在未来的工作中,将研究一种更鲁棒的分割方法
图7 CFU-Net的失败案列
4、结论:
本文提出了CFU-Net用于医学图像分割,提出一种粗-细框架。本文设计了一种新颖的注意力模块,即MLAM,用于调整精细U-Net深层的跳跃连接中的特征,由三个不同级别的注意力块组成,分别是决策注意力块、通道注意力块和自注意力块。在四个具有不同模态的医学图像数据集上的实验结果显示本文的CFU-Net与基于U-Net改进的最新方法网络分割性能相当。此外,跨模态测试也验证了本文的CFU-Net具有显著的泛化能力。