顶刊 MIA'24 | I2U-Net:用于医学图像分割的具有丰富信息交互的双路径U-Net

科技   2024-10-17 19:30   中国香港  

点击下方“ReadingPapers”卡片,每天获取顶刊论文解读

论文信息

题目:I2U-Net: A dual-path U-Net with rich information interaction for medical image segmentation

I2U-Net:具有丰富信息交互的双路径U-Net用于医学图像分割

作者:Duwei Dai, Caixia Dong, Qingsen Yan, Yongheng Sun, Chunyan Zhang, Zongfang Li, Songhua Xu

源码链接:https://github.com/duweidai/I2U-Net

创新点

  • 提出了一种新颖的双路径U-Net(I2U-Net),用于医学图像分割任务。该网络通过丰富的信息交互机制,使得网络能够学习到包含低级细节描述和高级语义抽象的综合特征。

  • 设计了一个多功能信息交互模块(MFII),该模块能够实现跨路径、跨层以及跨路径和层的信息交互,允许网络的深层学习到更全面的特徴,同时促进了历史信息的重用和重新探索。

  • 提出了一个全面信息融合和增强模块(HIFA),该模块结合了局部和全局操作的优势,能够从更广泛的频率范围内灵活地学习区分性信息,有效地桥接编码器和解码器。

  • 在四个具有挑战性的任务上进行了广泛的实验,包括皮肤病变、息肉、脑肿瘤和腹部多器官分割,实验结果一致表明I2U-Net在性能和泛化能力方面优于其他最先进的方法。

  • 开源了I2U-Net的代码,以便研究社区进一步研究和应用该网络。代码可在GitHub上找到。

摘要

尽管U型网络在许多医学图像分割任务中取得了显著的性能,但它们很少对层次层的序列关系进行建模。这一弱点使得当前层难以有效利用前一层的历史信息,导致对边界模糊和形状不规则的病变的分割结果不尽人意。为了解决这个问题,我们提出了一种新颖的双路径U-Net,称为I2U-Net。新提出的网络通过双路径之间的丰富信息交互,鼓励历史信息的重用和重新探索,允许深层学习更全面的特征,这些特征包含低级细节描述和高级语义抽象。具体来说,我们引入了一个多功能信息交互模块(MFII),它可以通过统一设计对跨路径、跨层和跨路径和层的信息交互进行建模,使所提出的I2U-Net的行为类似于展开的RNN,并享有其对时间序列信息进行建模的优势。此外,为了进一步选择性地和敏感地整合双路径编码器提取的信息,我们提出了一种全面信息融合和增强模块(HIFA),它可以有效地桥接编码器和解码器。在包括皮肤病变、息肉、脑肿瘤和腹部多器官分割在内的四个具有挑战性的任务上的广泛实验一致表明,所提出的I2U-Net在性能和泛化能力方面优于其他最先进的方法。

关键字

医学图像分割、双路径网络、多功能信息交互、整体信息融合和增强

3. 提出的方法

3.1. 总体

Chen等人(2017年)揭示了残差连接(He等人,2016年)使得特征重用,而密集连接(Huang等人,2017年)鼓励新特征的探索,这两者对于学习有价值的表示都是重要的。他们还发现,尽管残差和密集连接在表面上有所不同,但它们都是更高阶循环神经网络(HORNN)的体现。受到这些启发,我们提出了一种用于医学图像分割的双路径U-Net,称为I2U-Net。I2U-Net的一条路径专门用于图像特征信息,而另一条路径用于沿深度共享卷积核的隐藏状态信息。这种结构允许I2U-Net的工作类似于展开的RNN(LeCun等人,2015年;Zhao等人,2021年),并享有其对时间序列信息进行建模的优势。它还允许I2U-Net继承残差和密集连接的优势,便于重用历史特征和灵活探索新特征,并具有可接受的计算成本。
图2展示了所提出的I2U-Net的概述。与传统的U-Net不同,所提出的I2U-Net是一个配备有多功能信息交互模块(MFII)和全面信息融合与增强模块(HIFA)的双路径U形网络。

3.2. 双路径网络

所提出的I2U-Net包括图像特征路径和隐藏状态路径。图像特征路径使用处理过的医学图像作为输入来捕获层次化特征。与此同时,隐藏状态路径遵循传统RNN中状态值的初始化习惯,并使用零初始化的可学习矩阵作为输入来存储前一层的历史信息。

3.2.1. 图像特征路径

特征编码器:在经典的U-Net(Ronneberger等人,2015年)中,每个编码器块包含两个卷积层和一个最大池化层。为了捕获更具代表性的特征,我们将原始U-Net的编码器替换为兼容的ResNet-34(Gu等人,2019年),保留了前四个特征提取块,并丢弃了平均池化层和全连接层。这样的ResNet-编码器有两个显著优势:(i)与浅层网络相比,具有残差单元的更深层网络可以为医学图像分割提取更具辨识性的特征表示;(ii)残差连接允许网络的当前层重用前一特征,大大减轻了优化难度。
特征解码器:U形网络开发了一个对称的解码器模块来恢复特征编码器提取的高级语义特征。这样的解码器通常建立在简单的上采样或反卷积(转置卷积)操作之上。上采样操作使用线性插值来扩大图像大小,而反卷积通过卷积操作放大图像。直观地说,反卷积可以学习自适应映射来恢复具有更多细节信息的特征,而不是上采样。因此,我们使用反卷积来恢复解码器模块中的更高分辨率特征。解码器块首先使用1×1卷积来压缩特征通道的数量,然后使用3×3反卷积来扩大图像大小,最后,使用1×1卷积来扩展特征通道的数量(Gu等人,2019年)。
此外,我们提出的I2U-Net中的横向跳跃连接(见图2)涉及求和而不是像原始U-Net中使用的连接。这种修改可以减少计算成本,同时保持性能。

3.2.2. 隐藏状态路径

隐藏状态路径的结构与图像特征路径相似。它们之间的差异主要在两点:(i)图像路径中的特征通道数随着网络阶段的变化(64、128、256、512),而状态路径中的通道始终相同(默认为32);(ii)在隐藏状态路径的每个阶段的层内,有一个1×1卷积,其权重在层间共享。这是隐藏状态路径能够存储状态信息的关键,也是I2U-Net与其他双路径网络(Hui等人,2021年;Zhou等人,2022年;Fu等人,2022年)之间的主要区别。此外,隐藏状态路径的输入是零初始化的可学习矩阵,这意味着噪声注入函数(Wei等人,2020年),这有助于正则化并提高模型的泛化能力。

3.3. 多功能信息交互模块

图3(a)描述了所提出的MFII模块,它允许上述双路径之间的多方面信息交互。其更新可以表述如下:
具体来说,图像路径()和状态路径()的输入通过连接合并,然后传递给一个残差单元()和一个通道注意力单元()(Wang等人,2020年)以提取区分性新特征()。然后,这个新特征图的一份副本通过跳跃连接(图3(a)中的蓝色连接,→)与旧的图像特征()结合,生成一个新的图像特征()。同时,这个新特征的另一份副本通过一个共享的1×1卷积()来压缩其特征通道,然后与旧的状态特征()相加,最后通过一个预激活单元(),包括一个不共享的批量归一化和一个tanh激活单元,产生一个新的状态特征()。所提出的MFII模块有三种不同的表示形式,包括E-MFII、E-MFII*和D-MFII,以确保在网络的不同阶段进行多方面信息交互。详细信息如下:(1)E-MFII和E-MFII*代表在编码器阶段使用的MFII模块。它们的不同之处在于E-MFII*通过步幅为2的卷积来减小特征尺寸,而E-MFII保持尺寸不变。D-MFII代表解码器阶段的MFII模块,它通过反卷积增加特征尺寸。上述三个模块都建立在MFII之上,它们的区别在于残差块和跳跃连接,如图3(b)所示。(2)所提出的网络的编码器(ResNet-34)由四个层次阶段组成,分别有3、4、6和3个残差块。
因此,我们按照以下方式构建双路径网络的编码器(以第一阶段为例):
其他三个阶段的构建方法与公式(3)类似。即,首先使用一个E-MFII*模块来减小特征尺寸,然后使用几个E-MFII模块来获得更深层次的特征表示。同样,根据特征解码器的结构,我们在解码器的每个阶段放置一个D-MFII模块。(3)值得注意的是,在阶段内,1×1卷积与层共享相同的权重。由于这种设计,I2U-Net的工作类似于展开的RNN,其深度CNN层作为输入,允许当前层灵活地学习前一层的历史信息。这是所提出的MFII模块与其他特征融合模块之间的主要区别。

3.4. 全面信息融合和增强模块

人类视觉系统在不同频率下提取基本视觉特征(Kauffmann等人,2014年):低频提供关于视觉刺激的全局信息(例如,全局语义或结构),而高频传达图像中的局部空间变化(例如,局部边缘或纹理)。最近的研究(Chen等人,2019年;Park和Kim,2022年)揭示了全局注意力或非局部模块由于其全局操作而具有低通滤波器特性,而卷积由于其局部接受域而呈现高通滤波器特性。考虑到高低频信息的互补性,我们将空间金字塔池化(He等人,2015年)和多尺度空洞卷积操作(Yu和Koltun,2015年)嵌入到非局部块(Wang等人,2018年)中,得到了全面信息融合和增强模块(HIFA)(见图2)。新提出的HIFA结合了局部和全局操作的优势,并且可以灵活地从更宽的频率范围中学习区分性信息。HIFA的具体操作如下:(1)对于输入特征,其中分别表示空间高度和宽度以及通道数。两个1×1卷积用于将转换为不同的嵌入,其中默认。(2)一个嵌入被展平为大小,其中,表示空间位置的总数。这个展平的嵌入被记录为“query”()。(3)对于另一个嵌入,我们使用空间金字塔池化和多尺度空洞卷积来捕获其全局和局部上下文表示,分别。然后,捕获的表示被连接到一个新的嵌入,被记录为“key”()。,其中表示由空间金字塔池化操作采样的点数。(4)我们制作一个“key”的副本,并将其记录为“value”()。注意力输出被计算为:
(5)我们将获得的注意力重塑为大小,然后使用1×1卷积将其通道数扩展到。最后,我们得到输出为:
与传统的全局注意力或非局部模块(Wang等人,2018年)相比,新提出的HIFA有两个不同和优势:(i)我们将局部操作(多尺度空洞卷积)嵌入到非局部模块中,以便HIFA可以合并全局和局部操作的优势,提取不同频率特征;(ii)HIFA模块的通道数已减半,“value”()是通过复制“key”()获得的,这减少了模块的计算复杂性。多亏了上述两点,HIFA可以灵活地从更宽的频率范围中学习更多的区分性特征,几乎与传统非局部模块的计算复杂性相同。

图4展示了HIFA模块中的金字塔池化和多尺度空洞卷积的演示。

3.5. 损失函数

医学图像分割的一个主要挑战是类别分布不平衡。为了优化所提出的模型,我们采用了联合损失,包括交叉熵损失()和Dice损失(),以执行所有分割任务(Feng等人,2020年)。公式如下:
其中分别代表真值注释和概率图,提供数值稳定性以防止除以零,是像素数。为了公平比较,我们实验中的所有方法默认使用损失。

4. 实验和结果

限制和未来的工作

与同行方法相比,所提出的I2U-Net展现了卓越的分割性能。然而,在计算成本,特别是推理时间方面,仍需改进。这主要是因为编码器(双路径ResNet-34)携带了太多的参数。因此,我们计划在未来的工作中设计一个更轻量级和高效的主干网络。同时,我们将使用神经架构搜索(NAS)技术(Liu等人,2021年)来寻找分割性能和计算成本之间更好的平衡。此外,将所提出的双分支网络扩展到更多的2D/3D医学图像分割任务将是另一项重要的未来工作。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章