点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
MURF:相互增强的多模态图像配准与融合
作者:Han Xu; Jiteng Yuan; Jiayi Ma
源码链接:https://github.com/hanna-xu/MURF
摘要
现有的图像融合方法通常限制于对齐的源图像,并且当图像未对齐时必须“容忍”视差。同时,不同模态之间的大差异对多模态图像配准提出了重大挑战。本研究提出了一种称为MURF的新方法,首次将图像配准和融合相互加强,而不是作为单独的问题来处理。MURF利用三个模块:共享信息提取模块(SIEM)、多尺度粗配准模块(MCRM)和精细配准与融合模块(F2M)。配准是以从粗到精的方式进行的。在粗配准过程中,SIEM首先将多模态图像转换为单模态共享信息以消除模态差异。然后,MCRM逐步纠正全局刚性视差。随后,在F2M中统一执行精细配准以修复局部非刚性偏移和图像融合。融合图像提供反馈以提高配准精度,改进的配准结果进一步改进融合结果。对于图像融合,我们不仅尝试保留现有方法中原始源信息,还尝试将纹理增强纳入图像融合。我们在四种类型的多模态数据(RGBIR、RGB-NIR、PET-MRI和CT-MRI)上进行了测试。广泛的配准和融合结果验证了MURF的优越性和普适性。
关键词
多模态图像,图像配准,图像融合,对比学习。
I. 引言
由于硬件设备的局限性,单一类型的传感器捕获的图像只能描述部分信息。例如,可见传感器捕获的反射光信息可以描述场景纹理,但容易受到光照和阴影的影响。互补地,红外传感器捕获的热辐射信息对光不敏感,并且可以反映场景和对象的基本属性。多模态图像融合旨在通过整合来自不同类型传感器的互补源信息来合成单个图像。如图1所示,单个融合图像展现了更好的场景表示和视觉感知,这可以为各种后续任务带来好处,如语义分割、目标检测和跟踪、场景理解等。因此,图像融合有广泛的应用,从安全到工业和民用领域。
然而,现有的融合方法要求源图像必须精确对齐,并且不考虑视差。当源图像未对齐时,视差会导致视差融合伪影,如图1第二行直观说明。对于未对齐的源图像,这些融合方法需要其他多模态图像配准方法作为预处理来消除视差。在这种情况下,配准和融合是分开的问题。由于图像融合仅仅是下游任务,融合图像无法提供反馈以提高配准精度。因此,现有的融合方法不得不“容忍”而不是“对抗”预配准的错位,如图2所示,这也在我们初步版本中展示过。然而,考虑到融合图像的特性,图像融合有可能反过来消除错位。首先,融合图像整合了两种模态的信息。减轻的模态差异降低了配准难度。其次,融合过程丢弃了一些多余的信息,减少了其对配准的负面影响。第三,融合图像中的错位导致重复的显著结构,而精确配准则鼓励梯度稀疏性。因此,梯度稀疏性可以作为标准以反馈方式提高配准精度。当图像融合帮助消除错位时,更精确对齐的数据进一步促进融合结果。
具体到个别任务,无论是多模态图像配准还是融合,都有自己的瓶颈。对于多模态图像配准,有三个剩余的挑战。首先,很难设计一个适用于多模态数据的配准方法,可以突破模态差异的障碍。现有的度量对模态差异不敏感。一些度量假设多模态图像的强度分布具有线性相关性,情况并非总是如此。一些方法使用图像平移来生成伪单模态图像,而这种方法与多模态数据不是一一对应的事实相矛盾。第二,为了通过变换模型消除模态差异,应该考虑可能限制变换模型实施的一些因素。例如,我们应该考虑特征的非稀疏性以实现网络收敛,损失函数的计算复杂性以便于反向传播,以及最优解存在的可能性。这些因素使得变换模型的设计具有挑战性。第三,提高配准的普遍性具有实际意义。一些方法只适用于特定的多模态数据;一些只能处理刚性变形;一些对非刚性变形有效的方法在保持对象的刚性方面有困难。因此,有必要设计一种广泛适用于多种多模态数据和刚性及非刚性变形的方法。对于图像融合,一个普遍的目的是生成一个单一的融合图像以呈现最多的信息,部分由梯度表示。因此,保留场景内容,尤其是纹理,是大多数融合方法努力解决的问题。在实际应用中,融合图像应该包含更多的场景内容,并对后续任务做出积极贡献。从这个角度来看,合理且必要地将源图像中质量较差的纹理细节增强到融合图像中,而不仅仅是保留原始纹理。不幸的是,这个问题在现有的融合方法中没有被注意到和解决。
提出的MURF通过在一个相互加强的框架中共同实现,解决了现有多模态图像配准方法和融合方法的局限性。MURF由三个主要模块组成,用于共享信息提取、全局刚性和局部非刚性变形校正以及图像融合。多模态图像配准采用从粗到精的方法处理。粗配准基于提取的单模态信息,并建模为仿射变换,并通过多尺度配准网络实现。精细配准和图像融合在单个模块中实现,该模块依赖于融合图像的特性以进一步提高配准精度,并结合纹理增强。MURF的特点和贡献总结如下:
为了突破现有融合方法要求对齐源图像的瓶颈,我们首次通过神经网络将多模态图像配准和融合在一个相互加强的框架中进行交互。随后,提出的方法适用于未对齐的源图像,从而提高了配准精度和融合性能;
对于多模态图像配准,我们采用从粗到精的策略,其中考虑了全局刚性变换和局部非刚性变换。在粗阶段,我们通过对比学习将多模态图像配准转换为单模态共享信息配准。它使得可以使用对模态差异不敏感的度量。在精细阶段,融合图像的反馈和探索的逆变形场都有助于纠正错位;
对于图像融合,我们的目标不仅是保留原始源图像中的场景内容,而且还要在融合图像中增强它们的纹理,以便更详细地表达场景。为此,我们设计了基于梯度评估、保留和增强的融合损失,并引入了梯度通道注意力机制;
提出的配准和融合网络被应用于多种多模态数据。我们在四个公开可用的数据集上测试了提出的MURF,包括RGB-IR、RGB-NIR、PET-MRI和CT-MRI图像对。定性和定量结果验证了MURF在配准精度和融合性能方面的普遍性和优越性。
本文的初步版本是RFNet。最重要的新贡献是扩大了应用场景。在初步版本中,由于图像平移的限制,RFNet只能应用于街景的RGB-NIR图像对。在本版本中,通过修改消除多模态图像之间模态差异的方法,MURF适用于更多的多模态组合,包括RGB-IR、RGB-NIR、PET-MRI和CT-MRI图像对。与初步版本相比,具体的技术改进在以下四个方面:
对于消除模态差异的方法(即将多模态配准转换为单模态配准),RFNet使用图像平移。由于多模态数据缺乏一一对应关系,其应用场景受到限制。MURF应用对比学习来提取共享信息,并将单模态从图像域转换为公共特征域,取消了图像平移的限制;
对于粗配准的多模态图像配准,我们将单尺度配准修改为多尺度渐进式配准策略。它加快了收敛速度并提高了配准精度;
对于精细配准,RFNet仅依赖于融合图像的反馈和属性来校正局部偏移。在这项工作中,在反馈的基础上,我们还探索了逆变形场以进行监督。它进一步提高了精细配准的精度;
对于图像融合,RFNet设计了网络架构和损失函数以保留纹理。在MURF中,我们的目标不仅是保留源图像中的原始纹理,而且还增强源图像中可见性较差的纹理,并在融合图像中显示增强的纹理,以提供更详细的场景表达。
III. 方法
所提出的方法能够处理具有偏移的多模态信号。它可以纠正原始视差并生成融合图像。本节介绍了包括三个主要模块的总体框架。每个模块的详细信息,包括内部流程、损失函数、网络架构和其他设置。
A. 问题表述
B. 共享信息提取模块(SIEM)
C. 多尺度粗配准模块(MCRM)
D. 精细配准和融合模块(F2M)
图像融合:图像融合在变形块和空间变换之外的融合相关层中实现。由于融合图像预计将呈现大量关于场景的信息,我们根据损失函数和网络架构设计了融合相关部分,以在融合图像中呈现清晰和丰富的纹理。对于RGB和PET之类的彩色图像,我们将它们转换为YCbCr空间,并与另一个源图像融合亮度信息(Y通道)。然后,将融合图像与色度(Cb和Cr通道)连接起来,并转换回RGB空间以生成最终的融合RGB图像。
精细配准:变形块以和为输入,并生成变形场以通过空间变换校正局部视差。为了训练该块,我们人工创建一个局部平滑的非刚性变形场,如图9所示。应用于域X中的对齐/大致对齐图像以创建变形图像。该块的优化依赖于两个方面。首先,人工设置的变形场理论上对应于一个逆变形场。它可以将变形图像反向变换为原始外观,并用于监督。然而,一些公开可用的数据集中的图像对不是严格对齐的,仍然存在一些小的视差。因此,反演变形场不是完全准确的。其次,我们还依赖于融合图像的特性进行校正。很容易观察到,中的任何错位都会降低梯度稀疏性。我们鼓励的稀疏性,并惩罚应该被校正的显著梯度。
IV. 实验和结果
A. 实施细节
B. 共享信息提取
C. 多模态图像配准
定性结果:我们将多尺度粗配准模块(MCRM)与一些最新的配准方法进行了比较,包括SIFT[50]、DASC[51]、[52]、NTG[49]、SCB[12]和MIDIR[53]。在这些方法中,SIFT、NTG和SCB只能处理刚性变形,因为它们估计仿射参数。DASC和MIDIR可以处理非刚性变形,因为它们估计流场。在四项任务上的定性配准结果如图12所示。在每一组中,变形图像和参考源图像被叠加以展示错位。它们的梯度也被叠加以辅助比较。特别是,在医学图像中很难主观区分结构是否对应。因此,我们在原始对齐的PET-MRI和CT-MRI图像对上标记了五对相同位置的点。然后,人为地创建未注册的图像。通过观察标记点之间的距离来评估医学图像的配准精度。重叠的点表示正确的变形。
定量结果:如图13所示,每对图像中人工标记了五对点地标,并散布在整个图像中。Ix中的源点是,Iy中的目标点是。在变形图像中,源点被变换为,预计它们会接近目标点。配准精度通过和之间的欧几里得距离来评估。我们通过均方根误差(RMSE)、最大平方误差(MAE)和中值平方误差(MEE)比较距离。
消融研究:我们在多尺度粗配准模块(MCRM)中验证了几个元素的有效性,包括共享信息提取模块(SIEM)以减轻多模态挑战,多尺度渐进策略和配准损失函数。消融研究在代表性的RGB-IR图像配准上进行,因为RGB-IR图像在所有多模态组合中具有最低的相关性,如表II所述。由于不同的实验设置将导致不同的损失函数,我们以统一的方式评估不同设置下的配准精度。我们从两个方面评估配准精度,包括多模态图像的精度,即,以及提取的公共信息的精度,即。
D. 多模态图像融合
定性结果:我们将F2M与一些最新的融合方法进行了比较,包括DenseFuse[54]、DIF-Net[55]、MDLatLRR[56]、IFCNN[57]、RFN-Nest[33]和U2Fusion[6]。我们考虑源图像包含局部非刚性视差的条件。我们比较了不同方法处理局部偏移和融合性能的能力。RGB-IR和RGB-NIR图像的定性结果如图17所示。在图17(a)和(c)中,源图像明显存在非刚性视差。偏移在竞争对手的结果中仍然存在,导致重叠的阴影、模糊的纹理或混乱的场景描述。在我们的结果中,偏移被调整以提供更清晰的场景描述。此外,在图17(b)和(d)中,源图像几乎对齐,我们专注于比较融合性能。在竞争对手中,IFCNN、MDLatLRR和U2Fusion实现了更锐利的纹理。DenseFuse和IFCNN存在显著的颜色失真。我们的结果表现出清晰的外观和最小的颜色失真。此外,通过梯度增强,我们的结果增强了原始纹理,而不仅仅是保留它们。
定量结果:定量比较在50对RGB-IR、50对RGB-NIR、20对PET-MRI和20对CT-MRI图像对上进行。三个指标,包括平均梯度(MG)[58]、边缘强度(EI)[59]和视觉信息保真度(VIF)[60]用于定量评估。MG评估平均梯度,反映融合图像的纹理细节。EI测量边缘点的梯度幅度。较大的EI图像代表更高的图像质量和更清晰的内容[61]。VIF与人类视觉系统一致,通过测量融合图像的信息保真度。首先,源图像和融合图像被过滤并分别划分为几个块。然后,评估有和没有失真的视觉信息,并计算每个子带的VIF。最后,计算整体VIF。
消融研究和超参数分析:在F2M中,为了提高融合性能,我们设计了纹理损失和(11)中的梯度增强函数,以及梯度通道注意力机制。此外,为了提高配准精度,我们依赖于融合图像的特性进行反馈。本节验证了这些设置的有效性。此外,由于初步版本(RFNet[7])是为RGB-NIR数据设计的,我们使用RGB-NIR图像进行消融研究。然后,结果也可以与RFNet进行比较。
交换参考图像:在之前的实验中,我们将模态Y中的图像设置为参考图像。相反,我们将模态X中的图像设置为参考图像,并校正模态Y中的图像的变形。以RGB-NIR图像为例,结果如图22所示,验证了F2M的泛化能力。
E. 配准和融合的组合
F. MURF与RFNet的比较
G. 复杂度比较
V. 未来改进
VI. 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编