TPAMI 2024 | MURF：相互增强的多模态图像配准与融合

文摘 2024-11-03 19:00 中国

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目：MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion

MURF：相互增强的多模态图像配准与融合

作者：Han Xu; Jiteng Yuan; Jiayi Ma

源码链接：https://github.com/hanna-xu/MURF

摘要
现有的图像融合方法通常限制于对齐的源图像，并且当图像未对齐时必须“容忍”视差。同时，不同模态之间的大差异对多模态图像配准提出了重大挑战。本研究提出了一种称为MURF的新方法，首次将图像配准和融合相互加强，而不是作为单独的问题来处理。MURF利用三个模块：共享信息提取模块（SIEM）、多尺度粗配准模块（MCRM）和精细配准与融合模块（F2M）。配准是以从粗到精的方式进行的。在粗配准过程中，SIEM首先将多模态图像转换为单模态共享信息以消除模态差异。然后，MCRM逐步纠正全局刚性视差。随后，在F2M中统一执行精细配准以修复局部非刚性偏移和图像融合。融合图像提供反馈以提高配准精度，改进的配准结果进一步改进融合结果。对于图像融合，我们不仅尝试保留现有方法中原始源信息，还尝试将纹理增强纳入图像融合。我们在四种类型的多模态数据（RGBIR、RGB-NIR、PET-MRI和CT-MRI）上进行了测试。广泛的配准和融合结果验证了MURF的优越性和普适性。

关键词
多模态图像，图像配准，图像融合，对比学习。

I. 引言

由于硬件设备的局限性，单一类型的传感器捕获的图像只能描述部分信息。例如，可见传感器捕获的反射光信息可以描述场景纹理，但容易受到光照和阴影的影响。互补地，红外传感器捕获的热辐射信息对光不敏感，并且可以反映场景和对象的基本属性。多模态图像融合旨在通过整合来自不同类型传感器的互补源信息来合成单个图像。如图1所示，单个融合图像展现了更好的场景表示和视觉感知，这可以为各种后续任务带来好处，如语义分割、目标检测和跟踪、场景理解等。因此，图像融合有广泛的应用，从安全到工业和民用领域。

然而，现有的融合方法要求源图像必须精确对齐，并且不考虑视差。当源图像未对齐时，视差会导致视差融合伪影，如图1第二行直观说明。对于未对齐的源图像，这些融合方法需要其他多模态图像配准方法作为预处理来消除视差。在这种情况下，配准和融合是分开的问题。由于图像融合仅仅是下游任务，融合图像无法提供反馈以提高配准精度。因此，现有的融合方法不得不“容忍”而不是“对抗”预配准的错位，如图2所示，这也在我们初步版本中展示过。然而，考虑到融合图像的特性，图像融合有可能反过来消除错位。首先，融合图像整合了两种模态的信息。减轻的模态差异降低了配准难度。其次，融合过程丢弃了一些多余的信息，减少了其对配准的负面影响。第三，融合图像中的错位导致重复的显著结构，而精确配准则鼓励梯度稀疏性。因此，梯度稀疏性可以作为标准以反馈方式提高配准精度。当图像融合帮助消除错位时，更精确对齐的数据进一步促进融合结果。

具体到个别任务，无论是多模态图像配准还是融合，都有自己的瓶颈。对于多模态图像配准，有三个剩余的挑战。首先，很难设计一个适用于多模态数据的配准方法，可以突破模态差异的障碍。现有的度量对模态差异不敏感。一些度量假设多模态图像的强度分布具有线性相关性，情况并非总是如此。一些方法使用图像平移来生成伪单模态图像，而这种方法与多模态数据不是一一对应的事实相矛盾。第二，为了通过变换模型消除模态差异，应该考虑可能限制变换模型实施的一些因素。例如，我们应该考虑特征的非稀疏性以实现网络收敛，损失函数的计算复杂性以便于反向传播，以及最优解存在的可能性。这些因素使得变换模型的设计具有挑战性。第三，提高配准的普遍性具有实际意义。一些方法只适用于特定的多模态数据；一些只能处理刚性变形；一些对非刚性变形有效的方法在保持对象的刚性方面有困难。因此，有必要设计一种广泛适用于多种多模态数据和刚性及非刚性变形的方法。对于图像融合，一个普遍的目的是生成一个单一的融合图像以呈现最多的信息，部分由梯度表示。因此，保留场景内容，尤其是纹理，是大多数融合方法努力解决的问题。在实际应用中，融合图像应该包含更多的场景内容，并对后续任务做出积极贡献。从这个角度来看，合理且必要地将源图像中质量较差的纹理细节增强到融合图像中，而不仅仅是保留原始纹理。不幸的是，这个问题在现有的融合方法中没有被注意到和解决。

提出的MURF通过在一个相互加强的框架中共同实现，解决了现有多模态图像配准方法和融合方法的局限性。MURF由三个主要模块组成，用于共享信息提取、全局刚性和局部非刚性变形校正以及图像融合。多模态图像配准采用从粗到精的方法处理。粗配准基于提取的单模态信息，并建模为仿射变换，并通过多尺度配准网络实现。精细配准和图像融合在单个模块中实现，该模块依赖于融合图像的特性以进一步提高配准精度，并结合纹理增强。MURF的特点和贡献总结如下：

为了突破现有融合方法要求对齐源图像的瓶颈，我们首次通过神经网络将多模态图像配准和融合在一个相互加强的框架中进行交互。随后，提出的方法适用于未对齐的源图像，从而提高了配准精度和融合性能；
对于多模态图像配准，我们采用从粗到精的策略，其中考虑了全局刚性变换和局部非刚性变换。在粗阶段，我们通过对比学习将多模态图像配准转换为单模态共享信息配准。它使得可以使用对模态差异不敏感的度量。在精细阶段，融合图像的反馈和探索的逆变形场都有助于纠正错位；
对于图像融合，我们的目标不仅是保留原始源图像中的场景内容，而且还要在融合图像中增强它们的纹理，以便更详细地表达场景。为此，我们设计了基于梯度评估、保留和增强的融合损失，并引入了梯度通道注意力机制；
提出的配准和融合网络被应用于多种多模态数据。我们在四个公开可用的数据集上测试了提出的MURF，包括RGB-IR、RGB-NIR、PET-MRI和CT-MRI图像对。定性和定量结果验证了MURF在配准精度和融合性能方面的普遍性和优越性。

本文的初步版本是RFNet。最重要的新贡献是扩大了应用场景。在初步版本中，由于图像平移的限制，RFNet只能应用于街景的RGB-NIR图像对。在本版本中，通过修改消除多模态图像之间模态差异的方法，MURF适用于更多的多模态组合，包括RGB-IR、RGB-NIR、PET-MRI和CT-MRI图像对。与初步版本相比，具体的技术改进在以下四个方面：

对于消除模态差异的方法（即将多模态配准转换为单模态配准），RFNet使用图像平移。由于多模态数据缺乏一一对应关系，其应用场景受到限制。MURF应用对比学习来提取共享信息，并将单模态从图像域转换为公共特征域，取消了图像平移的限制；
对于粗配准的多模态图像配准，我们将单尺度配准修改为多尺度渐进式配准策略。它加快了收敛速度并提高了配准精度；
对于精细配准，RFNet仅依赖于融合图像的反馈和属性来校正局部偏移。在这项工作中，在反馈的基础上，我们还探索了逆变形场以进行监督。它进一步提高了精细配准的精度；
对于图像融合，RFNet设计了网络架构和损失函数以保留纹理。在MURF中，我们的目标不仅是保留源图像中的原始纹理，而且还增强源图像中可见性较差的纹理，并在融合图像中显示增强的纹理，以提供更详细的场景表达。

III. 方法

所提出的方法能够处理具有偏移的多模态信号。它可以纠正原始视差并生成融合图像。本节介绍了包括三个主要模块的总体框架。每个模块的详细信息，包括内部流程、损失函数、网络架构和其他设置。

A. 问题表述

我们开发了一个用于统一多模态图像配准和融合的网络，称为MURF。对于未对齐的多模态源图像表示为和，我们的目标是将与参考图像配准，并生成融合图像。为此，总体过程如图3所示，分为三个主要阶段。

首先，共享信息提取模块（SIEM）捕获跨多个模态共享的信息。它有助于将多模态配准挑战转换为公共空间中的单模态配准。然后，在配准模块中使用提取的功能。

其次，多尺度粗配准模块（MCRM）执行全局校正。使用SIEM提取的表示建立配准约束，然后用于训练MCRM中的网络。MCRM输出经过粗配准后的图像（）。除了一些局部视差，仿射模型不适用外，图像大致对齐。

最后，精细配准和融合模块（F2M）以和为输入，整合源信息，并校正局部视差以生成最终融合图像。

B. 共享信息提取模块（SIEM）

每种模态都有其独特的属性。例如，RGB、NIR和IR图像代表不同波长带中的信息。CT和MRI图像分别表征密集结构和软组织信息。然而，一些重要的属性往往在模态间共享，例如对象和几何形状。模态无关的信息对配准很有用，因此我们的目标是将多模态图像映射到一些模态无关的共享空间中。因此，我们采用对比学习，同一场景的图像对应于接近的表示，而不同场景的图像对应于相距甚远的表示，如图3所示。

多模态数据集由对齐/大致对齐的图像对组成，其中K是图像对的数量。和分别是属于不同模态X和Y的图像。它们的大小可以表示为，其中H和W是高度和宽度。对于灰度图像，C=1，对于RGB图像，C=3。我们的目标是学习两个函数和，它们将X和Y域中的图像映射到共享潜在空间，参数和分别被优化。提取的潜在表示是，。是同一场景的图像。因此，是正样本对，应该在潜在空间中被拉近。或是不同场景的多模态或单模态图像。它们的潜在表示是负样本对，应该被分开。

损失函数。使用完整样本进行学习会对存储和优化造成巨大压力。我们随机抽取一小部分数据。M是包含M个索引的的子集。然后，我们使用采样集调整、。用一个区分函数为正样本对排名高值，而负样本对排名低值，对比损失函数用于学习和定义为InfoNCE损失[44]：

其中τ是调整动态范围的温度系数。是从一个域X中的图像提取的锚表示。类似地，我们可以在域Y上进行锚定，并对称地构建与Y相关的对比损失，。

因此，对比损失函数可以细化为：

为了使提取的表示服务于配准，它们应该具有几个特点：i) 与输入图像具有相同的空间分辨率；ii) 提供精细结构细节以确保配准精度；iii) 处于单通道中以丢弃模态依赖属性。因此，和都是的大小。考虑到这些因素，并受到[45]的启发，我们通过旋转等价性细化潜在表示的精细度。具体来说，的实现被替换为。表示图像级旋转，代表潜在空间中的相应反向旋转。此外，考虑到表示的空间分辨率，区分函数量化了一对表示的分数，具有距离：

网络架构。我们通过两个伪共轭编码器实现函数和。这些编码器的网络架构如图4所示。输入是源图像，输出是提取的共享潜在信息。它由十层组成，使用实例归一化而不是批量归一化，因为它执行一种样式归一化。

C. 多尺度粗配准模块（MCRM）

如图5所示，MCRM以和为输入，并生成多尺度仿射参数以进行空间变换。在训练阶段，预训练的和提取共享信息和。然后，MCRM通过改善变形和之间的配准精度来优化。

在测试阶段，仅使用MCRM执行粗配准。期望MCRM纠正长距离全局视差。在单尺度网络中，需要大核尺寸和深层以获得广泛的接受域来捕获长距离视差。为了缓解这个问题，我们应用多尺度渐进式配准策略来减少参数数量并加速收敛。

如图6所示，原始和被下采样到较低尺度，即1/2和1/4。下采样后，长距离视差更容易被小接受域捕获。我们首先使用仿射网络在1/4尺度上学习仿射参数，表示为。然后，我们在1/2尺度上对执行粗略空间变换，用表示，表示为ST(, )。在这种情况下，原始视差在和之间大致减少。在此基础上，仿射网络进一步应用于在1/2尺度上学习更精细的仿射参数，即。总的来说，为在1/2和1/4尺度上学到的仿射参数表示为。类似地，配准过程在原始尺度上执行，以生成最精细的参数并获得粗配准后的最终输出，即

。

具体到空间变换的实现，细节如图6所示。给定图像X和仿射参数p，我们应用p在规则采样网格上生成变形场，大小为。它表示X中像素的变形。的两个通道分别表示垂直和水平方向上的偏差。最后，变形后的X被重新采样为：

其中i，j表示像素的位置。

损失函数。MCRM的损失函数设计如图5所示。它取决于在图6中生成的多尺度仿射参数和提取的共享信息。多模态图像配准问题被转换为在变形和之间的单模态配准。仿射参数提供了应用于的变形。

因此，我们定义了一个损失函数，用于测量变形和之间的配准精度，以优化图6中仿射网络的参数。为了便于计算的可处理性，并且对于强度幅度的线性变化不太敏感，我们使用归一化交叉相关（NCC）来衡量精度。NCC越大，X与Y的相关性和对齐度越高。因此，MCRM的损失函数定义为：

在计算NCC之前，变形的和通过以下公式进行归一化：

其中是min()和min()中的最小值。是max()和max()中的最大值。clip(·)表示裁剪到[0, 1]。然后，NCC定义为：

其中X，Y是两个图像。，表示它们的平均值。

网络架构。MCRM采用三个仿射网络来生成仿射参数。仿射网络是伪共轭网络，如图7所示。应用可变形卷积层，因为它们可以通过从额外的卷积层学习的水平和垂直偏移来扩展传统的规则接受域，从而增强网络对未对齐图像的变形表示能力。可变形卷积层指的是未对齐图像中的变形，以实现更高的配准精度和更强的鲁棒性。我们应用许多层、大核尺寸和最大池化层来捕获变形。然后，特征图通过全局平均池化（GAP）层映射到128维向量。在训练阶段，我们应用dropout来进一步提高性能。最后，将128维向量输入到全连接层以生成6维参数，并重塑为大小为的输出仿射参数。

D. 精细配准和融合模块（F2M）

F2M实现了图像融合并校正局部非刚性视差以生成最终对齐和融合的图像。F2M的框架如图8所示。在生成过程中，和首先输入到变形块和空间变换中以校正局部视差。空间变换的输出是变形的，表示为。然后，和通过随后的提取层、梯度通道注意力块和重建层进行融合以生成图像融合。

训练过程分为两个阶段。由于融合图像应该为精细配准提供反馈，F2M在第一阶段实现图像融合。我们优化与融合相关的参数，并且变形块被排除在外。变形块依赖于初始化参数来生成变形场，自动倾向于相同。然后，几乎结合了和的场景信息，并在单个图像中呈现它们的视差。在第二阶段，F2M基于和逆变形场实现精细配准。已经优化的与融合相关的参数被固定，并且变形块被优化。

图像融合：图像融合在变形块和空间变换之外的融合相关层中实现。由于融合图像预计将呈现大量关于场景的信息，我们根据损失函数和网络架构设计了融合相关部分，以在融合图像中呈现清晰和丰富的纹理。对于RGB和PET之类的彩色图像，我们将它们转换为YCbCr空间，并与另一个源图像融合亮度信息（Y通道）。然后，将融合图像与色度（Cb和Cr通道）连接起来，并转换回RGB空间以生成最终的融合RGB图像。

损失函数。由于融合图像应该保留来自源图像的信息，我们定义了一个相似性损失来限制融合图像与源图像之间的相似性。此外，一些纹理可能由于照明不足、不适当的校正或其他因素而可见性较差。如果它们在融合图像中得到增强，将进一步提高视觉效果。因此，我们定义了一个纹理损失来保留显著的纹理，并增强可见性较差的纹理。用一个超参数δ控制权衡，融合损失定义为：

根据光、对比度和结构的相似性来限制结构相似性，由结构相似性指数度量（SSIM）[47]定义。它表示为：

对于纹理保留和增强，我们首先通过比较IF_x和Iy中相同位置的绝对梯度生成一个二进制梯度掩模，定义为：

这个掩模在纹理损失中用于保留较大的梯度。因此，纹理损失定义为：

其中用于保留梯度的符号。类似于伽马校正，我们使用幂函数来增强梯度。γ设置为0.7。

网络架构。如图8所示，图像融合的网络架构包括提取层、用于纹理保留的梯度通道注意力块和重建层。我们联合使用最大池化和平均池化来聚合绝对梯度。然后将两个分支的结果相加，并输入到两个单独的多层感知器中以生成共享的通道级注意力权重。然后，重建层将加性特征映射回图像域以生成。

精细配准：变形块以和为输入，并生成变形场以通过空间变换校正局部视差。为了训练该块，我们人工创建一个局部平滑的非刚性变形场，如图9所示。应用于域X中的对齐/大致对齐图像以创建变形图像。该块的优化依赖于两个方面。首先，人工设置的变形场理论上对应于一个逆变形场。它可以将变形图像反向变换为原始外观，并用于监督。然而，一些公开可用的数据集中的图像对不是严格对齐的，仍然存在一些小的视差。因此，反演变形场不是完全准确的。其次，我们还依赖于融合图像的特性进行校正。很容易观察到，中的任何错位都会降低梯度稀疏性。我们鼓励的稀疏性，并惩罚应该被校正的显著梯度。

损失函数。变形块的损失函数包括两个项。生成的变形应该大致类似于，并且应该鼓励的梯度稀疏性。损失函数定义为：

其中表示变形块生成的变形。表示该块中的参数。η是一个超参数。受[48]的启发，我们定义了一个稀疏损失函数来有效近似L0稀疏性：

当时，ψ(·)是连续的，是形成损失函数的必要条件。最后，应用于以生成精细配准后的图像。

网络架构。变形块的网络架构如图8所示。它采用U-Net的形式。最大池化和深层被用来扩展接受域以捕获变形后的对应像素。还应用了残差块来比较和学习偏移。这个块的最终输出是一个大小为的变形场，其中两个通道分别表示它们的水平和垂直偏移。

生成逆变形场。我们讨论逆变形场的生成。对于一个变形场，现有方法可能会直观地直接将逆变形场设置为。然而，由于变形坐标系统与原始坐标系统相比已经发生了变形和扭曲，不是正确的解决方案。在这一部分，我们分析原始和变形坐标系统之间的关系，旨在为逆变形场找到更准确的解决方案。

在原始坐标系统中，每个像素对应于其水平和垂直偏移，如图10中的第一幅图像所示。变形后，其位置为：

其中表示像素的原始坐标，其中，。代表变形后的位置。在变形图像中，如果应用于，这个像素可以被变换回其原始位置，如图10中的第二幅图像所示。理想的逆变形场可以设置为：

然而，变形坐标系统与原始坐标系统不同，因为像素是随机散布的。变形坐标系统中的像素可能不对应于原始坐标系统中的同一位置像素，因为它们是小数。在这种情况下，对于变形坐标系统中的一个像素，我们寻找最近的变形点，并依赖其偏移来设置逆偏移。例如，在图10的第三幅图像中，对于变形坐标系统中的蓝色像素（菱形），最近的变形点是绿色点（圆圈）。蓝色像素的偏移被设置为绿色点的逆偏移。数学上，对于变形坐标系统中的一个像素，最近的变形点是：

其中表示靠近的邻域，以缩小解空间并提高效率。由于是从在原始坐标系统中变形而来，逆变形场可以求解为：

图10提供了生成的逆变形场和通过以下方式获得的逆向变形图像：

其中是从未变形图像I转换而来的变形图像。和I之间的微小差异（标题中报告）证明了其正确性。

IV. 实验和结果

我们将MURF与最新的多模态图像配准和融合方法进行了比较。实验在四种类型的多模态数据（四项任务）上实施，以验证泛化能力。在配准和融合的子部分结束时，进行消融研究以验证一些设计和设置的有效性。

A. 实施细节

多模态图像。我们在各种多模态数据上测试了所提出的方法，包括i) RGB和红外（RGB-IR）图像；ii) RGB和近红外（RGB-NIR）图像；iii) 正电子发射断层扫描和磁共振成像（PET-MRI）图像；iv) 计算机断层扫描和MRI（CT-MRI）图像。数据来自公开可访问的数据集，包括RoadScene1（RGB-IR图像），VIS-NIR Scene2（RGB-NIR图像），和Harvard3（PET-MRI和CT-MRI图像）。由于这些数据集中的图像是对齐/大致对齐的，我们手动构建变形以获得用于训练和测试的未对齐图像。变形被应用于RGB、PET和CT图像（在第III节A中描述的Ix的三种特定类型）。参考图像Iy分别是IR、NIR和MRI图像。

训练细节。我们从上述数据集中选择图像并应用变形。然后，未对齐的图像被裁剪成训练数据。对于每个任务的每个模块，包括补丁大小、批量大小、周期、学习率等的设置如表I所示，三个模块的训练过程总结为算法1。所有任务都使用Adam优化器。与配准相关的模块/块首先在小补丁上训练，然后在大分辨率图像上微调。超参数设置为：τ=1，δ=10，η=0.001，ϵ=0.1。实验在NVIDIA Geforce GTX Titan X GPU和2.4 GHz Intel Core i5-1135G7 CPU上执行。

B. 共享信息提取

我们将共享信息提取模块（SIEM）与一些现有方法进行了比较，包括WLD[10]、NTG[49]和SCB[12]。通过不同方法从Ix、Iy提取的共享信息zx、zy如图11所示。在所有四个任务中验证了有效性和泛化。多模态图像中存在显著的强度和结构差异。在结果中，我们的结果在视觉效果上最为一致。为了清楚地比较差异，我们扫描了一列像素强度（首先将RGB图像转换为灰度图像）。扫描结果客观地证明了我们的SIEM可以有效地减少图像的模态差异并捕获它们的共享信息。值得注意的是，在处理具有较大模态差异的多模态医学图像时，比较方法几乎不再有效，因为提取的信息显示出显著差异。它进一步验证了我们方法的有效性和泛化。

定量比较，我们使用NCC来量化Ix、Iy和zx、zy之间的相关性。在每项任务中，定量结果在180对对齐/大致对齐的图像对上进行了测试。同样，当计算时，RGB图像被转换为灰度图像。提取前后的定量结果报告在表II中。水平方向上，RGB-IR显示出比其他多模态数据更低的相关性，表明模态差异最为显著。PET、CT和MRI图像在视觉上也显示出模态差异，而背景（暗）区域提高了相关性。垂直方向上，SIEM显著提高了相关性，尤其是对于RGB-IR。与其他方法相比，我们的结果也显示出显著的改进。它可以被指示zx和zy通过我们的SIEM被提取到一个共同的空间。因此，我们可以使用学到的和来指导无监督的多尺度粗配准模块的训练。

C. 多模态图像配准

定性结果：我们将多尺度粗配准模块（MCRM）与一些最新的配准方法进行了比较，包括SIFT[50]、DASC[51]、[52]、NTG[49]、SCB[12]和MIDIR[53]。在这些方法中，SIFT、NTG和SCB只能处理刚性变形，因为它们估计仿射参数。DASC和MIDIR可以处理非刚性变形，因为它们估计流场。在四项任务上的定性配准结果如图12所示。在每一组中，变形图像和参考源图像被叠加以展示错位。它们的梯度也被叠加以辅助比较。特别是，在医学图像中很难主观区分结构是否对应。因此，我们在原始对齐的PET-MRI和CT-MRI图像对上标记了五对相同位置的点。然后，人为地创建未注册的图像。通过观察标记点之间的距离来评估医学图像的配准精度。重叠的点表示正确的变形。

如图12所示，SIFT无法对齐RGB-IR、PET-MRI和CT-MRI图像，甚至加剧了变形。当NTG对齐RGB-NIR和PET-MRI图像时，也发生了同样的现象。然而，SIFT可以成功处理一些RGB-NIR场景，如图12(b)中的最后一组所示。它有效地纠正了大多数变形，除了最右侧栏杆处的一些轻微偏移。类似地，NTG可以在RGB-IR和CT-MRI图像中缓解一些偏移，例如图12(a)中的第一组和图12(d)中的一些区域。这些方法适用于特定类型的数据，但泛化能力较差。相比之下，DASC普遍遭受严重的几何畸变，如图12(c)和(d)以及图12(b)的最后一组所示。SCB和MIDIR倾向于缩小原始偏移，但它们的配准精度仍然不如我们的MCRM。

这些结果表明，我们的MCRM在多项任务上，包括RGB-IR、RGB-NIR、PET-MRI和CT-MRI图像配准方面，优于最新的方法，具有更高的配准精度和更好的泛化能力。

定量结果：如图13所示，每对图像中人工标记了五对点地标，并散布在整个图像中。Ix中的源点是，Iy中的目标点是。在变形图像中，源点被变换为，预计它们会接近目标点。配准精度通过和之间的欧几里得距离来评估。我们通过均方根误差（RMSE）、最大平方误差（MAE）和中值平方误差（MEE）比较距离。

定量结果在50对RGB-IR、155对RGB-NIR、100对PET-MRI和100对CT-MRI图像对上进行了测试。如表III所示，我们的多尺度粗配准模块（MCRM）在四项任务的三个指标上都取得了最佳性能。我们MCRM在每项任务中的最小标准差也证明了其普遍性和稳定性。一些竞争对手表现出小平均值但大标准差。这表明它们在某些场景中表现良好，而在其他场景中则不然。

在特定任务方面，NTG在RGB-IR和CT-MRI图像配准上取得了次优性能，MIDIR在PET-MRI图像对上取得了次优性能。SIFT在RGB-NIR图像配准上表现出次优的配准性能，但在其他任务上表现不佳。原因是SIFT描述符的性能仍然受到模态差异的限制。表II报告RGB-NIR图像具有最高的相关性（医学图像中的背景提高了它们的相关性），所以SIFT可以很好地配准RGB-NIR图像，但在其他具有低相关性的多模态图像上失败了。因此，我们进一步比较了不同方法的泛化能力。每种方法在四项任务上的定量结果集中在图14中的每个子图中。与上述分析一致，SIFT在RGB-NIR上的表现优于其他竞争对手，但在其他任务上失败，表明泛化能力差。对于其他方法，它们在RGB-NIR图像上的表现通常不如其他图像对。原因是RGB和NIR图像的空间分辨率明显高于其他类型的图像，导致点集之间的欧几里得距离相对较大。在图14(c)中，NTG不适用于RGB-NIR图像，进一步加剧了其在不同任务上的性能差异。总体而言，我们的方法在四项任务上普遍表现出最佳性能，而不仅仅是适用于特定数据。

消融研究：我们在多尺度粗配准模块（MCRM）中验证了几个元素的有效性，包括共享信息提取模块（SIEM）以减轻多模态挑战，多尺度渐进策略和配准损失函数。消融研究在代表性的RGB-IR图像配准上进行，因为RGB-IR图像在所有多模态组合中具有最低的相关性，如表II所述。由于不同的实验设置将导致不同的损失函数，我们以统一的方式评估不同设置下的配准精度。我们从两个方面评估配准精度，包括多模态图像的精度，即，以及提取的公共信息的精度，即。

SIEM减轻多模态挑战。为了评估

对多模态图像配准的有效性，我们替换了（5）中的配准损失函数。或者，我们用多模态图像Ix、Iy/SCB变换的结果替换了配准损失。这些方法在训练时都遇到了梯度爆炸，表明它们难以进行网络优化。通过SIEM提取的共同信息适用于优化，证明了SIEM在减轻模态差异中的有效性。

从另一个角度来看，NCC、L1和L2损失在配准性能上的微小差异也证明了SIEM的有效性。在（5）中，配准损失基于zx和zy，预计它们位于一个共同的空间中。NCC对强度差异的敏感性较弱，而L1和L2损失则不然。如果zx和zy显示出显著的模态差异，使用L1/L2损失进行优化将是困难的。然而，在图15中，NCC、L1和L2损失的应用显示出微小的差异。这表明，SIEM学到的共同空间减轻了原始的模态差异。

多尺度渐进策略。为了验证多尺度策略的有效性，我们将其更改为图16中的单尺度策略。此外，我们重新定义了（5）中的配准损失，以单尺度形式表示：

在单尺度策略下，训练过程中的配准损失也显示在图15中。尽管多尺度和单尺度策略在中的性能差异很小，但它们在中仍然显示出显著的性能差异。总的来说，多尺度策略优于单尺度策略。

配准损失函数。在MCRM中，为了便于计算的可处理性和对线性强度变化的较弱敏感性，我们使用NCC来评估配准精度。为了验证其有效性，我们分别用L1和L2损失替换了（5）中的NCC。如图15(a)所示，NCC在图像水平上的配准性能优于L1和L2损失。在图15(b)中，尽管NCC、L1和L2损失最终在提取的信息水平上达到了相同的损失范围，但应用NCC损失仍然显示出最快的收敛速度。

D. 多模态图像融合

定性结果：我们将F2M与一些最新的融合方法进行了比较，包括DenseFuse[54]、DIF-Net[55]、MDLatLRR[56]、IFCNN[57]、RFN-Nest[33]和U2Fusion[6]。我们考虑源图像包含局部非刚性视差的条件。我们比较了不同方法处理局部偏移和融合性能的能力。RGB-IR和RGB-NIR图像的定性结果如图17所示。在图17(a)和(c)中，源图像明显存在非刚性视差。偏移在竞争对手的结果中仍然存在，导致重叠的阴影、模糊的纹理或混乱的场景描述。在我们的结果中，偏移被调整以提供更清晰的场景描述。此外，在图17(b)和(d)中，源图像几乎对齐，我们专注于比较融合性能。在竞争对手中，IFCNN、MDLatLRR和U2Fusion实现了更锐利的纹理。DenseFuse和IFCNN存在显著的颜色失真。我们的结果表现出清晰的外观和最小的颜色失真。此外，通过梯度增强，我们的结果增强了原始纹理，而不仅仅是保留它们。

医学图像的定性结果如图18所示。由于医学模态之间的模态差异很大，PET/CT图像中的纹理很少，非刚性变形的自由度很高，因此很难生成准确的逆变形场。由于Harvard数据集中的图像对是对齐的，我们直接比较了F2M和其他融合方法的融合性能。F2M显示出三个优势。首先，我们的结果不受无用背景信息的干扰。在图18(a)和(c)中，PET/CT图像中的背景提供了很少的信息。竞争对手中无用信息的引入导致了MRI图像信息的失真，而我们的结果保留了MRI图像中的信息。其次，F2M平衡地保留了源信息。在图18(b)和(d)中，竞争对手过度保留了PET图像中的功能性信息，但削弱了MRI图像的纹理。我们的结果保留了PET和MRI图像中的功能性和结构性信息，并且没有像DenseFuse和IFCNN那样出现颜色失真。最后，F2M不仅保留了源纹理，还增强了原始纹理中可见性较差的纹理，如图18(a)和(c)所示。

定量结果：定量比较在50对RGB-IR、50对RGB-NIR、20对PET-MRI和20对CT-MRI图像对上进行。三个指标，包括平均梯度（MG）[58]、边缘强度（EI）[59]和视觉信息保真度（VIF）[60]用于定量评估。MG评估平均梯度，反映融合图像的纹理细节。EI测量边缘点的梯度幅度。较大的EI图像代表更高的图像质量和更清晰的内容[61]。VIF与人类视觉系统一致，通过测量融合图像的信息保真度。首先，源图像和融合图像被过滤并分别划分为几个块。然后，评估有和没有失真的视觉信息，并计算每个子带的VIF。最后，计算整体VIF。

如表IV所示，F2M在所有任务上都实现了MG和EI的最佳性能。这表明我们的结果包含最丰富的纹理细节，图像质量和清晰度最高。这与定性结果中展示的特点一致。对于VIF，F2M的性能不如一些竞争对手。原因有两个方面。首先，RGB-IR和RGB-NIR图像中存在一些局部非刚性偏移。F2M通过变形块校正偏移，而竞争对手则没有。校正自然导致融合图像与变形前的源图像之间的相似性降低。这反映为VIF的降低。其次，我们的融合方法不仅旨在将源图像中的信息保留到融合图像中，而且还增强纹理以提供更高的图像质量。增强操作不可避免地导致融合结果和原始信息之间的差异。这两个因素导致我们的F2M在VIF上的表现不如一些竞争对手，VIF衡量融合图像与源图像之间的相似性。

消融研究和超参数分析：在F2M中，为了提高融合性能，我们设计了纹理损失和（11）中的梯度增强函数，以及梯度通道注意力机制。此外，为了提高配准精度，我们依赖于融合图像的特性进行反馈。本节验证了这些设置的有效性。此外，由于初步版本（RFNet[7]）是为RGB-NIR数据设计的，我们使用RGB-NIR图像进行消融研究。然后，结果也可以与RFNet进行比较。

如图19所示，当不应用纹理损失时，网络融合源图像时没有强调和考虑信息质量。融合图像显示出模糊的纹理细节。通过使用纹理损失来保留更锐利的源纹理，结果表现出更高的图像质量，如图19所示的融合图像w/o梯度增强，w/o通道注意力和F2M。总的来说，F2M的结果比其他融合结果包含更多的场景细节。这表明梯度增强函数和通道注意力引入了更多的场景细节到融合图像中。对于配准设置，我们通过将（12）中的η设置为0来消融融合的反馈。然后，F2M仅依赖于逆变形场进行优化。图19中的结果表明，仅应用逆变形场会导致不平滑的变形场。基于融合图像的梯度稀疏性的约束进一步提高了精度。

定量结果在与第IV-D2节中相同的数据集上使用相同的指标进行测试，并报告在表V中。F2M通过在MG、EI和VIF上实现最佳性能，显示出最丰富的纹理细节、最高的图像质量和最高的信息保真度。通过消融融合相关设置，我们发现纹理损失显著提高了融合图像的质量。梯度增强函数是次要的。最后，融合性能通过梯度通道注意力进行修订，改进最少。结果表明，这些设置的组合可以实现最佳性能，验证了它们的有效性。通过融合反馈，这些指标进一步提高，表明更准确的对齐。

此外，我们分析了（11）中不同设置的γ对融合性能的影响。如图19所示，γ = 0.1和γ = 0.4导致过度锐化的纹理，扭曲了融合图像的视觉效果。相反，γ > 1（例如，γ = 1.4）模糊了原始纹理。相比之下，γ = 0.7更适合增强。

交换参考图像：在之前的实验中，我们将模态Y中的图像设置为参考图像。相反，我们将模态X中的图像设置为参考图像，并校正模态Y中的图像的变形。以RGB-NIR图像为例，结果如图22所示，验证了F2M的泛化能力。

E. 配准和融合的组合

我们使用不同的配准和融合方法的组合作为竞争对手，以评估MURF的整体性能。由于比较融合方法不能校正视差，配准竞争对手在第IV-C节中在相应任务中实现了最佳性能，用于预处理。RGB-IR、RGB-NIR、PET-MRI和CT-MRI图像对的配准方法分别是NTG[49]、SIFT[50]、MIDIR[53]和NTG。

我们从两个方面分析图20中的定性结果。首先，在图20(a)、(c)、(e)和(g)中，比较配准方法未能完全消除视差。由于配准精度不足，一些错位在结果中仍然存在，导致不正确的位置对应、重叠的阴影或模糊的结果。相比之下，我们的粗到精的方式和多尺度策略校正了错位，并呈现了正确的对应和更清晰的纹理。其次，我们的融合结果表现出最丰富的纹理。在图20(b)、(d)、(f)和(h)中，一个源图像中的模糊纹理影响了竞争对手的清晰度，特别是在PET-MRI和CT-MRI图像中。我们的结果保留了更锐利的纹理，提供了更详细的场景描述，并适合人类视觉感知系统。

外部目标检测验证。为了评估图像融合及其改进性能的实用好处，我们对RGB-IR图像进行了外部目标检测验证，使用了YOLOv7[62]作为检测器。如图21所示，检测器未能在源图像中检测到所有热目标，例如第一个例子中的三辆汽车和第二个例子中的人。然而，在融合之后，一些融合图像成功检测到了三辆汽车和更多的人。此外，一些结果中的目标置信度水平也提高了。这些现象验证了图像融合的实用好处。

比较检测结果，MURF显示出两个优势。首先，我们的结果中检测到的目标更多，例如第一个例子中的三辆汽车，特别是第二个例子中停在停车标志下的人。这些目标在一些竞争对手中未被检测到。其次，随着融合性能的改进，我们的结果中一些置信度水平提高了。在第一个例子中，我们结果中的汽车和人的置信度水平高于源图像和竞争对手。

F. MURF与RFNet的比较

MURF的初步版本是RFNet[7]。改进在第I节中有所说明。MURF适用于不仅街景如RFNet，而且自然场景的粗配准。差异和改进总结在图23中。技术改进在以下四个方面。

前两个改进是针对粗配准的：i) RFNet使用图像平移来消除模态差异。配准损失定义在转换后的图像和参考图像上。在MURF中，配准损失基于图11中提取的共享信息；ii) 我们将单尺度配准修改为多尺度渐进配准。为了验证其有效性，我们在街景和自然场景上进行了定性比较。如图24(a)所示的街景中，RFNet和MURF都可以校正偏移，因为它们的结果显示出很小的偏差。然而，如图24(b)中的自然场景，RFNet显示出明显的缺点，表现在较低的配准精度上。原因是不同类型场景显示出不同的模态间结构差异。街景包含在模态间不变化的显著结构。自然场景可能包含明显的模态间结构差异（例如，草原和森林）或缺乏显著结构（例如，水）。在图像平移中，通过重构现有内容基本上实现了减少模态间结构差异的目标。几乎不可能生成原本不存在的内容。在MURF中，我们提取共享信息，而不是生成原本不存在的结构。因此，MURF显示出更高的配准精度和更广泛的应用场景。定量比较75对未对齐的RGB-NIR图像对，报告在表VI中，也表明MURF实现了更好的配准性能。

其他两个技术改进在F2M中：i) RFNet仅依赖于融合的反馈来校正偏移，它可能生成不正确的变形场。MURF不仅依赖于反馈，而且还使用逆变形场来提高精度；ii) MURF不仅保留了RFNet中的源纹理，而且还增强了原始纹理中可见性较差的纹理。为了验证这些改进，我们在典型的RGB-NIR图像对上进行了定性结果，如图25所示。它展示了MURF相对于RFNet的两个优势。在前两个例子中，MURF实现了比RFNet更高的精细配准精度。在最后一个例子中，RFNet中的一些区域是模糊和模糊的，而它们在MURF中更清晰和更具体。比较表IV和V，RFNet包含比比较融合方法更丰富的纹理细节、更高的图像质量和更清晰的场面内容。在此基础上，MURF进一步提高了融合图像的平均梯度、边缘强度和视觉信息保真度。它进一步证明了我们融合性能的优越性。

G. 复杂度比较

我们对所有比较方法、我们的初步版本（RFNet）和MURF在参数数量方面的复杂度进行了比较。如表VII所示，当应用空间变换以减少模态差异时，MURF中的SIEM比RFNet中的TransNet使用更少的参数。对于图像配准，MURF使用的参数多于比较方法，但实现了更高的配准精度。此外，它还显示出比RFNet中的配准网络更少的参数。当纯粹比较融合相关参数时，MURF显示出明显的优势。它的复杂度仅次于DIF-Net和RFNet。F2M中的大多数参数存在于变形块中，这也比RFNet中的变形块有优势。总的来说，MURF比RFNet具有更低的计算复杂度。

V. 未来改进

扩展到Pansharpening。我们研究了所提出方法用于Pansharpening的可能性和有效性，即融合低分辨率多光谱（LRMS）图像和高分辨率全色（PAN）图像。我们在QuickBird数据集上进行评估。首先，通过SIEM提取共享信息的结果如图26所示。它表明我们的SIEM可以有效地捕获共享信息，这比源图像更加一致。其次，图27中显示的配准结果表明我们的MCRM可以校正遥感图像中的全局刚性变形。第三，考虑到融合，MS图像包含更多通道，不适用于转换为YCbCr空间。Pansharpening需要独特且严格保留光谱信息。它与以前的任务有显著的不同。因此，F2M还不能应用于Pansharpening，这仍然是未来的改进。

处理更多输入模态。我们考虑了通过该方法处理N（N > 2）个不同模态的输入图像的条件。对于配准，应该选择一个参考图像，并将其他N-1个源图像与这个图像单独对齐。对于融合，由于F2M包含梯度通道注意力块，它一次只能融合两个图像。因此，处理N个输入图像的总计算成本是处理两个图像的N-1倍。未来的改进可能是在处理更多输入时降低计算复杂度。

VI. 结论

在本文中，我们提出了一种新的方法，通过相互加强的框架实现多模态图像配准和融合，称为MURF。它突破了现有融合方法仅适用于对齐源图像的瓶颈。MURF由三个模块组成：共享信息提取模块（SIEM）、多尺度粗配准模块（MCRM）和精细配准与融合模块（F2M）。图像配准是以从粗到精的方式处理的。在粗配准中，SIEM首先将多模态图像转换为单模态信息以消除模态差异。在此基础上，MCRM通过多尺度仿射变换逐步校正全局刚性视差。精细配准和融合是在单个模块中实现的，进一步改进了配准精度和融合性能。对于图像融合，我们尝试除了保留源信息外，还将纹理增强纳入图像融合。在四种多模态任务上的配准和融合实验验证了所提出方法的有效性和普适性。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247494591&idx=1&sn=628c65418ff5b3b97c0ff88e04171567

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文