顶刊TPAMI 2024！多模态图像融合的通用空间-频率学习框架

科技 2024-11-01 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：PaperEveryday

论文信息

题目：A General Spatial-Frequency Learning Framework for Multimodal Image Fusion

多模态图像融合的通用空间-频率学习框架

作者：Man Zhou; Jie Huang; Keyu Yan; Danfeng Hong; Xiuping Jia; Jocelyn Chanussot; Chongyi Lihttps://ieeexplore.ieee.org/document/10443302

源码链接：https://github.com/manman1995/Awaresome-pansharpening

论文创新点

1 空间-频率信息集成网络（SFINet）：首次提出在空间域和频域内同时处理多模态图像融合问题，通过结合局部空间信息和全局频率信息来增强模型的学习能力。
2 双域交互机制：提出了一种新颖的伪连拍特征融合机制，通过在帧间交换信息生成伪连拍特征，实现了不同模态间的灵活信息交换和互补表示学习。
3 边缘增强特征对齐模块（EBFA）：开发了一种基于可变形卷积的边缘增强特征对齐技术，用于隐式地学习帧间对齐，提高了对齐精度并减少了由错位引起的误差。
4 改进的SFINet++版本：在原有SFINet的基础上，通过引入信息无损的可逆神经算子，进一步提升了空间信息的表示能力，从而在多模态图像融合任务中取得了更好的性能。

摘要

多模态图像融合涉及如全景锐化和深度超分辨率等任务。这些任务的目标是通过融合纹理丰富的引导图像和低分辨率目标图像的互补信息来生成高分辨率目标图像。它们天生就需要重建高频信息。尽管它们在频域上有联系，但大多数现有方法仅在空间域内操作，很少探索频域内的解决方案。本研究通过在空间和频域内提出解决方案来解决这一局限性。我们为此目的设计了一个空间-频率信息集成网络，简称为SFINet。SFINet包括一个专为图像融合量身定制的核心模块。该模块由三个关键组件组成：空间域信息分支、频域信息分支和双域交互。空间域信息分支采用配备空间卷积的可逆神经算子来集成空间域内不同模态的局部信息。同时，频域信息分支采用模态感知的深度傅里叶变换来捕获图像的全局接受场，以探索全局上下文信息。此外，双域交互促进了信息流动和互补表示的学习。我们进一步提出了SFINet的改进版本SFINet++，通过用信息无损的可逆神经算子替换原始空间域分支中的基本卷积单元来增强空间信息的表示。我们进行了广泛的实验来验证所提出网络的有效性，并展示了它们在两个代表性的多模态图像融合任务：全景锐化和深度超分辨率中的卓越性能。

关键字

多模态图像融合
空间-频率信息
全景锐化
深度超分辨率

I. 引言

多模态图像融合是计算机视觉领域内的一项基本任务，涉及将使用不同成像模态捕获的同一场景的多个图像结合起来。多模态图像融合的目标是创建一个单一的合成图像，有效地整合每个源图像中最相关和最有信息量的细节，从而产生更全面和有信息量的表示。涉及多模态图像融合的典型任务，如全景锐化和深度图像超分辨率，由于使用不同设备收集相同目标时固有的分辨率差异而变得至关重要。具体来说，全景锐化涉及全色（PAN）引导的多光谱（MS）图像超分辨率，其中由于硬件限制而空间分辨率受限的MS图像，通过结合来自同一场景的纹理丰富的高分辨率（HR）PAN图像来减轻。同样，在深度图像超分辨率的背景下，HR彩色图像在重建深度图像中发挥基础作用，与彩色图像在语义上一致且结构上一致。值得注意的是，低分辨率（LR）深度图像和HR彩色图像分别扮演目标和引导图像的角色。从成像原理的角度来看，鉴于全景锐化固有的约束，卫星通常使用MS和PAN传感器同时捕获互补信息。具体来说，MS图像展现出优越的光谱分辨率但空间分辨率有限，而PAN图像提供了丰富的空间细节但缺乏光谱分辨率。这种PAN和MS图像的互补信息结合产生了一个复合表示，提供了空间和光谱细节的丰富平衡。类似地，在RGB引导的深度超分辨率中，任务围绕通过从高分辨率RGB图像中获取引导来增强深度图像的分辨率。RGB图像依赖于可见光，提供了与人类视觉系统一致的复杂纹理细节。通过将深度信息与RGB图像的引导结合起来，产生的超分辨率深度图像展现出更高的空间分辨率，呈现了场景的全面和详细表示。这两种任务中互补信息的并行利用展示了实现增强空间和光谱信息性的共同方法。

信息内容丰富和空间细节的图像在多种应用中的重要性在不同的应用中都很明显，包括军事系统、环境监测和地图服务。近年来，这两项任务都受到了图像处理和遥感社区的极大关注。受到深度神经网络（DNN）在图像处理中的成功启发，开发了大量的基于DNN的多模态图像融合方法。在全景锐化的背景下，开创性的PNN[1]仅依赖于三层卷积操作来促进MS全景锐化的学习方法。这种方法源于有影响力的超分辨率模型SRCNN[2]。随后，设计了更复杂和更深的架构以提高有效映射的能力。尽管取得了显著进展，现有的多模态图像融合方法仍然存在共同的局限性。首先，这些方法将注意力集中在掌握空间域内的映射函数上，很少涉及频域内潜在的补救措施——这是图像融合领域值得更多考虑的一个方面。然而，挑战的性质在于引导图像超分辨率问题，与频域密切相关，因为在下采样过程中选择了去除高频信息，如[3]中所述。鉴于这一观察，我们致力于从频域角度解决这个问题。我们的动机。如图1所示，我们的研究提供了全景锐化和深度超分辨率在遥感和自然图像领域的全面频率分析。该分析涉及通过应用离散傅里叶变换来检查相位和振幅分量。此外，该研究深入探讨了这两种技术之间振幅分量的差异。关于全景锐化，在频域中的两个观察结果：1）我们最初的观察揭示了PAN图像的相位与地面真实（GT）图像的相位比MS图像的相位更相似。这种对齐对应于空间感知，即PAN图像包含比MS图像更复杂的纹理和结构。鉴于傅里叶变换的相位分量表示结构信息，合理地利用PAN图像的相位和MS图像的相位来近似GT图像的相位。2）在最后一列中，观察到PAN和GT之间的振幅差异主要集中在低频范围内，而MS和GT之间的振幅差异在低频和高频范围内都存在。这一观察表明，MS中缺失的频率信息有可能通过利用PAN的相应低频分量来补充。关于深度超分辨率，出现了类似的观察结果，其中深度和RGB图像分别扮演MS和PAN图像的角色。在这里，深度和MS图像有助于提供结构洞察，而RGB和PAN图像提供高频细节。这种频域分析是理解退化、推动我们在空间和频域内寻求解决方案的强大工具。在频谱卷积定理[4]的指导下，我们理解频域学习促进了图像的全局接受场，捕获了普遍的全局上下文。因此，利用全局频率信息补充了空间域像素值，丰富了信息表示和建模能力。基于以上分析，我们引入了多模态图像融合的新视角。具体来说，我们首先尝试在空间-频率域内解决这个问题，并提出了空间-频率信息集成网络，称为SFINet。为了实现SFINet，我们设计了基本构建块SFIB，包括三个基本组件：空间域信息分支、频域信息分支和双域信息交互。空间分支采用配备空间卷积的可逆神经算子来集成空间域内两种模态的局部信息，而频率分支负责通过深度傅里叶变换提取和转换全局频率信息。受到频谱卷积定理的启发，我们认为频率信息分支允许图像全局接受场，模拟全局上下文信息，从而增强了模型的能力。然后，执行双域信息交互以促进信息流动并学习空间和频域内的互补表示。此外，我们提出了改进版本SFINet++，通过用信息无损的可逆神经算子替换原始空间域分支中的基本卷积单元来实现。我们进行了广泛的实验来验证所提出网络的有效性，并展示了它们在两个突出的多模态图像融合任务：全景锐化和深度超分辨率中的卓越性能。本文的工作是我们之前在ECCV 2022上发表的会议版本的扩展[5]。我们通过引入大量新材料大大扩展了以前的版本，详细如下。1）为了改善空间信息的表示，我们用信息无损的可逆神经算子替换了原始空间域分支中的基本卷积单元，从而产生了一个新的改进版本，称为SFINet++。这种方法对于遥感领域的多模态图像融合，如全景锐化和自然图像领域的深度超分辨率，更有效。2）与我们的会议版本相比，我们研究了我们提出的框架在RGB引导的深度图像超分辨率上的潜力。通过定量和定性实验，我们展示了我们开发的SFINet++增强版本的优越性。3）我们进行了额外的实验，并提供了更详细的特征可视化，以进一步研究所提出的空间-频率双域集成在全景锐化和深度超分辨率任务中的潜在机制。4）我们广泛回顾了全景锐化和深度超分辨率的相关文献，并讨论了现有方法的优势和劣势。

3 方法论

在本节中，我们首先回顾傅里叶变换的特性。然后，我们提供了所提出框架的概述，如图2和图3所示。接下来，我们描述了我们方法的核心构建块，它由三个关键组件组成：(a) 利用离散傅里叶变换（DFT）提取全局频率信息表示的频域组件，(b) 探索局部信息的空间域信息组件，以及 (c) 促进信息流动并启用互补表示学习的双域信息交互组件。最后，我们介绍了我们方法中使用的新损失函数。

3.1 图像傅里叶变换

傅里叶变换是一种广泛使用的分析图像频率内容的方法。在多通道图像的情况下，傅里叶变换分别应用于每个通道。为了简洁起见，我们在下面的方程中省略了通道符号。设$x \in \mathbb{R}^{H \times W \times C}$为一幅图像，傅里叶变换$F(\cdot)$将其转换为傅里叶空间中的复数分量$F(x)$，可以表示为：

$$F(x)(u, v) = \frac{1}{\sqrt{HW}} \sum_{h=0}^{H-1} \sum_{w=0}^{W-1} x(h, w)e^{-j2\pi(\frac{hu}{H} + \frac{wv}{W})}. $$

$F(x)$的逆傅里叶变换记作$F^{-1}(x)$。快速傅里叶变换（FFT）算法[4]被用来有效实现傅里叶变换及其逆变换。振幅分量$A(x)(u, v)$和相位分量$P(x)(u, v)$定义为：

$$A(x)(u, v) = \sqrt{R^2(x)(u, v) + I^2(x)(u, v)}, $$ $$P(x)(u, v) = \arctan\left(\frac{I(x)(u, v)}{R(x)(u, v)}\right), $$

其中，$R(x)$和$I(x)$分别表示$F(x)$的实部和虚部。在我们的工作中，傅里叶变换及其逆过程独立地应用于特征图的每个通道。在全景锐化和深度超分辨率中，我们利用傅里叶变换通过分析其相位和振幅属性来检查MS/深度、PAN/RGB和GT图像的频率特征，如图1所示。这激发了我们在空间和频域内探索潜在解决方案的动机。重要的是，我们强调全景锐化作为说明性案例，深度超分辨率同样适用。

3.2 框架结构

流程图。如图2所示，我们设计的基于空间-频率信息集成的全景锐化方法，其中我们取PAN图像$P \in \mathbb{R}^{H \times W \times 1}$和MS图像$L \in \mathbb{R}^{H_r \times W_r \times C}$作为输入，并使用$1 \times 1$-kernel卷积层将$r$倍上采样的$M \in \mathbb{R}^{H \times W \times C}$通过多个级联的$3 \times 3$-kernel卷积层与非线性函数ReLU相结合，以从$P$中提取信息特征$F_i^p$，其中$i = 0, \dots, 5$。获得的模态感知特征图的MS和PAN被送入核心构建模块SFIB，该模块执行空间-频率信息提取和集成，产生有效的特征表示。随后，我们使用$1 \times 1$-kernel卷积层将从所有SFIB模块$SFIBs$收集的特征转换回图像空间，并与输入$M$结合，得到输出的全景锐化图像$H$，如下所示：

$$H = SFIBs(M, F_p) + M. $$

监督流程。在本研究中，我们引入了一种新的损失函数，用于优化全景锐化过程，并在空间和频域中增强结果，与结构设计无关。我们提出的损失函数包括两个组成部分：空间域损失$L_{spa}$和频域损失$L_{fre}$，如图2所示。之前的全景锐化方法通常在空间域内使用具有局部引导的像素损失。然而，我们的方法增加了额外的频域监督损失，利用傅里叶变换对全局频率分量进行处理。这种策略利用了频谱卷积定理，并强调了重建全局信息的频率内容，从而提高了全景锐化性能。

3.3 提出的核心构建块

为了概述我们的基本构建块，图3描绘了它的三个关键组件。首先，频域分支利用深度傅里叶变换提取全局频率信息表示。其次，空间信息分支使用可逆神经算子探索局部信息。第三，双域信息交互促进了频率和空间域之间的信息流动，使互补表示的学习成为可能。频域分支。在频率分支中，我们首先对MS和PAN图像的模态感知特征执行傅里叶变换，以获得它们的振幅和相位分量。具体来说，将PAN和MS图像的特征表示为$F_i^p$和$F_i^{ms}$，分别，它们各自的傅里叶变换可以表示如下：

$$A(F_i^p), P(F_i^p) = F(F_i^p), $$ $$A(F_i^{ms}), P(F_i^{ms}) = F(F_i^{ms}), $$

其中振幅和相位分量分别由$A(\cdot)$和$P(\cdot)$表示。然后，我们采用两组独立操作，表示为$O_A(\cdot)$和$O_P(\cdot)$，包括$1 \times 1$-kernel卷积和ReLU激活函数。这些操作整合了相应的振幅和相位分量，以产生改进的全局频率表示：

$$A(F_i^{pm}) = O_A(Cat[A(F_i^p), A(F_i^{ms})]), $$ $$P(F_i^{pm}) = O_P(Cat[P(F_i^{ms}), P(F_i^{ms})]), $$

其中$Cat[ \cdot ]$表示通道级连接操作。然后应用逆DFT将融合的振幅和相位分量转换回空间域：

$$F_i^{fre} = F^{-1}(A(F_i^{pm}), P(F_i^{pm})). $$

傅里叶理论中的频谱卷积定理指出，处理傅里叶空间中的信息可以捕获全局频率表示。因此，频率分支生成了表示为$F_i^{fre}$的全局信息表示。空间域信息分支。与频域分支相比，空间分支考虑从PAN和MS模态中提取局部信息。如图3所示，它采用了连续的无损信息可逆神经算子来整合MS和PAN特征的信息，并生成信息丰富的空间表示。这些操作与原始空间域分支中使用的基本卷积单元不同，导致了我们的改进版本SFINet++。第$i$个SFIB的第一个可逆神经算子接收$F_i^p$和$F_i^{ms}$作为输入，并通过耦合仿射变换操作转换为$F_i^{sp}$和$F_i^{sms}$，详细如图4所示：

$$F_i^{sp} = F_i^p \odot \exp(\varphi_1(F_i^{ms})) + \rho_1(F_i^{ms}), $$ $$F_i^{sms} = F_i^{ms} \odot \exp(\varphi_2(F_i^p)) + \rho_2(F_i^p), $$

其中$\exp(\cdot)$表示数学中的指数函数，$\varphi(\cdot)$和$\rho(\cdot)$分别代表尺度函数和翻译函数。Hadamard乘积用符号$\odot$表示。注意，尺度和翻译函数不一定是可逆的。当经过最终的可逆神经算子时，可以获得融合的空间表示$F_i^{spa}$。深入研究可逆神经算子中的变换函数$\Phi_1, \rho_1, \Phi_2, \rho_2$，为了使其具有变换能力，我们采用了图4中的半实例归一化来装备它们，以$F_i^p$为例，它首先使用$1 \times 1$-kernel卷积$Conv(\cdot)$将$F_i^p$投影到$F_i^{ep}$，然后将其均匀分割为两部分$F_i^{1ep}, F_i^{2ep}$，分别通过恒等和实例归一化处理，并通过卷积单元整合以获得$F_i^{sip}$：

$$F_i^{ep} = Conv(F_i^p), $$ $$F_i^{1ep}, F_i^{2ep} = \text{split}(F_i^{ep}), $$ $$F_i^{sip} = Conv(Cat[IN(F_i^{1ep}), F_i^{2ep}]). $$

空间和频率域分支生成的信息表示是互补的。因此，它们的交互和整合可以相互补偿，并产生更有效的信息表示。有关可视化，请参见第4.5节和图8。双域信息交互。双域信息交互可以分为两部分：信息补偿和信息整合。(a) 信息补偿涉及提取局部空间信息$F_i^{spa}$的不同分量来补偿全局频率信息$F_i^{fre}$，因为它们是互补的。为了实现这一点，计算$F_i^{fre}$和$F_i^{spa}$之间的绝对差，使用空间注意力机制$SA(\cdot)$来捕获空间依赖性。输出的空间注意力图与$F_i^{spa}$相乘，以选择信息内容，然后将其施加在全局频率表示$F_i^{fre}$上，以获得丰富的表示$F_i^{gl}$：

$$F_i^{gl} = F_i^{fre} + SA(F_i^{fre} - F_i^{spa}) \times F_i^{spa}. $$

$SA(\cdot)$在图3的左下角详细说明。通过计算$F_i^{fre}$和$F_i^{spa}$之间的绝对差，空间注意力机制专注于信息的“哪里”。沿着通道轴的平均池化和最大池化操作被应用并连接，以创建一个简化的特征描述符，有效地突出了重要区域。沿着通道轴的池化操作已被证明对这一目的有效。随后，一个卷积层被应用于连接的特征描述符上，产生了我们的空间注意力图$F_i^{spa}$，该图指示了需要强调或抑制的区域。我们使用平均池化和最大池化操作$AvgPool(\cdot)$和$MaxPool(\cdot)$，从特征图$F_i$中收集通道信息，得到两个2D图：$F_i^{avg} \in \mathbb{R}^{H \times W \times 1}$和$F_i^{max} \in \mathbb{R}^{H \times W \times 1}$。每个图分别表示跨通道的平均和最大池化特征。然后，这些图被连接并卷积，生成我们的2D空间注意力图$F_i^{spa} \in \mathbb{R}^{H \times W \times 1}$。总之，空间注意力的计算如下：

$$F_i^{spa} = \sigma(Conv(Cat[F_i^{avg}, F_i^{max]))), $$

其中$\sigma$、$Cat(\cdot)$和$Conv$分别表示Sigmoid函数、通道级连接操作符和$3 \times 3$-kernel卷积。(b) 信息整合：一旦获得了增强的全局频率特征$F_i^{gl}$，它就与局部特征$F_i^{spa}$结合，并经过通道注意力$CA(\cdot)$处理。这个过程允许利用通道间的关系，使互补学习成为可能，并提供了更具信息量的特征表示$F_i^{fuse}$。输入的MS特征$F_i^{ms}$随后通过残差学习添加到融合特征上：

$$F_i^{fuse} = CA(Cat[F_i^{gl}, F_i^{spa}]) + F_i^{ms}. $$

图3中，$CA(\cdot)$的详细信息在右下角概述。通道注意力涉及从输入特征中提取有意义的“什么”。类似于$SA(\cdot)$，空间维度通过平均池化进行压缩。然后，得到的描述符被送入一个隐藏层的多层感知器（MLP）以生成通道注意力图$F_i^{cha} \in \mathbb{R}^{C \times 1 \times 1}$。总之，通道注意力的计算如下：

$$F_i^{cha} = \sigma(AvgPool(Conv(Cat[F_i^{gl}, F_i^{spa}]))), $$ $$F_i^{cha} = F_i^{cha} \odot Conv(Cat[F_i^{gl}, F_i^{spa}]). $$

这里，$\sigma$和$Conv$分别代表Sigmoid函数和$3 \times 3$-kernel卷积。有了核心构建块，我们提出网络具备了通过探索空间和频率域的潜力来建模和整合全局和局部信息表示的能力。

3.4 损失函数

设$H$和$GT$分别表示网络输出和相应的真实值。为了增强全景锐化结果的质量，我们提出了一个联合空间-频率域损失来监督网络训练。在空间域中，我们使用L1损失，给出如下：

$$L_{spa} = \|H - GT\|_1. $$

在频域中，所提出的方法采用DFT将预测输出$H$和相应的真实值$GT$转换到傅里叶空间，得到振幅和相位分量。然后计算$H$和$GT$之间的振幅差异和相位差异，使用L1范数，并相加生成总频率损失，可以表述为：

$$L_{fre} = \|A(H) - A(GT)\|_1 + \|P(H) - P(GT)\|_1. $$

最后，总体损失函数被表述为空间和频率损失的加权和：

$$L = L_{spa} + \lambda L_{fre}, $$

其中$\lambda$是权重因子，经验性地设置为0.1。

4 全景锐化实验

在本研究中，我们的目标是通过与几种代表性的全景锐化方法进行全面的性能比较，包括传统和最先进的基于深度学习的方法，来评估我们提出的方法在全景锐化任务中的有效性。传统方法包括SFIM[42]、Brovey[43]、GS[44]、IHS[45]和GFPCA[46]。在比较中考虑的基于深度学习的方法包括PNN[1]、PANNET[17]、MSDCNN[47]、SRPPNN[20]、GPPNN[48]、FAFNet[25]和MutNet[23]。通过这种比较，我们的目标是展示我们提出的方法的优越性能，并证明它在全景锐化中优于现有的最先进方法。

4.1 实现

在本研究中，我们使用PyTorch框架和单个NVIDIA GeForce GTX 2080Ti GPU来实现我们的网络。在训练阶段，我们使用Adam优化器进行1000个周期的训练，批量大小为4，学习率为$5 \times 10^{-4}$。学习率在200个周期后降低了0.5倍。为了生成训练集，我们使用了Wald协议工具[49]，因为全景锐化图像的真实值不可用。具体来说，我们通过将MS图像$GT \in \mathbb{R}^{M \times N \times C}$和PAN图像$Pa \in \mathbb{R}^{M_r \times N_r \times b}$分别下采样$r$倍来获得下采样的MS图像$L \in \mathbb{R}^{M_r \times N_r \times C}$和PAN图像$P \in \mathbb{R}^{M \times N \times b}$。在训练过程中，$L$和$P$被用作输入，而$GT$作为真实值。

4.2 评估

我们用于评估的IQA指标包括ERGAS、PSNR、SSIM、SAM、SCC、Q指数、Dλ、DS和QNR。这些指标在图像处理社区中广泛用于评估全景锐化图像的质量。评估在三个卫星图像数据集上进行，分别是WorldviewII、Worldview-III和GaoFen2。对于每个数据集，PAN图像被裁剪成$128 \times 128$像素的补丁，而相应的MS补丁被调整到$32 \times 32$像素。全景锐化中真实高分辨率“真实值”数据的稀缺性源于复杂的融合过程、获取真实世界高分辨率图像的挑战、地球表面潜在的时间变化以及全景锐化算法的持续演变。这种复杂性阻碍了精确和当前参考数据的建立。同时获取高空间和光谱分辨率图像的全景锐化面临着源于遥感数据获取的复杂性、传感器设计和技术限制的挑战。开发能够同时捕获高空间和光谱分辨率的传感器需要复杂的光学和电子组件，引入了更高的成本和技术复杂性。此外，追求高光谱分辨率可能导致波段重叠，降低了光谱信息的独特性。解决高分辨率遥感数据的更大存储和传输容量的需求在数据管理中引入了额外的复杂性。光学和物理限制可能进一步阻碍了在单个传感器中同时捕获高空间和光谱分辨率，增加了整合两种信息的复杂性。为了评估我们提出的方法的泛化性能，我们组装了一个额外的真实世界数据集，包括来自Gaofen-2和WorldView-II卫星的200个样本。与之前的合成低分辨率数据集不同，这个全分辨率数据集不包括任何PAN图像下采样到$32 \times 32$和MS图像到$128 \times 128$分辨率。PAN和MS图像是使用与之前相同的方法生成的。鉴于缺乏真实的MS图像，我们使用了三个常用的IQA指标—光谱失真指数Dλ、空间失真指数DS和无参考质量（QNR）—来评估我们的模型。

4.3 比较

在降低分辨率场景中的评估。本节中，我们展示了我们提出的全景锐化方法，SFINet和SFINet++，在三个不同的卫星数据集上的性能评估结果，即WorldView-II、GaoFen2和WorldView-III。使用各种评估指标评估了所提出方法的性能，结果列在表1、2和4中，优越性能用加粗显示。结果表明，我们提出的方法在所有评估指标上都优于其他比较算法。具体来说，我们提出的方法，SFINet和SFINet++，在WorldView-II、GaoFen2和WorldView-III数据集上分别比表现最好的算法高出0.1 dB、0.17 dB和0.09 dB的PSNR结果。此外，我们的方法在其他评估指标上也显示出相当的改进，证实了它们优于现有的最先进基于深度学习的方法。为了进一步支持我们提出的方法的有效性，我们在图5、6和7中展示了在WorldView-II、GaoFen2和WorldView-III数据集上的代表性样本的结果的视觉比较。每个图的最后一行显示了全景锐化图像与真实值之间的均方误差（MSE）残差。可以观察到，与其它方法相比，我们提出的方法在空间和光谱失真上显著降低，这通过MSE残差图证明了这一点。此外，MSE残差图的放大区域表明，我们提出的方法SFINet和SFINet++倾向于更蓝，而其他方法涉及更多的黄色，表明空间失真更差。这些视觉比较进一步证明了我们提出的方法达到了最先进的性能，并优于现有的全景锐化算法。

在全分辨率场景中的评估。为了评估我们网络在全分辨率场景中的泛化能力，我们在GaoFen2数据上训练的模型被应用于之前未见过的全分辨率GaoFen2和WorldView-II卫星数据集。实验结果列在表5和表6中，可以观察到我们提出的方法在所有评估指标上显著优于其他传统和基于深度学习的方法。与之前的版本相比，改进的SFINet++获得了更好的性能，表明了频谱一致性和空间纹理重建。这证明了我们提出的方法相比其他方法具有优越的泛化能力。视觉比较在图9和10中展示。在这个全分辨率场景中，视觉评估需要将PAN图像作为空间参考，而LRMS图像作为光谱参考。虽然许多比较的方法都实现了增强的细节，SRPPNN [20] 和 MutNet [23] 表现出光谱精度的妥协。此外，PANNET [17] 和 GPPNN [48] 表现出不规则的结构或伪影。相比之下，我们增强的SFINET++ 在空间增强和光谱一致性之间取得了更好的平衡。

4.4 参数和模型性能分析

为了全面分析提出的方法，我们研究了其在参数数量（以10M为单位）和浮点运算（FLOPs）方面的复杂性，如表3所示。提出的方法在包含第二少参数的同时实现了最佳性能。注意，PNN [1] 和 PANNET [17] 由于其简单的网络架构，参数数量最少，但性能较差。此外，SRPPNN [20] 和 MutNet [23] 虽然实现了有希望的性能，但其参数数量多于我们提出的方法。我们提出的方法在模型复杂性和性能之间取得了良好的平衡。因此，我们的网络在参数数量相对较少的情况下实现了最佳性能，表明它在复杂性和性能之间取得了良好的平衡。

4.5 双域特征可视化

为了验证设计的双域信息集成机制的贡献，我们深入研究了Fms、Ffre、Fspa、Ffre − Fspa、Fgl和Ffuse的特征图。如第3.3节所述，频率特征Ffre和空间特征Fspa是互补的。图8显示，Ffre捕获了全局信息，但缺乏详细的具体内容，而Fspa专注于捕获局部纹理细节。频率-空间差分特征Ffre − Fspa捕获了光谱信息，但忽略了空间细节。融合后的特征图Ffuse通过整合这些特征，提供了输入图像的全面表示。这些结果表明，所提出的双域信息集成机制有效地融合了来自多个域的互补信息，从而增强了模型性能。

5 深度图像超分辨率实验

本节介绍了一系列实验，旨在评估我们提出的方法在深度图像超分辨率任务中的有效性。为此，我们采用了[39]中提出的实验协议，其中评估的数据集使用两种不同的下采样操作生成：双三次下采样和直接下采样。在随后的章节中，我们将详细介绍实验设置和结果。

5.1 数据集和指标

NYU v2数据集[50]，包含1449对由Microsoft Kinect传感器使用结构光捕获的RGB-D图像对，被用作评估深度图像SR方法的广泛认可的基准。如之前的作品[39]、[51]，前1000对RGB-D图像对用于训练所提出的网络，其余449对RGB-D图像对用于模型评估。为了生成低分辨率深度图，我们遵循[39]的实验协议，使用双三次和直接下采样操作，以不同的比例（×4、×8和×16）对图像进行下采样。模型的性能使用均方根误差（RMSE）指标进行评估，这在深度图像SR领域通常使用。为了评估我们所提出模型的潜在泛化能力，我们采用了与[39]相同的实验设置，并将我们训练好的模型直接应用于两个额外的基准数据集：Middlebury[52]和Lu[53]。Middlebury数据集包含30对RGB-D图像，包括21对2001年[54]和9对2006年[55]的数据。另一方面，Lu数据集由6对RGB-D图像组成。为了确保公平评估，我们在计算平均绝对误差（MAE）或均方根误差（RMSE）值之前，将所有重建的深度图量化为8位。如之前的作品[39]、[56]、[57]，这些指标的较低值表示更优越的性能。

5.2 实现

在我们的实验中，我们在训练阶段使用了[39]的基线实现。为了优化我们的模型，我们采用了Adam优化器[58]，其中β1 = 0.9，β2 = 0.999，ϵ = 1e − 8。我们将学习率初始化为2 × 10 − 4，并在每100个周期后将其衰减0.5倍。此外，为了生成我们的模型输入，我们对低分辨率深度图像进行了双三次上采样。我们还提供了MindSpore的实现。

5.3 双三次下采样的实验结果

为了评估我们提出的方法在双三次下采样情况下的有效性，我们使用[39]中概述的实验设置，与其他最先进的深度图像SR算法进行了比较分析。选定的算法包括传统方法，如引导图像滤波（GF）[59]和全变分（TGV）[60]，以及基于深度学习的方法，如DGF[61]、DJF[62]、DMSG[63]、深度联合图像滤波（DJFR）[51]、深度超分辨率网络（DSRNet）[56]、像素自适应卷积（PacNet）[64]、快速可变形核网络（FDKN）[39]和可变形核网络（DKN）[39]。为了确保公平比较，我们报告了定量评估结果，即生成的HR深度图与真实值之间的平均RMSE值，如原始论文中报告的每个方法的结果。我们报告了不同下采样比例，即×4、×8和×16的结果，在表7中。表7呈现了几种最先进的深度图像超分辨率算法的定量评估，针对特定的双三次下采样情况。我们提出的方法在×4、×8和×16的缩放因子上，以平均RMSE值的表现优于比较的方法。基于深度学习的技術，即DKN [39]、DSRnet [56]、PacNet [64]、DMSG [63]和DJFR [51]，与传统方法如GF [59]和TGV [60]相比，有相当大的性能提升。上述优越性可以归因于深度神经网络的强大学习和映射能力。我们提出的方法在所有三个数据集上的平均RMSE上优于第二好的表演者，DKN [39]，分别为0.09（4×）、0.38（8×）和0.87（16×）。我们的模型仅在NYU v2数据集上训练，并且没有在其他数据集上进行微调，如Middlebury和Lu。尽管如此，我们的方法仍然在Middlebury数据集[52]上的平均RMSE上分别降低了0.1（4×）、0.47（8×）和1.03（16×），以及在Lu数据集[53]上降低了0.08（4×）、0.45（8×）和1.28（16×）与DKN [39]相比。因此，我们的方法表明了优于其他方法的泛化能力。除了定量分析外，还进行了视觉评估，以进一步评估我们提出的方法与其他方法的性能。图11、12和13展示了各种方法生成的HR深度图。值得注意的是，其他方法有某些局限性，如GF [59]由于局部滤波器的有限能力捕获全局信息，从而产生了过度平滑的图。同样，DJFR [51]和DKN [39]存在伪影问题。虽然PacNet [64]可以保留局部细节，但在重建边界方面效果不佳。相比之下，我们提出的方法增强了LR深度图的空间细节，并生成了准确和清晰的边缘。

5.4 直接下采样的实验结果

在本研究中，我们比较了我们提出的方法与几种最先进的技术在直接下采样背景下的表现。这些技术包括双三次上采样、MRF、GF、TGV、Park、JBU、DJF、dDMSG、PacNet、DJFR、DSRNet、FDKN和DKN。为了确保公平，其他竞争方法的平均RMSE值直接从它们原来的论文中获得。比较在三个不同的下采样比例下进行，即×4、×8和×16，结果列在表8中。如表8所示，我们的方法在所有缩放因子上都实现了最佳性能。具体来说，对于最具挑战性的16×情况，我们的方法在所有数据集上都优于所有其他方法。与第二好的方法，DKN [39]相比，我们的方法在平均RMSE上分别降低了0.21（4×）、0.19（8×）和0.12（16×）。此外，为了评估泛化能力，我们在NYU v2数据集上训练了我们的模型，然后将其应用于其他两个数据集，即Middlebury数据集和Lu数据集。我们的方法在这些数据集上的表现优于其他方法，表明了其强大的泛化能力。例如，与DKN [39]相比，我们的方法在Middlebury数据集[52]上的平均RMSE分别降低了0.32（4×）、0.06（8×）和0.15（16×）。同样，我们的方法在Lu数据集[53]上的平均RMSE分别降低了0.19（4×）、0.39（8×）和0.02（16×）。

5.5 深度图像超分辨率的双域特征可视化

为了探索所提出核心模块的潜在机制，我们可视化了空间和频率域中的特征图Fdepth、FRGB、Ffre、Fspa、Ffre − Fspa、Fgl和Ffuse，这些特征图是针对直接下采样案例的深度图像超分辨率任务。正如公认，深度图像和RGB图像在深度图像超分辨率中扮演的角色等同于全景锐化任务中的MS和PAN。因此，如第3.3节所述，Fdepth和FRGB的定义与Fms和Fp相同。在全景锐化的情况下，类似的证据可以得到，频率特征Ffre和空间特征Fspa表现出互补的特性。图14通过视觉确认了Ffre捕获了全局信息，而Fspa突出了局部内容。结果特征图Ffuse通过整合这些特征提供了更多信息量的反应。

6 消融研究

本节详细介绍了进行的消融研究，以评估我们网络中所提出模块的有效性。实验在WorldView-II数据集上进行，模型的性能使用IQA指标进行测量，包括ERGAS、PSNR、SSIM、SCC、Q指数、SAM、Dλ、DS和QNR。

6.1 核心构建模块数量的影响

为了评估核心构建模块在我们网络中的影响，进行了不同K值从1到11的实验，结果列在表9中。结果表明，模型性能在K=8时提高，随着计算需求的增加而提高。超过这一点，性能增益减少，表明饱和。对于K>9，性能下降表明过拟合或冗余，导致复杂性相关问题。总之，存在一个最优的核心模块范围，可以显著提高性能，证明成本。然而，超过一个阈值，收益递减。为了平衡，将K=5设置为默认值，确保在增强能力和实际计算考虑之间取得平衡。

6.2 频率信息分支的有效性

在第一组实验中，我们评估了核心构建模块中频率信息分支的影响。这涉及到在完整网络和一个变体之间的性能比较，该变体省略了频率信息分支，通过实现一个3×3卷积装备的ResNet块，同时保持一致的模型参数。目的是评估频率信息的有效性。表10中的结果表明，去除频率信息分支会导致性能显著下降。这是因为频率信息分支对于模拟全局频率信息以产生高质量的全景锐化图像至关重要。没有它，网络无法正确捕获频率信息，从而降低了全景锐化性能。

6.3 可逆单元的有效性

在接下来的一组实验中，我们进行了评估，以研究核心构建模块内可逆单元（INO）的作用。这包括了有和没有可逆单元的网络整体性能的比较分析。没有可逆单元的变体使用3×3卷积块实现，同时保持模型参数一致。主要目的是区分可逆单元对全景锐化过程的具体影响。表10中的结果表明，去除可逆单元会导致性能指标的显著变化。

6.4 频率损失的有效性

在本研究中，我们引入了一种新的频率损失函数，主要目标是直接优化全局频率信息。为了评估其有效性，表10中的第二个实验涉及去除频率损失。实验结果表明，去除频率损失会导致所有指标的严重退化，如表10中观察到的显著下降所示。这一发现突出了频率损失函数的重要作用。

7 结论

在这项工作中，我们提出了一种新的方法来解决多模态图像融合问题，通过在空间和频率域中整合高空间分辨率的引导图像和低分辨率目标图像。这是第一次尝试重新审视相应退化的内在机制，并量身定制有效的空间-频率双域信息集成框架。为了验证我们方法的有效性，我们进行了广泛的实验和与最先进方法的比较。在全景锐化和深度超分辨率这两个典型的多模态图像融合任务中的实验结果表明了我们方法的良好性能。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247610372&idx=2&sn=f74cbf846da1938d88bac99f3083c2f9

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。