点击上方卡片,关注“AI学术工坊”公众号
点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
用于高光谱图像恢复的潜在扩散增强矩形Transformer各种重磅干货,第一时间送达
摘要
高光谱图像 (HSI) 的恢复在后续的高光谱图像应用中起着关键作用。尽管深度学习具有卓越的能力,但当前的 HSI 恢复方法在有效探索 HSI 固有的空间非局部自相似性和光谱低秩特性方面面临挑战。本文通过引入用于 HSI 恢复的潜在扩散增强矩形 Transformer 来解决这些挑战,解决非局部空间相似性和 HSI 特定的潜在扩散低秩特性。为了有效地捕捉非局部空间相似性,我们提出了水平和垂直方向上的多形状空间矩形自注意模块,使模型能够利用信息丰富的空间区域进行 HSI 恢复。同时,我们提出了一个光谱潜在扩散增强模块,该模块根据 HSI 的内容生成特定于图像的潜在字典,用于低秩向量的提取和表示。该模块利用扩散模型生成全局低秩向量的表示,从而与所需的 HSI 更紧密地对齐。针对四种常见的高光谱图像恢复任务进行了一系列全面的实验,包括 HSI 去噪、HSI 超分辨率、HSI 重建和 HSI 修复。这些实验的结果凸显了我们提出的方法的有效性,客观指标和主观视觉质量都有所改善。
论文链接:https://ieeexplore.ieee.org/abstract/document/10713101/authors#authors
论文标题:Latent Diffusion Enhanced Rectangle Transformer forHyperspectral lmage Restoration
作者:Miaoyu Li, Ying Fu, Tao Zhang, Ji Liu, DejingDou, Chenggang Yan, Yulun Zhang
1.关键字
高光谱图像恢复,扩散模型,Transformer,非局部相似性,低秩性质。
2.引言
高光谱图像 (HSI) 可视为三维数据立方体,与 RGB 图像相比,可提供更丰富的光谱信息。因此,HSI 已广泛应用于人脸识别 [62]、[63]、植被检测 [6]、[93]、医学诊断 [69] 等应用。尽管存在带宽限制和扫描设计约束 [4],但光谱图像容易出现各种形式的退化,例如低分辨率、噪声、压缩伪影、像素缺失等。除了影响视觉质量外,不良退化还会对下游应用产生不利影响。为了提高 HSI 的视觉质量并增强后续视觉任务的性能,有必要将 HSI 恢复作为高光谱图像分析和处理的基本步骤。
由于自然和人造场景中存在重复和聚集模式,HSI 表现出空间自相似性,这表明可以将相似的像素分组并一起恢复。此外,高光谱成像系统以标称光谱分辨率捕获图像,固有地揭示了光谱相关性。因此,在制定 HSI 恢复方法时,必须同时考虑空间和光谱域。
传统的基于模型的 HSI 恢复方法 [21]、[28] 采用手工制作的先验,通过迭代优化探索空间和光谱相关性。这些工作中经常使用诸如总变分 [28]、[83]、非局部相似性 [26]、低秩 [11]、[12] 属性和稀疏性 [68] 正则化等技术。然而,基于模型的 HSI 恢复方法的有效性取决于手工制作先验的准确性。此外,在实际的 HSI 恢复场景中,这些方法通常很耗时,并且在各种退化场景中的泛化能力有限。
凭借强大的自动学习能力,深度学习方法 [10]、[25]、[59]、[76]、[89] 已成功应用于 HSI 恢复,取得了令人印象深刻的性能。然而,这些方法中的很大一部分依赖于局部卷积滤波器响应来区分受限感受野内的退化和信号。在最近的发展中,视觉 Transformers 在低级任务中获得了突出地位 [3]、[23]、[61]、[77],展示了它们在图像区域中建模长距离依赖关系的强大能力。为了减轻与图像大小相关的计算昂贵的二次成本,许多工作探索了空间注意的有效设计 [14]、[49]、[74]。Swin Transformer [49] 将特征图划分为移位的方形窗口,而 CSWin Transformer [20] 在特征图上引入了一个条纹窗口以扩大注意区域。鉴于 HSI 的特征图通常很大,探索目标像素以外的相似性可能会带来不必要的计算负担。因此,有效地对非局部空间相似性进行建模仍然是使用 Transformers 进行 HSI 恢复的一个挑战。
除了非局部空间相似性之外,HSI 处理中另一个被广泛探索的特征是低秩子空间表示 [12]。将 HSI 沿光谱维度投影到低秩子空间有助于在抵抗各种退化的同时保留关键信息。然而,现有的 HSI 去噪方法 [11]、[32]、[72] 通常依赖于退化目标图像的矩阵分解,这很耗时,并且缺乏外部干净图像的支持和指导。最近,扩散模型在视觉任务中提供了强大的生成能力 [54]、[70]。将这种生成能力与 HSI 固有的低秩特征相结合,在成对训练数据的指导下制定特定于图像的低秩投影空间是一种可行的方法。
在本文中,我们介绍了一种用于 HSI 恢复的潜在扩散增强矩形变换器 (LDERT)。为了有效地探索 HSI 的空间内部相似性,我们提出了一个具有多形状空间矩形设计的自注意模块。该模块有助于充分利用非局部空间相似性。此外,我们提出了一个光谱潜在扩散增强模块,该模块基于成对数据训练和图像内容,利用扩散模型生成特定于图像的全局低秩特征表示。我们提出的 Transformer 同时考虑了空间非局部相似性和光谱潜在低秩属性,从而增强了恢复过程。实验结果表明,与一系列 HSI 恢复任务中的最新方法相比,该方法具有显着的性能优势。
总而言之,这项工作的贡献是:
我们提出了一种潜在扩散增强矩形 Transformer,用于各种 HSI 恢复任务。它有效地利用了退化 HSI 的非局部空间相似性和固有的光谱低秩特性。 提出了一种多形状和多尺寸的空间矩形自注意模块,彻底探索了 HSI 中的空间非局部自相似性。 提出了一种光谱潜在扩散增强模块,在扩散模型的指导下为全局低秩谱表示生成特定于图像的潜在词典。
本文是对初步会议论文 [41] 的扩展。SERT [41] 模型利用 HSI 的低秩属性和全局记忆单元,专门用于 HSI 去噪。我们对 SERT [41] 做了几项关键修改。首先,我们扩展了我们的方法来处理一般的 HSI 恢复任务,包括去噪、重建、超分辨率和修复问题。我们进一步使用 U 形架构增强了我们的网络,以实现多尺度特征利用。其次,我们使用潜在扩散模型提升了我们的光谱增强模块,以探索具有特定于图像的字典生成的全局低秩属性。最后,我们对我们的方法进行了更详细的分析,提供了具有固有先验的学习的全面视角。
本文的其余部分组织如下:第 2 节回顾了 HSI 恢复的相关工作,涵盖了传统的基于模型的 HSI 恢复方法和基于深度学习的 HSI 恢复方法。我们还讨论了利用非局部相似性和低秩属性的最新进展。第 3 节详细介绍了我们提出的 LDERT,重点介绍了新提出的光谱潜在扩散增强模块。第 4 节介绍了各种高光谱图像恢复任务的实验结果。还包括消融研究和讨论。
3.潜扩散增强矩形transformer
在本节中,我们首先介绍 HSI 重建的问题公式。然后,我们概述了所提出的 LDERT。接下来,我们进一步分别详细描述了我们设计的空间矩形自注意力和光谱潜在扩散增强。
3.1 提出与动机
对于退化的 HSI ,假设其底层的干净 HSI 为 ,其中 和 分别为高度、宽度和波段数,则这两幅图像之间的关系可以表示为
其中 表示加性随机噪声。通过指定 的不同退化算子,可以定制公式 (1) 以解决各种 HSI 恢复任务。
从 中恢复 是一个高度不适定的问题。为了达到更好的效果,HSI 恢复方法往往非常重视空间和光谱特征,尤其是非局部空间相似性和光谱低秩性质。虽然这两种先验在传统的基于迭代模型的方法中都被证明是有效的[18],[27],[83],但对固有先验与深度学习更有效地结合的探索仍然缺乏。
在本节中,我们介绍了用于 HSI 恢复的潜在扩散增强矩形 Transformer。详细架构如图 1 所示。与会议版本 [41] 不同,我们采用了图 1 (a) 所示的 U 形架构,以更好地适应不同的恢复任务。图 1 (b) 描述了所提出的 Transformer Block 的基本组件,其中包含一个空间矩形自注意 (SRA) 模块、一个光谱潜在扩散增强 (SLDE) 模块、两个规范化层和一个多感知层 (MLP)。SRA 和 SLDE 模块并行运行,它们的输出合并。在以下内容中,我们将深入讨论每个模块。
3.2 空间矩形自注意力
HSI 本身在空间域中包含重复模式。这表明可以将具有空间相似性的像素组合在一起以进行恢复 [27]。传统的基于卷积的深度学习 HSI 恢复方法主要依靠固定卷积层来提取局部信息,从而限制了它们对非局部相似性进行建模的能力。
如 [49]、[66]、[77] 中所述,一些举措已将 Transformer 作为卷积神经网络的替代品,以增强探索远程视觉关系的能力。如 [44] 所示,Transformer 中的自注意力机制在空间相关性建模方面的有效性已得到认可。然而,将自注意力直接应用于全局空间域是一项挑战,因为它的计算复杂度很高。为了解决这一计算障碍,Swin Transformer [49] 和 CSWin Transformer [20] 等方法采用了一些策略,例如在执行自注意力操作之前将输入特征划分为窗口或条纹。
由于空间纹理的区域相关性,从统计概率的角度来看,距离较近的像素表现出更高的相似性,如图 2 所示。然而,Swin [49](参见图 2 (b))倾向于过度优先考虑局部信息,而 CSwin [20](图 2 (c))倾向于合并信息量较少的像素。因此,在 HSI 恢复的背景下,有效地在信息丰富的空间区域中实施自注意力以模拟非局部相似性仍然是一个挑战。
因此,为了有效地增强对非局部空间相似性的探索,我们引入了空间矩形自注意力,其中特征图被分割成各种形状的不同空间矩形。如图 2 所示,该架构强调相邻像素,在非局部区域捕获更全面的信息。在不同的网络阶段使用各种形状的矩形来提高表达能力。此外,在空间自注意力操作之前,在空间域中使用移位操作 [49] 来建立相邻矩形之间的连接。
图 1 (c) 详细展示了所提出的 SRA 模块。为了增强模型在空间区域的感知意识并实现卓越的去噪效果,我们在频谱分割操作之后在垂直和水平方向上应用了空间矩形自注意力。与 [20] 中的方法相比,我们结合了频谱混洗操作 [51] 以促进两个分支之间的信息交换。鉴于矩形自注意力在垂直和水平方向上关注具有不同感受野的不同区域,混洗操作进一步扩展了模块的整体感受野。
令 表示输入特征,SRA模块的具体操作可以表示为:
其中 H-MSA 表示水平多头自注意力,V-MSA 表示垂直多头自注意力。首先, 在谱维度上被拆分, 和 。随后, 和 分别进行 H-MSA 和 V-MSA
假设水平矩形的尺寸为 且 ,在 H-MSA 的情况下,输入特征 被分割成不重叠的水平矩形,即 ,其中 和 。H-MSA 中的注意操作计算如下:
其中 是查询 、键 和值 的投影映射。位置信息通过可学习参数 嵌入, 表示特征维度。然后通过以下方式聚合水平矩形自注意力的输出:
垂直矩形自注意 V-MSA 的操作与 H-MSA 类似,只是其大小为 。此外,在所提出的恢复网络的不同层中,我们利用不同大小的矩形来执行多尺度空间相似性评估。
3.3 光谱潜在扩散增强
在传统的基于模型的 HSI 恢复方法中,HSI 的表示通常涉及提取块,而探索低秩属性是这些 HSI 恢复方法中的常见做法 [12]、[18]、[32]。这意味着利用基于块的低秩谱子空间对各种 HSI 任务都有好处。
我们的方法旨在利用低秩属性来指导 HSI 恢复过程。然而,在投影退化的 HSI 时,实现准确的子空间投影(特别是在没有像 SVD [11] 这样的稳健正则化的情况下)可能具有挑战性。我们没有像 [16] 中所示的那样将正交投影合并到 HSI 中,而是采用了不同的策略。具体来说,我们使用扩散模型学习低秩子空间,从而能够从退化的 HSI 本身直接生成低秩字典样本。
特别地,由于文献 [41] 使用可训练的记忆单元来表示所有 HSI 立方体的全局低秩统计量,因此它缺乏每个 HSI 特定的表示能力。由于每个 HSI 的场景和成像条件各不相同,沿光谱维度的低秩特征也不同。虽然记忆单元可以通过训练全局更新和表示低秩属性,但它忽略了单个 HSI 内部的差异,忽略了每个目标 HSI 内部的低秩分布。
受扩散模型在低级任务中成功应用的启发 [70],我们改用扩散模型来生成特定于图像的低秩分布。扩散模型 [29]、[54] 已显示出生成与原始数据分布紧密匹配的高质量、多样化样本的能力。核心思想涉及将数据生成建模为从高斯噪声到复杂目标数据分布的逐渐转变。因此,它可以为我们的光谱增强模块生成特定于图像的低秩字典提供强大而灵活的解决方案。
利用特定于图像的低秩词典,我们进一步将光谱特征投影到低秩子空间。此过程保留了必要的光谱信息,同时抑制了不必要的噪声和退化。
我们提出的光谱潜在扩散增强模块 (SLDE) 的详细图示如图 1 (d) 所示。
3.3.1 光谱增强
如图 1 (d) 所示,SLDE 模块的输入特征最初被划分为几个不重叠的块,同时考虑空间和光谱特性,将局部块内的特征表示为低秩向量。每个块的大小为 。 配置为 SRA 模块中矩形的长边。因此,SLDE 模块促进了 SRA 模块中内部矩形之间的信息交互。
为了捕获子空间内的独特光谱信息,受 [30] 和 [14] 的启发,对立方体块应用了光谱压缩操作。我们聚合 并将其投影以生成大小为 的低维向量。具体而言,应用初始空间下采样操作来生成聚合光谱向量 。随后,将该向量投影到 ,表示秩为 的潜在子空间。提取过程计算如下:
其中 为线性投影层的权重。重要的是,我们关注的是立方体内的信息,而不是对整个特征进行全局聚合,因为相邻像素通常具有相似的光谱统计信息。虽然 已经表示了当前补丁的低维特征,但仅仅依靠网络的自动映射会导致表示能力有限和噪声干扰的问题。为了解决这个问题,我们通过建立和利用潜在的低秩记忆词典来增强向量的低秩属性。
低秩字典表示为 ,是通过扩散过程生成的。从公式 (10) 获得光谱向量 后,我们的目标是从字典中找出最相关的光谱低秩向量。然后使用这些选定的向量来细化投影向量 。为了启动该过程,我们提取 和低秩字典 之间的相应系数 ,如下所示:
利用相关系数 ,我们通过以下方式从字典中重新采样匹配的低秩向量 :
随后,我们使用获取的代表当前立方体块最关键信息的光谱低秩向量 来指导去噪。通过用 调制输入的 HSI 立方体 ,最终输出如下:
其中 表示线性投影层,而 表示逐元素点调制。
3.3.2 具有扩散的潜在低秩词典
我们采用扩散模型来生成每个 HSI 特定的低秩字典。学习框架如图 3 所示。与以前使用矩阵分解约束的方法相比,我们从 Ground-Truth (GT) 中学习无噪声的低秩表示。虽然 GT 可以在训练过程中获得,但在测试过程中没有 GT 的指导,生成无噪声的低秩表示是一项挑战。为了解决这个问题,我们使用以退化的 HSI 为条件的扩散模型来生成目标低秩字典。我们的训练过程包括两个阶段。在第一阶段,为了为扩散模型生成干净的低秩样本来学习分布,我们首先将 GT 投影到谱低秩字典中。在第二阶段,我们使用第一阶段生成的低秩分布作为扩散模型的训练目标。即使没有干净的 GT,扩散模型也可以训练为生成内部谱低秩分布。最后,在测试阶段,扩散模型可以直接从退化的 HSI 中生成干净且特定于图像的低秩字典。得益于扩散模型强大的生成和表示能力,所提出的方法可以从目标退化的 HSI 中专门生成光谱低秩字典。
在第一个训练阶段,从 GT 和退化的 HSI 中获得谱低秩词典 ,其公式为:
其中 是谱低秩投影块。如图 3 所示, 由卷积层、GELU 层、插值层和线性层组成。经过卷积层和 GELU 层后,特征被映射到大小 ,其中 是特征维度。插值层对图像特征进行空间下采样,将特征分辨率降低到 。得到的谱低秩字典 被投影到 ,并在公式 (10) 中使用。
第一阶段的训练目标是让 学习低秩分布。通过联合优化 和主网络,我们的目标是在低秩词典的指导下实现更好的恢复结果。我们使用 MSELoss 优化整个网络,MSELoss 是在 LDERT 恢复的 HSI 和 GT HSI 之间计算的。
在第二训练阶段,训练扩散模型,借助条件 生成与第一阶段生成的谱低秩字典 尽可能相似的谱低秩字典。 也是通过 提取的。然而, 的输入只是退化的HSI本身。在第二训练阶段,恢复网络LDERT本身也利用扩散模型进行了优化。优化可以表示为:
直接优化方程 (15) 可能很简单,我们改为采用扩散过程来生成 。概括地说,扩散过程可以表示为迭代细化过程。这是通过首先训练去噪模型来实现的。在正向过程中,根据以下马尔可夫过程,在 步内将高斯噪声依次添加到具有条件特征 的输入向量 上:
其中 是步骤 的方差,。在每个步骤中,去噪网络 都经过训练,以学习将噪声信号 映射到干净信号 。我们可以使用重新参数化技巧来获取信号 ,而不是直接通过以下方式恢复它:
其中 是超参数。
因此,网络预测与噪声有关,而不是去噪后的图像。最后,扩散模型的优化过程[29]可以表示为:
联合分布 定义的逆过程是一个马尔可夫链,其中学习了高斯去噪网络,从标准正态噪声 开始,然后通过反复计算以下方程,迭代细化噪声信号以衰减噪声并放大干净信号:
如图3所示,经过T步骤后,将得到的 作为测试阶段SLDE模块的 。通过扩散模型,生成一个近似GT的低秩词典。此外,对于不同内容的HSI,扩散模型可以针对每种内容生成特定的词典,增强针对性的表示能力。
4.实验
在本节中,我们将通过四个经典的高光谱图像恢复任务验证所提方法的有效性,包括 HSI 去噪、单 HSI 超分辨率、HSI 光谱重建和 HSI 修复。这些恢复任务涵盖了高光谱图像成像中常见的退化问题。通过解决这些核心挑战,可以获得具有高空间和光谱分辨率的干净、完整的 HSI。通过这些任务,我们证明了我们提出的方法的广泛适用性和稳健性。
评估指标。使用峰值信噪比 (PSNR)、结构相似性指数度量 (SSIM) 和光谱角映射器 (SAM) 等定量标准来评估性能。
评估数据集。合成数据实验使用 ICVL 数据集 [2],这是一种广泛采用的模拟调查资源。ICVL 数据集由 201 个 HSI 组成,尺寸为 1392×1300,31 个波段跨度从 400 nm 到 700 nm。我们的设置包括 100 个 HSI 用于训练,5 个用于验证,50 个用于测试。训练图像以各种比例调整为 128×128,测试 HSI 调整为 512×512×31,以确保传统方法的计算效率。
为了证明我们的方法在实际场景中的有效性,我们重点使用 [87] 中介绍的 Urban 数据集和 Realistic 数据集进行实际噪声消除。Urban 数据集由 307×307 像素图像组成,具有 210 个波段,范围从 400 到 2500 nm。由于 Urban 数据集中缺乏干净的 HSI,我们使用 APEX 数据集 [33] 来训练基于深度学习的方法。我们按照与之前研究 [5] 相同的配置,将范围从 0 到 55 的特定波段噪声级别引入 APEX 数据集以模拟嘈杂的 HSI。
对于 Realistic 数据集,提供了 59 个嘈杂的 HSI 以及相应的干净 HSI。每个 HSI 的空间分辨率为 696×520。波段分辨率为 34,范围从 400 nm 到 700 nm。为了公平比较,我们从室内和室外场景中随机选择了 44 个 HSI 进行训练,其余的用于测试。
实验细节。我们在 Matlab 中实现了传统的基于模型的 HSI 恢复方法,运行在 Intel Core i9-10850K CPU 上。我们的方法以及其他基于深度学习的竞争方法都使用 NVIDIA RTX 3090 GPU 进行训练和评估。为了公平比较,我们遵循竞争方法的原始设置,同时保持我们方法的配置一致。
为了训练我们提出的 LDERT,在第一个训练阶段,我们使用 0.0002 的学习率进行 200000 次迭代。在第二阶段,在第一阶段训练的基础上,我们引入了扩散网络,学习率为 0.0002,迭代 50000 次。然后,扩散网络和 LDERT 网络一起进行优化,迭代 200000 次。其他方法的训练和测试使用各自论文中预设的参数并迭代直至收敛。
在我们提出的 LDERT 的实现中,我们分别将层数设置为 2、4 和 6。特征维度初始设置为 64。在网络的不同深度,矩形的大小分别为 [32,4]、[16,4] 和 [16,2]。扩散模型的步长为 4,扩散模型生成的低秩字典的特征大小为 [8,64],其中 8 是低秩向量的特征维度,64 是低秩向量的总数。
4.1 HSI 去噪
HSI 去噪任务是 HSI 应用的基本处理。它可以消除捕获图像中的噪声,从而提高清晰度。我们使用三种基于模型的 HSI 去噪方法和七种基于深度学习的方法评估了我们在 HSI 去噪任务中的方法。具体来说,基于模型的方法包括 BM4D [52]、LLRT [12] 和 NGMeet [26]。基于深度学习的方法包括 HSID-CNN [75]、QRNN3D [67]、T3SC [5]、MAC-Net [10]、SST [40]、HSDT [36] 和 SERT [41]。
4.1.1 合成噪声实验
实施细节。对于模拟实验,我们采用 [67] 中概述的噪声模式。噪声模式包括从 10 级到 70 级的 i.i.d 高斯噪声。我们用从 10 到 70 的不同随机噪声水平训练网络,并评估它们在不同噪声水平下的性能。
定量比较。我们在表 1 中提供了涉及高斯噪声的实验的定量结果。在竞争性传统方法中,NGMeet 在表 1 中的低水平噪声情况下表现出色,并且优于一些深度学习方法(HSID-CNN、QRNN3D、T3SC 和 MAC-Net)。然而,NGMeet 和其他基于模型的方法在高噪声场景下的结果相当差,这表明手动设计的先验的泛化能力有限。我们提出的方法在所有噪声场景中都超越了其他深度学习方法。重要的是,我们的方法有效地从具有挑战性和严重噪声的 HSI 中恢复了更精确的图像,展示了其处理 HSI 中噪声的卓越能力。
视觉比较。为了强调我们方法的去噪能力,我们展示了在 50 高斯噪声水平下通过不同方法恢复的去噪结果,如图 4 所示。误差图表明我们的方法在细节保存和降噪方面表现出色。相比之下,HSID-CNN 和 T3SC 恢复的图像表现出明显的噪声。虽然以前基于 Transformer 的方法(SST 和 HSDT)已经取得了值得称赞的去噪效果,但它们仍然无法增强更精细的细节。通过结合扩散模型,我们的方法有效地补充和增强了详细信息,从而实现了卓越的去噪性能。
4.1.2 真实噪声数据实验
定量比较。如表 2 所示,真实数据集结果展示了各种技术的平均性能指标。我们创新提出的 LDERT 始终优于其他 HSI 去噪方法,提高了近 0.5dB。这一结果凸显了我们的方法在有效管理真实噪声方面的有效性。
视觉比较。图 5 和图 6 以视觉方式描绘了真实噪声 HSI 的去噪结果。我们的方法比传统的去噪和深度学习技术更胜一筹,在降噪和细节保留方面都表现出色。
从图 5 可以看出,城市图像明显受到复杂噪声模式的破坏,尤其是条纹噪声,这严重影响了视觉质量。其他去噪方法要么过度平滑图像,要么仍然保留明显的条纹噪声。相比之下,我们提出的方法产生了视觉上干净的输出,成功地保留了纹理和清晰度。竞争方法表现出不正确的纹理生成和较差的噪声去除效果。在这种情况下,我们的方法获得了最有希望的视觉效果,强调了其卓越的去噪能力。
从图 6 可以看出,在真实的配对噪声数据集上,我们的方法在去噪方面表现出色,同时保留了纹理。虽然 NGMeet 降低了噪音,但它严重丢失了纹理细节。另一方面,HSID-CNN 引入了严重的伪影。其他深度学习方法,如 QRNN3D 和 HSDT,无法去除噪音。与这些方法相比,我们提出的 LDERT 更好地保留了详细信息并有效消除了噪音,从而提高了整体图像质量。
4.2 单个HSI超分辨率
单幅HSI超分辨率旨在提高HSI的空间分辨率,为HSI分析提供更详细的空间信息。
竞争方法。我们用五种最先进的基于监督深度学习的单 HSI 超分辨率方法来评估我们提出的方法,包括 MCNet [42]、SSPSR [34]、SSFN [47]、DualSR [43]、MSDformer [13] 和 Bi-3DQRNN [22]。双三次插值用作基线方法。
实施细节。在 HSI 超分辨率实验中,我们以比例因子 8 为例来验证我们提出的方法。我们应用 8 × 8 高斯滤波器对 HSI 进行下采样。随后,使用双三次插值对每个波段进行特定比例因子的下采样,以获得相应的低分辨率 HSI。
定量比较。表 3 报告了所有比较方法的平均结果。我们的方法 LDERT 与其他比较方法相比具有显著的优势。在 PSNR 方面,我们的方法比下一个最佳方法 Bi-3DQRNN 提高了 0.38dB,后者得分为 31.83dB。与得分为 31.06dB 的 MSDformer 相比,LDERT 领先 1.15dB。与 MCNet 和 SSPSR 相比,这种改进更加明显。LDERT 在所有关键指标上始终优于传统方法(Bicubic)和最近的先进方法(MCNet、SSPSR、DualSR、MSDformer 和 Bi-3DQRNN)。这凸显了 LDERT 在 HSI 超分辨率任务中的卓越能力,确保更高的保真度、更好的结构相似性和更准确的光谱信息保存。
视觉比较。在图 7 中,我们的方法展示了卓越的恢复性能,特别是在保留边缘和精细细节方面。与其他方法相比,我们的方法的错误水平明显较低,这凸显了我们的 LDERT 在高分辨率 HSI 恢复中的有效性和准确性。
4.3 HSI 光谱重建
HSI光谱重建的目的是提高光谱分辨率,更精细地表征光谱信息。我们通过这个任务验证了我们的方法在光谱重建中的有效性。
竞争方法。我们将提出的 LDERT 与几种最先进的光谱重建方法进行了比较,包括六种超分辨率算法(HSCNN+ [58]、AWAN [38]、HRNet [91]、MST++ [9]、DRCR-net [37] 和 SSRNet [17])。还包括一种自然图像恢复方法,即 MPRNet [78] 进行评估。
实施细节。我们使用尼康 D700 相机的光谱响应矩阵来合成 RGB 图像以进行训练和测试。
定量比较。如表 4 所示,我们的方法比最接近的竞争对手 MPRNet 实现了 0.3dB 的平均 PSNR 提升,展示了其在保留图像细节和最小化噪声方面的稳健性。SAM 结果还证明了我们的方法在准确恢复光谱信息方面的有效性,与下一个最佳性能算法 DRCR-net 相比,角度误差减少了 10%。这些发现共同验证了我们提出的方法在多个评估指标中的卓越性能。
视觉比较。如图 8 所示,我们的方法在视觉评估中始终优于竞争对手。恢复的图像表现出卓越的纹理和增强的光谱保真度,展示了我们的方法在保留复杂细节和准确色彩表示方面的有效性。这一视觉证据凸显了我们的方法的稳健性和优于最先进替代方案的优势。
4.4 HSI 修复
由于传感器限制、大气干扰或图像采集过程中的物理障碍,HSI 经常会出现数据缺失的情况,而 HSI 修复对于填补缺失或损坏的区域至关重要,从而使数据更加完整和可靠。
竞争方法。我们将提出的 LDERT 与两种传统方法进行了比较,包括基于流形的非局部二阶正则化方法 (WSNR) [92]、加权低秩张量恢复方法 (WLRTR) [11]。还包括两种无监督深度学习方法进行比较,即 Deep-2D [59] 和 RDLRHyIn [53]。使用三种基于监督深度学习的方法进行比较,即 QRNN3D [67]、HSDT [36] 和 SERT [41]。
实施细节。为了模拟 HSI 修复问题的像素缺失问题,我们随机选择每个 HSI 中的三分之一波段并引入截止噪声,影响 5% 到 15% 的列。
定量比较。如表 5 所示,我们的方法明显优于其他竞争方法。基于无监督学习的方法(如 Deep-2D 和 R-DLRHyIn)比传统的基于模型的方法取得了更好的结果,但它们的结果不如基于 Transformer 的方法(HSDT、SERT 和我们的方法)。与其他方法相比,我们的方法将 PNSR 提高了约 1dB,显示了我们的潜在扩散增强矩形 Transformer 的有效性。
视觉比较。图 9 说明了不同方法的恢复误差图。从视觉上看,WLRTR 和 Deep-2D 很难从严重损坏的 HSI 中恢复干净的 HSI。它们的恢复图像仍然受到修复蒙版的影响,并且在某些区域仍然可见截止点。虽然 QRNN3D 和 HSDT 可以恢复蒙版纹理,但细节信息的恢复效果不够好,导致与原始 HSI 存在显着差异。R-DLRHyIn 在恢复图像方面更有效,但与我们的方法相比,它仍然表现出不清晰的纹理边缘。我们的方法在纹理区域取得了更好的效果,并获得了地面真相与恢复的 HSI 之间的最低误差。
4.5 讨论
为了证明我们的方法在探索 HSI 的空间和光谱特性方面的有效性,我们研究了对我们的模块和超参数设置的影响。所有研究均在 ICVL 数据集上进行,HSI 去噪任务中的噪声级别设置为 50。
光谱保真度。在图 10 中,我们展示了我们的方法在光谱维度上的恢复结果,并与各种 HSI 恢复任务中的其他方法进行了比较。我们分别展示了对应于图 4、7、8 和 9 的图像块的平均结果。如图所示,我们的方法在所有波段上都表现出与 GT 更高的相似性,这表明我们的方法有效地恢复了光谱信息并保持了卓越的光谱保真度。
分解消融研究。如表 6 所示,我们对我们提出的方法进行了全面的分解验证,以评估每个单独组件的贡献。具体来说,我们评估了删除 SRA(空间矩形自注意)模块、SE(频谱增强)模块、SS(频谱混洗)模块和扩散模块对性能的影响。在仅启用 SRA 模块的基线配置中,网络有 643 万个参数。此设置实现了 41.06dB 的 PSNR 和 2.32 的 SAM。这可以作为我们评估其他组件效果的参考点。
通过将 SE 模块添加到 SRA 配置中,参数增加到 643 万。这种组合可提高性能,PSNR 增加到 41.34dB,SAM 降低到 2.19。SE 模块增强了模型捕获和利用重要特征的能力,从而提高了整体性能。当我们进一步将 SS 模块与 SRA 模块和 SE 模块结合起来时,参数仍为 643 万。此配置实现了 41.40dB 的 PSNR 和 2.12 的 SAM,表明通过增强空间信息处理获得了边际性能提升。最后,启用所有模块,包括 SRA、SE、SS 和扩散模块,将得到一个具有 644 万个参数的恢复网络。这种完整配置可实现最高性能,PSNR 为 41.68dB,SAM 为 2.00,证明了所有组件的综合有效性。
图 11 显示了使用不同模块的 HSI 恢复结果。我们可以看到,从完整恢复网络得到的结果更接近真实情况,这验证了我们网络结构的合理性。
与之前的会议版本进行比较。与之前的会议版本相比,扩展版本增加了一个潜在扩散模型,并将主干从普通架构修改为具有下采样和上采样操作的 U 形架构。为了评估扩展的有效性,我们进行了消融研究,并在表 7 中提供了实验结果。可以看出,潜在扩散模型和 U 形架构都显著提高了 HSI 恢复性能,这表明扩展方法中的修改是有效的。
与其他空间自注意的比较。我们将我们的方法与其他空间自注意模块进行了比较,如表 8 所示。我们将我们提出的矩形自注意模块与 Swin [49] 中的滑动窗口和 CSWin [20] 中的十字形窗口进行了比较。在保持网络架构和设置一致的情况下,在替换空间自相似模块时,我们的设计以较低的计算负荷取得了优异的结果。与这两种自注意机制相比,我们的方法更有效地从相似像素中建模信息,并采用多形状、多尺寸设计来更灵活地建模非局部相似性。
SLDE 模块的不同设置。我们在实现中以不重叠的方式在补丁级别使用 SLDE 模块。在这里,我们进一步讨论 SLDE 模块的不同设置。在表 9 中,我们进一步将 SLDE 模块放置在不同的位置以获得空间光谱相关性。对于全局 SLDE,HSI 的整个特征被投影到一个低秩向量。局部 SLDE 代表将矩形内的特征投影到一个向量的 SLDE 模块。非局部 SLDE 是所采用的设计,它将几个相邻的矩形投影到一个向量中。有趣的是,全局 SLDE 的性能略有下降,这表明从整个 HSI 中提取低秩向量是不合适的。可以看出,非局部 SLDE 的性能最好。这要归功于它能够在空间矩形之间进行交互并聚合相邻相似像素的信息。与我们的补丁式 SLDE 模块相比,像素式 SLDE 模块低 0.18 dB。块级 SLDE 模块会聚合 有关相邻像素的信息,并且对噪声更具鲁棒性。因此,它的性能优于仅使用单个像素的像素级 SLDE 模块。
扩散模型的作用。为了验证扩散模型及其迭代步长的影响,我们对步长进行了实验。从表10可以看出,当扩散步长设置为0时,模型会降级以从输入的降级图像中提取信息作为低秩字典。此时,由于对提取的字典缺乏约束,获得的性能最差。随着步长的增加,模型的性能得到改善,但相应的时间和计算资源的消耗也随之增加。我们使用步长4来在有效性和计算效率之间取得平衡。
潜在低秩字典的可视化。如图 12 所示,我们展示了从不同 HSI 获得的潜在扩散低秩字典的可视化。从 HSI 生成的低秩向量字典在不同的场景中有所不同。然而,从主要包含植被区域的 HSI 派生的字典表现出更相似的分布。同样,从主要包含物体和墙壁的 HSI 派生的潜在低秩字典也表现出高度的相似性。这表明扩散模块可以有效地捕获和表示 HSI 中不同场景的内在和特定关键信息。
5.总结
传统的 HSI 恢复方法要么只关注噪声图像本身的内部信息,要么利用从成对训练数据中学习到的异常值信息来恢复图像纹理。前一种方法可以捕获特定于图像的特征,而后一种方法可以使用内容相似的干净 HSI 作为指导。然而,这些方法在处理复杂噪声方面面临挑战,或者受到训练和测试样本之间分布差距的限制。
本文介绍了一种用于 HSI 恢复的潜在扩散增强矩形 Transformer。具体而言,通过采用多形状矩形的空间域自注意力,可以有效利用非局部相似性。此外,配备扩散模型的潜在扩散增强模块无缝集成,以揭示特定于 HSI 的生成光谱低秩词典。综合实验证实,我们提出的方法在合成和真实 HSI 的背景下都比其他 HSI 恢复方法具有显著优势。
一方面,为了利用内在图像先验,所提出的方法考虑了 HSI 固有的空间非局部相似性和潜在的低秩谱特性。另一方面,为了从训练数据中学习,所提出的方法利用 Transformers 强大的表示能力来更好地建模空间相似性特征。此外,通过利用扩散模型,所提出的方法学习从训练集中生成干净的低秩向量字典,从而指导退化目标图像的恢复。我们的方法有效地设计了基于 HSI 内在先验的学习方法,显示出显着的优势。这进一步凸显了使用内在先验进行学习的重要性。未来,我们可以进一步将更大规模的生成网络与传统先验相结合,以克服数据限制并实现更好的 HSI 恢复性能。