通过灵活的交互式调制实现真实世界图像超分辨率
作者:Chong Mou, Xintao Wang, Yanze Wu, Ying Shan, Jian Zhang
摘要
交互式图像恢复旨在构建用户与恢复网络之间的交互路径,使用户能够根据自己的需求调整恢复结果。然而,现有的方法主要限于使用预定义和简单的合成退化来训练其网络。因此,当面对偏离其假设的真实退化时,这些方法往往会遇到严重的性能下降。此外,现有的交互式图像恢复方法仅支持全局调制,其中单个调制因子控制整个图像的重建过程。在本文中,我们提出了一种以交互方式执行真实世界和复杂图像超分辨率的新方法。具体而言,我们提出了一种基于度量学习的退化估计策略,不仅可以估计整个图像的整体退化水平,还可以估计真实场景中更细粒度的逐像素退化。这可以通过基于密集估计的退化图选择性地调节相应区域来实现对恢复结果的局部控制。此外,我们提出了一种新的度量论证损失,以进一步增强现实世界图像超分辨率的性能。通过大量实验,我们证明了我们的方法在现实世界图像超分辨率任务中实现卓越调制和恢复性能的有效性,同时保持了吸引人的模型复杂性。
点击上方卡片,关注“AI学术工坊”公众号
点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
关键字
图像超分辨率、交互式图像修复、度量学习、真实世界图像退化。
引言
单幅图像超分辨率 (SISR) 是低级计算机视觉社区中一个经典而又具有挑战性的话题。它旨在为给定的低分辨率 (LR) 图像恢复高分辨率 (HR) 图像的细节。经典 (传统) 方法 [1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9] 通常依赖于已知的下采样内核 (例如,理想的双三次) 来生成 LR 图像。然而,这种简单的退化模型与现实世界 LR 图像中发生的复杂退化不匹配。这种差异导致性能显着下降。实际上,LR 图像的退化过程涉及各种退化因素,例如,一些方法 [10]、[11] 假设 LR 图像 是 HR 图像 的模糊、抽取和噪声版本,可以用数学形式定义为:
其中 和 分别表示卷积运算和 下采样算子。 是模糊核, 是附加噪声。为了更好地近似真实世界的退化,提出了一些盲超分辨率方法 [12]、[13] 来增加退化模拟的多样性。最近,一些工作 [14]、[15] 试图设计一种新的复杂退化模型来更好地捕捉真实世界的退化空间,这导致了盲 SR 的一种变体,称为真实世界超分辨率 (RWSR)。代表性工作包括 BSRGAN [16] 和 Real-ESRGAN [17],它们引入了模糊、噪声、下采样和 JPEG 压缩等综合退化操作,并通过随机采样相应的超参数来控制每个操作的严重性。尽管 RWSR 社区已经取得了广泛的改进,但现有的 RWSR 方法只能通过固定的一对一映射进行恢复。然而,训练模型产生的结果与用户所需的解决方案之间往往存在差距。如何在现实场景中弥合这一差距并产生最佳结果仍然是一个挑战。
为了实现复原结果的可控性,提出了一些精细的方法。[18]和[19]观察到训练的不同退化程度的复原网络在卷积核上具有继承关系。它们通过网络插值来调整网络的复原强度,从而达到调整重建结果的目的。[20]训练了一个单独的调整网络来实现特征空间中的控制。然而,这些先驱的调制工作只能支持单一退化类型的输入图像,例如噪声或模糊,因此调制位于一维空间中。为了纠正这个弱点,CResMD[21]研究了图像复原的多维调制。它可以在复原过程中控制多个退化因素(即噪声和模糊)。基于CResMD,CUGAN[22]通过GAN损失进一步提高了感知质量。然而,现有的可控图像恢复方法只能在具有简单退化过程和已知退化类型/级别的数据集上进行训练。此外,现有方法利用一个退化因子来控制整个图像。这种方案缺乏灵活性,因为在许多情况下,用户对恢复结果的局部区域不满意。
在实际场景中,损坏的图像通常包含混合和复杂的退化(例如模糊、噪声和 JPEG 压缩)。这种复杂的现实世界退化过程可以通过随机混洗顺序 [16] 或高阶退化过程 [17] 来模拟。由于高阶退化中不同退化水平的混合和不同退化类型的复杂过程,显式退化水平无法访问,并且不能反映实际的退化类型。例如,损坏的图像由方差为 的高斯模糊、高斯噪声和方差为 的高斯模糊序列退化。我们无法确定此退化图像的最终等效模糊级别。我们提出了第一个基于度量学习的解决方案,以在实际场景中实现交互式图像超分辨率,如图 1 所示的流程。度量学习也已应用于先前的图像超分辨率研究 [12]、[23]。这些工作大多旨在通过度量学习提取图像的退化表示(例如,嵌入到特征向量),然后将其用作图像重建过程的指导。然而,这些退化表示很难以线性方式作为重建结果的调整或交互信号。与这些方法不同,我们使用度量学习来学习现实世界场景中图像退化的定量估计,以构建交互式图像超分辨率。我们的方法的主要贡献如下。
我们提出了一种度量学习策略,以无监督的方式将现实场景中无法量化的退化水平映射到度量空间。 我们进一步将现实世界的交互式图像恢复扩展到更精细的局部控制。 我们为现实世界的超分辨率引入了度量论证损失,进一步提高了恢复性能。 大量实验表明,所提方法在现实世界的超分辨率中实现了出色的调制和恢复性能。
我们的交互式图像超分辨率框架包含两个版本。基础版本(名为 MM-RealSR)解决了在现实世界场景中量化退化水平(即交互式信号)的挑战,并已被 ECCV2022 [24] 接受。增强版本(名为 MM-RealSR+)是一个更通用的框架,并将基础版本作为特例。与 MM-RealSR 相比,MM-RealSR+ 做出了显着的改进,包括:1)我们构建了一个更通用的交互式图像恢复框架。它可以为现实世界的图像超分辨率提供更准确和更细粒度的控制。具体而言,用户可以调整整个结果或具有任意大小和形状的特定局部区域的恢复。2)基于度量学习,我们提出了一种新的恢复损失,以最小化现实世界退化的度量空间中恢复结果与地面实况之间的距离。该损失函数可以进一步提高现实世界图像超分辨率的性能。3)我们在调制设计中通过权重共享策略压缩了模型参数(从2600万压缩到1700万),同时模型性能得到进一步提升。
方法
在本节中,我们将详细介绍我们提出的度量学习流程,该流程旨在实现现实世界场景中的交互式图像超分辨率。
A. 概述
图 3 展示了我们提出的 MM-RealSR+ 的概览,它由三个主要组件组成:退化估计模块 (DEM)、基础网络和条件网络。DEM 是一个以无监督方式训练的真实世界退化估计模块,它可以将输入的真实退化图像映射到两个度量空间,生成两个针对噪声和模糊的退化估计图。然后,条件网络处理这两个退化图以生成一组条件张量。最后,基础网络利用退化图像和条件张量生成当前重建结果。值得注意的是,退化图表示每个区域所需的恢复强度,从而使用户能够根据当前重建结果及其要求通过调制退化图进行进一步调整。
B. 网络结构
如图 3 所示,基础网络以修改特征通道的卷积层开始。可控恢复组件由一系列残差块 (RRDB) 和调制算子 (MOD) 组成。具体来说,我们利用 RRDBNet [46] 作为主干。我们为每四个 RRDBS 在 RRDBNet 中插入 MOD。MOD 是一种仿射变换,公式如下:
其中 F 表示 RRDBNet 中的中间特征。 和 是条件网络生成的两个条件张量,其形状与 相同。值得注意的是,条件网络具有样本结构,包括 1)卷积层,用于嵌入 和 的连接;2)两个单独的卷积层,分别生成条件张量 和 。同时,基础网络中的所有 MOD 共享同一组 和 ,从而将模型参数从 26 M(MM-RealSR [24])压缩到 17 M(我们的 MM-RealSR+)。在基础网络的末尾,应用像素混洗 [47] 上采样和多个卷积层来恢复高分辨率图像。真实世界退化估计模块 (DEM) 的结构细节如图 4 所示。它由两个分支组成,分别用于估计一般噪声 (Gnoise) 和一般模糊 (Gblur) 的退化图。主干由几个残差块 (RB) 组成,没有批量归一化层。最后,使用 S 型函数将退化估计限制在 [0,1] 范围内。
C. 调制因子设计和退化过程
在深入研究退化估计设计的细节之前,我们首先介绍现实世界交互式调制的调制因子和退化过程。调制因子是指在交互式图像恢复中可以具体调制的退化类型。
调制因子:现有方法只能将调制因子定义为预定义的退化类型(例如高斯噪声、高斯模糊)。然而,在现实世界的场景中,退化是复杂多样的。不可能为每种退化类型设置一个调制因子。因此,我们需要重新定义现实世界交互式调制的可控维度。在本文中,我们采用一般噪声(Gnoise)和一般模糊(Gblur)作为两个调制因子,对调制因子进行了通用设计,因为用户通常关注这两个方面带来的视觉效果。具体而言,一般噪声包括一些在图像中引入令人不快的“伪影”的退化类型,例如高斯噪声、泊松噪声和 JPEG 压缩。一般模糊包括一些削弱图像细节的退化类型,例如高斯滤波器(各向同性/各向异性)、2D sinc 滤波器 [17] 和随机调整大小操作。
局部调制:此外,现有方法通常使用单个值作为调制因子的表示来恢复整个图像。然而,这种调制方案是不够的,因为它不能在特定区域进行细粒度调制。为了纠正这个弱点,我们将调制因子设计为分数图而不是单个值。
为了与我们的一般调制保持一致并训练重建网络来处理现实的退化,我们采用高阶退化过程 [16]、[17] 来模拟现实世界的退化。在这种情况下,考虑各种退化类型并随机组合。
D.基于度量学习的退化估计
如上所述,我们方法中的每个调制因子都涉及各种退化类型。这种复杂的退化很难量化。因此,我们采用度量学习将无法量化的退化水平映射到退化空间上,这对应于退化分数图。虽然度量空间中的退化分数并不代表退化水平的真实值,但它有效地捕捉了不同图像之间退化的相对强度。在本节中,我们将详细描述我们的度量学习流程,如图 5 所示。
数据准备:首先,对高分辨率图像IHR进行复杂且高阶的退化处理,包括多个退化块,生成5个退化样本。每个退化块由两个退化因子(即Gnoise和Gblur)组成,每个因子都是从退化池中随机选择的。这些生成的样本具有不同的退化程度,包括最大、大、小和无退化。大退化程度和小退化程度是从强度区间[]中随机生成的,然后进行排序。最大退化和无退化分别指 和 0。最后,这5个生成的退化样本构成2组,即对比组 和锚组 ,分别用于形成我们度量空间中的距离和分布约束。
密集退化估计的度量学习:在准备好训练样本后,我们采用边际排名损失 [43]、[44] 来构建 Gnoise 和 Gblur 度量空间。具体来说, 和 被输入到现实世界退化估计模块 (DEM) 中,生成如下退化图:
其中, 表示DEM函数,边际排序损失定义为:
其中 和 表示真实得分图。 和 是预测得分图。 是限制两个样本之间距离的边际参数。 表示训练样本的数量。由于函数 仅响应输入的相对大小,因此在优化过程中,我们不需要知道 和 的显式值,而只需要知道它们的相对值。在我们的度量学习过程中,应用了两个边际排名损失:
其中 代表第 个训练样本。注意,由于我们在数据准备时设置了 和 ,因此 和 是固定且已知的。最终的度量损失函数定义为这两个损失函数之和,即。
在本文中,我们将每幅图像的退化表示为一个退化图,其大小与低质量图像相同。退化图中的每个分数代表每个像素的退化估计。一般来说,退化在空间上是平滑的,并且在同一幅图像内是一致的。然而,我们观察到,仅靠度量学习无法产生稳定可靠的退化估计。估计结果表现出相当大的波动。我们将在第 V-A 节中详细阐述这个问题。为了提高退化估计的稳定性,我们添加了一个总变差 (TV) 损失 [48] 来约束度量学习的结果。它可以表示为:
其中 指的是总变分函数。
为了进一步将学习到的退化分数限制在合理范围内,并使度量空间的分布标准化,我们在度量学习过程中采用了锚点策略。具体而言,当图像没有退化时,退化分数接近于零。当图像中存在强烈退化时,退化分数应该接近于1。因此,我们将锚点组 中两个样本的退化估计分别限制为接近0和1。引入的锚点损失()定义为:
其中 表示 范数。 和 限制了退化分数的上限和下限。在这两种情况下,网络分别被迫学习恒等映射和实现最强的恢复强度。
E. 现实世界图像超分辨率的度量论证损失
在图像恢复中,主要目标是尽可能接近真实情况地重建内容。这可以通过在不同的域中施加约束来实现,例如图像域(例如 损失)和特征域(例如感知损失)。在本文中,我们发现退化域也是完成约束的合适空间,从而进一步提高恢复性能。具体而言,高质量的真实图像 和恢复结果 分别在度量空间中具有表示,即 和 。如果 和 相似,则它们在度量空间中的表示也应该相似。因此,我们通过 损失将 限制为接近 。从数学上讲,所提出的度量论证损失 () 可以表述为:
我们进行了大量实验来验证我们提出的约束在退化领域的有效性。详细信息在第 V-B 节中介绍。
F.模型优化
优化过程包括两个阶段。首先,我们训练一个退化估计模型 (DEM) 来估计输入图像的退化程度。其次,我们使用训练好的 DEM 分两部分优化可控恢复过程:1) 生成一个调整恢复强度的控制信号;2) 计算将退化空间纳入损失函数的度量增强损失。
退化估计损失:我们使用三种损失的组合来训练退化估计模型 (DEM):边际排名损失 ()、锚点损失 () 和 损失 [48] ()。边际排名损失使模型能够对现实场景中的退化级别进行排名。锚点损失限制了度量空间中的分数分布,而 损失则平滑了退化图。完整的目标函数由以下公式给出:
其中 和 是控制每个损失的相对重要性的超参数。在我们的实现中,我们将这三个权重设置为 。
可控恢复的损失:在训练完 DEM 后,我们将其冻结,然后进行可控恢复的训练。遵循基于 GAN 的图像恢复方法 [16]、[17] 的常见做法,我们使用 损失、感知损失( [52])和 GAN 损失( [53])的组合来训练我们的 MM-RealSR+。此外,引入了新的度量论证损失(即 )来增强恢复性能。优化函数公式为:
其中 和 分别设置为 1、0.1 和 0.1。
实验
A. 实施细节
训练和评估数据集:遵循 ESRGAN [46] 和 Real-ESRGAN [17] 的方法,我们在三个数据集上训练我们的 MM-RealSR+:DIV2K [54]、Flickr2K [55] 和 OutdoorSceneTraining [56]。我们使用从真实世界超分辨率挑战赛(即 AIM19 [49] 和 NTIRE20 [50])获得的数据集来评估我们的方法。此外,我们使用 RealSRSet [14] 的测试集,该测试集旨在模拟 DLSR 相机失真。我们对所有评估都执行 ×4 上采样。
训练细节:我们的训练过程包括两个阶段。首先,我们通过(13)训练退化估计模型(DEM),进行 200K 次迭代。然后,我们使用预训练的 DEM 来促进可控恢复模型的训练。与大多数现实世界的超分辨率方法 [16]、[17]、[51] 一样,我们使用 PSNR 驱动的预训练模型初始化模型参数。在此阶段,DEM 的参数被冻结,我们对系统进行另外 600K 次迭代的训练。在两个训练阶段,我们将学习率设置为 ,批量大小为 48。我们使用 Adam [57] 优化器, 和 。训练样本是从训练数据中随机裁剪的,补丁大小为 64。训练过程在 4 个 NVIDIA Tesla V100 GPU 上完成。
B. 比较
为了证明我们的方法在现实世界超分辨率中的恢复质量,我们将我们提出的 MMRealSR+ 与最近的调制方法进行了比较,包括 CUGAN [22] 和我们之前的工作,即 MM-RealSR [24]。我们还将我们的方法与一些非调制方法进行了比较,包括几种众所周知的方法(例如,RealSR [51] 和 ESRGAN [46])以及一些最近的最佳方法(例如,BSRGAN [16]、Real-ESRGAN [17] 和 KDSR [23])。在这里,我们利用 LPIPS [58]、DISTS [59]、NIQE [60]、PSNR 和 SSIM [61] 来量化这些方法的性能。NIQE 是一种无参考图像质量评估 (IQA) 指标,旨在客观地测量图像的感知质量,而无需依赖参考图像。LPIPS 和 DISTS 都通过使用预训练模型计算重建图像和目标图像之间的特征相似度来表示重建质量。不同之处在于 LPIPS 更注重感知相似性,而 DISTS 更注重结构和纹理的相似性。PSNR 和 SSIM 是评估图像质量的两个常用指标。PSNR 基于均方误差 (MSE),它测量原始图像和恢复图像的像素值之间的平均平方差。SSIM 不仅仅关注像素级差异,还考虑图像的结构信息、亮度和对比度的变化。
请注意,CUGAN 需要退化水平(§b,Sn ∈ [0, 1]),而这些退化水平在真实世界测试集(即 RealSRSet、AIM19 和 NTIRE20)中是未知的。因此,我们在 0 和 1 之间均匀分布的 11 个点处对噪声和模糊退化水平进行采样,然后测试所有组合(共 121 种情况)。我们为每幅图像选择最佳结果(最低 LPIPS)。与上述方法不同,我们的 MM-RealSR+ 可以使用由我们的 DEM 估计的退化图或用户输入图。在这一部分中,为了进行公平的比较,我们使用 DEM 输出作为 MM-RealSR+ 的输入退化分数图,而无需手动调整。表 I 显示了我们的 MM-RealSR+ 与其他方法之间的定量比较。可以看出,我们提出的 MM-RealSR+ 在这三个真实世界测试集上取得了令人鼓舞的性能。MM-RealSR+ 的性能与用于插入调制算子的模型 Real-ESRGAN 相当或更好。与最近表现最佳的方法 KDSR 相比,我们方法的未调制输出在某些更注重纹理细节的指标(即 DISTS 和 NIQE)上表现更好。此外,我们的方法可以根据需求进一步调节输出。图 7 中的示例显示,KDSR 和我们的默认输出在面部局部区域都具有一定的平滑度。KDSR 的重建是固定的,而我们的方法可以进一步调整这些局部平滑区域以获得更令人满意的结果。因此,我们的方法在退化图上具有无限的可能性,如图 12 所示。相比之下,即使为每个图像选择近似最优结果,CUGAN 的性能仍然不如我们的 MM-RealSR+。它证明了现有调制方法在现实场景中的无能为力。图 6 中展示了 MM-RealSR+ 与其他方法的视觉比较。显然,我们的 MM-RealSR+ 无需手动调整即可产生令人满意的结果。用户可以根据自己的需求进一步调整默认结果。
C. 退化估计
如第 III-D 节所示,我们设计了一个退化估计模型 (DEM),以密集而准确的方式估计图像退化。为了说明这种能力,我们采用 Real-ESRGAN [17] 中的高阶退化管道来破坏具有不同退化程度的图像,包括无退化、小退化、大退化和最大退化。我们的 DEM 估计的退化图如图 8 所示,实验中同时考虑了 Gnoise 和 Gblur 退化。可以看出,我们的 DEM 可以在复杂和现实世界的退化中生成有区别且平滑的退化估计。
MM-RealSR [24] 中的全局退化估计是一种全局平均值,容易受到局部内容的影响。相比之下,所提出的 MM-RealSR+ 通过密集估计每个像素的退化来提供更稳定的退化估计。如图 9 所示,损坏的图像在不同区域中具有不同的模糊强度,这是由原始图像中的内容引起的。我们选择了三个具有嵌套关系的补丁,模糊区域逐渐增加。然后,我们使用 MM-RealSR [24] 和所提出的 MM-RealSR+ 来估计这些补丁的退化。我们可以看到,随着模糊区域的扩大,MM-RealSR 的退化分数逐渐增加。对于 MM-RealSR+,我们给出了这三个补丁共享的区域(即补丁 0)的退化图。我们可以观察到,随着模糊区域的扩大,局部模糊估计几乎保持不变。因此,MM-RealSR+ 的密集估计退化图具有更好的稳定性和更准确的退化表示。
D. 调制能力
全局调制:与 MM-RealSR [24] 类似,所提出的 MM-RealSR+ 可以通过在退化图上添加全局偏差来执行全局调制。我们在图 10 中展示了可视化结果。请注意,“自动”表示退化图由 DEM 估计。我们可以发现,当模糊分数图和噪声分数图设置为 0 时,恢复模型几乎没有去噪和去模糊的能力。恢复模型可以在从我们的 DEM 生成的退化图的指导下产生有希望的结果。添加全局偏差可以产生可控且多样的恢复结果。
局部调制:除了在全局区域调制恢复结果外,我们的 MM-RealSR+ 还可以在局部控制恢复。在许多情况下,用户仅对重建结果的局部区域不满意。他们希望调整某些区域并保留其他区域。我们提出的 MM-RealSR+ 可以通过调制退化图中的相应区域来实现这一点。图 11 显示了局部调制的可视化。第一行表示在初始结果上进行局部调制后的恢复结果。第二行是局部调制后的量化变化,即局部调整与初始结果之间的差异的绝对值。在前两列中,我们展示了矩形区域中调制的结果。恢复结果证明了可控的恢复能力。量化结果显示了这种控制的局部性。即使在不规则区域(即图 11 中的最后两列)进行调制,控制的局部性也能得到很好的保持。调节区域周围的小扰动确保了控制调制的平滑性,即没有阻塞伪影。因此,我们的 MM-RealSR+ 在特定局部区域具有良好的连续控制能力。
手动调制下的恢复性能:在图像恢复任务中,使用各种定量指标来评估不同方法的性能。大多数方法在训练后都有固定的性能。为了将我们的 MMRealSR+ 与这些方法进行比较,我们在表 I 和图 6 中展示了没有手动调制的 MM-RealSR+ 的性能。然而,对于带有手动调制的交互式图像恢复,恢复结果是无限的。在这一部分中,我们通过向估计的退化图添加随机偏差来评估手动调整样本的质量。随机偏差范围从 -0.2 到 0.2。我们在图 12 中展示了结果。x 轴是 LPIPS [58] 分数,y 轴是 DISTS [59] 分数。可以看出,恢复结果是多种多样的。默认结果不是最优的,通过手动调制可以获得更好的结果。
消融研究
A. TV 损失的有效性
本文利用 TV loss 来平滑由退化估计模型(DEM)估计的退化图。我们在图 13 中展示了有和没有 的 DEM 之间的比较,显示了这两个 DEM 的模糊退化估计。我们可以发现,在没有 约束的情况下,退化估计是不稳定的。不同区域之间的估计结果存在很大差异。在配备 之后,估计结果平滑且稳定。
B. 度量论证损失的有效性
在本文中,我们通过缩小度量空间中恢复结果与地面真实图像之间的距离(即(12)中所示的 LMA)进一步提高了恢复性能。为了证明 LMA 的有效性,我们用这个损失函数重新训练了一些方法,即 SPSR [62]、BSRGAN [16] 和 Real-ESRGAN [17]。请注意,训练策略和训练数据保持不变。表 II 中的结果显示了我们提出的度量论证损失的显著性能改进。我们还在图 14 中展示了配备度量论证损失后的 Real-ESRGAN [17] 和 BSRGAN [16] 的视觉比较。这个损失函数可以鼓励模型产生更清晰的结果。
值得注意的是,全局退化表示(例如 MM-RealSR [24] 中的退化分数)可用于缩小恢复结果与地面实况之间的差距。然而,单一分数可能无法捕捉现实场景中的复杂退化模式。除了区分全局退化水平外,为局部纹理提供精确的梯度反馈也是必不可少的。为了证明密集估计的退化图的优越性,我们将 MM-RealSR 中的退化估计函数应用于度量论证损失并重新训练我们的 MM-RealSR+。结果显示在表 III 中。我们可以发现,与全局退化分数相比,密集估计的退化图具有更多的性能提升。在 Real-ESRGAN 中可以找到类似的特征,它用 UNet 替换了 VGG 鉴别器来估计每个像素的真实值。度量论证损失可以帮助产生更清晰的图像内容。
C. 调制算子的插入模式
在提出的 MM-RealSR+ 中,我们为每四个 RRDBS 在 RRDBNet 中插入调制算子 (MOD)。所有 MOD 共享同一组条件张量,即 和 。在表 IV 中,我们展示了此设计的消融研究。实验是在 RealSRSet [14] 上进行的。第一列展示了在每个 RRDB 末尾插入不同条件向量的 MM-RealSR+ 的性能。接下来的三列分别显示了在 RRDBNet 中每 1、4 和 8 个 RRDB 插入共享条件向量的 MM-RealSR+ 的性能。可以看出,具有非共享条件向量的 MM-RealSR+ 具有更好的性能,但模型参数也更多。权重共享策略可能会导致性能略有下降。然而,由于恢复结果具有调制能力,这种轻微的性能下降对于交互式图像恢复来说是可以接受的(例如图 12)。
总结
在本文中,我们提出了一种适用于现实场景的交互式图像超分辨率框架。所提出的方法解决了通过度量学习量化现实场景中退化强度的困难。在此基础上,我们进一步提出了一种更准确、更稳定的现实退化密集估计。密集估计的退化图的好处是双重的。1)它允许在现实场景中进行由粗到细的交互式图像恢复。具体来说,用户可以调整整个结果或具有任意大小和形状的特定局部区域的恢复;2)构建的退化空间可用作损失函数,通过最小化恢复结果与地面实况之间的度量距离来提高恢复性能。此外,我们研究了交互式框架内的计算冗余。与我们提出的初始版本相比,增强版本将模型参数从26 M减少到17 M,同时实现了相当或更好的性能。大量实验表明,我们的方法是一个通用框架,它在现实世界的超分辨率中实现了出色的调制和恢复性能,同时保持了有吸引力的模型复杂性。
局限性和未来工作。如图 15 所示,我们的方法仍然存在一些问题,需要在未来解决。可以看出,图像中的背景模糊(散景)不是退化,而是我们需要的美学效果。然而,退化估计模块将其识别为一种模糊退化,并分配较高的退化分数以鼓励模型对背景部分进行去模糊。虽然我们可以通过手动调整来缓解这种现象,但它仍然不够智能和用户友好。在未来的工作中,我们将增强退化估计模块对图像的全局感知能力,使其具有更准确的退化分析能力。
点击上方卡片,关注“AI学术工坊”公众号
点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达