TPAMI 2024 | 面向盲图像恢复的深度变分网络

文摘 2024-11-05 19:00 辽宁

点击下方“PaperEveryday”，每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Deep Variational Network Toward Blind Image Restoration

题目：面向盲图像恢复的深度变分网络

作者：Zongsheng Yue; Hongwei Yong; Qian Zhao; Lei Zhang; Deyu Meng; Kwan-Yee K. Wong
源码：https://github.com/zsyOAOA/VIRNet

摘要

盲图像恢复（IR）是计算机视觉中的一个常见但具有挑战性的问题。经典的基于模型的方法和最近的基于深度学习（DL）的方法代表了解决这个问题的两种不同方法，每种方法都有其各自的优缺点。在本文中，我们提出了一种新颖的盲图像恢复方法，旨在整合它们的优势。具体来说，我们构建了一个用于盲IR的通用贝叶斯生成模型，该模型明确描述了退化过程。在此提出的模型中，采用了逐像素非独立同分布的高斯分布来拟合图像噪声。与大多数传统方法中采用的简单独立同分布高斯或拉普拉斯分布相比，它具有更大的灵活性，以便处理图像退化中包含的更复杂的噪声类型。为了解决该模型，我们设计了一种变分推断算法，其中所有的期望后验分布在训练期间被参数化为深度神经网络，以增加其模型能力。值得注意的是，这种推断算法引入了一个统一的框架，以共同处理退化估计和图像恢复任务。此外，先前任务中估计的退化信息被用来指导后续的IR过程。在两个典型的盲IR任务上的实验，即图像去噪和超分辨率，证明了所提出的方法在性能上优于当前的最先进技术。

关键词

图像恢复
去噪
超分辨率
生成模型
变分推断

I. 引言

图像恢复（IR）是信号处理和计算机视觉领域的一个活跃研究课题。它旨在从观察到的损坏副本中恢复潜在的高质量图像，即其中是退化算子，是图像噪声。不同的退化设置对于，(1)代表不同的IR任务。例如，通过将设置为单位矩阵、模糊算子和模糊与下采样算子的组合，可以轻松获得经典的IR任务，如图像去噪、去模糊和超分辨率。IR任务的困难主要来自和。前者倾向于在某些任务中造成严重的信息丢失，如去模糊和超分辨率，而后者通常由于来自多个源的噪声累积而变得复杂，例如，捕获仪器、相机管线和图像传输[1]。在盲IR任务中，我们需要同时解决退化估计和图像恢复的问题，这使得它更具挑战性。

在过去的几十年中，提出了大量基于最大后验（MAP）框架的IR方法。从贝叶斯的角度来看，它通常包含一个似然项和一个先验项。更具体地说，似然项编码了(1)中的图像退化过程，而先验项反映了我们对潜在高质量图像的主观知识。这些方法主要关注设计更有效的图像先验，以减轻IR任务的不适定性。常用的图像先验包括总变分（TV）[2]、非局部相似性[3]、[4]、稀疏性[5]、[6]、[7]、低秩性[8]、[9]、[10]等。相比之下，其他工作侧重于通过构建更灵活的噪声分布来关注似然项，例如，高斯混合（MoG）[11]、指数混合（MoEP）[12]和狄利克雷过程混合高斯（DP-MoG）[13]、[14]、[15]。尽管这些基于模型的方法具有高度直观的物理意义，并且在大多数情况下都能很好地泛化，但它们仍然有明显的缺陷。首先，这些方法通常很耗时，因为它们需要为任何新的测试图像重新求解整个模型。这种逐个优化的范式往往会带来很大的计算负担，使其很难应用于实际应用中。其次，由于手动设计的似然和图像先验通常无法忠实地表示图像知识，它们在处理某些复杂建模问题时遇到困难，例如具有复杂图像退化的盲IR任务。

不同于上述基于模型的方法，当前基于深度学习（DL）的方法代表了IR任务的另一种研究趋势。它们的核心思想是利用具有强大拟合能力的深度神经网络（DNN），直接从大量预先收集的图像对中学习图像知识，以端到端的训练方式进行。Dong等人[16]和Zhang等人[17]首先提出了SRCNN和DnCNN，在图像超分辨率和去噪方面超过了经典的基于模型的方法。随后，提出了许多基于DL的方法[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]，它们在IR领域取得了前所未有的成功。虽然它们在性能上取得了巨大的提升，但它们中的大多数忽略了图像退化背后的建模机制，特别是图像噪声。具体来说，当前基于DL的方法中常用的L2或L1损失确实意味着(1)中的噪声遵循独立同分布（i.i.d.）的高斯或拉普拉斯分布。然而，这通常与真实情况下的噪声配置相偏离。例如，实际图像去噪中的相机传感器噪声是信号依赖的并且是空间变化的，因此在统计上显然是非i.i.d.的。忽略这种固有的噪声特性肯定会损害模型在真实复杂噪声情况下的泛化能力。

如上所述，基于模型的方法能够通过似然对图像退化进行编码，但受到有限模型容量和慢速推断速度的限制。相比之下，基于DL的方法，配备了DNN，具有大模型容量和强大的非线性拟合能力。更重要的是，在测试阶段，这些方法比基于模型的方法快得多，因为它们只需要对任何新来的图像进行一次前馈传递。这自然启发我们开发一种新的IR方法，预计它将结合经典基于模型的方法和最近的基于DL的方法的优势。在这项工作中，我们沿着这条研究线向前迈进了一步，提出了一种深度变分模型用于盲IR。它首先构建了一个用于IR的传统概率模型，然后嵌入了强大的DNN到其后验推断中，以增加模型容量。具体来说，这项工作的贡献可以从模型构建和算法设计两个方面总结如下：

一方面，构建了一个用于一般IR任务的贝叶斯生成模型，因此自然继承了经典基于模型方法的优势。此外，我们还在这项研究中考虑了更复杂的退化过程：r 与大多数当前方法中采用的简单i.i.d.高斯或拉普拉斯噪声假设不同，我们的模型采用了逐像素非i.i.d.分布来处理更复杂的噪声类型。本质上，这种噪声模型引入了一个完全依赖于数据自身的可学习重加权损失，因此更加灵活。r 为超分辨率特别设计了一个简洁的核先验，使我们的模型能够处理盲图像超分辨率任务。

另一方面，我们精心设计了一个摊销变分推断（VI）算法来解决所提出的生成模型。与经典的均场VI方法相比，为了更好地符合盲IR任务，进行了两方面的重大修改：r 与VI中常用的独立因子化策略不同，我们将期望后验，即退化信息与潜在干净图像的联合分布，分解成条件形式。这种公式化推导出一个统一的框架，以同时处理退化估计和图像恢复任务，在该框架中，前者估计的退化信息为后续的恢复任务提供了有益的指导。r 为了大幅增加我们模型的拟合能力，期望的后验分布由DNN参数化，然后在训练过程中以摊销的方式进行优化。在测试阶段，训练有素的模型能够快速地以显式方式推断出任何新测试图像的后验分布，因此显然比经典的基于模型的方法更有效。

总之，这项工作旨在探索一种新的建模范式，预计将整合经典基于模型的方法和最近的基于DL的方法的优势，用于IR问题。这项工作的初步版本已经在NeurIPS 2019[27]上发表，该版本仅关注图像去噪。这项工作在模型构建、推断算法和实证评估方面对会议版本进行了实质性改进。特别是，我们考虑了一个更一般的退化过程（即(1)），以构建贝叶斯生成模型，使其能够处理更复杂和一般的IR任务，如盲图像超分辨率。

本文的其余部分组织如下：第II节介绍相关工作。第III节提出了我们的生成模型，并讨论了两个典型的IR任务。第IV节介绍了为解决我们的模型而设计的随机VI算法。第V节展示了实验，以评估我们方法的性能。第VI节最后总结了本文。

III. 提出的方法

A. 基本设置

在本文中，我们考虑了退化算子的两种常用设置。第一种情况，是单位矩阵，对应于图像去噪任务。这项任务的难点自然归因于图像噪声的复杂性，这在真实情况下通常是空间变化的并且依赖于信号。此外，它们在盲图像去噪中的统计数据（例如，噪声水平）通常是未知的。因此，有必要设计方法来同时估计噪声分布并恢复潜在的高质量图像。

在第二种情况中，我们考虑了更一般的IR任务，即图像超分辨率，在这种情况下，是模糊和下采样的组合。下采样操作导致严重的信息丢失，特别是在大规模因子的情况下，使得它比去噪更具挑战性。同样，盲超分辨率也涉及两个子任务，即估计退化信息，包括模糊核和噪声分布，以及恢复高分辨率图像。

此外，我们简要介绍了训练和测试数据的一些必要设置。训练数据包括多个三元组，即

，其中和分别表示损坏的图像和潜在的高质量图像。代表退化算子，对于去噪是单位矩阵，对于超分辨率是模糊核。上的上标表示在我们的训练数据中，退化模型从一个样本变化到另一个样本。应当注意的是，在现实世界的图像去噪任务中，通常是通过在相同的相机条件下拍摄的多个噪声图像的统计方法估计得到的[65]。在测试阶段，给定一张损坏的图像，我们的目标是首先估计退化信息，然后根据这些信息恢复高质量图像。

接下来，我们为去噪和超分辨率任务制定一个合理的贝叶斯生成模型。

B. 去噪的模型公式

让表示训练数据集中的任意噪声/无噪声图像对。对于噪声图像，我们假设它是这样生成的：

其中表示均值为，方差为的高斯分布，表示潜在的干净图像，是噪声图像中的像素数量。值得注意的是，与通常使用的i.i.d.高斯/拉普拉斯假设不同，我们在(2)中将图像噪声建模为逐像素非i.i.d.高斯分布。这种非i.i.d.噪声假设大大增加了噪声分布的自由度，因此有望更好地拟合复杂的真实噪声，如第V-C1节所示。

接下来，我们为潜在干净图像和噪声方差图引入一些先验知识。在真实数据集中，提供了对潜在干净图像的一个近似估计，通过某种统计方法[65]。因此，它可以嵌入到以下先验分布中，作为的约束：

其中是一个超参数，反映了和之间的接近程度。在一些合成实验中，如果潜在的干净图像是可访问的，实际上是真实的干净图像，可以通过将设置为接近0的一个小数来容易地制定。在这种设置下，(3)退化为以为中心的狄拉克分布。

对于方差图，我们构建了以下逆伽马分布作为其共轭先验：

其中

是高斯滤波器，窗口大小为，是的矩阵（图像）形式，是逆伽马分布的形状参数。

实际上，(5)中的为提供了一个估计。它是使用以第个像素为中心的窗口中的高斯滤波器计算的。在(4)中形状和尺度参数（即，和）的精心设计保证了这个先验分布的众数正好是。超参数控制这个先验分布的强度，在我们的方法中将其设置为，遵循[66]。有关这个超参数的更多解释可以在补充材料中找到。

C. 扩展到盲超分辨率

对于图像超分辨率问题，(1)中的退化模型可以被重新表述为

其中表示模糊核，是卷积运算符，是具有尺度因子的下采样器。基于这个退化模型，我们将(2)中的噪声假设扩展如下

其中表示的第个像素。

为了处理盲超分辨率，最具挑战性的部分是如何对模糊核进行建模。最近，许多相关文献[57]、[63]、[67]、[68]、[69]发现，各向异性高斯核足以保证图像超分辨率的令人满意的结果。在这项研究中，我们遵循这些相关工作，并采用各向异性高斯核。因此，大小为的模糊核可以被定义为

其中是协方差矩阵，是皮尔逊相关系数，表示空间坐标，其中。通过将表示，可以很容易地观察到，当核大小固定时，模糊核完全由确定。这启发我们为而不是设计一个先验分布。

本质上，(8)通过两个具有方差参数和的高斯分布来表示模糊核，并且它们之间的相关性由描述。对于和，我们分别为它们施加逆伽马和狄拉克分布作为先验约束，即

其中反映了训练数据中包含的相应真实核信息。类似于(4)中的，也是一个超参数，控制着逆伽马分布的形状。为了便于优化，我们采用具有小方差的高斯分布来近似狄拉克分布。因此，根据(8)，模糊核被建模为

其中方差在所有实验中经验性地设置为。

结合(3)-(5)、(7)和(10)-(11)（或(2)-(5)），可以得到一个完整的盲图像超分辨率（或图像去噪）的贝叶斯模型。然后目标转变为从推断潜在变量（或）的后验，即（或）。

IV. 随机变分推断

在本节中，为提出的生成模型设计了一个随机变分推断算法。在以下部分中，我们以盲图像超分辨率问题为例来介绍我们的算法，因为它可以很容易地退化为去噪任务，方法是将模糊核设置为狄拉克δ函数，将尺度因子设置为1。

A. 变分后验的形式

受VI技术[70]的启发，我们首先构建一个变分分布来近似由我们的生成模型引导的真实后验。变分后验分布然后被条件分解为

接下来，我们开始为这三个分解的后验分布设计具体形式。

(4)的共轭先验启发我们假设为以下逆伽马分布：

其中是一个映射函数，被参数化为一个深度神经网络，称为sigma网络（SNet），参数为。它的目标是直接从损坏的图像预测的尺度参数。至于的形状参数，我们简单地将其固定为与先验分布相同，即。与我们在先前版本[27]中将它们都设置为可学习参数的策略不同，这种修改在很大程度上简化了第IV-B节中的证据下界，也使我们的算法在训练期间更加稳定。类似地，我们公式化为

其中和是联合参数化的深度神经网络，参数为，称为核网络（KNet）。它采用低分辨率图像作为输入，并输出的后验参数。

至于，我们将其设置为高斯分布

其中表示评估的后验高斯分布均值的映射函数。自然地，它被参数化为一个深度神经网络，参数为，称为恢复网络（RNet）。为了训练方便，我们将这个后验分布的方差参数设置为一个常数，即，与(3)中的先验分布相同。

必须强调的是，后验分布是条件于和的，这意味着RNet依赖于SNet估计的噪声方差图和KNet预测的核信息。一般来说，(12)中的条件假设将盲超分辨率任务分解为两个级联子任务，即由SNet和KNet实现的退化估计，以及由RNet实现的非盲图像恢复。整个推断过程如图1所示。

备注：在(13)中，的众数正好等于，由SNet预测。换句话说，我们利用SNet只估计核心后验参数，即模式，而不是整个后验分布。这种设置背后的原因有两个。一方面，这种策略在某种程度上减轻了SNet的学习负担。另一方面，我们可以将SNet的输出直接用作估计的方差图，以解决一些依赖于已知噪声水平的下游问题。类似地，我们也在(14)和(15)中采用了这种部分学习策略。

B. 证据下界

在这部分中，我们引入一个合理的目标函数来共同训练SNet、KNet和RNet的网络。为了方便表述，我们简单地将、、和表示为、、和。给定任何损坏的图像，其对数边缘概率可以被分解为

其中

这里表示相对于后验分布的期望。(16)中的第二项代表KL散度，由于KL散度的非负性，构成了的下界，通常称为证据下界（ELBO）。因此，我们可以通过最大化ELBO来自然地近似真实后验与。

结合(12)的分解假设，ELBO可以被重写为

其中。

接下来，我们考虑如何逐步计算(18)中的每项。第一项是不可行的，主要是因为后验被参数化为复杂的DNN形式。幸运的是，我们可以使用重参数化技巧[71]从后验中获得多个可微的样本，然后使用它们通过蒙特卡洛（MC）方法像VAE[71]一样估计这两项。具体来说，从重新采样的过程可以容易地实现为

为了从和中采样，我们采用路径导数技术[72]，并记重新采样的数据样本为和。基于，和，(18)中的第一项可以近似如下：

其中，，并且在(10)中定义。注意我们已经省略了一个与可学习参数无关的常数。

至于(18)中的最后三项，它们都可以被精确计算如下：

最后，我们可以获取预期的目标函数，即在整个训练数据集上的负ELBO，以优化网络参数、和：

其中、和表示训练数据集中第个图像对的后验参数。通过(24)中的负ELBO损失，可以像基于DL的方法一样以端到端的方式训练我们的模型。实际上，ELBO的每一项都可以直观地解释：(18)中的最后三项KL散度控制变分后验与先验之间的差异，第一项是训练数据集中观察到的低分辨率图像的似然度，它强制恢复的高分辨率图像可以通过估计的退化模型映射回低分辨率图像。在训练过程中，SNet、KNet和RNet在该损失函数的监督下相互完善和指导。

备注：大多数当前的IR方法假设数据保真度项的每个元素具有相同的重要性，即。在这项工作中，我们新颖地利用基于噪声方差的自适应方式重新加权数据保真度，即（在(20)中）。每个像素被重新加权，其中是从SNet估计的噪声分布中采样的。这种基于噪声方差的重加权策略通常在贝叶斯统计中使用，如[11]、[13]。

C. 网络结构和学习

如图1所示，SNet采用损坏的图像作为输入，并输出的与尺度相关的参数，实现噪声估计的目标。在实践中，它由五个卷积层组成，每个卷积层后面跟着一个Leaky ReLU激活，除了第一层和最后一层。至于KNet，它旨在从损坏的图像预测核参数的后验分布。在实现中，我们首先使用一个卷积层和八个通道注意力块（CAB）[23]来提取丰富的特征图，然后通过一个卷积层后跟一个平均池化层将它们融合，以获得中的后验参数。

RNet的设计旨在推断出可取的高质量图像的条件后验分布，在盲IR中起着最重要的作用。我们采用在低级视觉中常用的ResUNet[54]、[56]作为我们的主干。它用残差块[76]替换了UNet[75]中的普通卷积层，使梯度流传播得更快。此外，为了利用SNet和KNet估计的噪声和核信息，我们将它们的输出与损坏的图像连接起来（见图1），然后将它们输入RNet以恢复高分辨率图像。我们经验性地发现这种简单的连接操作在我们的推断框架中表现非常好和稳定。

应当注意的是，这项工作的目的不是设计更有效的网络架构来超越当前的最先进技术方法，而是主要关注于设计一个基于深度变分推断的概率框架来处理盲IR任务。因此，我们简单地选择了低级视觉中常用的网络作为SNet、KNet和RNet的主干，以更好地验证所提出模型的通用性。

V. 实验结果

在本节中，我们评估了我们提出的方法在两个典型的图像恢复(IR)任务上的有效性，即图像去噪和图像超分辨率。为了便于表示，我们将变分图像恢复网络简称为VIRNet。

为了优化网络，我们采用了Adam[77]算法，批量大小为16，并使用PyTorch[78]的其他默认设置。初始学习率设置为，并使用余弦退火策略[79]逐渐衰减。为了计算稳定性，训练过程中还使用了梯度裁剪策略。在图像去噪任务中，我们裁剪了大小为的小图像块进行训练。公式(3)中的超参数设置为，公式(5)中的窗口大小设置为7。在图像超分辨率任务中，对于尺度因子2、3和4，训练期间的补丁大小分别固定为96、144和192。超参数设置为，而窗口大小设置为比去噪中更大的值11，因为在超分辨率中通常假设图像噪声为i.i.d.高斯噪声。至于核先验分布的形状参数，在公式(11)中，我们经验性地将其设置为50。

A. 图像去噪实验

合成非i.i.d.高斯噪声去除：为了验证VIRNet在非i.i.d.噪声配置下的有效性和鲁棒性，我们合成了大量噪声/干净图像对作为训练数据。类似于[20]，首先收集了一组高质量的源图像作为干净的图像，包括来自BSD500[80]的432幅图像，来自ImageNet[81]验证集的400幅图像和来自滑铁卢数据库[82]的4744幅图像。然后，我们随机生成非i.i.d.高斯噪声作为

其中是单位矩阵，是与源图像大小相同的空间变化图。最后，通过将生成的噪声添加到源图像中获得噪声图像。对于测试图像，采用了两个常用的数据集，即BSD68[80]和McMaster[83]，以评估不同方法的性能。值得注意的是，我们总共生成了四种，如图2所示。图2(a)用于生成训练数据中的噪声图像，图2(b1)-(d1)用于三组测试数据（称为案例1-3）。在这些设置下，训练数据和测试数据中的噪声明显不同，这适合验证VIRNet的泛化能力。

与最先进的方法比较：我们将VIRNet与几种当前去噪方法进行了比较，包括两种典型的基于模型的方法NLM[3]和CBM3D[4]，两种深度自监督方法S2S[73]和Ne2Ne[74]，以及三种基于监督学习的方法，即DnCNN[17]、FFDNet[20]和DRUNet[54]。表I列出了所有比较方法在三组测试数据集上的PSNR和SSIM结果。我们可以很容易地看到：1) 提出的VIRNet在所有情况下都优于其他方法，表明其在处理这些复杂的非i.i.d.噪声类型方面的优越性；2) 总体而言，基于DL的方法（包括自监督方法）明显优于经典的基于模型的方法NLM和CBM3D，这归功于DNN强大的非线性拟合能力；3) FFDNet和DRUNet都是非盲方法，依赖于预给定的噪声水平作为输入。相比之下，VIRNet旨在进行盲IR，并且能够同时推断噪声分布并去除噪声。即便如此，VIRNet仍然与FFDNet和DRUNet相比取得了明显性能提升。这表明了贝叶斯生成模型和变分推断框架的有效性。

图3显示了不同方法在表I中测试案例1-3的几个典型测试示例的去噪结果。注意，由于页面限制，我们仅显示了最佳的五个基于DL的方法。可以看出，比较方法能够去除大部分噪声，但也常常会产生过度平滑和模糊的恢复，特别是在重噪声区域。这可以解释为它们没有考虑空间噪声变化。为了处理这种非i.i.d.噪声，提出的VIRNet精心考虑了噪声配置，因此能够保留比其他方法更多的图像细节（例如，边缘，结构）。

尽管我们的VIRNet是基于非i.i.d.噪声假设设计和训练的，但在加性白高斯噪声（AWGN）去除任务中也表现良好。表II列出了不同方法在三个噪声水平（即，）下的AWGN的平均PSNR和SSIM结果。值得注意的是，RNAN[21]是专门为AWGN设计的，并且分别在这些噪声水平上进行了训练，因此我们只能在噪声水平50上与其进行比较。很容易看出，VIRNet在8个中的12个案例中获得了最佳（或至少并列最佳）性能。结合表I和II中的结果，可以合理地说，提出的VIRNet更加鲁棒。具体来说，它有望处理更广泛的噪声类型，这归功于其更灵活的噪声建模本质。

在表III中，我们进一步列出了与四个基于DL的方法在模型参数和FLOPs方面的比较结果。表III中列出的FLOPs是在大小为的图像上计算的。值得注意的是，为了公平比较，自监督方法S2S[73]和Ne2Ne[74]没有在表III中报告。可以很容易地观察到，VIRNet在当前最先进的RNAN[21]和DRUNet[46]方法之间展示了更好的折衷方案，当同时考虑模型参数和FLOPs时。因此，可以预期VIRNet在真实场景中具有更好的实际适用性。

真实世界噪声去除：在这部分中，我们在两个广泛使用的真实世界基准数据集上评估VIRNet的性能，即DND[84]和SIDD[65]。DND2包括50幅高分辨率图像，这些图像来自4台消费相机拍摄的50个场景的真实噪声，但它不提供任何其他噪声/干净图像对作为训练数据。SIDD是另一个真实世界的去噪基准，包含大约30,000幅真实噪声图像，这些图像由5台相机在10个场景下捕获。与DND不同，SIDD中的每个噪声图像都有一个几乎无噪声的对应物作为真值，这是通过一些统计方法[65]估计的。此外，SIDD还提供了一个小型版本数据集，包含320幅图像对，称为SIDDMedium，通常用作最近工作[23]、[24]、[27]的训练数据。为了与它们进行公平比较，我们也仅在SIDD-Medium数据集上训练VIRNet。至于指标，我们采用PSNR和SSIM[85]在sRGB空间上定量评估不同方法。

我们将VIRNet与几种典型的真实世界去噪方法进行了比较，包括MPRNet[25]、CycleISP[88]、DANet[24]、SADNet[87]、VDN[27]等（见表IV）。据我们所知，当前在这两个基准测试上的最先进技术是PNGAN[89]。然而，这项工作主要侧重于通过模拟相机管线生成大量图像对，以进一步提高性能，而不是设计更有效的去噪算法。它的去噪器架构和训练策略完全遵循MPRNet。因此，我们主要与MPRNet进行比较。

为了全面评估所有竞争方法，表IV列出了不同方法在去噪性能以及模型配置方面的比较，包括网络参数的数量、FLOPs和去噪器的前馈运行时间。

表IV列出了不同方法的去噪性能以及模型配置方面的比较，包括网络参数的数量、FLOPs和去噪器的前馈运行时间。FLOPs和运行时间都是在512×512大小的图像上计算的。从去噪性能的角度来看，所提出的VIRNet实现了与当前最先进技术MPRNet相比略有提升的性能，表明其有效性。然而，VIRNet在模型配置方面，特别是在FLOPs和运行时间方面的比较中，展现出显著的优势，这更真实地反映了我们方法的相对效率。为了直观比较去噪结果，我们在图4中可视化了两个典型的真实世界例子，这些例子与表IV中的定量结果一致。

B. 图像超分辨率实验

在本节中，我们将提出的方法应用于盲图像超分辨率。按照[69]的设置，使用DF2K数据集（包含来自DIV2K[92]的800幅图像和Flickr2K[93]的2650幅图像）作为我们的训练数据。在合成低分辨率(LR)图像时，我们遵循当前盲超分辨率文献[57]、[69]的设置，即

其中和分别表示低分辨率和高分辨率图像，是二维卷积，是尺度因子为的下采样操作，是噪声水平为的i.i.d.高斯噪声。对于模糊核，我们采用了一般的各向异性高斯核，尺寸为，其协方差矩阵生成方式参考[94]，即

具体来说，、和是从、和中随机采样的。对于噪声水平，我们将其范围设置为。

合成数据上的结果：为了能够定量评估不同方法，我们首先在三个常用的数据集上进行了合成实验，包括Set14[91]、CBSD68[80]和DIV2K100（DIV2K[92]的验证集）。为了全面比较各种退化情况下的性能，我们考虑了七个具有代表性的和多样化的核，如图5所示，包括三种不同核宽度的各向同性高斯核（即，、和）和四个各向异性高斯核，其中是尺度因子。此外，我们还考虑了三个噪声水平（即，0、2.55和7.65），参考[56]。至于指标，除了常用的PSNR和SSIM[85]，我们还采用了LPIPS[95]来衡量感知相似性。注意PSNR和SSIM是在YCbCr空间的Y通道上计算的，而LPIPS是在sRGB空间中计算的。

我们考虑了三类比较方法：1) 经典的双三次插值方法；2) 五种盲超分辨率方法，包括HAN[90]、IKC[44]、DAN[57]、DASR[69]和BSRNet[46]；3) 两种非盲方法，即SRMD[68]和USRNet[56]，它们依赖于预给定的模糊核和噪声水平作为输入。对于这些非盲方法，我们为它们提供了地面真实模糊核和噪声水平，并记它们的结果为“GT+X”（例如，GT+SRMD）。

此外，对于HAN、IKC和DAN这些方法，我们首先使用DnCNN[17]对噪声图像进行去噪，然后在噪声水平为的情况下进行超分辨率。因为这些方法在训练期间没有考虑图像噪声。

表V列出了不同方法在尺度因子为4时的比较结果，更多在尺度因子为2和3时的结果放在了补充材料中。从表V中可以看出，所提出的VIRNet在所有情况下都实现了盲方法中的最佳性能。特别是，与非盲方法相比，VIRNet仍然能够获得略好或至少相当的结果，尽管它们使用了模糊核和噪声水平的地面真实信息。这表明了所提出的盲框架的有效性，它能够同时处理退化估计和图像恢复任务。此外，考虑到模型配置，VIRNet的优势更加明显。具体来说，VIRNet的参数数量更少，FLOPs更少，速度比当前最先进的盲方法DASR[69]和非盲方法USRNet[56]更快。

图6显示了在Set14数据集上尺度因子为4时不同方法的去噪结果。注意，为了公平比较，我们仅显示了盲超分辨率方法的结果。可以看出，所提出的VIRNet能够恢复更真实、更清晰的结果，明显比其他方法更接近地面真实的高分辨率图像。大多数比较方法的结果都相对模糊，并丢失了一些图像细节。在第二个例子（中间一行）中，IKC和DAN对原始图像颜色造成了相对严重的破坏。这可能是由于它们多次迭代的不一致性造成的，因为它们俩都采用了从粗到细的方式来逐步调整结果。由于仔细考虑了退化模型，DASR和BSRNet与其他方法相比也表现得很好。然而，VIRNet在定量和定性结果方面仍然明显优于它们。这进一步证实了所提出变分框架的有效性。

真实数据上的结果：在这一部分中，我们进一步证明了所提出的VIRNet在真实世界数据集RealSRSet[46]上的有效性。该数据集包含20幅真实图像，这些图像通常在以前的文献[20]、[97]、[98]、[99]中使用，或从互联网下载。由于这些图像的潜在高分辨率图像不可用，我们主要通过视觉比较来评估不同方法。图7显示了尺度因子为4时RealSRSet上的三个典型超分辨率例子。在第一（顶部）和第二（中间）例子中，LR图像都包含一些图像噪声，这使得超分辨率目标更具挑战性。Bicubic、HAN、IKC和DAN这些方法都不能成功处理这些情况，并在图像噪声区域产生了一些伪影。至于DASR和BSRNet，它们在去除图像噪声时不幸地抹去了高频图像细节。人们可以很容易地观察到，所提出的VIRNet在保留图像细节和去除图像噪声之间取得了很好的平衡。在第三个（底部）例子中，IKC和VIRNet的结果比其他模糊程度不同但都模糊的结果更自然和真实。这些结果验证了VIRNet在真实世界超分辨率任务中的稳定且始终如一的良好性能。

在表VI中，我们采用了两种非参考度量（即，NRQM[100]和PI[101]）来进一步定量评估不同方法。可以看出，所提出的VIRNet在两个度量中的性能均排名第二，仅略逊于IKC，这表明了我们方法的有效性。结合其在图7中更好的视觉性能，尤其是与IKC获得的结果相比，可以肯定的是，所提出方法的相对优势仍然得到了验证。

对模糊核的讨论：退化模型，特别是模糊核，仍然是图像超分辨率领域一个开放而具有挑战性的研究课题[46]、[102]。在这项工作中，我们采用了与大多数相关文献[44]、[57]、[63]、[67]、[68]、[69]相同的各向异性高斯假设作为模糊核。尽管这种一般核假设在大多数情况下是足够的，但它仍然可能导致一些不满意的结果。例如，图8显示了一个典型的失败例子。在这个例子中，LR图像包含一些明显的“振铃伪影”，看起来像边缘附近的条纹或幽灵，这些通常由锐化算法或图像压缩产生。基于高斯核的方法（即，IKC[44]、DAN[57]、DASR[69]和所提出的VIRNet）都不能成功解决这个问题，而BSRNet[46]在这方面表现得很好，主要是因为它集成了多种复杂的核设置。因此，开发更合理和通用的核（或退化）建模方法对于图像超分辨率是必要的，我们将这留作未来的工作。

C. 退化估计实验

在本节中，我们实证地验证了我们的方法在退化估计任务中的有效性，包括噪声估计和核估计。

噪声估计：不同于大多数当前的图像恢复(IR)方法，我们采用了逐像素非独立同分布的高斯假设来拟合噪声分布。接下来，我们分析了我们的方法在几种常见噪声类型下的性能：

I.I.D. 高斯噪声：尽管VIRNet是基于非i.i.d.高斯噪声假设设计的，但它也可以很好地推广到i.i.d.高斯噪声，如表II所示。为了进一步定量说明这一点，我们使用我们的方法估计的噪声水平作为FFDNet[20]的输入，FFDNet是一种典型的非盲i.i.d.高斯去噪方法，它依赖于预先已知的噪声水平。表VII列出了FFDNet在不同噪声水平设置下的结果，其中FFDNetVIR和FFDNetGT分别表示FFDNet使用VIRNet预测的噪声水平和地面真实噪声水平作为输入的结果。我们可以看到，当时，FFDNetVIR能够达到与FFDNetGT相同的性能，或者在时性能非常接近，即使FFDNetGT使用了真实的噪声水平。这表明VIRNet能够适当地估计i.i.d.高斯噪声的水平。

非I.I.D. 高斯噪声：在第V-A1节中，我们采用了三组噪声方差图（见图2(b1)-(d1)）来合成测试数据，以评估VIRNet在非i.i.d.高斯噪声下的性能。相应地，图2(b2)-(d2)进一步显示了VIRNet预测的方差图，便于可视化。可以看出，这些预测的方差图与地面真实值在空间变化上非常相似，这有望促进后续的去噪任务或其他非盲去噪方法。为了证明这一点，我们还应用了这些预测的方差图在FFDNet[20]中测试其在非i.i.d.高斯噪声下的性能，定量比较结果列在表VIII中。可以看到，FFDNetVIR和FFDNetGT的性能非常相似，它们之间的性能差异小于0.04dB PSNR。这表明VIRNet能够有效处理这种复杂的噪声分布。

信号依赖噪声：真实世界图像去噪的挑战主要归因于图像噪声的信号依赖性。图9显示了SIDD[65]数据集中一个典型的真实世界噪声例子和VIRNet预测的相应方差图。注意，为了便于可视化，方差图已经放大了几次。很容易看出，估计的噪声方差图与像素照度有很强的相关性，表明所提出的VIRNet能够精细地近似真实的信号依赖噪声。

核估计：众所周知，核估计在盲图像超分辨率[103]中起着重要作用。为了评估VIRNet在这一子任务中的有效性，我们将其与三种专门为超分辨率设计的最近核估计方法进行了比较，包括KernelGan[96]、DIPFKP[63]和BSRDM[64]。由于这三种方法都比较耗时，我们随机选取了DIV2K[92]验证集的20幅图像（记作DIV2K20）作为测试数据。LR图像是使用图5中的最后四个各向异性高斯核在尺度因子4下合成的，噪声水平设置为2.55。

为了评估，我们使用两种方式来比较不同方法的性能。首先，估计核和地面真实核之间的均方误差（MSE）是一个直观的度量，直接反映了估计核的准确性。详细的比较结果列在表IX中。其次，我们将估计的模糊核应用到一种非盲超分辨率方法USRNet[56]中，然后比较恢复的HR图像在PSNR、SSIM[85]和LPIPS[95]上的性能。这三种度量上的比较结果列在表X中。从两个表中，可以很容易地观察到，所提出的VIRNet比其他竞争方法表现出明显的优越性。

D. 后验因子化的分析

在第IV节中设计变分推断算法时，我们将变分分布分解为条件格式(12)，这基本上引导了图1中的级联推断框架。实际上，对的不同因子化假设会导致不同的推断框架设计。例如，以下无条件因子化

将引导一个并行推断架构。具体来说，在这种并行框架中，三个子网络，即SNet、KNet和RNet，将独立前馈，但它们可以通过ELBO在反向传播过程中进行交互。有关这方面的详细概述，请参考我们之前的会议版本[27]。

为了验证条件形式(12)的优越性，我们考虑了不同的后验因子化，并在图像超分辨率任务上实证比较它们的性能，因为这涉及到比图像去噪更一般的退化。表XI列出了在DIV2K100尺度因子为4时的平均比较结果。与Baseline1相比，可以看出VIRNet实现了显著的性能提升，这表明退化信息（即，噪声水平和蓝色核）可以促进图像恢复任务。实际上，这种条件因子化在VIRNet中与经典基于模型的方法是一致的，后者将盲IR分解为两个子问题，即退化估计和图像恢复。Baseline3优于Baseline2的性能提升表明，核信息可以比噪声水平带来更多的边际性能提升，这与[103]中的结论一致。然而，VIRNet在LPIPS上相对于Baseline3的性能提升证实了在噪声水平上进行条件化可以进一步提高恢复图像的感知质量。

VI. 结论

在本文中，我们提出了一种新颖的深度变分网络用于盲图像恢复(IR)，旨在整合经典基于模型的方法和最新的基于深度学习(DL)的方法的优势。一方面，我们为盲图像去噪和图像超分辨率构建了一个贝叶斯生成模型，通过仔细考虑图像噪声和模糊核的退化过程。另一方面，我们精心设计了一个变分推断算法来解决所提出的模型，其中后验分布都被参数化为深度神经网络(DNN)以增加非线性拟合能力。最值得注意的是，这种变分算法引入了一个统一的框架，以同时处理退化估计和图像恢复任务。此外，我们还在图像去噪和超分辨率上进行了广泛的实验，证明了我们方法的优越性。在未来，我们将更加努力地扩展我们的方法，以处理更复杂和一般的图像退化。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247502419&idx=2&sn=f740ae1735f8fdde71a623a3293ab75e

PaperEveryday

为大家分享计算机和机器人领域顶级期刊