点击下方“PaperEveryday”,每天获得顶刊论文解读
题目:Self-Supervised Learning for Real-World Super-Resolution from Dual and Multiple Zoomed Observations基于自监督学习的现实世界超分辨率:从双重和多重缩放观测中学习
作者:Zhilu Zhang; Ruohao Wang; Hongzhi Zhang; Wangmeng Zuo
摘要:在这项研究中,我们考虑了智能手机参考型超分辨率(RefSR)中的两个挑战性问题:(i)如何选择适当的参考图像,以及(ii)如何以自监督的方式学习RefSR。特别是,我们提出了一种新颖的自监督学习方法,用于从双变焦和多重变焦观测中进行现实世界的RefSR。首先,考虑到现代智能手机中多个摄像头的普及,更多变焦(远摄)图像可以自然地用作参考,以指导较少变焦(超广角)图像的超分辨率(SR),这为我们提供了一个机会,可以学习一个从双变焦观测(DZSR)执行SR的深度网络。其次,对于DZSR的自监督学习,我们采用远摄图像而不是额外的高分辨率图像作为监督信息,并选择其中心块作为参考,以超分辨率对应超广角图像块。为了减轻训练期间超广角低分辨率(LR)块与远摄真实图像(GT)之间的错位效应,我们首先采用基于块的光流对齐获得变形的LR,然后进一步设计了一个辅助LR来指导变形的LR特征向GT变形。为了生成视觉上令人愉悦的结果,我们提出了局部重叠切片Wasserstein损失,以更好地在特征空间中表示GT和输出之间的感知差异。在测试期间,DZSR可以直接部署,使用远摄图像作为参考,对整个超广角图像进行超分辨率处理。此外,我们进一步考虑了多重变焦观测,并提出了一种渐进融合方案,有效利用参考图像。实验表明,我们的方法在定量和定性性能方面都优于最先进的方法。代码和预训练模型将公开提供。
关键词:基于参考的超分辨率,自监督学习,现实世界。
1 引言
图像超分辨率(SR)[1]-[5]的目标是从其低分辨率(LR)对应物中恢复高分辨率(HR)图像,这是一个严重不适定的逆问题,具有许多实际应用。最近,基于参考的图像SR(RefSR)[6]-[15]在放松不适定性方面取得了进展,它建议通过利用参考(Ref)图像来超分辨率LR图像以获得更准确的细节,如图1(a)所示。
对于RefSR,Ref图像应包含与HR图像相似的内容和纹理,并且通常是从视频帧(例如,CUFED5数据集[6])和网络图像搜索(例如,WR-SR数据集[11])中获取的。然而,在现实场景中,高分辨率的视频帧并不总是可用的,而网络图像检索既耗时又有时不可靠。为每个LR图像选择适当的Ref图像仍然是一个挑战性问题,尤其是在现实世界的应用中。幸运的是,成像技术的进步和普及使得在不同相机变焦下收集场景图像变得实际可行。例如,配备不同固定焦距的非对称摄像头已经在现代智能手机中得到装备。在这些实际场景中,更多变焦(远摄)图像可以自然地用作参考,以指导较少变焦(超广角)图像的SR。因此,可以从双变焦观测(DZSR)进行图像SR,其中Ref与LR图像的中心部分具有相同的场景,但具有更高的分辨率,如图1(b)所示。
DZSR与经典RefSR方法不同,但仍然可以被视为RefSR的一个特例。虽然传统的RefSR方法[6]-[14]通常使用合成(例如,双三次)降级的LR图像进行训练和评估,但DZSR需要应对现实世界的LR超广角图像,并且在训练中没有可用的真实图像(GT)。为了弥合合成和现实世界LR图像之间的域差距,DCSR[15]提出了一种自监督真实图像适应(SRA)策略,涉及降解保留和细节转移项。然而,DCSR[15]只取得了有限的成功,因为SRA中的两个损失项不能完全解决合成和现实世界LR降解之间的差距,以及超广角和远摄图像之间的错位。与DCSR[15]不同,它需要在合成图像上预训练,我们引入了自监督学习,直接从超广角和远摄图像上从头开始训练DZSR模型,而不需要额外的HR图像作为真实图像(GT)。具体来说,我们分别裁剪超广角和远摄图像的中心部分作为输入LR和Ref图像,并在训练期间使用整个远摄图像作为GT(见图2(a))。在推理过程中,通过分别将整个超广角和远摄图像作为LR和Ref,可以直接部署DZSR来对整个超广角图像进行超分辨率处理(见图2(c))。
然而,在训练DZSR模型时,裁剪的超广角LR图像通常无法与远摄GT图像精确对齐,这使得学习到的模型容易产生模糊的SR结果[16],[17]。在这种情况下,匹配Ref到LR也将导致变形的Ref与GT不对齐,为网络训练带来更多不确定性。为了处理错位问题,我们提出了一个两阶段对齐方法。首先,我们执行基于块的光流对齐,以获得与GT大致对齐的变形LR。其次,我们在特征空间中进行更精细的对齐。具体来说,我们希望构建一个辅助LR,作为训练期间将变形的LR特征向GT变形的目标位置图像。辅助LR应该与GT对齐,并可以在推理期间安全地被LR替换。因此,我们精心设计了辅助LR生成器网络及其位置保持和内容保持约束。然后,使用自适应空间变换网络(AdaSTN),根据变形的LR和辅助LR特征之间的偏移估计,来变形变形的LR特征以获得最终对齐的LR特征。训练完成后,可以安全地分离光流网络、辅助LR生成器和AdaSTN的偏移估计器,在测试阶段不会产生额外成本。
对于Ref图像的匹配,我们执行与大多数现有RefSR方法[6],[9]-[11],[15]相似的内容搜索,但它是从Ref到变形的LR图像,而不是从Ref到原始LR图像。最后,对齐的LR和对齐的Ref特征可以组合并输入到恢复模块中。
此外,我们提出了局部重叠切片Wasserstein(LOSW)损失,以更好地优化DZSR模型。LOSW损失可以更好地在特征空间中测量GT和输出之间的感知差异,这有利于生成视觉上令人愉悦的结果。此外,我们将自监督RefSR从多重变焦观测中考虑进来,并以三重变焦(TZSR)为例实现。对于TZSR,广角图像可以作为额外的Ref使用,其分辨率介于超广角和远摄图像之间,如图1(c)所示。按照DZSR的自监督学习,可以成功进行自监督TZSR。此外,为了更好地利用参考图像,我们为TZSR提出了一种渐进融合方案,其中对齐的Ref特征(来自广角和远摄图像)与对齐的LR特征依次融合。
在Nikon相机图像的DRealSR数据集[18]和iPhone相机图像的RefVSR数据集[19]上进行了广泛的实验。结果表明,我们的方法在现实世界的RefSR方面是有效和实用的。与最先进的SR和RefSR方法相比,我们的方法在定量指标和感知质量方面表现更好。我们还进行了详细的消融研究,分析了所提出方法中不同组件的有效性。
与之前的版本SelfDZSR[20]在ECCV 2022相比,引入了两个主要变化(基于块的光流对齐和LOSW损失)来改进DZSR的自监督学习流程,而TZSR是这项工作中新提出的。我们为DZSR和TZSR提出的自监督学习框架分别命名为SelfDZSR++和SelfTZSR++。总结来说,这项工作的主要贡献包括:
为了在没有额外HR图像的情况下实现现实世界的双变焦观测RefSR,我们提出了一个自监督框架SelfDZSR++。
为了减轻自监督学习中图像错位的不利影响,我们提出了一个包括基于块的光流对齐和辅助LR引导对齐的两阶段对齐方法,而不会带来额外的推理成本。
为了生成视觉上令人愉悦的结果,我们提出了局部重叠切片Wasserstein损失,以更好地测量感知差异。
为了探索多重变焦观测中的自监督RefSR,SelfDZSR++扩展到SelfTZSR++,其中我们提出了一种渐进融合方案,用于有效的恢复。
在Nikon和iPhone相机图像上的定量和定性结果表明,我们的方法优于最先进的方法。
3 提出的方法
在本节中,我们首先介绍我们的自监督学习SelfDZSR++方法。然后我们详细说明LR和GT之间的对齐、Ref与LR之间的对齐、恢复模块、LOSW损失和SelfDZSR++中的学习目标的解决方案。最后,我们提出了SelfDZSR++的扩展,它利用多重变焦观测来执行自监督RefSR。
3.1 自监督学习框架
记u为超广角图像,t为远摄图像。基于双变焦观测的超分辨率的目标是使用参考远摄图像t来超分辨率超广角图像u,可以写成:
其中,与u具有相同的视场,与t具有相同的分辨率,Z表示具有参数的变焦网络。然而,在现实世界场景中,的GT很难或几乎不可能获得。一个简单的替代解决方案是利用合成数据进行训练,但合成图像的退化模型与现实世界图像之间的域差距阻止了它的良好工作。DCSR[15]试图通过使用SRA策略来微调训练模型来弥合这些差距,但在输出和目标远摄图像之间的视场差异限制了它在获得满意结果方面的表现。与上述方法不同,我们提出了一个新颖的自监督双变焦超分辨率(SelfDZSR++)框架,它可以仅在超广角和远摄图像上从头开始训练,并且可以直接部署到现实世界的双变焦观测上。在训练期间,我们首先裁剪超广角和远摄图像的中心区域:其中C表示中心裁剪操作员,是t和u之间的焦距比率。注意,与具有相同的场景和更高的分辨率,即的中心区域。同时,t的分辨率是的倍,它们的场景相同。因此,和t可以自然地用作LR和GT,而可以在训练期间被视为Ref。然后我们可以定义DZSR为:其中L表示自监督学习目标。然而,GT t与LR 在空间上不对齐,这对自监督学习产生了不利影响。为了处理错位问题,我们希望在训练期间尽可能地将LR与GT对齐。我们希望这样的操作不会影响推理过程。为此,SelfDZSR++的框架设计至关重要,如下所述。3.2 LR和GT之间的对齐
为了将LR与GT对齐,我们提出了一个两阶段对齐方法。首先,我们采用基于块的光流对齐来获得一个与GT大致对齐的变形LR图像。然后,我们构建一个辅助LR来指导变形的LR在特征空间中向GT变形,这是更精细的。3.2.1 基于块的光流对齐
在SelfDZSR++中,LR图像和GT图像t由不同的相机镜头捕获,通常在空间上是错位的。当使用这些对进行模型训练时,输出将与GT在空间上错位,从而导致不准确的像素级损失计算。并且已经在最近的工作[16],[17]中显示,这种错位会导致网络生成模糊的结果。更严重的是,错位将导致变形的Ref特征在匹配Ref到LR后与GT不对齐,为模型学习带来更多不确定性。现成的光流[45]提供了一个可能的解决方案。但是,当图像分辨率大时(例如,>1K),光流网络有时倾向于全局估计运动,并且在小局部内容上表现不佳。因此,我们进一步采用基于块的光流对齐,在原始图像上裁剪的训练块上进行。具体来说,我们使用PWC-Net[45]计算从GT块到LR块的光流。然后,我们根据光流回形变LR块以获得变形的LR。3.2.2 生成对齐的辅助LR
然而,由于光流的偏移多样性[52]的限制,变形的LR和GT t在某些复杂情况下(例如,由场景视差或移动物体引起的遮挡)仍然轻微错位,并且明确的完美对齐是不切实际的。为了处理上述问题,我们希望从GT t构建一个辅助LR,同时保持空间位置不变,并用它来指导变形的LR在特征空间中与GT对齐(见图2(a)和(b))。注意,辅助LR在测试期间不可用,并且应该被超广角u替换(见图2(c))。因此,辅助LR需要满足两个先决条件。(i)可以在测试期间被u替换。(ii)辅助LR的空间位置应该与t保持相同。对于第一点,辅助LR应该具有与LR相似的内容和退化类型,以便在测试期间可以安全替换。特别是,我们设计了一个辅助LR生成器网络,并约束辅助LR的内容与LR相似,如图3所示。对于第二点,受KernelGAN[29]的启发,我们利用位置保持损失来约束卷积核的质心位于空间中心。位置保持损失可以定义为:其中表示辅助LR生成器的主干中第l个卷积层的内核权重参数,k是奇数,表示内核大小,表示中位置(i,j)的值。此外,变形的LR可以用来生成一个条件引导向量,以全局调制特征的t,这不影响空间位置的保持。记D为辅助LR生成器,其优化目标可以写成:此时,尽管辅助LR在大多数情况下已经与LR具有相似的内容和退化(见图11),但它可能难以覆盖LR图像中的一些噪声和伪影。因此,辅助LR有时比LR具有更清晰的内容。当使用这些辅助LR图像来指导变形的LR图像时,恢复模块可能过度拟合辅助LR图像,从而对LR图像的恢复产生不利影响。为了减轻这个问题,我们向辅助LR添加了一些简单的扰动(例如,噪声)。最后,辅助LR可以表示为:其中n表示高斯噪声和JPEG压缩噪声。高斯噪声的方差从5/255到30/255之间均匀采样,JPEG质量因子从60到95之间均匀选择。3.2.3 对齐变形的LR到辅助LR
给定变形的LR和辅助LR,我们建议隐式地将变形的LR与辅助LR(与GT对齐)对齐。我们可以估计它们之间的偏移量,然后使变形的LR特征与GT对齐。可变形卷积是一个自然的选择,但直接估计偏移量可能会给网络训练带来不稳定性。受[53]的启发,我们使用自适应空间变换网络(AdaSTN),通过估计像素级仿射变换矩阵和平移向量来间接获得偏移量,如图4所示。其中A ∈ R^(2×2)是预测的仿射变换矩阵,b ∈ R^(2×1)是平移向量。G是由下式表示的位置编码:其中x和y分别代表输入和输出特征,w_k表示核权重,p_k表示P的第k列值。在实验中,我们堆叠了3个AdaSTN来逐步对齐变形的LR和辅助LR。注意,在测试阶段辅助LR是不可用的。我们可以直接设置P = 0,这意味着AdaSTN的可变形卷积只能观察到核中心点的输入值,AdaSTN退化成1×1卷积(见图2(c))。然而,这种方法可能会由于训练和测试之间的差距而产生一些伪影。为了弥合这一差距,对于每个AdaSTN,我们在训练期间以概率p(例如,0.3)随机设置P = 0。对于每个训练样本,所有3个AdaSTN都设置为P = 0的概率p3(例如,0.027)很低,因此对整体框架的学习影响很小。3.3 Ref和LR之间的对齐
以前的RefSR方法通常通过计算Ref和LR特征之间的余弦相似度来执行匹配。但是对于SelfDZSR在训练期间,LR和GT之间的错位将导致匹配Ref到LR后,变形的Ref特征与GT不对齐。鉴于变形的LR已经与GT t大致对齐,我们反而计算Ref和变形的LR特征之间的相关性(见图2(b))。在测试期间,变形的LR可以被超广角图像u替换(见图2(c))。图5显示了Ref和变形的LR之间详细的对齐方案。索引图是通过计算Ref和变形的LR特征之间的余弦相似度获得的,这些特征是由预训练的特征提取器提取的。然后,根据索引图对Ref进行变形。此外,对于SelfDZSR,LR的中心部分与Ref具有相同的场景。利用这一属性,我们可以通过逆PixelShuffle层重新排列Ref元素,然后将其粘贴到变形的Ref特征的中心区域。3.4 恢复模块
在获得对齐的LR特征(在第3.2节中介绍)和对齐的Ref特征(在第3.3节中介绍)之后,我们将它们输入到恢复模块中。图6(a)显示了DZSR恢复模块的详细结构。首先,对齐的LR和对齐的Ref特征被连接并输入到主干中,主干由16个残差块[3]组成。然后,连接的特征、Ref图像和变形的LR图像的中心区域被输入到编码器中,以生成调制每个残差块特征的向量。这种调制可以被视为残差块特征的通道注意力。它有助于缓解现实世界超广角和远摄图像之间的颜色不一致性(见图6(b))。3.5 LOSW损失和学习目标
切片Wasserstein(SW)距离在训练深度生成网络方面展现出了卓越的优势[55],[56]。最近,SW损失已成功应用于纹理合成[57]、图像增强[58]、图像质量评估[59]等。我们也利用SW损失来优化早期版本的SelfDZSR[20]模型。然而,这里我们发现尽管它带来了更清晰的结果,但也导致了更多的伪影。因此,我们改进了SW损失,并提出了局部重叠SW(LOSW)损失LLOSW来优化SelfDZSR++。LOSW损失的算法描述在算法1中。我们首先将输出和目标VGG[60]特征(U和V)划分为重叠的小补丁(Up和Vp),然后通过随机线性投影获得补丁表示(Ud和Vd)。最后,我们计算输出和目标补丁表示之间的Wasserstein距离,它被定义为对排序的补丁表示(Us和Vs)之间的逐元素ℓ1距离。LOSW损失和SW损失在特征相似性方面有不同的焦点。具体来说,LOSW损失强调局部区域的特征分布相似性,而SW损失则关注全局的相似性。因此,LOSW损失可以鼓励输出在局部层面上更忠实于目标图像,并且也可以在一定程度上帮助减少伪影。SelfDZSR++与ℓ1损失和LOSW损失一起优化。总损失项可以写成:其中ϕ表示预训练的VGG-19[60]网络,我们设置λLOSW = 0.08。3.6 扩展到多重变焦观测
随着前几节(第3.1至3.5节)的介绍,我们可以使用双重变焦观测(超广角和远摄图像)以自监督的方式进行现实世界的RefSR。最近,现代智能手机不仅配备了两个,而是配备了多个不同焦距的镜头。这使我们能够同时捕获具有不同焦距的多个图像。因此,将我们的方法扩展到多重变焦观测是自然而重要的。在这一节中,我们以三重变焦观测(TZSR)为例,并介绍SelfTZSR++。特别是,我们重点探索了具有不同焦距的Ref图像的融合恢复方案。Self-Supervised Learning for TZSR。一些现代智能手机配备了三个镜头,允许用户以不同的焦距拍摄图像,包括超广角、广角和远摄镜头。随着焦距的增加,图像的分辨率增加,但其视场(FOV)逐渐变窄。提出的DZSR使用远摄图像t作为参考来超分辨率超广角图像u。值得注意的是,广角图像的分辨率仍然高于超广角图像,并且可能弥补了远摄图像的窄FOV的不足。为了进一步提高SR结果,TZSR的目标是引入广角图像w作为额外的参考,如图1(c)所示。对于TZSR的自监督训练,我们在SelfDZSR++的基础上引入SelfTZSR++。具体来说,SelfTZSR首先裁剪广角图像w的中心区域:其中rw是w和u之间的焦距比率。与低分辨率图像相比,远摄图像可以被视为具有×rt分辨率的参考,而广角图像可以作为另一个具有×rw分辨率的参考。然后我们可以定义TZSR为:这是从方程(3)修改而来的。SelfTZSR++也与ℓ1损失和LOSW损失一起优化。总损失项与方程(10)相同。渐进融合恢复。对齐的LR特征以及对齐的×rw Ref和×rt Ref特征可以分别按照第3.2节和第3.3节的方法获得。这里,我们专注于如何处理这些特征以获得更好的恢复。由于信息瓶颈,直接将这些特征连接起来输入恢复网络无法实现最佳性能。相反,我们提出了一个渐进融合方案,其中对齐的LR特征与两个Ref特征依次融合。具体来说,如图7所示,我们首先将×rw Ref特征(其分辨率低于×rt Ref)与LR连接起来,并进行处理。然后,我们将处理后的特征与×rt Ref特征合并,以进行进一步的调制。通过渐进地利用具有不同分辨率的Refs,可以逐步提高图像SR的效果。4 实验
4.1 实验设置
数据集。实验在Nikon相机图像的DRealSR数据集[18]和iPhone相机图像的RefVSR数据集[19]上进行。DRealSR的训练补丁已经人工精心选择,以减轻对齐问题,这是费时费力的。相反,我们使用原始捕获的图像进行训练,使整个过程完全自动化。特别是,原始数据的每个场景包含四个不同焦距的图像。我们将最短焦距图像、第二短焦距图像和最长焦距图像分别作为超广角、广角和远摄图像。共有163对图像用于训练,20对用于评估。RefVSR[15]数据集由iPhone 12 Pro Max收集,为每个场景提供三个具有不同固定焦距(超广角、广角和远摄)的视频。我们移除模糊的帧,并将视频帧视为单个图像。共有13,893对图像用于训练,1024对用于评估。为了简化,我们将上述图像调整为rw和rt分别为2和4。训练配置。我们通过随机水平翻转、垂直翻转和90°旋转来增强训练数据。批量大小为16,LR的补丁大小为48×48。模型使用Adam优化器[61]进行训练,设置β1 = 0.9和β2 = 0.999,训练400个周期。初始学习率设置为1×10^-4 ,并在200个周期后衰减到5×10^-5。实验使用PyTorch[62]在Nvidia GeForce RTX 3090 GPU上进行。评估配置。当直接输入超广角和远摄图像时,无法使用真实值进行定量评估。因此,我们仍然使用超广角和远摄图像的中心区域作为LR和Ref。然后我们通过光流网络[45]对齐整个远摄图像与输出。可以在输出和对齐的远摄图像之间计算定量指标(即PSNR、SSIM[63]和LPIPS[64])。另外,除了计算整个图像(标记为Full Image)的指标外,我们还计算了排除中心区域的区域(标记为Corner-Image)的指标。所有用于视觉比较的补丁都从输出的中心区域外的区域中选择。4.2 定量和定性结果
我们将结果与SISR(即EDSR[3]、RCAN[4]、CDC[18]、BSRGAN[36]和Real-ESRGAN[37])和RefSR(即SRNTT[6]、TTSR[9]、MASA[10]、C2-Matching[11]、DCSR[15]和我们的SelfDZSR[20])方法进行比较。BSRGAN和Real-ESRGAN的结果是由官方发布的模型生成的,其他方法使用我们的图像重新训练,以进行公平比较。其中,RefSR方法在我们的自监督学习方式下进行训练,每种方法都有两个模型,一个是通过最小化ℓ1(或ℓ2)损失获得的,另一个是使用它们论文中使用的所有损失项获得的。表1和表2分别显示了仅使用ℓ1(或ℓ2)损失训练的SR模型的定量结果和使用所有损失项的SR模型的定量结果。从表中可以看出,SelfDZSR[20]已经超过了大多数先前的SISR和RefSR方法,这得益于数据对的对齐和有效利用Ref信息。由于更好地处理了对齐问题并提出了LOSW损失,SelfDZSR++在大多数指标上都优于SelfDZSR。此外,通过引入额外的Ref和渐进融合方案,SelfTZSR++在保真度和感知方面都超过了所有竞争方法。在Nikon和iPhone相机图像上的可视化比较分别见图8和图9。我们的结果通常恢复了更多的细尺度纹理,并且更清晰、更逼真。4.3 模型参数和FLOPs的比较
我们还比较了不同模型的参数数量和FLOPs,如表3所示。对于RefSR方法,计算LR和Ref之间的相似度的计算成本占据了很大一部分。在这项工作中,我们计算了×4下采样Ref和×4下采样LR特征之间的余弦相似度,并发现其性能接近于在原始图像大小上计算相似度。得益于轻量级恢复模型和快速相似度计算,我们的方法与SISR和RefSR方法相比具有较低的参数数量和FLOPs。5 消融研究
在这一节中,我们进行消融实验,以评估自监督学习、LR和GT之间的对齐、LOSW损失、不同的Ref以及融合方案的效果。除非另有说明,否则实验在Nikon相机图像[18]上使用SelfTZSR++进行,指标在完整图像上评估。5.1 自监督学习的效果
为了验证我们提出的自监督方法(见第3.1节)的有效性,我们在不同的训练策略上进行实验。首先,我们移除了SelfDZSR++中的两阶段对齐组件和AdaSTN。然后,我们将现实世界的LR图像替换为双三次下采样GT图像,并重新训练网络。最后,为了进行公平比较,我们分别使用自监督真实图像适应(SRA)[15]策略和我们的自监督方法对上述模型进行微调。从表4中可以看出,当在现实世界图像上评估时,我们提出的自监督方法取得了更好的结果。PSNR指标比基于SRA微调的模型高出1.03 dB。从图10中可以看出,我们的视觉结果更清晰、更锐利。总之,即使不对齐LR和GT之间的错位,我们的自监督方法仍然优于SRA[15]策略。5.2 LR和GT之间对齐的效果
两阶段对齐的效果。为了评估我们的两阶段对齐方法(见第3.2节)的效果,我们首先移除了我们自监督方式中的基于块的光流对齐和辅助LR引导对齐,以训练一个基线模型。然后,我们分别添加这两个阶段的对齐方法进行实验。仅使用基于块的光流对齐时,PSNR比基线提高了0.33 dB,如表5所示。结合辅助LR引导对齐,可以进一步获得更好的定量结果。辅助LR生成器的效果。我们在图11(b)中展示了在添加合成噪声n之前的辅助LR图像。相应的LR和GT图像分别显示在图11(a)和图11(c)中。同一行中的红线和箭头相对于图像处于相同的位置。可以看出,辅助LR与LR具有相似的内容,并且与GT对齐。这表明辅助LR生成器的功能得到了保证。此外,我们进行了一个实验,在其中添加了噪声n到双三次下采样GT,并用它替换辅助LR。在这种情况下,PSNR下降了0.88 dB,LPIPS变差了0.078。结果表明,辅助LR生成器是必要和有效的。我们还对不同系数(即,λp)的位置保持损失进行了实验,如表6所示。为了在对齐和获得更好的SR性能方面更好地发挥辅助LR的作用,我们在内容保持损失和位置保持损失之间取得平衡,并设置λp为100。辅助LR中噪声的效果。为了预防恢复模块的过拟合问题,我们向辅助LR添加了一些噪声。高斯噪声是一个自然的选择,我们经验性地发现它足以实现目标,如表7所示。此外,额外的JPEG压缩噪声可以提供进一步的轻微改进,可以被视为模拟的伪影。AdaSTN的效果。我们将仅使用基于块的光流对齐的模型视为基线。我们将AdaSTN修改为可变形卷积[50]以验证其效果。具体来说,而不是根据方程(7)通过估计仿射变换矩阵和向量来直接估计偏移量,我们直接为可变形卷积估计偏移量。表8中的结果显示,AdaSTN的性能优于可变形卷积。5.3 LOSW损失的效果
大多数RefSR方法[6],[9]-[11]采用基于VGG的[60]感知损失和对抗性损失[66]以获得更真实的结果。这里我们遵循C2-Matching[11],使用ℓ1重建损失、感知损失和基于Relativistic GAN[65]的对抗性损失的组合来训练SelfTZSR++。定量结果如表9所示。可以看出,使用LOSW损失训练的模型比使用对抗性损失的模型在PSNR上高0.35 dB,LPIPS上好0.026。我们还使用SW[20]损失训练了一个模型进行比较。使用LOSW损失训练的模型在PSNR上也比使用SW损失的模型高,而LPIPS指标的差距很小。与其他在获得更好的感知指标时降低保真度指标的损失项不同,LOSW损失在测量感知差异的同时保持了保真度。图12显示了使用不同损失项时的视觉结果比较。仅使用ℓ1损失时,结果过于平滑。尽管对抗性损失和SW损失带来了更清晰的内容,但它们导致了一些不真实的伪影。LOSW可以帮助生成更令人满意的图像,这些图像更忠实于高分辨率真实图像,并且伪影更少。简而言之,LOSW损失在保真度和感知方面具有更好的权衡能力。5.4 不同Ref和融合方案的效果
不同Ref的效果。我们进行了实验,使用了不同的参考图像(×rw Ref来自超广角图像和×rt Ref来自远摄图像)。如表10所示,使用×rt Ref比使用×rw Ref可以获得更高的PSNR。并且当结合使用两个Ref时,进一步改善了保真度和感知指标。Ref融合方案的效果。使用两个参考图像,我们研究了在实验中对齐的Ref特征和对齐的LR特征之间的不同融合方案。从表11中可以看出,直接连接Ref和LR图像的特征以进行恢复并不能达到满意的结果。我们提出的渐进融合方案首先将×rw Ref特征与LR连接起来,并进行处理。然后,处理后的特征与×rt Ref特征融合以进行进一步调制。它比直接连接策略提高了0.49 dB的PSNR。此外,我们还进行了一个实验,通过颠倒两个Ref特征的融合顺序,显示出比我们提出的方案低0.22 dB的PSNR。实验表明,首先将LR特征与较低分辨率(×rw)的Ref特征融合,然后与较高分辨率(×rt)的Ref特征融合更为合适。5.5 扩展模型的效果
在这里,我们扩展了我们的模型以进行实验。为了与竞争的SISR方法具有可比的计算成本,我们将恢复模块中的通道数翻倍,并将深度增加三倍,命名为‘SelfDZSR++ (Large)’和‘SelfTZSR++ (Large)’。定量结果如表12所示。可以看出,扩展模型通常可以带来性能提升,特别是在LPIPS指标上。6 结论
现实世界中的双变焦观测图像超分辨率(DZSR)是一个新兴话题,它的目标是使用远摄图像的参考来超分辨率超广角图像。为了解决无法获得真实值的问题,我们提出了一种有效的自监督学习方法。为了减轻训练期间图像错位的不利影响,我们提出了一个包括基于块的光流和辅助LR引导对齐的两阶段对齐方法。为了获得视觉上令人愉悦的结果,我们提出了局部重叠切片Wasserstein损失。此外,我们将DZSR扩展到多重变焦观测,其中我们提出了一个渐进融合方案,以实现更好的恢复。实验表明,我们提出的方法在定量和定性方面都优于最先进的方法。声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编