点击 上方“ CVPaper ”,选择加" 星标 "或“ 置顶 ”
顶刊论文解读,第一时间分享
Data Augmentation for Low-Level Vision: CutBlur and Mixture-of-Augmentation 低级视觉数据增强:CutBlur及混合增强方法 Namhyuk Ahn; Jaejun Yoo;Kyung-Ah Sohn
代码:https://github.com/clovaai/cutblur.
摘要 数据增强(DA)是提高深度网络性能的有效方式。遗憾的是,目前的方法大多是为高级视觉任务(例如,图像分类)开发的,很少有研究关注低级任务(例如,图像恢复)。在本文中,我们对现有频率域中的DAs进行了全面分析。我们发现,那些在很大程度上操纵空间信息的方法可能会阻碍图像恢复过程并损害性能。基于我们的分析,我们提出了CutBlur 和混合增强(MoA)。CutBlur 将低质量补丁剪切并粘贴到相应的高质量图像区域,或反之亦然。关键的直觉是在保持像素分布完整的情况下提供足够的DA效果。CutBlur 的这一特性使模型不仅能学习“如何”恢复图像,还能学习“在哪里”恢复图像。最终,模型理解了“多少”恢复给定像素,这允许它更好地泛化到看不见的数据分布。我们通过MoA进一步提高了恢复性能,MoA结合了策划的DA列表。我们通过在单个或混合失真任务上进行广泛的实验来展示我们方法的有效性。我们的结果表明,CutBlur 和 MoA在模型规模较大且数据在真实世界环境中收集时,一致且显著地提高了性能。
关键词 数据增强 · 图像恢复 · 图像超分辨率 · 图像去噪 · JPEG伪影去除 · 多重退化恢复 · 泛化
1 引言 数据增强(DA)是在测试阶段不增加额外计算成本的情况下增强模型性能的最实用方法之一。虽然已经提出了多种DA方法用于几个高级视觉任务,但DA在低级视觉方面的研究却鲜有涉及。相反,许多图像恢复研究,如超分辨率(SR),依赖于可以通过模拟系统退化函数(例如,使用双三次核进行SR,或使用模糊和JPEG压缩等合成数据过程的组合)轻松增加训练样本数量的合成数据集。然而,由于模拟数据分布和真实数据分布之间的差距,训练在合成数据集上的模型在真实环境中并未展现出最佳性能。一些最近的研究提出了通过收集真实世界数据集来缓解这种差异的方法。尽管如此,在许多情况下,获取大量对齐良好且配对的数据样本既耗时又昂贵。尽管DA在此处可以发挥重要作用,但只有少数研究在低级视觉任务中进行了研究。为了填补这一空白,并更好地理解关注低级视觉任务的DA方法的效果,我们使用不同大小的模型和数据集(第4节)进行了一系列分析。我们首先根据方法应用的位置将现有的增强技术分为两组;像素域和特征域。我们发现,当不考虑底层任务的特性而直接应用时,一些DA方法会损害图像恢复,甚至妨碍训练过程。当方法在很大程度上引起空间信息的丢失或混淆时,性能下降尤为明显(例如,Cutout和特征域方法)。有趣的是,像RGB排列这样不会引起空间失真基本操作,比那些引起不真实模式或结构急剧过渡的方法(例如,Mixup和CutMix)带来了更好的改进。我们在频率域中的调查进一步揭示了现有的DA方法对图像的频率轮廓引入了不必要的变化,从而使模型难以学习预期的恢复任务。基于我们的分析,我们提出了CutBlur,一种专门为低级视觉任务设计的新型增强方法。CutBlur 将低质量(LQ)图像补丁剪切并粘贴到相应的真实高质量(HQ)图像补丁中(图1)。
通过在单个图像中具有部分LQ和部分HQ像素分布以及随机比例,CutBlur享有鼓励模型学习“如何”和“在哪里”解决图像的正则化效果。一个不错的副作用是,模型自然地学习了“多少”恢复给定像素——它学会了自适应地恢复图像的每个局部部分。多亏了这个独特的属性,CutBlur帮助网络在看不见的像素分布上更好地泛化,并防止过度校正(例如,SR中的过度锐化和去噪中的过度平滑),这在现实世界的应用中可能常见(第5节)。这在频率域分析中再次清晰可见,表明CutBlur没有改变或添加图像频率轮廓的虚假效果。此外,我们展示了通过在训练阶段同时应用几种策划的DA方法,可以进一步增强性能,我们称之为混合增强(MoA)(第3.1节)。我们的实验表明,所提出的策略在各种模型和数据集上显著且一致地提高了模型性能。总结来说,我们的贡献如下:
据我们所知,我们是第一个在低级视觉中提供最新数据增强方法的全面分析。
我们提出了一种新的DA方法,CutBlur,它通过规范模型学习“如何”以及“在哪里”应用给定图像的超分辨率,避免了不真实的失真。
我们提出了一种混合增强策略,在各种退化场景下显示出一致和显著的改进。
在这项研究中,我们进行了以下扩展,以改进我们早期的结果。首先,我们使用频率域中的功率谱密度(PSD)更系统地分析了DA方法的效果。PSD分析揭示了使用CutBlur性能提升的原因以及其他DA方法的问题。其次,除了单一失真场景外,我们还在各种低级视觉任务上进行了广泛的实验(1)包括混合伪影(模糊、噪声、JPEG压缩)或混合任务(去模糊、超分辨率、去噪)的多重失真场景,以及(2)在其他成像领域使用生物医学图像数据集。第三,我们的结果表明,CutBlur和MoA的性能提升扩展到了最近开发的模型,如SwinIR。最后但同样重要的是,我们将先前对模型泛化的分析扩展到了我们调查的每个任务上,这再次显示了在现实世界应用中使用CutBlur和MoA的优势。
2 相关工作 数据增强(DA)是一种通过增加给定数据集的多样性来提高模型性能的简单有效技术。在本节中,我们简要介绍基于应用空间的现有DA方法:像素空间和特征空间。最后,我们简要回顾了为低级视觉任务开发的DA方法的现状。
2.1 像素空间中的DA 除了简单的几何变换,如图像翻转和旋转,许多高级DA方法已被提出用于操作输入图像的像素空间。Mixup 通过插值两个图像来生成看不见的训练样本。一种区域性dropout策略,如Cutout,擦除图像的随机区域以增强模型的泛化能力。结合Cutout和Mixup方法的优势,CutMix 用另一张图像替换随机区域而不是将其移除。这使模型能够充分利用整个训练数据,与传统的区域性dropout形成对比。SuperMix 利用输入图像的显著区域创建多个图像的混合训练样本。GridMix 采用一种替代方法,通过将两张图像划分为小块,然后将这些小块空间合并成单个图像。MiAMix 利用多种混合方法,并随机选择混合掩模增强方法。StyleMix 在混合图像时将图像分离为风格和内容。为了特定目的,增强技术可以适应性地结合辅助模态数据;例如,CutDepth 将复制并粘贴深度图到输入图像中。最近,一些研究专注于开发一种有效的应用DA方法的方式(或框架)。例如,AutoAugment 及其变体提出了为给定任务和数据集学习增强策略。AutoMix 以自动方式参数化Mixup,以增强Mixup的增强能力。
2.2 特征空间中的DA 与直接在像素上工作不同,这一类别的DA方法操作网络的内部特征。它们被分为三组:(1)特征混合,(2)摇晃,和(3)丢弃。Manifold Mixup 混合潜在特征以及输入图像,以提供更平滑的决策边界。Shake-shake 和 ShakeDrop 对特征执行随机仿射变换,以提供更强的正则化效果。同样,特征丢弃策略通过擦除特征的某些区域来增强泛化能力。
2.3 低级视觉任务中的DA 尽管在高级视觉任务中取得了巨大成功,但DA的效果在低级视觉任务中尚未得到积极研究。据我们所知,在我们早期的结果之前,Feng等人是第一个将DA方法应用于超出几何变换的低级视觉任务的工作。他们利用Mixup在非常小的数据集上训练模型。然而,他们将范围限制在减少特定超分辨率模型和数据集的过拟合问题上。相比之下,我们的工作提供了对各种DA方法的全面分析,涵盖了各种模型、数据集和环境。很少有其他研究尝试将DA纳入低级视觉任务。Wei等人引入了一种适用于高级和低级任务的通用DA方法,将mixup与RGB通道洗牌方法相结合。随后的研究采用了CutBlur进行真实世界的超分辨率和面部图像增强。此外,Nakao和Nobuhara提出了一个基于自组织映射的可控多增强框架,并将其纳入MoA。然而,这些研究并没有彻底检查DA方法如何使低级视觉任务受益的机制和基本原理。在这项研究中,我们深入研究了DA在低级视觉任务领域的复杂性。此外,我们在各种低级视觉任务和数据集上进行了这些方法的全面应用,提供了对其有效性和多功能性的更深入的理解。最近,El Helou等人提出了一项有趣的工作,在训练期间屏蔽输入图像的频率成分。这种随机频率屏蔽框架模拟了SR任务中的任意模糊核,并显示出对现代深度SR模型普遍存在的核过拟合问题的有希望的正则化效果。尽管它最初并不是作为DA方法提出的,我们发现,从原则上讲,SFM通过干扰频率信息提供了增强效果。然而,SFM需要一个预处理步骤,引入了超参数。此外,他们的结果限于超分辨率和去噪。相比之下,CutBlur在图像域上工作,采用简单的剪切和粘贴操作,同时享受类似的优势。
3 方法 在本节中,我们描述了CutBlur 和混合增强(MoA),一种新的增强方法和用于低级视觉任务的通用框架。最后,我们描述了我们在整篇论文中使用的实验设置。
3.1 CutBlur 设 和 分别为低质量和高质量的图像补丁。这里, 表示取决于感兴趣任务的比例因子;在许多低级视觉任务中 (例如,图像去噪),而在 SR 中 。因为 CutBlur 需要 和 的相同分辨率,我们首先使用确定性核(如果需要)匹配大小; 。CutBlur 的目标是通过剪切和粘贴 的随机区域到相应的 以及反之亦然来生成一对新的训练样本 : 其中 表示指示在哪里替换的二进制掩模, 是用一填充的二进制掩模, 是逐元素乘法。关于掩模及其坐标的采样,我们遵循原始的 CutMix。 3.2 混合增强(MoA) 为了最大化使用 DA 的优势,我们将各种 DA 方法(在图1中介绍)整合到一个单一的框架中,我们称之为混合增强(MoA)策略。对于每个训练步骤,它首先确定是否应用 DA,使用决策概率 。当决定执行 DA 时,它根据比例向量 随机选择池中的单一方法,其中 是我们使用的 DAs 的数量。默认情况下,我们将 设置为 1.0,并从均匀分布中采样 。 3.3 实验设置 我们将我们的方法应用于使用合成和现实数据的多种低级视觉任务,包括单一或多重失真。 3.3.1 任务和数据集 图像超分辨率。我们通过使用双三次核对 HQ 图像进行下采样来生成合成 SR 数据集。我们使用 DIV2K 中的图像作为高质量图像。为了评估,我们使用了 Set5、Set14、B100、Urban100 和 Manga109 数据集。为了测试真实的 SR 场景,我们在 RealSR(版本1)和 CameraSR 数据集上训练并测试模型。为了展示我们方法在现实实践中的跨领域多样性,我们将其应用扩展到生物医学成像数据集。具体来说,在医学成像中,我们使用了两个不同的数据集:用于脑 MRI 分析的 BraTS 数据集和用于视网膜眼底摄影的 DRIVE 数据集。对于这两个数据集,为了生成 HQ 和 LQ 图像对,我们采用了 Ahmad 等人概述的协议,该协议涉及通过双三次插值使用 ×4 的因子进行下采样。此外,在生物成像领域,我们使用了 Widefield2SIM(W2S)数据集,这是一个荧光显微镜活细胞成像数据集。该数据集包括 360 套真实的荧光显微镜图像,用于真实的 SR 任务,包括不同噪声水平的噪声 LQ 宽场图像、无噪声 LQ 图像和相应的高质量结构化照明显微镜(SIM)图像。因此,这是实践中真实 SR 任务的完美基准,包括噪声。 单一失真恢复。在这里,我们执行广泛使用的图像恢复任务:图像去噪和 JPEG 伪影去除。我们扭曲 DIV2K 中的 HQ 图像以生成合成去噪和 JPEG 伪影去除任务的数据集。模型评估分别使用 Kodak24 和 Urban100 进行去噪,以及 Classic5 和 LIVE1 数据集进行 JPEG 伪影去除任务。除了合成案例外,我们还使用 SIDD 进行了真实去噪任务的实验。为了准备数据集,我们遵循 Abdelhamed 等人的方法,将其称为 SIDD+。 多重失真恢复。在现实世界中,图像可能会受到多重失真的影响。为了模拟这一场景,我们遵循最近提出的多重失真环境。为了生成混合失真数据集,我们对 DIV2K HQ 图像应用了一系列高斯模糊、高斯噪声和 JPEG 压缩,并随机设置失真级别。这根据失真强度(轻微、中等和严重)提供了三组数据集。其中,我们在中等级别上训练模型,并在所有级别上测试它,以验证我们方法的泛化能力。除了混合失真数据集外,我们还对多退化 SR 任务进行了实验。与标准双三次 SR 不同,这增加了高斯模糊或噪声,以模仿从真实环境中获取的图像。具体来说,我们使用了两种设置:1)SR+DN 和 SR+BLUR。 3.3.2 基线 图像超分辨率。我们使用了四种卷积 SR 模型:SRCNN、CARN、RCAN 和 EDSR,它们的参数数量从 0.07 到 43.1 M 不等。我们还额外使用了一个基于 transformer 的图像恢复网络,SwinIR,它最近出现并被广泛用于各种低级视觉任务。鉴于 SwinIR 的学习机制与传统的基于 ConvNet 的方法不同,研究我们提出的增强方法对其性能的影响是具有重要兴趣的。这种探索对于理解 DA 技术在低级视觉中的适应性和有效性至关重要。当在合成 SR 数据集上训练模型时,我们遵循先前工作的训练协议。也就是说,网络先使用 ×2 比例进行预训练,然后在 ×4 比例数据集上进行微调。由于我们对输入图像 进行上采样到 (如第3.1节所述),我们在第一层之前附加了 desubpixel 层以进行高效推理。此外,我们还将第一层的输入通道数量从 C 更改为 。我们观察到这样的修改既没有损害 SR 性能,也没有影响模型效率。 图像恢复。EDSR、RDN 和 RNAN 被用于其他低级视觉任务。这些模型的参数数量从 9.0 到 38.4 M 不等。对于 EDSR,我们移除了模型的上采样块,以将其应用于不涉及上采样的图像恢复任务。 3.3.3 评估指标 我们使用峰值信噪比(PSNR)和结构相似性指数(SSIM)来评估方法。PSNR 通过两个图像之间的均方误差在对数空间中计算。SSIM 基于给定图像的统计量,根据亮度、对比度和结构测量图像的相似性。注意,我们仅在计算 SR 和 JPEG 伪影去除任务的指标时使用 Y 通道,否则使用全 RGB 通道。 4 分析 在本节中,我们研究了现有的 DA 方法以及它们在低级视觉任务中失败的原因(第4.1节)。基于这些观察,我们分析了我们方法的特性(第4.2节和4.3节),并在不同条件下展示了其有效性(第4.4节)。这里,为了简洁的解释,我们将应用范围限定为超分辨率(SR)。然而,我们稍后将展示这些结果也适用于其他低级视觉任务,如去噪、JPEG伪影去除和解决混合失真。
4.1 现有 DA 方法的问题 DA 方法的核心思想是部分阻塞或混淆训练信号,以便模型获得更多的泛化能力。然而,与高级任务(例如分类)不同,模型应该学习抽象图像,在去噪和超分辨率等低级视觉任务中,像素之间的局部和全局关系更为重要。考虑到这一特性,我们假设一个严重扰乱空间信息的操作可能会限制模型恢复图像的能力。的确,严重丢弃或操纵空间信息的 DA 方法对 SR 性能有不利影响,特别是当它们在特征空间中工作时——每种特征增强方法都显著降低了性能。另一方面,当小心应用时,像素空间中的 DA 方法带来了一些改进。例如,Cutout 默认设置在矩形形状中丢弃 25% 的像素,并因此将性能显著降低 0.1 dB。然而,当以 0.1% 的比例应用并擦除随机像素而不是矩形区域时,我们发现 Cutout 给出了积极的效果(DIV2K:+0.01 dB 和 RealSR:+0.06 dB)。注意,当使用 48×48 输入补丁时,这只丢弃了 2-3 个像素。CutMix 显示出比 Cutout 略好的性能,但不如 Mixup。我们假设这是因为 CutMix 可以比 Cutout 使用更多的信息,同时它仍然生成了图像上下文的急剧过渡。
为了更系统地调查这一点,我们分析了每种 DA 方法在频率域中的效果。我们使用功率谱密度(PSD),这是图像中频率内容的分布。图像的 PSD 通常被建模为 ,这在原始(未增强)图像的轮廓中可见。这里, 是空间频率, 根据场景(自然对人造)而变化。将 Cutout 应用于图像增强在频率轮廓上产生了显著的效应。技术的切割边缘的锐利边界,加上由此产生的信息丢失,导致了功率谱密度(PSD)的突然增加,导致在高频域中人为地增强了响应。相反,Mixup 方法引起了 PSD 包络的大幅改变,由于混合图像的叠加频率成分,使其偏离了自然状态——这种效应在对数尺度的图中尤为明显。这些观察结果强调了这些 DA 方法在低级视觉处理中的潜在缺点。
4.2 CutBlur CutBlur 不仅提高了性能,而且具有其他 DAs 无法获得的独特而优秀的属性。在本节中,我们提供了重点关注 CutBlur 属性的更详细分析。
4.2.1 CutBlur 为何适用于低级视觉任务? 在之前的分析中,我们发现图像补丁内尖锐的过渡或混合图像内容,或丢失像素之间的关系可能会降低图像恢复模型的性能。因此,一个好的低级视觉任务的 DA 方法在不制造不切实际的模式或信息丢失的同时,应该保持良好的正则化效果。CutBlur 满足这个条件,因为它在相同内容的 LQ 和 HQ 图像对之间进行剪切和粘贴。通过将 LQ(或 HQ)图像补丁放在相应的 HQ(或 LQ)位置上,它可以最小化边界效应,这主要来自于图像内容的不匹配(例如,Cutout 和 CutMix)。与 Cutout 不同,CutBlur 可以利用整个图像信息,同时享受由于随机 HQ 像素比例和位置的变化样本带来的正则化效果。这在频率域分析中也清晰可见。与 Mixup 不同,CutBlur 对像素统计的损害很小(紧密跟随原始轮廓),在保持增强效果的同时提高了性能。
4.2.2 使用 CutBlur 的学习成果 我们假设 CutBlur 通过强制自适应图像恢复,作为有效的正则化,增强了 SR 模型的性能。更具体地说,有了 CutBlur,模型现在必须同时学习“如何”和“在哪里”超分辨率图像。这自然地引导模型学习“多少”它应该超分辨率给定像素,从而更好地泛化到看不见的像素分布。与防止分类器做出过度自信决策的标签平滑类似,CutBlur 阻止模型过度校正图像。
这可以通过测试一些人为设置来证明,例如在测试时给模型一个意外更高分辨率(HR)的图像或 CutBlurred 图像。在图3中,LR 图像的频率成分大多位于低频,与 HR 图像相比。因此,目标是使用低频信息恢复高频信息。如果没有特定的处理,当 SR 模型在测试时意外地采用更高分辨率的图像(比训练期间看到的),它倾向于产生不自然过度锐化的输出,特别是在边缘周围。基线模型的 PSD 清楚地显示了这一点,PSD 包络严重改变,在低频和高频成分中有几个峰值。这是模型学习不顾底层像素分布的变化而统一超分辨率每个像素的自然行为。CutBlur 通过在训练阶段向模型展示混合像素分布来解决这个问题。正如在重建图像和 PSD 分析中看到的那样,当应用 CutBlur 时,模型超分辨率图像(恢复高频成分)而没有引入严重的伪影(跟随原始轮廓)。
图4还展示了 CutBlur 的良好泛化效果。在这里,CutBlur 增强型模型比基线模型在 LR 和 HR 区域都更好地解决了给定图像。注意,CutBlur 增强型模型在两个区域的残差误差都大大减少。 4.2.3 CutBlur 与 HR 训练输入的比较 为了让模型学习 HR 像素分布,人们可能会考虑在训练期间将 HR 图像暴露给模型,作为使用 CutBlur 的替代方案。我们的实验表明,CutBlur 训练在 PSNR 方面比简单地向网络提供 HR 图像获得了更好的性能。这是因为我们的 CutBlur 框架包括了 HR 输入场景作为特殊情况,其中 或 。相反,仅使用 HR 输入进行训练无法复制单个图像内变化的 LR 和 HR 像素分布,限制了网络学习“如何”超分辨率而不理解“在哪里”是必要的。
4.3 混合增强(MoA) 我们的分析表明,当明智地应用时,许多 DA 方法可以为图像恢复模型带来好处。为了最大限度地利用这一观察结果,我们提出了使用策划的 DA 方法列表(表1中的所有像素域 DA 方法),我们称之为混合增强(MoA)。通过 MoA,我们在合成和真实数据集上都实现了最佳性能。注意,这套 DA 方法从不穷尽,我们相信有新增强方法的改进空间。从现在开始,除非另有说明,我们报告使用 MoA 的所有实验结果。
4.4 不同模型和数据集 各种模型尺寸。通常认为,具有较大容量的模型比小容量模型从数据增强中受益更多。在这里,我们研究网络尺寸与使用 MoA 性能提升之间的关系,看看这一信念在低级视觉任务中是否也有效。在这个实验中,我们根据模型尺寸不同地设置决策概率 ;对于小模型(SRCNN 和 CARN), ,对于大容量网络(RCAN 和 EDSR), 。当使用完整数据集(100%)时,像 SRCNN 和 CARN 这样的小模型在 PSNR 方面并没有从数据增强中受益太多——尽管如此,值得注意的是,拥有 CutBlur 的好处仍然存在(例如,抑制过度锐化)。
另一方面,MoA 一致地提高了 RCAN(+0.08 dB)和 EDSR(+0.08 dB)的性能,它们有足够的容量来利用增强信息。为了隔离 MoA 的效果并消除由网络架构引入的潜在变异性,我们进一步分析了具有固定架构的 MoA。为此,我们通过 256、192、128 和 96 个通道改变 EDSR 中的通道数量,分别对应 43.1M、24.3M、10.8M 和 6.1M 参数。与表2一致,我们发现 MoA 的性能提升随着模型尺寸的减小而减少;全尺寸模型(43.1M)在 PSNR 上提高了 0.08 dB,而较小的模型(10.8M 和 6.1M)只看到了边缘改进。然而,当训练数据集的体积减少到 50% 和 25% 时,差距变得更加明显。例如,当我们只使用 DIV2K 数据集的 25% 时,从最小到最大的每个网络尺寸至少在 PSNR 上增加了 0.09 dB。
4.4 不同数据集大小 我们研究了在减少训练数据大小时的模型性能。在这里,我们使用了 DIV2K 数据集的 100%、50%、25%、15% 和 10%。SRCNN 和 CARN 显示没有或边际改进,这是由于小模型的严重欠拟合,这也可以从 SRCNN 使用 100% 和 10% 数据集的性能差异很小中推断出来。在这里,由于模型容量的缺乏,DA 的效果最小。
另一方面,一旦模型的大小变得适中或大,我们的方法在所有设置中都带来了巨大的好处。当数据集大小减少时,性能差距变得深刻。有了 MoA,仅用一半数据集训练的 RCAN 恢复了使用 100% 数据集时的相同性能(29.06 + 0.16 = 29.22 dB)。我们的方法在数据集大小小于50% 时,每个网络尺寸至少提高了 0.09 dB 的 PSNR,这种趋势在 EDSR 中也观察到了。这是一个有希望的结果,因为在许多潜在的真实应用中,通常很难获得大型数据集。我们的分析表明,DA 的优势取决于数据集大小和模型容量。我们建议,当训练数据集的体积非常大时,如果模型有超过 10M 参数,MoA 可能有益。另一方面,对于较小的数据集(小于 DIV2K 的一半),MoA 往往会在大多数模型尺寸上提供显著的改进。此外,MoA 作为一种有效的策略脱颖而出,因为它不仅增强了任务性能,还增强了其泛化能力(我们将在稍后的部分中讨论)。这使得 MoA 成为任何希望在不同条件下提高其弹性的网络的有价值补充。
5 结果 在本节中,我们将展示我们提出的方法在多样化的低级视觉任务上的实验结果,包括自然和生物医学图像的图像超分辨率、单一失真恢复(去噪和 JPEG 伪影去除),以及多重失真恢复(混合伪影、SR+DN 和 SR+BLUR)。在每个定量实验中,δ 表示有无 MoA 的模型之间的性能差距,以及恢复图像与高质量图像之间的绝对残差强度图。
5.1 图像超分辨率 5.1.1 自然图像的 SR 合成图像超分辨率。在表4中,我们比较了基线方法在各种合成基准数据集上的性能。MoA 一致地带来了巨大的性能提升,尤其是当模型具有大容量时。例如,RCAN 和 EDSR 在 Urban100 上至少获得了 0.14 dB 的 PSNR 增益,在 Manga109 数据集上获得了 0.19 dB。SwinIR 也从 MoA 中受益,例如在 Urban100 上 PSNR 提高了 0.10 dB,SSIM 提高了 0.0023。总体而言,具有 12M 参数的 SwinIR 在模型尺寸方面介于 CARN 和 RCAN 之间,相应地,其性能提升介于这两种模型之间。由于其容量较小,其增益比 RCAN 和 EDSR 要小。然而,这些结果证实了 DA 方法在增强最近的基于 transformer 的恢复模型中的有效性。正如我们在第4.4节中讨论的那样,即使它没有提高最终性能,所有模型都享受到了更好的泛化的好处。定性比较也展示了我们方法的优越性。RCAN、EDSR 和 SwinIR 从提高的性能中受益,并成功地解决了混叠伪影(例如第一行的线条)和结构失真(例如第二行的孔洞)。
真实的图像超分辨率。我们还在真实世界的 SR 任务中展示了使用 MoA 的好处。对于 RealSR 和 CameraSR 数据集,我们观察到 MoA 在所有情况下都成功地提高了性能。有了 MoA,模型在 RealSR 上最多获得了 0.38 dB 的 PSNR 增益。图7和图8显示了定性比较。与基线相比,使用 MoA 的网络更好地重建了细节(例如第一行的线条和第二行的窗户)。
5.1.2 生物医学图像的 SR 我们进一步将应用扩展到生物医学成像数据集。CutBlur 和 MoA 的多功能性在这些专业领域特别有益,这些领域中未知的真实退化存在,获取大量数据通常是不切实际的,从而展示了我们方法在这些环境中的实用性。 脑 MRI 我们使用了 BraTS 数据集,这是一个公开可用的脑肿瘤 MRI 数据集。由于该数据集提供了 3D 体积图像,在我们的实验中,我们提取了每个 3D 体积的中心 2D 切片,总共产生了 369 个切片。我们使用 339 个切片进行训练,30 个切片进行测试。按照 Ahmad 等人的方法,使用双三次插值将切片下采样了四倍以产生低分辨率图像。表7说明了我们的方法显著提高了我们测试的所有 SR 网络的性能。这种改进不仅在 PSNR 中显而易见,而且在 SSIM 中也是如此;例如,MoA 使 RCAN 网络的 SSIM 增加了 0.040,EDSR 增加了 0.016,这是相当大的增益。 眼底摄影 我们使用了 DRIVE 数据集,包含 40 张视网膜图像。同样,我们按照 Ahmad 等人的方法,使用 ×4 双三次插值对图像进行下采样。我们使用 20 张图像进行训练,20 张图像进行测试,以便于在视网膜图像上评估超分辨率方法,并比较有无 MoA 的 SR 性能。鉴于 DRIVE 数据集的小体积,MoA 带来的性能提升是显著的,尤其是对于较大的 SR 网络。例如,MoA 为 EDSR 提高了 0.36 dB 的 PSNR,为 RCAN 提高了 0.12 dB,为 CARN 提高了 0.07 dB。
细胞显微镜 我们使用了 W2S 数据集,该数据集由真实的 LR 和 HR 荧光显微镜图像集组成。我们选择无噪声的单通道低分辨率图像,这些图像是从 400 张原始图像的平均值中得出的,并使用单通道结构化照明显微镜(SIM)作为高质量的 HR 图像。我们使用 240 张图像进行训练,120 张图像进行测试。与其他成像领域观察到的趋势一致,MoA 在所有 SR 模型中都有助于性能提升。PSNR 的增加在不同大小的模型中都有所观察,最小的模型 CARN 在 PSNR 上提高了 0.07 dB,而最大的模型 EDSR 则显著提高了 0.32 dB。
5.2 单一失真恢复 合成失真恢复。我们比较了模型在单一失真恢复任务上的性能:去噪和 JPEG 伪影去除。这里, 和 分别表示噪声水平和 JPEG 质量。与 SR 任务不同,即使使用大模型,MoA 似乎对性能的影响只有边际(除了其他方面的益处)。我们推测这个结果与给网络的像素信息数量有关。换句话说,由于信息更丰富,DA 的有效性降低了。注意,尽管我们对这两个任务都使用了 DIV2K 数据集,但训练中使用的总像素量在恢复中比在涉及下采样操作的 SR 任务中要大得多。更具体地说,去噪和 JPEG 伪影去除数据集的总像素量为 22B(十亿),而 SR(×4)数据集为 0.1B。
泛化。然而,DA 方法的优势不仅限于提高性能。为了测试模型在看不见的退化水平上的增强泛化能力,我们使用不同的 和 生成训练和测试数据集。具体来说,我们使用严重损坏的图像作为训练数据集,并对测试数据集使用轻微失真:去噪 和 JPEG 伪影去除 。我们想指出,这种训练/测试不一致性在现实世界中是一个实际场景,因为大多数真实用例中的图像都带有任意和未知的退化水平。对于 JPEG 伪影去除任务,MoA 有效地增强了所有恢复模型。性能显著提高了最多 1.02 dB 和 0.0171 在 PSNR 和 SSIM 中,分别。另一方面,对于去噪任务,MoA 似乎对 RDN 和 RNAN 模型的 PSNR 性能产生了负面影响。有趣的是,可以看到所有模型在 SSIM 中都有所提升。我们发现,基线模型的更高 PSNR 实际上是由于过度平滑现象造成的。由于基线模型已经学会去除强噪声( ),当输入有轻微噪声( )时,模型会产生过度平滑的输出。例如,树干被抹去,云彩的纹理消失了,水中的涟漪被抹去了。相反,有了 MoA,网络成功地学会了在保留细结构的同时恢复被损坏的图像,这展示了我们方法的良好正则化效果。
真实的失真恢复。为了展示 MoA 在现实世界场景中带来更多好处,我们在最近提出的现实去噪数据集 SIDD+ 上进行了基准测试。与合成失真数据集相比,SIDD+ 在低对比度和低光照环境下有更大的变化。关键的区别在于,由于真实世界图像捕获环境的特性,失真被应用在任意水平。如图10所示,我们的方法增强了所有网络的恢复性能超过 0.10 dB PSNR。这再次强调了处理看不见和任意腐败因素的泛化能力的重要性。 5.3 多重失真恢复 到目前为止,我们只考虑了单一失真或退化任务,分别。从现在开始,我们将展示我们方法在更具挑战性的任务上的优越性,处理多个任务一起或单个图像中随机强度级别的混合伪影。 混合伪影。为了生成混合失真数据集,我们遵循了(Yu et al., 2018)的过程。这里,将高斯模糊、高斯噪声和 JPEG 压缩序列应用于 DIV2K HQ 图像。失真强度的范围根据它们所在的组(轻微、中等和严重)预设,并且失真水平在范围内随机采样每个图像。表11显示了在混合失真数据集上的定量比较,其中网络仅在中等水平上训练。我们的方法成功地增强了我们使用的所有模型的恢复性能。当转移到轻微水平时,性能提升变得更加显著。这是因为 CutBlur 为输入提供了额外的 HQ 信息,以便模型获得了避免过度恢复问题额外的能力,正如我们在图4中讨论的。在其他方向(中等至严重)也可以看到一个类似的趋势,那里的失真比训练期间的常规水平更严重。除非模型容量很小,否则用 MoA 训练的网络表现更好。这一趋势在定性结果中更清晰地看到。当在中等水平上测试时(第一行,没有训练/测试不一致性),我们的方法成功地减少了 HQ 和恢复图像之间的偏差,如残差强度图所示。基线有无 MoA 的第一个场景(中等至轻微)之间的视觉比较显示了一个引人注目的结果;所有基线网络几乎输出了干净的图像。事实上,它们产生了大量混叠伪影,这揭示了图像恢复模型对看不见的失真水平的脆弱性。另一方面,用 MoA 训练的模型显著地去除了 LQ 图像中存在的噪声,这也由 RDN 在 PSNR 和 SSIM 中分别提高了 13.04 dB 和 0.8151(RDN+MoA: 32.02 dB/0.9782 对比 RDN: 18.98 dB/0.1631)所总结。中等至严重场景也显示了使用我们方法的好处(最后一行)。 多重退化任务。在这里,我们考虑了一个涉及同时进行下采样和一些失真的图像退化模型。由于必须用单个网络同时解决两个目标,这比分别学习上采样图像或去除伪影更具挑战性。与之前的 SR 结果类似,大容量模型的性能得到了进一步的提高,如图12和图13所示。例如,在 Manga109 数据集上,RCAN 和 EDSR 的基线分别提高了 0.10 dB。图14 显示了 SR+DN 和 SR+BLUR 的视觉比较,我们看到,有了 MoA,网络在恢复模式方面变得更好,特别是在容易发生混叠伪影的地方。 6 结论 我们介绍了 CutBlur 和混合增强(MoA),以训练更强大、更稳健的模型,用于各种低级视觉任务。我们对现有 DA 方法的效果进行了全面的分析,包括它们在频率域的响应。基于这些分析,我们提供了一套设计低级视觉任务 DA 方法的原则,这导致了 CutBlur 和 MoA。通过学习如何以及在哪里恢复图像,CutBlur 鼓励模型理解需要更正多少底层像素。MoA 聚合了策划的 DA 方法的最佳实践,使性能在单一 DA 上进一步提高。全面的实验结果表明,我们的方法在各种情景下一致且显著地提高了性能,尤其是在模型尺寸较大且问题更接近真实世界环境时。我们的方法适用于单一失真、多重失真和来自专业领域的图像,包括自然和生物医学成像领域。最后但同样重要的是,我们的方法帮助模型在各种条件下更好地泛化,例如看不见的像素分辨率、噪声水平和设备依赖的伪影,这对许多真实世界的应用是有益的。 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。