IJCV 2024 | 基于多尺度可分离网络的快速超高清视频去模糊

文摘 2024-07-07 19:01 中国香港

点击上方“CVPaper”，选择加"星标"或“置顶”

顶刊论文解读，第一时间分享

Fast Ultra High-Definition Video Deblurring via Multi-scale Separable

基于多尺度可分离网络的快速超高清视频去模糊

Wenqi Ren；Senyou Deng；Kaihao Zhang；Fenglong Song；Xiaochun Cao；Ming-Hsuan Yang

摘要

尽管在图像和视频去模糊方面取得了显著进展，但对处理超高清晰度（UHD）视频（例如4K分辨率）的关注却相对较少。在这项工作中，我们提出了一种新颖的深度模型，用于快速准确的UHD视频去模糊（UHDVD）。所提出的UHDVD通过深度可分离的块结构实现，该结构采用多尺度集成方案，在不增加通用卷积层和核的数量的情况下实现大的感受野。此外，我们采用了时间特征注意力模块，以有效利用视频帧之间的时间相关性，获得更清晰的恢复图像。我们设计了一个不对称的编码器-解码器架构，带有残差通道空间注意力块，以提高准确性并适当减少网络的深度。因此，所提出的UHDVD在4K视频上实现了每秒30帧的实时性能。为了训练所提出的模型，我们使用三种不同的智能手机构建了一个新的数据集，包括4K模糊视频和相应的清晰帧。广泛的实验结果表明，我们的网络在所提出的4K数据集以及现有的720p和2K基准测试中，在准确性、速度和模型大小方面都优于现有的最先进方法。

I. 引言

超高清晰度（UHD，即1200万像素或4K）视频在过去几年已成为一种趋势。最近的消费电子设备（例如智能手机和DSLR相机）通常支持4K视频。不幸的是，不规则的相机抖动和高速运动经常在捕获的UHD视频中产生不希望的模糊。低质量的模糊视频使得下游视觉任务更具挑战性。已经提出了许多图像和视频去模糊方法，以从未模糊的视频中恢复清晰的帧。传统的去模糊方法通常对运动模糊、场景结构和潜在帧做出某些假设，以减轻病态问题的本质。在这些方法中，运动模糊通常被建模为均匀核或非均匀核。虽然清晰的帧通常受到手工制作的图像先验的约束以规范解空间，但这些假设通常不适用于实际情况，从而导致模糊核的估计不准确和图像恢复质量低下。

近年来，基于深度卷积神经网络（CNN）的方法已经被开发出来，以从模糊输入中显式学习特征并回归模糊核或直接恢复清晰的图像。有两种常见的策略，“多尺度”和“多块”，分别利用不同处理级别和区域的去模糊线索。这些算法可以消除由相机抖动和物体运动引起的模糊效果，并在图像去模糊任务上实现最先进的结果。然而，现有的基于CNN的方法有两个主要限制。首先，计算和内存成本对于某些应用来说是高得令人望而却步的，特别是当需要处理高分辨率图像时。例如，最近的CDVD-TSP视频去模糊方法需要大约四秒和一分钟来分别去模糊来自HD（720p）和UHD（4K）视频的单个帧。其次，多块网络忽略了特征的尺度变化属性，这对于每个尺度的相应恢复至关重要。因此，从未模糊的图像中生成详细的纹理仍然是一个具有挑战性的问题。

此外，有效地利用帧之间的时间信息对于视频去模糊至关重要。基于深度学习的方法最近在视频去模糊方面取得了显著进步。一些基于CNN的方法通过简单地将邻近帧与当前帧堆叠作为输入来获得去模糊帧。基于RNN的方案采用循环神经网络架构，在帧之间传递视觉信息进行推理。因此，这些模型要么通过连接邻近帧而涉及高计算成本，要么在有效传递时间信息方面的能力有限。

在这项工作中，我们提出了一种新颖的UHDVD网络，具有高效率、低内存消耗和高质量的去模糊性能。我们的方法受到块分层图像去模糊方法的启发，其中多块层次结构被输入到网络中。这些方案能够很好地去模糊720p的图像。然而，多块层次结构在不同层次上具有相同的空间分辨率，并且需要布局补丁和拼接，这限制了重建图像的质量和降低了运行时性能。此外，处理高分辨率或超高分辨率图像更具挑战性。因此，我们提出了一个可分离的补丁模型，结合多尺度集成方案，捕获全局结构并同时处理每个尺度的多个补丁。虽然大多数现有的去模糊算法采用级联网络来帮助恢复潜在帧，但简单地堆叠相同网络以构建更深层次的模型可能无法很好地恢复图像。在这项工作中，我们提出了一个级联残差通道和空间注意力（RCSA）模块和一个时间特征注意力（TFA）模块，以提高去模糊性能，而不会牺牲运行时性能。所提出的RCSA能够自适应地学习有用的通道特征，并强调特征图上最有信息量的区域。同时，TFA模块可以提取邻近帧之间的相关特征。

主要贡献

我们提出了一种新颖的UHDVD网络，使用可分离的补丁架构结合多尺度集成方案。所提出的模型是首个能够通过并行多个补丁实现实时去模糊4K视频的深度视频去模糊模型。
我们引入了一个时间特征注意力（TFA）模块，以提高视频帧之间相关性的利用。
我们设计了一个级联RCSA模块，以提高特征表示能力和区分能力，确保高去模糊性能。
我们构建了一个4K去模糊数据集（4KRD），包括合成和真实捕获的视频。在所提出的和现有的基准数据集上的广泛实验结果表明，我们的模型与现有的最先进方法相比表现良好。

初步结果已在Deng等人中发表。在本文中，我们在几个方面扩展了我们之前的工作。首先，为了充分利用帧之间的时间特征，我们在改进的模型中提出了一个时间特征注意力模块。有了这个模块，我们获得了比Deng等人中直接连接先前去模糊帧更丰富的帧间特征。此外，我们使用深度可分离卷积来减小UHDVD模型的大小和FLOPS。其次，除了4KRD去模糊数据集外，我们还在新的2K分辨率数据集[Slow-Flow ]和真实的720p测试数据集[DVD 和REDS]上进行了更多实验。第三，我们分析了所提出的网络和其他最先进方法的模型大小和FLOPS，我们的模型实现了比最先进方法快16倍的运行时间。

II. 相关工作

为了解决去模糊问题的病态特性，许多方法利用了场景的不同先验和假设，包括总变分、稀疏图像先验、梯度分布、块先验和l0-范数正则化器。这些基于先验的方法的一个限制是，假设或先验并不总是适用于包含深度变化和移动对象的动态场景。随着深度学习的进步，也提出了基于CNN的方法进行图像去模糊。这些模型的主要思想是使用CNN学习模糊输入和相应清晰图像之间的映射函数。此外，生成对抗网络（GANs）也被用于图像去模糊。由于这些模型通常涉及大量的模型参数并需要沉重的计算负载，因此将这些方法应用于实时去模糊任务，特别是对于UHD视频，是不可行的。

多尺度和多块网络。粗到细（即多尺度）模型已在传统方法和最近的深度模型中广泛用于去模糊。Nah等人提出了一个基于多尺度CNN的去模糊网络，该网络从模糊输入的粗糙尺度开始，然后逐步在更高尺度上去模糊输入，直到恢复全分辨率潜在图像。Tao等人引入了一个尺度递归网络，通过跨尺度训练共享参数。该方法可以根据递归网络在先前的粗糙尺度上保留图像结构和运动信息。Gao等人通过选择性地在每个尺度上共享参数和模块来改进多尺度CNN。然而，这些多尺度网络通常在推理阶段体积庞大且计算成本高昂。为了解决这些问题，提出了一个分层多块模型，通过在多个补丁上进行特征聚合来利用不同尺度上的运动信息。Suin等人结合了多块层次结构和全局注意力机制，而没有使用级联卷积层。最近，Zamir等人在多阶段架构中使用类似的方案以计算负载的代价获得更好的结果。虽然这些多块网络可以在实时中很好地去模糊720p图像，但现有的方法并未设计用于处理全高清（FHD，1920×1080分辨率）输入或UHD视频（例如4K分辨率）。

FHD and UHD 图像提升

一些方法已被提出，通过学习双边正则化器或3D查找表从FHD或UHD降级输入中恢复清晰图像。然而，所有这些方法都是通过从下采样版本进行复杂的插值技术来重建最终输出。与这些方法不同，我们的网络直接在最细尺度上对全分辨率输入进行去模糊，并且是首个以35fps实时去模糊4K视频的模型。

III. 算法

所提出的模型的核心思想是适当地整合多尺度和多块方案，我们引入了一种可分离的补丁策略，以显著加速参考实现。我们UHDVD的整体架构如图2所示。给定一个模糊的视频，将先前去模糊的帧与当前模糊帧在通道维度上进行拼接作为我们网络的输入。然后，将拼接的输入在四个不同的尺度上进行有序的半下采样，并在每个尺度上恢复相应的清晰图像。由于时间信息可以改善视频去模糊结果，我们提出了一个基于RNN的时间特征注意力（TFA）模块，以在第一尺度提取时间特征。我们首先同时获取当前模糊帧和先前去模糊帧的时间特征和。先前模糊/去模糊帧的初始时间状态将通过整个视频片段在TFA模块中传递。我们还在融合模块中另外添加了两个先前去模糊帧的时间特征和，以进一步增强时间关系。

3.1 时间特征注意力

使用视频帧之间的时间特征对于视频去模糊任务至关重要，可以改善去模糊结果。在本文中，我们采用了一个基于RNN的时间特征注意力模块，由几个残差密集块（RDBs）组成。主要目标是在不进行耗时的空间编码计算的情况下提取邻近帧的时间特征。TFA的结构和详细配置如图3所示。首先，当前模糊帧和先前去模糊帧将通过RDB和卷积层并行下采样，然后分别与先前的时间状态和进行拼接。通过一系列RDBs和密集卷积层处理后，我们获得了当前模糊帧和先前去模糊帧的中间时间特征，分别表示为和。接下来，我们将另外两个先前去模糊的中间时间特征和作为融合模块的输入。最后，一个密集卷积层将这些中间时间特征融合起来，生成当前帧的时间特征。整个过程可以表示为：

其中表示训练参数，是中间时间特征。最后，将通过时间状态生成函数更新，该函数由RDB和卷积层组成。有了从TFA和融合模块提取的时间特征，尺度1的处理过程可以表示为：

其中表示网络参数。指的是尺度2的中间空间特征。

3.2 不对称编码-解码架构

对称的编码器-解码器结构由于其在扩展感受野方面的有效性而被广泛用于视觉任务。在处理4K分辨率引起的特征区域和计算需求增加的挑战时，我们提出了一种基于超分辨率框架的新型不对称编码器-解码器结构，旨在在不牺牲性能的同时减少计算。在我们的架构中，不对称主要是通过编码器和解码器分支中模块的差异选择来实现的。具体来说，在解码器分支中，我们在每个标准反卷积之前采用三个轻量级残差模块，有效地减少了参数和FLOPS。每个残差模块由两个深度可分离卷积（DSC）组成，中间有一个ReLU激活函数。这种优化显著提高了计算速度，而不影响质量。相比之下，在编码器分支中，我们在RCSA模块中使用常规卷积层，而不是解码器分支中的深度可分离卷积。我们还在编码器分支引入了时间空间注意力机制，以进一步增强我们模型的能力。此外，为了适应编码器和解码器分支的特定要求，我们不对称地调整了卷积和反卷积操作的通道维度。

3.3 分离补丁加速结构

为了进一步提高UHDVD模型的推理速度，我们设计了可分离的补丁加速架构（SPAA），以同时处理多个补丁或特征图。如图5所示，多个补丁（例如，）在开始时作为一个新的张量在通道维度上连接在一起，其大小为 [batch_size, n×cin, h, w]。然后，通过设置参数组 = n，张量由后续的卷积层处理。新张量的计算负载为

，而它等于n个原始张量。好处是我们可以将这些n个串行计算改为并行计算，显著减少计算时间。在残差模块的计算之后，我们将张量重塑为大小 [batch_size × n, cout, h, w] ，以便它可以在通道注意力模块和空间注意力模块中分别同步计算。输出将作为下一个RCSA模块的输入，这种加速将继续进行，直到我们获得尺度的中间特征图或恢复图像。通过这种架构的加速，我们的处理速度是原始版本的两倍。

3.4 残差通道-空间注意力

我们提出了一个新的RCSA模块，它在去模糊网络中包含一个通道注意力模块和一个空间注意力模块。RCSA的架构如图4b所示。RCSA的主要构建块是通道注意力和空间注意力，它计算通道和空间维度的响应。通道注意力模块（CAM）包括两个自适应池化计算：平均池化和最大池化。每个池化层后面跟着一个标准卷积层。输出通道是输入通道的1/8，内核大小为1×1，偏置为false。然后，有一个ReLU激活函数，以及另一个输入和输出通道与前面卷积完全相反的相同卷积。最后，两个处理过的池化结果作为sigmoid函数的输入相加。空间注意力模块（SAM）只有一个卷积层，输入通道为2，输出通道为1，内核大小为3×3，填充大小为1，偏置为false。输入数据首先分别通过平均和最大计算处理，然后在通道维度上连接在一起。RCSA模块的输出通过以下方式计算：

其中和分别是CAM模块的输入和输出特征，表示SAM模块，操作符“×”表示逐点乘法。

3.5 损失函数

粗到细的方法要求每个中间输出是相应尺度的去模糊图像。因此，所提出的UHDVD网络的训练损失是网络输出和每个尺度的地面真实际帧之间的MSE损失，计算如下：

其中和分别是尺度的去模糊图像和地面真在帧上，是多尺度图像的维度；是每个尺度的权重。我们经验性地设置。此外，是我们网络中的尺度数，我们在论文中将其设置为4。此外，我们添加了总变分（TV）损失，以避免恢复图像中的条纹伪影。第个恢复帧的TV损失的离散定义如下：

其中表示帧中的像素，是坐标。因此，总损失公式化为：

其中设置为以控制TV损失的影响。

IV. 实验

在这一部分中，我们在合成数据集和真实世界的4K视频上评估了所提出的算法，并与现有的最先进的图像/视频去模糊方法在准确性和视觉效果方面进行了比较。为了公平比较，我们还在公共的720p和2K数据集上使用这些方法评估了我们的方法。所提出的4K数据集可供公众进一步讨论和研究。更多的实验结果可以在补充材料中找到。

4.1 实现细节

我们的实验在PyTorch中实现，并在配备32GB RAM的单个NVIDIA Tesla V100 GPU上进行评估。由于每个帧都需要其先前去模糊的帧作为额外特征，因此在训练期间将批量大小设置为1。使用Adam优化器以512×512的补丁大小训练我们的模型。初始学习率设置为0.0001，衰减率设置为0.1。我们按照Nah等人，Zhang等人的规范将帧归一化到[0,1]的范围，并减去0.5，因为这种预处理可以加快收敛并更好地利用激活函数。

4.2 数据集

由于没有公共的高质量4K去模糊数据集，我们选择了Nah等人的方案来生成4K分辨率去模糊（4KRD）数据集。所提出的数据集涵盖了各种角色、人物、人造或自然物体、室内场景、户外景观、城市街景等。生成该数据集有两个步骤：帧插值和数据集合成，如Nah等人所述。视频捕获设备是主流旗舰手机，例如iPhone 11 Pro Max、HUAWEI Mate 30 Pro和Samsung S20 Ultra。我们还使用DJI Osmo Mobile 3稳定手机，使捕获的视频尽可能清晰。高帧率对于后续的多帧融合是必要的，以确保合成数据集中帧的连续性。然而，由于硬件限制，我们无法直接用智能手机捕获高帧率的4K视频。因此，我们使用Niklaus等人的帧插值方法将记录的4K视频从30/60 fps插值到480 fps，如Nah等人的方案。然后我们通过平均一系列连续的清晰帧来生成模糊帧。除了我们的4K分辨率数据集外，我们还使用了三个公共的720p去模糊数据集GoPro、DVD和REDS来测试我们的UHDVD模型。特别是，由于REDS数据集的测试真实情况不可用，我们选择验证集作为我们的测试数据。尽管目前没有公共的4K分辨率数据集，但2K分辨率数据集Slow-Flow提供了一个Quad-HD真实世界的基准，具有真实图像。我们在Slow-Flow数据集中评估了所有12个测试视频片段，并选择了从5个连续清晰帧合成的模糊帧。

4.3 性能提升

在这一部分中，我们评估了我们的UHDVD方法与最先进的视频去模糊方法Zhou等人、Su等人、Wang等人和图像去模糊方法Kupyn等人、Nah等人、Tao等人、Zhang等人的性能。我们通过三个标准来评估这些方法：PSNR、SSIM和每个数据集上图像的平均运行时间。所有这些方法都在相同的服务器环境和硬件（Tesla V100 GPU，32GB RAM）中进行了测试。由于现有方法主要处理720p图像，我们为性能评估设计了两个方案。第一种方案是在低分辨率下处理图像，然后上采样结果（DPU）。另一个是将图像分成多块等分，然后拼接处理后的块以获得全分辨率（SPS）。我们在4KRD验证数据集上比较了这两种方案。如图6所示，SPS由于仅使用每个块的局部区域，因此存在严重的伪影。与此同时，DPU方案的PSNR/SSIM高于SPS。因此，我们在后续实验中放弃了SPS策略。

定量评估。表2显示，所提出的方法在五个数据集上与现有的最先进算法相比表现良好：GoPro、DVD、REDS、Slow-Flow和4KRD。此表中报告的所有方法的运行时间都是基于相同的测试环境和硬件。在DVD基准、Slow-Flow数据集和我们的4KRD数据集上，我们的算法在PSNR和SSIM方面获得了最佳结果，而在REDS数据集上，我们也是次优方法。

定性评估。为了进一步验证我们网络的泛化能力，我们还定性地将所提出的网络与其他算法在4K真实测试视频片段上进行了比较。比较结果表明，我们的UHDVD方法能够稳健地处理大多数场景中的真实模糊。

4.4 TFA有效性

为了充分利用视频帧之间的连续性，我们提出了第3.1节中描述的时间特征注意力模块，以同时提取三个先前去模糊帧和当前帧的时间特征。为了展示TFA模块的有效性及其在不同配置下的性能，我们进行了以下一系列对比实验：i）一个没有TFA模块的模型，它只是将当前模糊帧和一个先前去模糊帧在通道上进行拼接作为初始输入；ii）一些模型以不同数量的先前/未来模糊帧或先前去模糊帧作为初始输入；iii）一些模型在TFA模块中使用不同数量的RDBs（如图3中的"RDB_c32"）。所有上述模型都使用相同的编码器-解码器分支在同一时期进行训练。i）的定量评估结果如表3所示，视觉结果如图12所示。如图所示，我们可以看到，与没有TFA模块的模型相比，我们的模型在PSNR和移动物体的图像细节上能够获得更好的结果。ii）和iii）的定量结果（在同一时期训练）如表4所示。显然，更多的输入帧（无论是模糊的还是去模糊的）和RDBs将降低我们UHDVD模型的效率。因此，输入帧和RDBs的数量是在效率和准确性之间的权衡。虽然情况“P0F0D3”在速度更快的情况下与“P2F2D1”实现了类似的PSNR，但基准模型是基于“P0F0D3”。同时，我们选择3作为RDBs的默认值。

4.5 SPAA有效性

为了验证可分离补丁加速架构（SPAA）的有效性，我们在720p、2K和4K分辨率的随机1000个模糊帧上进行了实验。表5中的结果表明，通过使用所提出的加速架构，我们的计算速度提高了一倍多，而PSNRs几乎相同。这些结果表明，所提出的可分离补丁加速架构对于提高速度和实现实时4K图像去模糊至关重要。同时，我们还比较了在相同环境下，带和不带SPAA模块的UHDVD模型的FLOPS指标。结果也显示在表5中。如图所示，使用SPAA模块在4K图像上的FLOPS下降了1.1T。尽管所提出的SPAA看起来很简单，但同时处理几个补丁的并行过程是SPAA的目标，并且已经表明这可以显著减少操作时间。

4.6 RCSA有效性

为了验证我们网络的残差通道空间注意力（RCSA）模块的有效性，我们还训练了一个新的模型，在4KRD数据集上没有使用整个RCSA模块。基线模型只使用了两层残差块，没有任何CAM和SAM。除了这个差异之外，其他一切都与初始模型完全相同。定量结果如表6所示。它表明，我们的UHDVD模型在PSNR方面比不使用RCSA的模型实现了0.5 dB的增益。同时，两个模型在使用可分离补丁加速流水线时的计算速度几乎相同。一些定性结果如图11所示。定性结果也证明了RCSA模块的有效性。

4.7 模型尺寸，FLOPS和运行时间

我们的模型在效率和准确性方面取得了更好的结果，同时我们也拥有最小的模型大小。表7显示了所有评估方法的模型大小。所提出的UHDVD模型在它们之中具有最小的模型大小，这也是我们在处理速度上加快的一个重要因素。此外，我们还比较了4K数据上我们UHDVD模型与其他方法的FLOPS（×10^12），结果也显示在表7中。UHDVD的FLOPS也是最小的。所提出的UHDVD可以在30毫秒内处理一个2160×3840图像，而不使用TFA模块，这意味着我们的模型支持以35fps的实时4K视频去模糊任务。DMPHN在其高效版本中也达到了720p分辨率图像的实时去模糊。从表2中DMPHN的定量结果可以看出，他们的高效版本（无堆叠）在所有测试数据集中的PSNR都比带堆叠的版本低。此外，他们的高效版本仍然无法在4K分辨率上实现实时处理。如表3所示，高效率的UHDVD（不带TFA模块）比DMPHN-(1-2-4-8)方法在4K分辨率视频上快10倍。此外，我们的模型还提高了720p的运行效率，达到了每帧12.7毫秒的速度。需要指出的是，我们遵循Zeng等人、Zhang等人的原型，我们考虑的时间是GPU处理时间，与图像大小直接成比例的I/O操作存在运行时开销。因此，实时处理在严格意义上意味着GPU实时。

我们加速的因素包括：i）多尺度方案减少了前三个尺度的输入图像大小；ii）多块和可分离补丁加速架构提高了计算速度；iii）相对较少的网络层数和参数量。

V. 结论

在本文中，我们提出了一个使用不对称编码器-解码器架构的4K视频实时去模糊网络。我们在一个统一框架中整合了多尺度和多块方案，以同时提高效率和准确性，并采用了基于残差密集块的TFA模块，充分利用视频帧之间的时间特征。与以往的工作不同，我们使用不对称的编码器-解码器结构构建了我们的网络，减少了卷积层的数量以节省计算成本。此外，我们采用了可分离补丁加速架构，在不使用TFA模块的情况下，实现了4K分辨率视频上35 fps的实时处理速度。对于超高清晰度去模糊，我们构建了一个包含4K分辨率图像的数据集。定量和定性结果表明，所提出的方法在720p、2K和4K分辨率的合成和真实世界数据集上，与现有的最先进的去模糊方法相比表现良好。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

http://mp.weixin.qq.com/s?__biz=MzI1NjYyMDE3MQ==&mid=2247484660&idx=1&sn=9b9f1f152609a089c7f9235cc3c99541

CVPaper

这里有知识和乐趣,感悟和哲理,一起来嗨!!!