优文推荐 | 基于多注意力机制的纹理感知视频修复方法

文摘科技 2024-06-04 17:37 陕西

NO.1 论文简介

针对现有视频修复方法无法有效利用远处空间内容信息而导致修复结果中存在结构和纹理不合理的问题，提出了一种基于多注意力机制的纹理感知视频修复方法。该方法设计了由多头时空注意力和单图局部注意力构成的多注意力机制以保证全局结构并增强局部纹理，其中多头时空注意力关注整体时空信息，单图局部注意力通过局部窗口的自注意力机制精炼提取局部信息。另外，采用可即插即用的快速傅里叶卷积层残差块代替前馈网络中的普通卷积，将感受野扩展为整个图像，进一步增强了模型对图像纹理和结构的全局信息的获取能力。快速傅里叶卷积层残差块和单图局部注意力相辅相成，共同提升局部纹理的修复质量。在YouTube-VOS和DAVIS数据集上的实验结果表明，虽然本文方法修复结果的客观质量评价仅次于最优方法Fuseformer，但其参数量和运行时间分别下降了54.8%和21.5%，而且能够生成视觉上更逼真、语义上更合理的修复内容。

NO.2 主要贡献

（1）本文提出了一种基于多注意力机制的视频修复网络，其网络架构如图1所示。该网络由编码器、基于Transformer的多注意力模块和解码器三部分构成。编码器由四层二维卷积层构成，负责为每帧图像编码深层特征。解码器负责将深层特征解码回帧。主体部分由4个多注意力模块堆叠而成，每个多注意力模块由多头时空注意力单元和单图局部注意力单元组成，多头时空注意力单元将视频帧序列切块后拉长做注意力，关注整体时空信息而单图自注意力单元将视频帧划分窗口计算自注意力，帧与帧之间没有交互，保证了图像的局部纹理相似性，加强了局部纹理的修复效果。二者相辅相成，同时保证了修复结果的全局结构和局部纹理。

图1 基于多注意力机制的纹理感知视频修复方法的网络架构图

（2）设计了由多头时空注意力和单图局部注意力构成的多注意力机制，在保证全局结构的同时增强了局部纹理。多注意力模块的结构如图2所示，该模块由多头时空注意力单元和单图局部注意力单元组成，多头时空注意力单元包括多头时空注意力和快速傅里叶卷积层残差块，单图局部注意力单元包括单图局部注意力和快速傅里叶卷积层残差块。多头时空注意力和单图局部注意力结构分别如图3和图4所示。

图2 多注意力模块结构图

图3 多头时空注意力结构图

图4 单图局部注意力结构图

（3）现有基于Transformer的视频修复方法往往将视频帧划分成大小相同的块，将它们拉长排列后采用自注意力，忽略了对单帧图像整体的结构把控和信息提取。为了扩大模型对单帧图像的感受野，本文用快速傅里叶卷积层残差块（Fast Fourier Convolution Residual Block, FFCR）代替传统Transformer中的前馈层，以更好地利用远处空间内容信息。

NO.3 研究结论

本文提出了一种基于多注意力机制的纹理感知视频修复方法，该方法可以有效结合远处空间内容信息和局部信息，改善了视频修复中纹理和结构不合理问题，提升了人眼视觉感知效果。实验结果表明，利用快速傅里叶卷积层残差块可以增强对单帧图像整体结构的把控和特征的提取，从而提高对整个视频帧的修复效果，而且该模块可以即插即用于基于Transformer的视频修复方法。本文提出的单图局部注意力模块可以促进局部纹理信息的提取，并与快速傅里叶卷积层残差块相辅相成，共同提升视频修复的质量。与现有高质量视频修复方法相比，本文方法对缺失较大区域及结构纹理性强的场景有更好的修复效果，修复结果在视觉上更符合人眼主观感受，可为艺术领域中的视频修复和目标移除任务提供新思路。由于本文算法在设计网络模型时，只计算了空间特征块之间的注意力，在时空特征之间的表征关系建模上略有不足，故难以捕捉到复杂运动的短期时间连续性，未来可以通过三维卷积加强时间上的一致性或者通过提出针对特定场景下的复杂运动的解决方案。

NO.4 论文资助