本文介绍一下我们(南京大学媒体计算组)与腾讯PCG合作的,并在最近被NeurIPS 2024接收的视频插帧方向的工作:VFIMamba: Video Frame Interpolation with State Space Models (VFIMamba)。 本文为了实现高效的全局动态时空建模,VFIMamba结合视频插帧任务的特点,将状态空间模型(SSMs)第一次应用于视频插帧任务中。为了适应状态空间模型需要对输入序列化的特征,我们提出了将首尾帧的token交错排列的方式来让SSMs更好的建模两帧的时空信息。 同时,为了更好地挖掘出SSMs模型在视频插帧任务的潜力,我们提出了基于课程学习思想的训练策略,通过逐渐增大训练集中的帧间运动幅度来增强SSMs对不同运动幅度下时空建模能力。在低分辨率插帧和高分辨率插帧的多个benchmark里,VFIMamba都取得了最好的性能。同时和之前的SOTA方法相比,VFIMamba在处理高分辨率插帧时的运行时间和占用内存都有明显的减少。
同时,为了更好地挖掘出SSMs模型在视频插帧任务的潜力,我们提出了基于课程学习思想的训练策略,通过逐渐增大训练集中的帧间运动幅度来增强SSMs对不同运动幅度下时空建模能力。在低分辨率插帧和高分辨率插帧的多个benchmark里,VFIMamba都取得了最好的性能。同时和之前的SOTA方法相比,VFIMamba在处理高分辨率插帧时的运行时间和占用内存都有明显的减少。
论文标题:
VFIMamba: Video Frame Interpolation with State Space Models
论文链接:
https://arxiv.org/abs/2407.02315
代码链接:
https://github.com/MCG-NJU/VFIMamba
一、引言
在视频插帧(VFI)中,帧间的时空建模至关重要,因为它被用于生成中间帧所需的运动估计和外观修复。目前的主流方法大多依赖于卷积或基于注意力的模型,这些模型往往要么缺乏足够的感受野,要么计算开销较大。最近,选择性状态空间模型(S6)应需而生,其特别针对长序列建模,提供了线性复杂度和数据依赖的建模能力。
在本文中,我们提出了VFIMamba,旨在通过利用S6模型实现高效且动态的帧间建模。我们的方法引入了混合状态空间模型块(MSB),该块首先以交错的方式重新排列相邻帧的标记,然后应用多方向的S6建模。这种设计不仅能有效传递帧间信息,还保持了线性复杂度。此外,我们还提出了一种新的课程学习策略,逐步培养在不同运动幅度下建模帧间动态的能力,充分发挥S6模型的潜力。实验结果表明,我们的方法在多项基准测试中达到了最先进的性能,尤其在高分辨率场景中表现突出。尤其是在X-TEST数据集上,VFIMamba在4K帧上实现了0.80 dB的显著提升,在2K帧上则达到了0.96 dB的改进。
二、方法介绍
图1 模型结构图
2.1 整体结构
2.2 如何将首尾帧融合为一个序列
因为SSMs仅限于处理一维序列,因此需要一种策略来扫描两个输入帧的特征图以进行帧间建模。在本文中,我们主要探索了不同的首尾帧融合方式,并给出了合理的解释。如图3,绿色表示首帧,红色表示尾帧。重新排列两个帧主要有两种方法:顺序排列(Sequential Rearrange),将帧串联成一个超图(Super Image);交错排列(Interleaved Rearrange),将两个帧的标记交错组合形成一个超图。
图2 不同的首位帧融合方式
通过分析,我们可以将SSMs的序列化建模中任意两个token i, j之间的建模表示为:
序列上不同token的相关系数
2.3 基于课程学习思想的训练策略
尽管Mamba模型(S6)具有线性运算复杂度的全局感受野的优越特性,但通过适当的训练策略充分挖掘其潜力是更加至关重要的。目前,插帧算法主要采用两种训练策略:
1. Vimeo90K Only:大多数方法仅在 Vimeo90K 数据集上训练模型。尽管 Vimeo90K 提供了丰富多样的视频内容,但正如一些文章分析的那样,其数据集包含的运动幅度有限。这一限制妨碍了模型在大运动或高分辨率输入上的表现。
2. Sequential Learning:为了缓解仅在 Vimeo90K 上训练的局限性,一些方法在 Vimeo90K 初步训练后,进一步在 X-TRAIN 数据集上训练模型,该数据集以大运动和高分辨率内容为特征。尽管这种方法成功增强了模型在高分辨率数据上的性能,但往往导致对从 Vimeo90K 获取的小幅运动建模能力的遗忘。
为了解决这些问题并充分挖掘 S6 模型的潜力,我们提出了一种基于课程学习思想的训练策略,以学习不同运动幅度下的帧间建模能力,并同时保持对小幅运动的建模能力。具体而言,在继续对 Vimeo90K 进行训练的同时,我们逐步引入来自X-TRAIN 的数据。
X-TRAIN 的原始大小为 512×512,为了与 Vimeo90K 进行联合训练,我们首先将帧调整为 S×S 的大小,然后随机裁剪到与 Vimeo90K 相同的尺寸。每 T 个训练轮次,调整后的大小S 增加10%(从 256 开始),选定帧之间的时间间隔加倍(从 2 开始),这意味着随着训练的进行,运动幅度逐渐增加。这一策略使得模型能够逐步学习不同运动幅度下的帧间建模能力,从小幅运动开始,逐步过渡到较大幅度的运动。
三、实验结果
图3 低分辨率数据集性能比较
关于高分辨率下插帧的性能比较如图4:
图4 高分辨率下性能比较
可以从结果看出来我们提出的方法在不同分辨率的数据集中都取得了SOTA的性能,其中在高分辨率的性能提升更加明显。图5是和之前SOTA方法的FLOPs和占用内存的比较,我们的方法随着输入尺寸的增大,计算开销有了成倍的减少:
图5 FLOPs和占用内存的比较
图6是视觉对比,我们提出的方法能够更好地生成中间帧:
图6 可视化对比
在与卷积和局部注意力的比较中,我们发现虽然由于多个扫描方向,S6 模型相对较慢,但其性能提升显著。与全局注意力相比,S6 不仅超越了其性能,还提供了更快的推理速度和更低的内存消耗。总之,与现有模型相比,S6 模型确实在计算效率与性能之间实现了良好的平衡。
图7 SSMs有效性的消融
图8 token排列方式的消融
图9 训练策略的消融
四、局限&未来展望
作者:张国珍 来源:【知乎】https://zhuanlan.zhihu.com/p/923110402
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。