点击下方卡片,关注计算机视觉Daily
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
本文提出了一种名为 FreeLong 的Training-free长视频生成框架,该框架通过一种称为 SpectralBlend Temporal Attention(SpectralBlend-TA) 的新颖方法,在无需额外训练的情况下,将现有的短视频扩散模型扩展用于长视频生成。论文已被 NeurIPS 2024 接收,论文链接和代码均已公开,欢迎交流!
论文主页:https://yulu.net.cn/freelong 论文链接:https://arxiv.org/abs/2407.19918 代码:https://github.com/aniki-ly/FreeLong
在视频生成领域,视频扩散模型在各种视频生成应用中取得了显著进展。然而,训练用于长视频生成的模型需要大量的计算和数据资源,这对长视频扩散模型的开发提出了挑战。现有的方法往往需要在大规模的长视频文本数据集上进行耗时的训练,这在实际应用中并不高效。
2. 问题分析
直接将短视频模型用于长视频生成的问题
不一致的时空细节:在短视频上训练的视频扩散模型无法准确地捕捉远距离帧之间的关系,因此直接应用预训练的短视频扩散模型(如训练在16帧视频上)来生成长视频(如128帧)会导致视频质量严重下降,出现模糊和闪烁等问题。 高频失真:我们进一步探索了这种长视频质量下降的现象。通过对生成的长视频高频低频信息进行分析,我们发现长视频质量的下降主要来源为高频分量的失真,其中空间高频分量减少,时间高频分量增加。
3.1 总体思路
为了解决上述问题,我们提出了 FreeLong,这是一种无须训练即可将现有短视频扩散模型适用于长视频生成的方法。核心思想是通过 SpectralBlend Temporal Attention(SpectralBlend-TA) 来平衡长视频特征的频率分布,从而在保持全局一致性的同时,增强高质量的时空细节。
3.2 SpectralBlend Temporal Attention(SpectralBlend-TA)
全局与局部特征融合:将全局视频特征的低频分量(包含整个视频序列的整体信息)与局部视频特征的高频分量(关注较短子序列的细节)相融合。 频域平衡:在降噪过程中,利用频域融合的方法,确保高频和低频信息的平衡,改善视频的时空一致性和清晰度。
3.3 方法优势
训练自由:无需在长视频数据集上进行额外的训练,直接利用预训练的短视频模型。 高效性:通过频域融合,计算开销低,适用于实际应用。 可扩展性:支持一致的多提示(multi-prompt)生成,保证视觉连贯性和场景的平滑过渡。
4. 实验结果
4.1 与现有方法的比较
在VBench上,我们将 FreeLong 与其他方法进行了比较,包括直接采样、滑动窗口和 FreeNoise 方法。结果显示,FreeLong 在视频一致性和清晰度方面均取得了最佳表现。
表1:主要实验结果
4.2 消融实验
通过消融实验,我们验证了 SpectralBlend-TA 中各组件的有效性。结果表明,全局特征确保了视频的时序一致性,局部特征保留了细节,而频域融合的方式实现了两者的优势互补。
5. 未来展望
FreeLong 提供了一种高效且实用的长视频生成方法,为视频生成领域带来了新的思路。未来的研究方向包括:
更复杂的场景:将方法扩展到更复杂的场景和更高分辨率的视频生成。 多模态融合:探索与其他模态(如音频、文本)的结合,丰富生成视频的多样性。 实时应用:优化算法以适应实时视频生成的需求。
绘图神器下载
后台回复:绘图神器,即可下载绘制神经网络结构的神器!
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
整理不易,请赞和在看