腾讯开源了一个非常全面的视频控制方式 MOFA-Video。支持通过箭头控制视频内容的运动方向,类似运动笔刷。还支持将原有视频的面部表情迁移到新生成的人脸视频上。上面两种控制方式也可以同时在一个画面中使用。
相关链接
代码地址:https://github.com/MyNiuuu/MOFA-Video
论文地址:https://arxiv.org/abs/2405.20222
试用链接:https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid
论文阅读
MOFA-Video:通过生成运动场适应冻结图像到视频扩散模型的可控图像动画
摘要
我们提出了 MOFA-Video,这是一种先进的可控图像动画方法,它使用各种额外的可控信号(例如人体地标参考、手动轨迹,甚至提供的另一个视频)或它们的组合从给定的图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动域上工作,或者在扩散之前表现出较弱的控制能力。
为了实现我们的目标,我们设计了几个领域感知的运动场适配器(即 MOFA-Adapters)来控制视频生成管道中生成的运动。对于 MOFA-Adapters,我们首先考虑视频的时间运动一致性,并从给定的稀疏控制条件生成密集的运动流,然后将给定图像的多尺度特征包装为引导特征,以稳定地生成视频扩散。我们为手动轨迹和人体地标分别训练两个运动适配器,因为它们都包含有关控制的稀疏信息。经过训练,不同领域的 MOFA-Adapters 也可以协同工作,实现更可控的视频生成。
方法
我们介绍了MOFA-Video,一种旨在适应不同领域的运动到冻结视频扩散模型的方法。通过采用稀疏到密集(S2D)运动生成和基于流的运动适应,MOFA-Video可以使用各种类型的控制信号(包括轨迹、关键点序列及其组合)有效地为单个图像动画。
在训练阶段,我们通过稀疏运动采样产生稀疏控制信号,然后通过预训练的SVD训练不同的mofa - adapter生成视频。在推理阶段,可以组合不同的mofa - adapter来共同控制冻结的SVD。
效果
基于轨迹的动画
基于关键点的面部图像动画
来自驱动视频的关键点
驱动音频的关键点
零样本功能
混合控制
运动画笔
通过光流
消融研究
结论
我们提出了 MOFA-Video,一种先进的可控图像动画方法,它使用各种额外的可控信号(例如人体地标参考、手动轨迹,甚至提供的另一个视频)或它们的组合从给定的图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动域上工作,或者在扩散之前表现出较弱的控制能力。
为了实现我们的目标,我们设计了几个领域感知的运动场适配器(即 MOFA-Adapters)来控制视频生成管道中生成的运动。对于 MOFA-Adapters,我们首先考虑视频的时间运动一致性,并从给定的稀疏控制条件生成密集的运动流,然后将给定图像的多尺度特征包装为引导特征,以稳定地生成视频扩散。我们为手动轨迹和人体地标分别训练两个运动适配器,因为它们都包含有关控制的稀疏信息。经过训练,不同领域的 MOFA-Adapters 也可以协同工作,实现更可控的视频生成。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~