MotionClone:一键克隆视频运动,让创意无界限!

文摘   2024-09-16 00:00   江苏  

无需训练或微调,在提示词指定的新场景中克隆参考视频的运动,无论是全局的相机运动还是局部的肢体运动都可以一键搞定。

MotionClone 的新框架,给定任意的参考视频,能够在不进行模型训练或微调的情况下提取对应的运动信息;这种运动信息可以直接和文本提示一起指导新视频的生成,实现具有定制化运动的文本生成视频 (text2video)。

给定一个参考视频,MotionClone可以将包含的动作克隆到新的场景中,具有出色的快速跟随能力,没有特定动作的微调。

相关链接

论文:https://arxiv.org/abs/2406.05338

主页:https://bujiazi.github.io/motionclone.github.io/

代码:https://github.com/Bujiazi/MotionClone

论文阅读

MotionClone:无训练运动克隆可控视频生成

摘要

基于运动的可控文本到视频生成涉及控制视频生成的运动。以前的方法通常需要训练模型来编码运动线索或微调视频扩散模型。然而,当应用于训练域之外时,这些方法通常会导致次优运动生成。

在这项工作中,我们提出了 MotionClone,这是一个无需训练的框架,可以从参考视频中克隆运动以控制文本到视频的生成。我们在视频反转中使用时间注意力来表示参考视频中的运动,并引入主要时间注意力指导来减轻注意力权重内嘈杂或非常细微的运动的影响。

此外,为了帮助生成模型合成合理的空间关系并增强其提示跟随能力,我们提出了一种位置感知语义指导机制,该机制利用参考视频中前景的粗略位置和原始无分类器指导特征来指导视频生成。大量实验表明,MotionClone 在全局相机运动和局部物体运动方面都表现出色,并且在运动保真度、文本对齐和时间一致性方面具有显着的优势。

方法

如上图框架所示,MotionClone 的引导阶段包含两个核心组件:主要时间注意引导和位置感知语义引导,它们协同运行,为可控视频生成提供全面的运动和语义引导。

利用从参考视频中获得的时间关注来指导视频生成。普通控制指的是一种基本的方法,即所有权重都被均匀地施加。

原始视频生成中的初级采样。通过在推理阶段将初级采样应用于视频生成模型的时间注意模块,我们观察到生成的视频中运动的范围和质量得到了显著增强。

实验

下面演示了从参考视频克隆动作所生成的最佳质量动画。

与valilla的AnimateDiff比较,其中MotionClone实现了更好的运动质量与优秀的细节保存。

MotionClone通过更好地抑制原始结构来对准。实现了优越的文本。

对象运动克隆的比较,其中MotionClone的忠诚与提高快速跟随能力运动效果更好。

初级时间-注意引导和位置感知语义引导的研究。

MotionClone的更多结果。在每个组中,第一行表示引用视频,而随后的行显示由MotionClone生成的视频。

与AnimateDiff进行更定性的比较。在每一组中,第一行和 第二行分别显示AnimateDiff和MotionClone生成的视频。的视频 由AnimateDiff生成的图像显示最小的移动或保持静态。

结论

在这项工作中,我们观察到嵌入在视频生成模型中的时间注意层具有与视频运动传输相关的大量表征能力。受这些发现的启发,我们引入了一种无需训练的运动克隆方法,称为 MotionClone。该方法基于两个主要元素:主要时间注意引导,它在促进运动转移中起着关键作用,以及位置感知语义引导,负责协调视觉外观。使用真实的参考视频,MotionClone 展示了其在稳健地保持运动保真度的同时吸收新文本语义的能力。因此,该框架成为文本到视频生成领域中一种高度适应性和高效的运动定制工具。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章