MotionClone:一键克隆视频运动，让创意无界限！

文摘 2024-09-16 00:00 江苏

无需训练或微调，在提示词指定的新场景中克隆参考视频的运动，无论是全局的相机运动还是局部的肢体运动都可以一键搞定。

MotionClone 的新框架，给定任意的参考视频，能够在不进行模型训练或微调的情况下提取对应的运动信息；这种运动信息可以直接和文本提示一起指导新视频的生成，实现具有定制化运动的文本生成视频 (text2video)。

给定一个参考视频，MotionClone可以将包含的动作克隆到新的场景中，具有出色的快速跟随能力，没有特定动作的微调。

论文阅读

MotionClone:无训练运动克隆可控视频生成

摘要

基于运动的可控文本到视频生成涉及控制视频生成的运动。以前的方法通常需要训练模型来编码运动线索或微调视频扩散模型。然而，当应用于训练域之外时，这些方法通常会导致次优运动生成。

在这项工作中，我们提出了 MotionClone，这是一个无需训练的框架，可以从参考视频中克隆运动以控制文本到视频的生成。我们在视频反转中使用时间注意力来表示参考视频中的运动，并引入主要时间注意力指导来减轻注意力权重内嘈杂或非常细微的运动的影响。

此外，为了帮助生成模型合成合理的空间关系并增强其提示跟随能力，我们提出了一种位置感知语义指导机制，该机制利用参考视频中前景的粗略位置和原始无分类器指导特征来指导视频生成。大量实验表明，MotionClone 在全局相机运动和局部物体运动方面都表现出色，并且在运动保真度、文本对齐和时间一致性方面具有显着的优势。

方法

如上图框架所示，MotionClone 的引导阶段包含两个核心组件：主要时间注意引导和位置感知语义引导，它们协同运行，为可控视频生成提供全面的运动和语义引导。

利用从参考视频中获得的时间关注来指导视频生成。普通控制指的是一种基本的方法，即所有权重都被均匀地施加。

原始视频生成中的初级采样。通过在推理阶段将初级采样应用于视频生成模型的时间注意模块，我们观察到生成的视频中运动的范围和质量得到了显著增强。

实验

下面演示了从参考视频克隆动作所生成的最佳质量动画。

与valilla的AnimateDiff比较，其中MotionClone实现了更好的运动质量与优秀的细节保存。

MotionClone通过更好地抑制原始结构来对准。实现了优越的文本。

对象运动克隆的比较，其中MotionClone的忠诚与提高快速跟随能力运动效果更好。

初级时间-注意引导和位置感知语义引导的研究。

MotionClone的更多结果。在每个组中，第一行表示引用视频，而随后的行显示由MotionClone生成的视频。

与AnimateDiff进行更定性的比较。在每一组中，第一行和第二行分别显示AnimateDiff和MotionClone生成的视频。的视频由AnimateDiff生成的图像显示最小的移动或保持静态。

结论

在这项工作中，我们观察到嵌入在视频生成模型中的时间注意层具有与视频运动传输相关的大量表征能力。受这些发现的启发，我们引入了一种无需训练的运动克隆方法，称为 MotionClone。该方法基于两个主要元素：主要时间注意引导，它在促进运动转移中起着关键作用，以及位置感知语义引导，负责协调视觉外观。使用真实的参考视频，MotionClone 展示了其在稳健地保持运动保真度的同时吸收新文本语义的能力。因此，该框架成为文本到视频生成领域中一种高度适应性和高效的运动定制工具。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487826&idx=4&sn=83b08a1f45f77535ed7be654ec1f1bc1

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

MotionClone:一键克隆视频运动，让创意无界限！

相关链接

论文阅读

摘要

方法

实验

结论