阿里提出的MIMO是一种可控视频合成的通用模型,可以模拟任何地方任何人的复杂运动,并进行物体交互。给定参考图像,MIMO 可以通过几分钟的推理合成可动画的头像。
它不仅可以通过简单的用户输入合成具有可控属性(即角色、动作和场景)的角色视频,而且还同时实现对任意角色的高级可扩展性、对新颖 3D 运动的通用性以及在统一框架内对交互式现实世界场景的适用性。
相关链接
项目主页:https://menyifang.github.io/projects/MIMO
论文地址:http://arxiv.org/abs/2409.16160
代码链接:https://github.com/menyifang/MIMO
论文阅读
MIMO:具有空间分解建模的可控角色视频合成
摘要
角色视频合成旨在在逼真的场景中制作可动画角色的真实视频。作为计算机视觉和图形学界的一个基本问题,3D 作品通常需要多视角捕捉进行每次训练,这严重限制了它们在短时间内对任意角色进行建模的适用性。最近的 2D 方法通过预训练的扩散模型突破了这一限制,但它们在姿势通用性和场景交互性方面却举步维艰。
为此本文提出了MIMO,一种新颖的可泛化模型,它不仅可以通过简单的用户输入合成具有可控属性(即角色、动作和场景)的角色视频,而且还同时实现对任意角色的高级可扩展性、对新颖 3D 运动的通用性以及在统一框架内对交互式现实世界场景的适用性。核心思想是将 2D 视频编码为紧凑的空间码,同时考虑到视频发生固有的 3D 特性。
具体来说,MIMO使用单目深度估计器将二维帧像素提升到三维,并基于三维深度将视频片段分解为三个空间分量(即主人物、底层场景和浮动遮挡)。这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,用作合成过程的控制信号。这种空间分解策略可实现灵活的用户控制、空间运动表达以及场景交互的 3D 感知合成。实验结果证明了所提方法的有效性和鲁棒性。
方法
用户可以输入多个输入(例如,角色的单幅图像、运动的姿势序列和场景的单幅视频/图像)以分别提供所需属性或直接驾驶视频作为输入。所提出的模型可以将目标属性嵌入到潜在空间中以构建目标代码,并使用空间感知分解将驾驶视频编码为空间代码,从而通过以特定顺序自由集成潜在代码来实现对合成的直观属性控制。
所提框架概述。 视频片段基于 3D 深度分解为三个空间组件(即主要人物、底层场景和浮动遮挡),分层分层。通过规范外观传输和结构化身体代码,进一步分离出人物组件的身份和运动属性,并将其编码为身份代码C_id和动作代码C_mo场景和遮挡组件嵌C这些潜在代码被插入到基于扩散的解码器中作为视频重建的条件。
实验
任意字符控制
通过单幅图像制作动画人物、卡通或拟人化人物。
新颖的 3D 运动控制
野外视频中的复杂动作。
与 SOTA 2D 方法相比
与 SOTA 3D 方法相比
结论
本文介绍了阿里提出的一种用于可控角色视频合成的新型框架 MIMO,它允许使用简单的属性输入进行灵活的用户控制。该方法引入了一种新的生成架构,将视频片段分解为各种空间组件,并嵌入它们的潜在代码作为解码器重建视频片段的条件。不仅可以实现灵活的角色、运动和场景控制,而且可以对任意角色进行高级可扩展性、对新颖的 3D 运动的通用性以及对交互式场景的适用性。MIMO不仅非常适合生成角色视频,还可以潜在地适应其他可控视频合成任务。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~