在数字媒体和娱乐行业,如何将静态的人物图片转化为动态的视频一直是一个挑战。
阿里联合南大和复旦提出的Champ,让这个任务变得简单而高效。只需要一个原始视频和一张图片,Champ就能让图片中的人物动起来。
相关链接
论文地址:https://arxiv.org/pdf/2403.14781 项目地址:https://github.com/fudan-generative-vision/champ
论文阅读
摘要
本文引入了一种人类图像动画方法,通过在潜在扩散框架内利用 3D 人体参数模型来增强当前人类生成技术中的形状对齐和运动引导。
该方法利用SMPL模型作为3D人体参数模型来建立身体形状和姿势的统一表示。这有助于从源视频中准确捕捉复杂的人体几何形状和运动特征。
具体来说,结合了从SMPL序列获得的渲染深度图像、法线图和语义图,以及基于骨架的运动指导,以丰富具有全面 3D 形状和详细姿势属性的潜在扩散模型的条件。采用集成自注意力机制的多层运动融合模块来融合空间域中的形状和运动潜在表示。
通过将 3D 人体参数化模型表示为运动指导,我们可以在参考图像和源视频运动之间进行人体参数化形状对齐。对基准数据集进行的实验评估表明,该方法具有生成高质量人体动画的卓越能力,可以准确捕获姿势和形状变化。
此外,我们的方法还在所提出的野生数据集上表现出卓越的泛化能力。我们将发布我们的代码和模型以供进一步研究。
框架
给定输入的人体图像和描述运动序列的参考视频,目标是合成一个视频,其中图像中的人复制参考视频中观察到的动作,从而创建可控且时间连贯的视觉输出。
看不见的领域动画
跨ID动画
与T2I结合
与现有的方法比较
感谢你看到这里,也欢迎点击关注下方公众号或者扫描添加下方公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~