复旦&微软提出StableAnimator:首个端到端的高质量ID一致性人类视频生成新框架!

科技   2024-12-17 13:05   上海  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

扩散模型近年来在图像和视频生成方面取得了显著成功,极大地激发了图像动画领域的研究。尤其是人像图像动画利用生成模型根据一系列姿态序列动画化参考图像,从而合成可控的人体动画视频,这在娱乐内容创作和虚拟现实体验等应用中具有广泛前景,具体应用场景包括:(1)娱乐与影视:帮助动画师轻松制作高质量虚拟角色动画,显著提升工作效率。(2)游戏与元宇宙:为游戏角色和虚拟形象提供逼真的动作生成,让玩家体验更沉浸。(3)个性化内容创作:为短视频创作者、数字艺术家提供新的创意工具,实现精准的动态形象设计,例如StableAnimator依据当前流行舞蹈APT的动作生成了特定人物的APT跳舞视频,视频效果可以在b站查看:
https://www.bilibili.com/video/BV1KczXYhER7   

 

人像动画生成的核心在于:在参考图像的基础上,根据输入的动作序列生成动态视频,同时保持人物的身份信息(尤其是面部特征)。然而,现有方法在复杂动作变化场景下,常出现以下问题:(1)身份(ID)一致性差,面部区域容易因动作变化出现失真。(2)视频质量下降,最新的人像图像动画生成模型(MimicMotion和ControlneXt)依赖于第三方换脸工具(FaceFusion)对生成的视频进行后处理,导致视频整体质量下降。(3)空间与时序建模冲突,即使当前有很多针对ID一致性的图片生成模型,但是将这些来自图像生成的模型直接插入到视频生成模型中容易导致空间与时序建模冲突,根本原因是现有视频扩散模型在加入时间建模层后,空间特征的分布发生变化,而这些ID一致性的图片生成模型依赖于稳定的空间特征分布,时序建模导致的空间特征分布扰动会影响图片生成模型的性能急剧下降,从而造成ID保留与视频保真度之间的冲突。         

 

为了解决上述问题,来自复旦、微软、虎牙、CMU的研究团队提出StableAnimator框架,以实现高质量和高保真的ID一致性人类视频生成。         

 

论文地址:https://arxiv.org/abs/2411.17697

项目主页:https://francis-rings.github.io/StableAnimator/

项目代码:https://github.com/Francis-Rings/StableAnimator

项目Demo: https://www.bilibili.com/video/BV1X5zyYUEuD         

 

方法简介

如下图所示,StableAnimator 基于先前工作的常用骨干模型 Stable Video Diffusion (SVD) 构建。用户输入的参考图像通过扩散模型经过三条路径处理:(1)通过冻结的 VAE 编码器转换为潜变量特征,潜变量特征被复制以匹配视频帧数,并与主要潜变量进行拼接。(2)通过 CLIP 图像编码器编码以获得图像嵌入,这些嵌入分别输入到去噪 U-Net 的每个交叉注意力块和StableAnimator的面部编码器中,用于调控生成的外观。(3)输入到 ArcFace以获得面部嵌入,ArcFace是一种人脸特征提取模型,这些嵌入随后通过StableAnimator的面部编码器进一步优化以实现更高的对齐度。优化后的面部嵌入随后被输入到去噪 U-Net 中。PoseNet 类似于AnimateAnyone中的结构,负责提取姿态序列的特征,这些特征随后被添加到噪声潜变量特征中。    

在推理阶段,StableAnimator将原始输入视频帧替换为随机噪声,同时保持其他输入不变。StableAnimator引入了一种新颖的基于 Hamilton-Jacobi-Bellman(HJB)方程的面部优化方法,用于提升身份一致性并彻底摆脱对第三方后处理工具的依赖。该方法将 HJB 方程的求解过程整合到去噪过程中,HJB 方程的最优解会更新U-Net中的潜变量特征,迫使它在去噪过程中往能实现更高的ID一致性的方向进行分布移动。

StableAnimator具有三个核心技术点:

(1)全局内容感知面部编码器(Global Content-aware Face Encoder):引入一种新型的面部编码器,使面部嵌入特征与图像整体布局进行深度交互,面部特征通过多层交叉注意力模块,与参考图像的全局上下文特征对齐,有效减少与身份无关的背景噪声,提升面部建模质量。

(2)分布感知的身份适配器(Distribution-aware ID Adapter):针对扩散模型时序层对空间特征分布的扰动,提出一种分布对齐策略。通过计算面部特征和图像特征的均值与方差,确保两者在每个去噪步骤中逐步对齐,从而避免特征失真,适配器的设计允许面部特征与时序层的无缝结合,同时不损失视频的整体保真度。

(3)基于Hamilton-Jacobi-Bellman (HJB) 方程的面部优化:该优化过程只在模型推理阶段触发,并且不会训练更新U-Net的任何模块,StableAnimator将HJB优化方程引入扩散模型的推理过程中,以增强面部质量,HJB方程通过动态系统中的最优变量选择原则,将面部特征优化与去噪过程并行进行,优化后的变量能够约束去噪路径,引导模型生成与参考图像一致的身份特征,显著减少细节失真。

生成结果示例         

 

    

   

请点击访问项目主页(https://francis-rings.github.io/StableAnimator/)获取以上示例的高清原视频。

实验对比分析

1. 与SOTA方法的定性对比实验   

Disco、MagicAnimate、AnimateAnyone和Champ在面部/身体变形以及服装变化方面存在明显问题,而Unianimate准确地修改了参考图像的动作,MimicMotion和ControlNeXt有效保留了服装细节。然而,所有对比的模型均难以保持参考图像的身份一致性。相比之下,我们的StableAnimator能够基于给定的姿势序列精确地动画化图像,同时保持参考身份信息的完整性,突显了我们模型在身份保持和生成精确、生动动画方面的优势。

2. 与SOTA方法的定量对比实验

StableAnimator与当前的SOTA人像图像动画模型在TikTok数据集和Unseen100数据集进行定量对比,其中Unseen100数据集是作者额外在主流视频网站收集的100个视频,相比于以前的主流数据集TikTok数据集,Unseen100数据集含相对复杂的动作信息以及精细的主体外观。此外,Unseen100 数据集中的一些视频中,位置和面部表情动态变化,例如摇头动作,使得保持身份一致性更具挑战性。值得注意的是所有模型均在StableAnimator的训练集上训练后再对Unseen100进行评估,以确保公平性。对比实验结果如上表所示,CSIM衡量两个图像的面部嵌入的余弦相似度,可以发现StableAnimator在面部质量(CSIM)和视频保真度(FVD)方面均超过了所有对比模型,同时保持了较高的单帧质量。具体而言,StableAnimator相比于最领先的对比模型Unianimate,在两个数据集上的CSIM分别提高了36.9%和45.8%,而未牺牲视频保真度和单帧质量。

3. 与SOTA方法在长视频生成的对比实验         

 

    

   

更多的对比实验可以参考原论文。基于上述对比实验结果,StableAnimator相比于以前的SOTA方法可以生成更加高质量逼真的ID一致视频,StableAnimator在娱乐内容创作和虚拟现实体验方面可以给用户带来全新的高保真的人类形象动画体验。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章