点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
人像动画生成的核心在于:在参考图像的基础上,根据输入的动作序列生成动态视频,同时保持人物的身份信息(尤其是面部特征)。然而,现有方法在复杂动作变化场景下,常出现以下问题:(1)身份(ID)一致性差,面部区域容易因动作变化出现失真。(2)视频质量下降,最新的人像图像动画生成模型(MimicMotion和ControlneXt)依赖于第三方换脸工具(FaceFusion)对生成的视频进行后处理,导致视频整体质量下降。(3)空间与时序建模冲突,即使当前有很多针对ID一致性的图片生成模型,但是将这些来自图像生成的模型直接插入到视频生成模型中容易导致空间与时序建模冲突,根本原因是现有视频扩散模型在加入时间建模层后,空间特征的分布发生变化,而这些ID一致性的图片生成模型依赖于稳定的空间特征分布,时序建模导致的空间特征分布扰动会影响图片生成模型的性能急剧下降,从而造成ID保留与视频保真度之间的冲突。
为了解决上述问题,来自复旦、微软、虎牙、CMU的研究团队提出StableAnimator框架,以实现高质量和高保真的ID一致性人类视频生成。
论文地址:https://arxiv.org/abs/2411.17697
项目主页:https://francis-rings.github.io/StableAnimator/
项目代码:https://github.com/Francis-Rings/StableAnimator
项目Demo: https://www.bilibili.com/video/BV1X5zyYUEuD
方法简介
如下图所示,StableAnimator 基于先前工作的常用骨干模型 Stable Video Diffusion (SVD) 构建。用户输入的参考图像通过扩散模型经过三条路径处理:(1)通过冻结的 VAE 编码器转换为潜变量特征,潜变量特征被复制以匹配视频帧数,并与主要潜变量进行拼接。(2)通过 CLIP 图像编码器编码以获得图像嵌入,这些嵌入分别输入到去噪 U-Net 的每个交叉注意力块和StableAnimator的面部编码器中,用于调控生成的外观。(3)输入到 ArcFace以获得面部嵌入,ArcFace是一种人脸特征提取模型,这些嵌入随后通过StableAnimator的面部编码器进一步优化以实现更高的对齐度。优化后的面部嵌入随后被输入到去噪 U-Net 中。PoseNet 类似于AnimateAnyone中的结构,负责提取姿态序列的特征,这些特征随后被添加到噪声潜变量特征中。
在推理阶段,StableAnimator将原始输入视频帧替换为随机噪声,同时保持其他输入不变。StableAnimator引入了一种新颖的基于 Hamilton-Jacobi-Bellman(HJB)方程的面部优化方法,用于提升身份一致性并彻底摆脱对第三方后处理工具的依赖。该方法将 HJB 方程的求解过程整合到去噪过程中,HJB 方程的最优解会更新U-Net中的潜变量特征,迫使它在去噪过程中往能实现更高的ID一致性的方向进行分布移动。
StableAnimator具有三个核心技术点:
(1)全局内容感知面部编码器(Global Content-aware Face Encoder):引入一种新型的面部编码器,使面部嵌入特征与图像整体布局进行深度交互,面部特征通过多层交叉注意力模块,与参考图像的全局上下文特征对齐,有效减少与身份无关的背景噪声,提升面部建模质量。
(2)分布感知的身份适配器(Distribution-aware ID Adapter):针对扩散模型时序层对空间特征分布的扰动,提出一种分布对齐策略。通过计算面部特征和图像特征的均值与方差,确保两者在每个去噪步骤中逐步对齐,从而避免特征失真,适配器的设计允许面部特征与时序层的无缝结合,同时不损失视频的整体保真度。
(3)基于Hamilton-Jacobi-Bellman (HJB) 方程的面部优化:该优化过程只在模型推理阶段触发,并且不会训练更新U-Net的任何模块,StableAnimator将HJB优化方程引入扩散模型的推理过程中,以增强面部质量,HJB方程通过动态系统中的最优变量选择原则,将面部特征优化与去噪过程并行进行,优化后的变量能够约束去噪路径,引导模型生成与参考图像一致的身份特征,显著减少细节失真。
生成结果示例
请点击访问项目主页(https://francis-rings.github.io/StableAnimator/)获取以上示例的高清原视频。
实验对比分析
1. 与SOTA方法的定性对比实验
Disco、MagicAnimate、AnimateAnyone和Champ在面部/身体变形以及服装变化方面存在明显问题,而Unianimate准确地修改了参考图像的动作,MimicMotion和ControlNeXt有效保留了服装细节。然而,所有对比的模型均难以保持参考图像的身份一致性。相比之下,我们的StableAnimator能够基于给定的姿势序列精确地动画化图像,同时保持参考身份信息的完整性,突显了我们模型在身份保持和生成精确、生动动画方面的优势。
2. 与SOTA方法的定量对比实验
3. 与SOTA方法在长视频生成的对比实验
更多的对比实验可以参考原论文。基于上述对比实验结果,StableAnimator相比于以前的SOTA方法可以生成更加高质量逼真的ID一致视频,StableAnimator在娱乐内容创作和虚拟现实体验方面可以给用户带来全新的高保真的人类形象动画体验。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看