北大团队提出ConsisID:基于频域分解的身份保真文本到视频生成模型

科技   2024-12-17 08:04   北京  


最近,来自北京大学的研究团队发布了一个视频生成的可控生成工作:ConsisID,其针对人脸的特征特性以及 DIT 的架构特性,设计了合理的控制信号及训练策略,成功实现了无需训练、高质量、可编辑、一致性强的身份保持视频生成,为数字内容创作注入全新活力与无限可能。


论文标题:
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

文章链接:

https://arxiv.org/abs/2411.17440

项目链接:

https://pku-yuangroup.github.io/ConsisID/


亮点直击:
  • 提出了 ConsisID,一个基于 DiT 的免调优(tuning-free)身份保持 IPT2V 模型,通过频率分解的控制信号来保持视频主角的身份一致性。

  • 提出了一种分层训练策略,包括粗到细的训练过程、动态 Mask 损失(dynamic mask loss)以及动态跨脸损失(dynamic cross-face loss),共同促进模型训练并有效提升泛化能力。

  • 大量实验表明,受益于作者的频率感知身份保持 T2V DiT 控制方案,ConsisID 能够生成高质量、可编辑且身份一致性强的视频。



算法原理

ConsisID 是基于目前主流的 DiT 来实现的,准确地说是基于目前开源的文生图视频模型 CogVideoX-5B。首先,作者团队发现 DiT 架构相比之前的 UNet 架构有一些不同。对于 DiT 架构,有两处比较关键的发现:

  • 低频特征的重要性:在扩散模型中,浅层(例如,低层、低频)特征对于像素级预测任务至关重要,因为它们能够缓解模型训练的难度。U-Net 通过长跳跃连接将浅层特征聚合到解码器,而 DiT 并不具备这种机制;

  • 高频特征的重要性:Transformers 对高频信息的感知能力有限,而高频信息对于保留面部特征是重要的。U-Net 的编码器-解码器架构天然具有多尺度特征(例如高频丰富性),而 DiT 缺乏类似的结构;

作者指出,要开发基于 DiT 的控制算法,则必须首先解决这些问题。ConsisID 则是围绕这两个发现进行算法设计的。



模型架构

可以看到,ConsisID 包含两个部分的特征提取,分别用于增强 DiT 架构的高低频感知能力。


鉴于以上发现一,作者首先提出一个全局的面部特征提取器获取低频特征,这里采用的是裁剪的人脸图以及人脸的 5 个关键图 RGB 图,并采用视频 VAE 提取 latent tokens,和视频的带噪音的 latent tokens 拼接在一起送入 DiT 模型中。


鉴于以上发现二,作者然后提出一个局部的面部特征提取器获取高频特征,这里是采用 CLIP 和人脸识别模型分别提取人脸特征,并通过一个 Q-Former 模块来融合特征,并在 DiT 的 Attention 和 FFN 之间新插入 Corss Attention 来注入融合的特征。



模型训练

在训练过程中,作者从训练帧中随机选择一帧,并应用 Crop & Align 提取面部区域作为参考图像,随后将其用作身份控制信号,与文本一起作为控制。


粗到细训练。与身份保持图像生成相比,视频生成需要在空间和时间维度上保持一致性,确保高频和低频面部信息与参考图像匹配。为了减轻训练的复杂性,作者提出了一种层次化策略,让模型先全局学习信息,然后局部细化。


在粗粒度阶段(例如,对应于发现1),作者使用全局面部提取器,使模型优先考虑低频特征,如面部轮廓和比例,从而快速从参考图像中获取身份信息,并在视频序列中保持一致性。


在细粒度阶段(例如,对应于发现 2),局部面部提取器将模型的焦点转移到高频细节上,如眼睛和嘴唇的纹理细节(例如,内在识别),提高了生成面部的表情真实度和整体相似度。此时的损失函数如下:

动态掩码损失。ConsisID 的目标是确保生成视频中的人物身份与输入参考图像保持一致。然而,方程 4 考虑了整个场景,包括高频和低频身份信息以及冗余背景内容,这引入了干扰模型训练的噪声。


为了解决这个问题,作者提出将模型的注意力集中在面部区域。具体来说,作者首先从视频中提取面部掩码,应用三线性插值将其映射到潜在空间,最后使用这个掩码来限制 Lc 的计算:

其中,M 代表与 ϵ 形状相同的掩码。然而,如果将方程 5 作为所有训练数据的监督信号,模型可能在推理过程中无法生成自然背景。为了减轻这个问题,作者以概率 α 来选择是否需要应用方程 5:

动态交叉脸损失。在用方程 6 训练后,作者观察到模型在推理过程中对于训练帧中未出现的人脸生成结果不佳。这个问题出现的原因是,模型仅在训练帧的人脸上训练,倾向于通过采用“复制粘贴”的捷径过拟合——本质上是复制参考图像而没有改变。


为了提高模型的泛化能力,作者向参考图像引入了轻微的高斯噪声 ζ,并以概率 β 使用跨脸(例如,参考图像源自训练帧之外的视频帧)作为输入:


设置

实现细节

ConsisID 选择基于 DiT 的生成架构 CogVideoX-5B 作为验证的基准。使用一个内部的以人为中心的数据集进行训练,这与之前只关注面部的其他数据集不同。


在训练阶段,将分辨率设置为 480×720,从每个视频中提取 49 帧连续帧,步长为 3 作为训练数据。将批大小设置为 80,学习率设置为,总训练步骤数为 1.8k。分类自由引导随机空文本比例设置为 0.1,AdamW 作为优化器,学习率调度器使用 cosine_with_restarts。


训练策略与第 3.2.3 节相同。将动态跨面部损失 (Le) 和动态 mask 损失 (Lf) 中的 和 设置为 0.5。在推理阶段,使用 DPM,采样步骤为 50,文本引导比例为 6.0。
基准测试

由于缺乏评估数据集,选择了 30 名未包含在训练数据中的人,并从互联网上为每个身份来源了五张高质量的图像。然后,设计了 90 个不同的提示,涵盖了各种表情、动作和背景进行评估。基于以往的研究 [15, 38],从四个维度进行评估:


(1)身份保持:使用 FaceSim-Arc 并引入 FaceSim-Cur,通过测量生成视频中面部区域与真实面部图像在 ArcFace 和 CurricularFace 特征空间中的特征差异来评估身份保持。


(2)视觉质量:作者通过计算生成帧与真实面部图像在 InceptionV3 特征空间中的面部区域特征差异来使用 FID 进行评估。


(3)文本相关性:作者使用 CLIPScore 来测量生成的视频与输入提示之间的相似性。


(4)运动幅度:由于缺乏可靠的度量标准,作者通过用户研究进行评估。



定性分析

本节将 ConsisID 与 ID-Animator(例如,唯一可用的开源模型)进行比较,以进行无需调优的 IPT2V 任务。作者随机选择了四个个体的图像和文本提示进行定性分析,这些个体均不包含在训练数据中。


如下图 5 所示,ID-Animator 无法生成超出面部的人体部位,并且无法根据文本提示(例如,动作、属性、背景)生成复杂的动作或背景,这显著限制了其实际应用。此外,身份的保持也不足;例如,在案例 1 中,参考图像似乎经过了皮肤平滑处理。

在案例 2 中,引入了皱纹,降低了美学质量。在案例 3 和 4 中,由于缺乏低频信息,面部发生了扭曲,导致身份一致性受到损害。相比之下,提出的 ConsisID 始终生成高质量、逼真的视频,准确匹配参考身份并符合提示。



定量分析

本届展示了不同方法的全面定量评估,结果如下表 1 所示。

与定性分析一致,本文的方法在五个指标上超过了现有的最先进方法。在身份保持方面,ConsisID 通过从频率角度为 DiT 设计适当的身份信号,取得了更高的分数。


相比之下,ID-Animator 并未针对 IPT2V 进行优化,仅部分保留了面部特征,导致 FaceSim-Arc 和 FaceSim-Cur 的分数较低。在文本相关性方面,ConsisID 不仅通过提示控制表情,还调整动作和背景,取得了更高的 CLIPScore。



身份信号注入对 DiT 的影响

为了评估发现 1 和发现 2 的有效性,对不同的信号注入方法进行了消融实验。具体来说,这些实验包括:(a)仅将低频面部信息和关键点注入噪声潜在空间,(b)仅将高频面部信号注入注意力块,(c)结合(a)和(b),(d)基于(c),但低频面部信息不包含关键点,(e-f)基于(c),但高频信号注入到注意力块的输入或输出,(g)仅将高频面部信号注入注意力块之前。


结果如下图 7 和表 3 所示。

此外,作者还对生成的视频(仅面部区域)应用了傅里叶变换,以视觉比较不同组件对面部信息提取的影响。如下图 3 所示,傅里叶谱和傅里叶变换的对数幅度显示,注入高频或低频信号确实增强了生成面部的相应频率信息。此外,低频信号通过与面部关键点的匹配可以进一步增强,而将高频信号注入注意力块具有最高的特征利用率。


本文的方法(c)展示了最强的高频和低频,进一步验证了发现 1 和发现 2 带来的效率提升。为了减少开销,作者对每个身份仅选择了 2 个参考图像进行评估。

如图所示,傅里叶谱和傅里叶变换的对数幅度显示,注入高频或低频信号确实可以增强生成人脸的相应频率信息。此外,低频信号可以通过与面部关键点匹配进一步增强,而将高频信号注入注意力模块则具有最高的特征利用率。


作者的方法(c)展现了最强的高频和低频,进一步验证了发现 1 和发现 2 所带来的效率收益。为了减少开销,对于每个身份,作者仅选择 2 张参考图像进行评估。



结论

ConsisID,一个通过频率分解保持面部一致性的视频生成统一框架。它能够无缝集成到现有的基于 DiT 的文本到视频(T2V)模型中,用于生成高质量、可编辑、符合身份保持要求的视频。


大量实验表明,ConsisID 超越了当前最先进的身份保持 T2V 模型。研究结果表明,基于频率感知的 DiT 控制方案是 IPT2V 生成的最佳解决方案。


参考文献

[1] Identity-Preserving Text-to-Video Generation by Frequency Decomposition



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章