北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

科技 2024-12-17 08:04 北京

最近，来自北京大学的研究团队发布了一个视频生成的可控生成工作：ConsisID，其针对人脸的特征特性以及 DIT 的架构特性，设计了合理的控制信号及训练策略，成功实现了无需训练、高质量、可编辑、一致性强的身份保持视频生成，为数字内容创作注入全新活力与无限可能。

论文标题：

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

文章链接：

https://arxiv.org/abs/2411.17440

项目链接：

https://pku-yuangroup.github.io/ConsisID/

亮点直击：

提出了 ConsisID，一个基于 DiT 的免调优（tuning-free）身份保持 IPT2V 模型，通过频率分解的控制信号来保持视频主角的身份一致性。
提出了一种分层训练策略，包括粗到细的训练过程、动态 Mask 损失（dynamic mask loss）以及动态跨脸损失（dynamic cross-face loss），共同促进模型训练并有效提升泛化能力。
大量实验表明，受益于作者的频率感知身份保持 T2V DiT 控制方案，ConsisID 能够生成高质量、可编辑且身份一致性强的视频。

算法原理

ConsisID 是基于目前主流的 DiT 来实现的，准确地说是基于目前开源的文生图视频模型 CogVideoX-5B。首先，作者团队发现 DiT 架构相比之前的 UNet 架构有一些不同。对于 DiT 架构，有两处比较关键的发现：

低频特征的重要性：在扩散模型中，浅层（例如，低层、低频）特征对于像素级预测任务至关重要，因为它们能够缓解模型训练的难度。U-Net 通过长跳跃连接将浅层特征聚合到解码器，而 DiT 并不具备这种机制；
高频特征的重要性：Transformers 对高频信息的感知能力有限，而高频信息对于保留面部特征是重要的。U-Net 的编码器-解码器架构天然具有多尺度特征（例如高频丰富性），而 DiT 缺乏类似的结构；

作者指出，要开发基于 DiT 的控制算法，则必须首先解决这些问题。ConsisID 则是围绕这两个发现进行算法设计的。

模型架构

可以看到，ConsisID 包含两个部分的特征提取，分别用于增强 DiT 架构的高低频感知能力。

鉴于以上发现一，作者首先提出一个全局的面部特征提取器获取低频特征，这里采用的是裁剪的人脸图以及人脸的 5 个关键图 RGB 图，并采用视频 VAE 提取 latent tokens，和视频的带噪音的 latent tokens 拼接在一起送入 DiT 模型中。

鉴于以上发现二，作者然后提出一个局部的面部特征提取器获取高频特征，这里是采用 CLIP 和人脸识别模型分别提取人脸特征，并通过一个 Q-Former 模块来融合特征，并在 DiT 的 Attention 和 FFN 之间新插入 Corss Attention 来注入融合的特征。

模型训练

在训练过程中，作者从训练帧中随机选择一帧，并应用 Crop & Align 提取面部区域作为参考图像，随后将其用作身份控制信号，与文本一起作为控制。

粗到细训练。与身份保持图像生成相比，视频生成需要在空间和时间维度上保持一致性，确保高频和低频面部信息与参考图像匹配。为了减轻训练的复杂性，作者提出了一种层次化策略，让模型先全局学习信息，然后局部细化。

在粗粒度阶段（例如，对应于发现1），作者使用全局面部提取器，使模型优先考虑低频特征，如面部轮廓和比例，从而快速从参考图像中获取身份信息，并在视频序列中保持一致性。

在细粒度阶段（例如，对应于发现 2），局部面部提取器将模型的焦点转移到高频细节上，如眼睛和嘴唇的纹理细节（例如，内在识别），提高了生成面部的表情真实度和整体相似度。此时的损失函数如下：

动态掩码损失。ConsisID 的目标是确保生成视频中的人物身份与输入参考图像保持一致。然而，方程 4 考虑了整个场景，包括高频和低频身份信息以及冗余背景内容，这引入了干扰模型训练的噪声。

为了解决这个问题，作者提出将模型的注意力集中在面部区域。具体来说，作者首先从视频中提取面部掩码，应用三线性插值将其映射到潜在空间，最后使用这个掩码来限制 Lc 的计算：

其中，M 代表与 ϵ 形状相同的掩码。然而，如果将方程 5 作为所有训练数据的监督信号，模型可能在推理过程中无法生成自然背景。为了减轻这个问题，作者以概率 α 来选择是否需要应用方程 5：

动态交叉脸损失。在用方程 6 训练后，作者观察到模型在推理过程中对于训练帧中未出现的人脸生成结果不佳。这个问题出现的原因是，模型仅在训练帧的人脸上训练，倾向于通过采用“复制粘贴”的捷径过拟合——本质上是复制参考图像而没有改变。

为了提高模型的泛化能力，作者向参考图像引入了轻微的高斯噪声 ζ，并以概率 β 使用跨脸（例如，参考图像源自训练帧之外的视频帧）作为输入：

设置

实现细节

ConsisID 选择基于 DiT 的生成架构 CogVideoX-5B 作为验证的基准。使用一个内部的以人为中心的数据集进行训练，这与之前只关注面部的其他数据集不同。

在训练阶段，将分辨率设置为 480×720，从每个视频中提取 49 帧连续帧，步长为 3 作为训练数据。将批大小设置为 80，学习率设置为，总训练步骤数为 1.8k。分类自由引导随机空文本比例设置为 0.1，AdamW 作为优化器，学习率调度器使用 cosine_with_restarts。

训练策略与第 3.2.3 节相同。将动态跨面部损失 (Le) 和动态 mask 损失 (Lf) 中的和设置为 0.5。在推理阶段，使用 DPM，采样步骤为 50，文本引导比例为 6.0。

基准测试

由于缺乏评估数据集，选择了 30 名未包含在训练数据中的人，并从互联网上为每个身份来源了五张高质量的图像。然后，设计了 90 个不同的提示，涵盖了各种表情、动作和背景进行评估。基于以往的研究 [15, 38]，从四个维度进行评估：

（1）身份保持：使用 FaceSim-Arc 并引入 FaceSim-Cur，通过测量生成视频中面部区域与真实面部图像在 ArcFace 和 CurricularFace 特征空间中的特征差异来评估身份保持。

（2）视觉质量：作者通过计算生成帧与真实面部图像在 InceptionV3 特征空间中的面部区域特征差异来使用 FID 进行评估。

（3）文本相关性：作者使用 CLIPScore 来测量生成的视频与输入提示之间的相似性。

（4）运动幅度：由于缺乏可靠的度量标准，作者通过用户研究进行评估。

定性分析

本节将 ConsisID 与 ID-Animator（例如，唯一可用的开源模型）进行比较，以进行无需调优的 IPT2V 任务。作者随机选择了四个个体的图像和文本提示进行定性分析，这些个体均不包含在训练数据中。

如下图 5 所示，ID-Animator 无法生成超出面部的人体部位，并且无法根据文本提示（例如，动作、属性、背景）生成复杂的动作或背景，这显著限制了其实际应用。此外，身份的保持也不足；例如，在案例 1 中，参考图像似乎经过了皮肤平滑处理。

在案例 2 中，引入了皱纹，降低了美学质量。在案例 3 和 4 中，由于缺乏低频信息，面部发生了扭曲，导致身份一致性受到损害。相比之下，提出的 ConsisID 始终生成高质量、逼真的视频，准确匹配参考身份并符合提示。

定量分析

本届展示了不同方法的全面定量评估，结果如下表 1 所示。

与定性分析一致，本文的方法在五个指标上超过了现有的最先进方法。在身份保持方面，ConsisID 通过从频率角度为 DiT 设计适当的身份信号，取得了更高的分数。

相比之下，ID-Animator 并未针对 IPT2V 进行优化，仅部分保留了面部特征，导致 FaceSim-Arc 和 FaceSim-Cur 的分数较低。在文本相关性方面，ConsisID 不仅通过提示控制表情，还调整动作和背景，取得了更高的 CLIPScore。

身份信号注入对 DiT 的影响

为了评估发现 1 和发现 2 的有效性，对不同的信号注入方法进行了消融实验。具体来说，这些实验包括：（a）仅将低频面部信息和关键点注入噪声潜在空间，（b）仅将高频面部信号注入注意力块，（c）结合（a）和（b），（d）基于（c），但低频面部信息不包含关键点，（e-f）基于（c），但高频信号注入到注意力块的输入或输出，（g）仅将高频面部信号注入注意力块之前。

结果如下图 7 和表 3 所示。

此外，作者还对生成的视频（仅面部区域）应用了傅里叶变换，以视觉比较不同组件对面部信息提取的影响。如下图 3 所示，傅里叶谱和傅里叶变换的对数幅度显示，注入高频或低频信号确实增强了生成面部的相应频率信息。此外，低频信号通过与面部关键点的匹配可以进一步增强，而将高频信号注入注意力块具有最高的特征利用率。

本文的方法（c）展示了最强的高频和低频，进一步验证了发现 1 和发现 2 带来的效率提升。为了减少开销，作者对每个身份仅选择了 2 个参考图像进行评估。

如图所示，傅里叶谱和傅里叶变换的对数幅度显示，注入高频或低频信号确实可以增强生成人脸的相应频率信息。此外，低频信号可以通过与面部关键点匹配进一步增强，而将高频信号注入注意力模块则具有最高的特征利用率。

作者的方法（c）展现了最强的高频和低频，进一步验证了发现 1 和发现 2 所带来的效率收益。为了减少开销，对于每个身份，作者仅选择 2 张参考图像进行评估。

结论

ConsisID，一个通过频率分解保持面部一致性的视频生成统一框架。它能够无缝集成到现有的基于 DiT 的文本到视频（T2V）模型中，用于生成高质量、可编辑、符合身份保持要求的视频。

大量实验表明，ConsisID 超越了当前最先进的身份保持 T2V 模型。研究结果表明，基于频率感知的 DiT 控制方案是 IPT2V 生成的最佳解决方案。

参考文献

[1] Identity-Preserving Text-to-Video Generation by Frequency Decomposition

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉