超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

科技 2024-12-22 23:03 北京

为了增强文本到图像生成模型的可控性，当前的 ControlNet 类模型已经探索了各种控制信号来指示图像属性。然而，现有的方法要么处理条件效率低下，要么使用固定数量的条件，这不能完全解决多种条件的复杂性及其潜在冲突。这也强调了需要创新方法来有效地管理多种条件，以实现更可靠和更详细的图像合成。

为了解决这个问题，本文提出了一个新颖的框架，它支持各种控制信号的动态组合，允许自适应地选择不同数量和类型的条件。我们的方法从双循环控制器开始，该控制器利用预先训练的条件生成模型和判别模型为所有输入条件生成初始真实分数排序。该控制器评估提取条件与输入条件之间的相似性，以及与源图像的像素级相似性。

然后，我们集成了多模态大型语言模型 (MLLM) 来构建高效的条件评估器。该评估器根据双循环控制器的分数排名优化条件的排序。我们的方法联合优化了 MLLM 和扩散模型，利用 MLLM 的推理能力来促进多条件文本到图像 (T2I) 任务。最终排序的条件被输入到并行多控制适配器中，该适配器从动态视觉条件中学习特征图并将其集成以调制 ControlNet，从而增强对生成图像的控制。

论文标题：

DynamicControl : Adaptive Condition Selection for Improved Text-to-Image Generation

论文链接：

https://arxiv.org/abs/2412.03255

项目主页：

https://hithqd.github.io/projects/Dynamiccontrol/

代码链接：

https://github.com/hithqd/DynamicControl

背景介绍

基于 ControlNet 类模型，之前的工作探索了各种控制信号，例如布局约束、分割图和深度图，以决定生成的图像中的空间排列、物体形状和景深。此外，该领域还见证了使用快速工程和交叉注意约束来进一步完善图像生成的调节。

考虑到一个对象的多种条件，一条线路（例如 UniControl、UniControlNet）在训练过程中随机选择一次激活一种条件，如图 1(a) 所示。这种处理不同视觉条件的能力非常低效，将大大增加训练的计算负担和时间成本。

另一类方法（例如 AnyControl、ControlNet++）使用固定数量（通常为 2 或 4）的条件，并采用 MoE 设计或多控制编码器来解决条件数量变化的问题，如图 1(b) 所示。

然而，这种固定数量方案并没有从根本上解决多条件问题，也没有考虑多条件是否与生成结果相冲突。虽然这些方法扩展了受控图像生成的可行性和应用，但在不同条件下增强可控性的清晰而全面的方法仍然是一个正在进行的研究和开发领域。这凸显了在 T2I 扩散模型中集成和优化控制机制以实现更可靠和更详细的图像合成方面需要不断创新。

给定来自同一主题的多个条件，对于相同的文本提示，不同的条件在颜色，纹理，布局，合理性等方面产生不同的结果。此外，从与源图像的相似度 SSIM 得分来看，不同的条件难以准确生成与输入源图像一致的图像。这也表明不同条件对生成更好图像的贡献不同，有些条件甚至会产生负面影响。

因此，在先前的方法中，仅选择一个或固定数量的条件而不考虑它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系是次优的。

为了解决这个问题，我们提出了 DynamicControl，这是一个支持多种控制信号动态组合的新框架，它可以自适应地选择不同数量和类型的条件，如图1（c）所示。

方法

本文算法的整体流程如上图所示，给定多种条件，我们首先引入双循环控制器来产生真实的排名分数，作为与 MLLM 结合训练条件评估器的监督信号。然后，这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码，以实现可控的图像生成。

2.1 Double-Cycle Controlle

鉴于我们将多条件可控性概念化为输入条件之间的动态选择，因此使用判别奖励模型来衡量这种选择是可行的。通过量化生成模型的输出，我们能够依靠这些定量评估来集体增强各种条件控制的优化，以促进更可控的生成过程。

具体来说，给定多个条件和文本提示，我们首先利用预训练的条件生成模型为每个条件生成图像。然后通过不同的预训练判别模型提取相应的反向条件。

基于这些生成的图像和反向条件，我们设计了一个双循环控制器，对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致性分数组成，即条件一致性和图像一致性。

1. 条件一致性。对于每个输入条件和生成图像的相应输出条件，我们优化了条件循环一致性损失以获得更好的可控性，其公式为：

这里我们对扰动图像执行单步采样，其中 D 是判别奖励模型，用于优化 G 的可控性。L 表示抽象度量函数，可根据特定的视觉条件适应各种具体形式。这种灵活性使其能够根据不同视觉分析任务的独特要求进行定制，从而增强模型在不同场景中的适用性和有效性。

2. 反向图像一致性。除了条件一致性之外，我们还采用反向图像一致性损失来保证原始图像与生成的图像相似。我们通过最小化生成的图像和源图像之间的像素和语义差异来实现这一点。给定源图像和生成的图像的 CLIP 嵌入，损失定义为：

这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源图像，通过最小化源图像和生成的图像之间的差异来强制执行模型。

2.2 Condition Evaluator

虽然双循环控制器可以对各种控制条件进行综合评分，但仍然面临两个挑战：1）使用预先训练的生成模型进行图像合成都会给结果带来较高的不确定性，这意味着对所采用的基础生成模型的依赖性很高；2）源图像在测试过程中不可用，尤其是在用户指定的任务中。为了解决这个问题，我们在网络架构中引入了多模态大语言模型（MLLM）。

如图 3 所示，给定条件和指令 τ，我们的主要目标是利用双周期控制器的得分排序来优化条件的最佳排序。我们用 N 个新标记“、...、”扩展了 LLaVA 的原始 LLM 词汇表以表示生成信息，并将这些标记附加到指令 τ 的末尾。

然后，将条件和重新组织的指令 τ′ 输入到大型语言模型 (VLLM) 中以获得对标记的响应，这些标记被处理以提取相应的隐藏状态，从 VLLM 对输入的表示中捕获更深层的语义信息。

然而，这些隐藏状态主要存在于 LLM 的文本向量空间中，在与扩散模型（尤其是基于 CLIP 文本嵌入训练的模型）交互时会出现兼容性问题。这种差异可能会阻碍模型之间的有效集成。考虑到这一点，我们迁移了 Q-Former，以将隐藏状态细化为与扩散模型兼容的嵌入。转换过程表示为：

循环优化过程可以表述为：

随后，每个条件的 LLM 预测结果由双循环控制器的相应排序分数进行监督，从而优化最终的排序排名。该过程表示为：

2.3 多控制适配器动态编码

为了适应多种动态控制条件的同时应用，我们创新性地设计了一个多控制适配器。该适配器旨在自适应地解释复杂的控制信号，从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。

在获得经过良好预训练的条件评估器后，可以利用其强大的理解能力对所有输入条件进行评分。从评分条件池中，只有那些达到或超过预定义阈值的条件才会被选中参与后续的 T2I 模型优化。这种选择性方法确保只有最相关和最高质量的条件才能参与训练过程，从而有可能提高 T2I 模型的有效性和效率。

关于阈值设置，它不是手动预定义的，也不是在训练集内的所有数据对中保持一致的。相反，它被配置为一个可学习的参数，允许模型自适应地确定和调整各种数据集的阈值。因此，这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。

如图 3 所示，这些选定的条件随后被MOE使用，其中所有条件都被并行捕获为各种低级视觉条件的特征。随后，提取的特征被引导到 L 个块中，每个块包含交叉注意和交叉注意机制。在每个块中，输入特征最初通过并行运行的 n(n ≤ N) 个交叉注意进行处理，将它们对齐到各个特征空间维度上。

在这种对齐之后，多样化的特征被连接起来，然后转发到交叉注意模块。这种顺序处理确保了特征维度的全面集成，增强了所应用的注意机制的深度和相关性。最后，这些多控制嵌入用于指导生成过程，确保输出与多个控制条件指定的细微要求保持一致。

实验结果

不同条件控制和数据集下的可控性比较：

不同条件控制和数据集下的 FID（↓）/ CLIP 分数（↑）比较：

可视化结果比较：

总结

在本文中，我们从定量和定性的角度证明了现有的专注于可控生成的研究仍然未能充分利用多种控制条件的潜力，导致生成的图像与输入条件不一致。

为了解决这个问题，我们引入了 DynamicControl ，它使用高效的条件评估器对条件进行排序，明确优化了多个输入条件和生成的图像之间的一致性，从而将 MLLM 的推理能力集成到 T2I 生成任务中。此外，我们还提出了一种新颖而高效的多控制适配器，可以自适应地选择不同的条件，从而实现动态多控制对齐。

来自各种条件控制的实验结果表明，DynamicControl 大大增强了可控性，而不会牺牲图像质量或图像文本对齐。这为可控视觉生成提供了新的视角。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉