UniCon 支持在一个模型中针对目标类型的图像和条件实现多样化的生成行为。UniCon 还提供灵活的条件生成能力,自然支持自由格式输入和多种模型的无缝集成。
SJTU, Google
亮点
• UniCon 针对特定的图像条件对采用预训练的图像扩散模型,并带有极少的附加参数(约 15%)。
• UniCon 通过灵活的推理时间采样计划在一个模型中实现多种生成行为。
• UniCon 可以针对密集排列或松散相关条件进行训练。
• 多个 UniCon 模型可以组合起来,实现多信号条件生成。
相关链接
论文地址:http://arxiv.org/abs/2410.11439v1
项目主页:https://lixirui142.github.io/unicon-diffusion/
论文阅读
摘要
图像生成领域的最新进展引发了通过条件信号控制这些模型的研究,各种方法都解决了条件生成中的特定挑战。我们没有提出另一种专门的技术,而是引入了一个简单、统一的框架来处理涉及特定图像条件相关性的各种条件生成任务。通过使用扩散模型学习相关图像对(例如图像和深度)的联合分布,我们的方法通过不同的推理时间采样方案实现了多种功能,包括可控图像生成(例如深度到图像)、估计(例如图像到深度)、信号引导、联合生成(图像和深度)和粗略控制。
以前的统一尝试通常会通过多阶段训练、架构修改或增加参数数量引入显着的复杂性。相比之下,我们的简单公式需要一个单一的、计算效率高的训练阶段,维护标准模型输入,并添加最少的学习参数(基础模型的 15%)。此外,我们的模型支持非空间对齐和粗略调节等附加功能。大量结果表明,我们的单一模型可以产生与专门方法相当的结果,并且比以前的统一方法产生更好的结果。我们还证明了可以有效地组合多个模型以进行多信号条件生成。
方法
UniCon 改编自预训练图像扩散模型,并附加联合交叉注意模块和 LoRA 适配器。
给定一对图像条件输入,我们的 UniCon 模型会在两个并行分支中同时处理它们。两个分支的特征在注入的联合交叉注意模块中相互关注。LoRA 适配器应用条件分支和联合交叉注意模块。
该模型基于图像条件对进行训练。在训练期间,我们分别对每个输入进行时间步采样,并计算两个分支的损失。
实验
一个模型适用于不同的任务
一个 UniCon 模型在推理时支持多种生成行为。以下所有结果均来自同一个 UniCon-Depth 模型。
使用不同的 UniCon 模型进行条件生成
UniCon 模型可以针对各种条件进行训练,包括密集对齐的条件(深度、边缘、姿势)和松散相关的条件(身份和外观)。
灵活的条件生成
UniCon 模型通过灵活的采样计划在条件生成方面提供了高度的灵活性。
组合多个 UniCon 模型
多个 UniCon 模型可以组合起来,实现多信号条件生成。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~