AnyControl:精准控制下的创意风暴,高质量图像一键生成!

文摘   2024-09-18 00:00   江苏  

上海人工智能实验室和哈尔滨工业大学(深圳)联合提出了AnyControl,这是一种新的文本到图像的引导方法,可以从各种控制信号(例如颜色、形状、纹理和布局)生成图像。

AnyControl 开发了一种新颖的多控制编码器,可提取统一的多模态嵌入来指导生成过程。这种方法能够全面理解用户输入,并在多种控制信号下产生高质量、忠实的结果。

下图👇为AnyControl的多控制图像合成。模型支持多个控制信号的自由组合,并生成与每个输入良好对齐的和谐结果。

相关链接

项目地址:any-control.github.io

论文地址:arxiv.org/abs/2406.18958

Demo: huggingface.co/spaces/nowsyn/AnyControl

论文阅读

AnyControl:在文本生成图像过程中通过多功能控制创作你的作品

摘要

近年来,文本到图像 (T2I) 生成领域取得了重大进展,这主要得益于扩散模型的进步。语言控制可以实现有效的内容创作,但在图像生成的细粒度控制方面却存在困难。

这一挑战已在很大程度上得到探索,即通过额外编码将用户提供的额外空间条件(例如深度图和边缘图)合并到预先训练的 T2I 模型中。然而,多控制图像合成仍然面临着若干挑战。具体而言,当前的方法在处理各种输入控制信号的自由组合方面受到限制,忽视了多种空间条件之间的复杂关系,并且通常无法与提供的文本提示保持语义一致。这可能导致用户体验不佳。

为了应对这些挑战,我们提出了AnyControl,这是一个支持各种控制信号任意组合的多控制图像合成框架。AnyControl 开发了一种新颖的多控制编码器,可提取统一的多模态嵌入来指导生成过程。这种方法能够全面理解用户输入,并在多种控制信号下产生高质量、忠实的结果,这已通过大量的定量和定性评估得到证明。

方法

AnyControl 支持多种控制信号的自由组合,从而开发出一种多控制编码器,能够全面理解多模式用户输入。我们通过采用由一组查询标记联合起来的交替多控制融合和对齐块来实现这一点。

我们首先将所有空间控制信号发送到多控制编码器,以根据文本提示提取全面的多控制嵌入。然后利用多控制嵌入来指导生成过程。多控制编码器由交替的多控制融合和对齐块驱动,并定义查询标记以聚合来自文本标记以及空间条件的视觉标记的兼容信息。

实验

与最先进方法的比较

输入空间条件的数量和类型不同

带遮挡的多重控制

具有样式和颜色控件的 AnyControl

结论

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章