一个LoRA可以同时处理内容和风格了?UIUC提出UnZipLoRA, 可将元素从单个图像中分离出来同时训练两个LoRA,与原有LoRA兼容。
伊利诺伊大学厄巴纳-香槟分校的研究者们提出了一种将图像分解为组成主题和风格的方法 UnZipLoRA,可以将任何图像分解为其内容和样式,以两个不同的 LoRA(低秩自适应)表示
相关链接
• 论文:http://arxiv.org/abs/2412.04465v1 • 主页:https://unziplora.github.io • 代码:即将开放...
论文阅读
摘要
本文介绍了一种将图像分解为组成主题和风格的方法 UnZipLoRA,以两个不同的 LoRA(低秩自适应)表示。与现有的个性化技术不同,这些技术只关注主题或风格,或者需要为每种主题或风格设置单独的训练集,而 UnZipLoRA 通过同时训练两个 LoRA 将这些元素从单个图像中分离出来。UnZipLoRA 确保生成的 LoRA 兼容,即,它们可以通过直接添加无缝组合。UnZipLoRA 支持对主题和风格进行独立操作和重新语境化,包括生成每个主题的变体、将提取的风格应用于新主题以及重新组合它们以重建原始图像或创建新的变体。为了解决训练过程中主题和风格纠缠的挑战,UnZipLoRA 采用了一种新颖的即时分离技术以及列和块分离策略,以准确保留主题和风格的特征,并确保学习到的 LoRA 之间的兼容性。通过人工研究和自动指标的评估证明了 UnZipLoRA 与其他最新先进方法(包括 DreamBooth-LoRA、Inspiration Tree 和 B-LoRA)相比的有效性。
方法
UnZipLoRA通过同时学习两个不同的 LoRA,将内容和风格从单个输入图像中分离出来。它依靠三个关键组件来确保准确分离: 快速分离、列分离和块分离。 UnZipLoRA的核心在于使用单幅图像来训练两个独立的LoRA模型,分别代表内容和风格。方法分为以下几个关键步骤:
• 提示分离:通过使用不同的文本提示来训练两个LoRA,确保每个LoRA专注于其特定概念,避免交叉污染。 • 列分离:引入列掩码动态控制每个LoRA权重矩阵的贡献,促进权重之间的正交性,减少干扰。 • 块分离:根据每个LoRA的特性分配特定的网络块,以增强风格和内容的学习效果。
这样可以确保在生成过程中,内容和风格的特征能够被有效捕捉和利用。通过这些策略,UnZipLoRA能够在训练过程中有效提取和保留内容与风格的特征,并确保生成的LoRA在组合时能够兼容。
结果
主题和风格的生成与再语境化
UnZipLoRA从输入图像中分解风格和主题,有效地分离和保留概念并实现卓越的主题和风格保真度。
主题风格再语境化
使用UnZipLoRA可以在灵活的环境中重新语境化输入图像中的主题和风格。
结论
论文提出了一种将单幅图像分解为主题和风格的新方法UnZipLoRA,以两个解开且兼容的 LoRA 表示。通过采用提示、列和块分离策略,UnZipLoRA 有效地提取和保留了这些元素,从而实现了多样化的重新语境化和操作。与现有方法相比表现出了卓越的性能,凸显了 UnZipLoRA 在文本到图像生成中的创造性探索和控制潜力。未来的工作包括探索替代的解开技术和无需训练的主题风格分解方法。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~