今天给大家介绍In-Context LoRA 这个项目太强了,前几天发布的时候就引起了许多小伙伴的关注,但是当时还没有开源,就在刚刚,作者开源了In-Context LoRA项目。
它基于FLUX训练,可以一次生成多张风格和ID一致但是内容相互关联的图片集。支持电影故事板生成、ID一致人像摄影、字体设计、PPT排版设计、家居装饰摄影。非常适合用来直接生成AI视频中需要的连续图生视频关键帧。
最关键的是In-Context LoRA (IC-LoRA)。这种方法不需要修改原始 DiT 模型,只需要更改训练数据。并且可以生成更符合提示的高保真图像集。如下图所展示的内容:
提示:这组四张图片展示了一位年轻艺术家在明亮而鼓舞人心的工作室中的创作过程;
她站在一块大画布前,手拿画笔,为一幅未完成的画作增添鲜艳的色彩; 她坐在一张杂乱的木桌前,在散落着各种美术用品的笔记本上勾勒出想法; 她停下来观察自己的作品; 她直接在调色板上混合颜料,尝试不同的纹理,专注的表情展现了她对工艺的执着。”
相关链接
项目主页:https://ali-vilab.github.io/In-Context-LoRA-Page
论文:https://arxiv.org/pdf/2410.23775
代码:https://github.com/ali-vilab/In-Context-LoRA
论文介绍
方法概述
最近的研究探索了使用扩散变压器 (DiT) 进行与任务无关的图像生成,方法是简单地在图像之间连接注意力标记。然而,尽管拥有大量计算资源,但生成的图像的保真度仍然不是最优的。
论文重新评估并简化了这一框架,假设文本到图像的 DiT 本质上具备上下文生成功能,只需进行最少的调整即可激活它们。通过不同的任务实验定性地证明了现有的文本到图像的 DiT 可以有效地执行上下文生成而无需任何调整。
基于这一见解,文中提出了一个非常简单的流程来利用 DiT 的上下文能力:
连接图像而不是标记 对多幅图像进行联合字幕 使用小数据集(例如20〜 100 个样本)应用任务特定的 LoRA 调整,而不是使用大数据集进行全参数调整。
将模型命名为 In-Context LoRA (IC-LoRA)。这种方法不需要修改原始 DiT 模型,只需要更改训练数据。并且可以生成更符合提示的高保真图像集。
实验结果
电影故事板生成
每个三幅图像序列均使用 In-Context LoRA 同时生成。占位符角色名称在图像中唯一地引用角色的身份
肖像摄影
每组四幅图像均与 In-Context LoRA 同时生成,旨在保持每组图像之间的主体身份一致。
字体设计
每组四幅图像均与 In-Context LoRA 同时生成,旨在实现每组图像之间的一致字体样式。家居装饰 每组四幅图像均使用 In-Context LoRA 同时生成,旨在使每组图像之间的装饰风格保持一致。
家居装饰
每组四幅图像均使用 In-Context LoRA 同时生成,旨在使每组图像之间的装饰风格保持一致。
PowerPoint 模板设计
每组四幅图像均与 In-Context LoRA 同时生成,旨在为每组幻灯片创建具有凝聚力和统一性的演示风格。
视觉识别设计
每对图像均与 In-Context LoRA 同时生成,旨在实现每对图像之间连贯一致的视觉识别
情侣档案生成
每对图像均与 In-Context LoRA 同时生成,旨在使每组中的两张图像保持一致的风格和身份特征。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~