【closerAI ComfyUI】阿里团队又放大招，AI绘画迎来重大突破！上下文微调文生图LORA，保持人物高度一致性与连贯性

科技 2024-11-18 23:39 北京

更多AI前沿科技资讯，请关注我们：

【closerAI ComfyUI】阿里团队又放大招，AI绘画又一重大突破，上下文微调文生图LORA，保持人物高度一致性与连贯性。

大家好，我是Jimmy。正如我上面说到的，这个消息非常震撼，阿里出的这个上下文微调LORA模型，直接让我们能通过文本，来实现生图的人物一致性！并且图与图之间是有关联性的。也就是它能生产连环画面。

这个作用的想象性很大，我们可以制作故事，电影画面，摄影集、字体设计、家装、PPT、夫妻档案、视觉识别等！这太疯狂了！

In-Context LoRA微调文生图模型介绍

阿里团队推出In-Context LoRA微调文本到图像模型，以生成具有可自定义内在关系的图像集，可选地以另一个集合为条件，使其能够适应各种任务。

这次开源提供了10个模型：情侣档案设计、电影故事板、字体设计、家装、肖像插图、人像摄影、PPT模板、沙尘暴视觉效果、视觉效果、视觉识别设计。

In-Context LoRA地址

论文地址：https://ali-vilab.github.io/In-Context-LoRA-Page/

模型下载地址：https://huggingface.co/ali-vilab/In-Context-LoRA

鼓励大家在抱脸上下载，但如果不能魔法，可上镜像站下载：https://hf-mirror.com/ali-vilab/In-Context-LoRA

In-Context LoRA使用方法

使和方法：直接下载10个LORA，文件不大。每个172MB，总的大小1G多吧。直接下载就是了。

下载后放入。放到以下路径。

In-Context LoRA的体验

首先打开我们搭建的工作流：closerAI iClora 上下文文生图工作流

工作流搭建思路，提供中文提示词输入，加入pulid flux测试换脸。加载in-context LoRA模型。因为有10个模型，我们抽几个测试。

1、电影故事板 film-storyboard.safetensors

输入以下提示词：

[MOVIE-SHOTS] In a vibrant festival, [SCENE-1] we find <Leo>, a shy boy, standing at the edge of a bustling carnival, eyes wide with awe at the colorful rides and laughter, [SCENE-2] transitioning to him reluctantly trying a daring game, his friends cheering him on, [SCENE-3] culminating in a triumphant moment as he wins a giant stuffed bear, his face beaming with pride as he holds it up for all to see.

中文翻译一下：

[电影镜头]在一个充满活力的节日，

[场景-1]我们发现<Leo>，一个害羞的男孩，站在一个繁华的狂欢节的边缘，眼睛睁得大大的，对五颜六色的游乐设施和笑声充满敬畏，

[场景-2]过渡到他不情愿地尝试一个大胆的游戏，他的朋友们为他欢呼，

[场景-3]在一个胜利的时刻达到高潮，因为他赢得了一个巨大的毛绒熊，他的脸上洋溢着骄傲，因为他把它举起来让所有人看到。

工作流生成以下结果：

[场景-1]我们发现<Leo>，一个害羞的男孩，站在一个繁华的狂欢节的边缘，眼睛睁得大大的，对五颜六色的游乐设施和笑声充满敬畏，

[场景-2]过渡到他不情愿地尝试一个大胆的游戏，他的朋友们为他欢呼，

[场景-3]在一个胜利的时刻达到高潮，因为他赢得了一个巨大的毛绒熊，他的脸上洋溢着骄傲，因为他把它举起来让所有人看到。

不错不错，连贯与一致，人物从表现上看是几乎一致的，不能说百分百，衣服背包都有。也很好地遵守提示词的内容来生图。

在生成以上结果时候，我就在想是否能接入pulid来控制人物的脸！于是我加入了pulid来测试。

测试结果可以看出，崩的。我觉得既然是分开10个模型，那它的微调重点是已经区分开的，于是，在换脸的话我还是用它的人像摄影微调的LORA吧。

输入提示词：

This [FOUR-PANEL] image illustrates a young artist's creative process in a bright and inspiring studio; [TOP-LEFT] she stands before a large canvas, brush in hand, adding vibrant colors to a partially completed painting, [TOP-RIGHT] she sits at a cluttered wooden table, sketching ideas in a notebook with various art supplies scattered around, [BOTTOM-LEFT] she takes a moment to step back and observe her work, adjusting her glasses thoughtfully, and [BOTTOM-RIGHT] she experiments with different textures by mixing paints directly on the palette, her focused expression showcasing her dedication to her craft.

输出结果如下：

可以看到，我打码了两张，因为崩了。不堪入目。

再测试下，

加入pulid后影响了生图质量。加入了其它LORA后它还是具有不稳定性

我们直接测试不加入的换脸的结果，因为我们测试了两次都影响了原来的质量，但有些画面是可以生成的，所以我们换个思路就是生图之后进行换脸即可。

看，这样效果好多了。非常棒！

以下我还测试了视觉识别LORA，因为lora太多，日后根据需要使用，大家可以下载来进行体验！

下图是视觉识别测试结果：

The pair of images showcases the joyful identity of a produce brand, [IMAGE1] showing a smiling pineapple graphic and the brand name “CloserAI” in a fun, casual font on a light aqua background; while [IMAGE2] translates the design onto a reusable shopping tote with the pineapple logo in black, held by a person in a market setting, emphasizing the brand’s approachable and eco-friendly vibe.

效果非常棒。建议大家体验使用。并构思项目落地。

以上是closerAI团队基于stable diffusion comfyUI 制作作的closerAI iClora 上下文文生图工作流介绍以及阿里推出的In-Context LoRA微调文生图模型的介绍，大家可以根据工作流思路进行尝试搭建和体验In-Context LoRA。

当然，也可以在我们closerAI会员站上获取对应的工作流。

更多AI前沿科技资讯，请关注我们：

点击“阅读原文”跳转工作流

目标检测和深度学习

本公众号专注深度学习、计算机视觉相关技术、咨询。追求纯粹的技术，享受学习、分享的快乐，会不定期的推送人工智能前沿科技、相关模型代码实现、会议顶尖论文等学术资料和知识，欢迎大家分享和投稿！

最新文章

探索AI+电商领域应用与发展

【closerAI ComfyUI】阿里团队又放大招，AI绘画迎来重大突破！上下文微调文生图LORA，保持人物高度一致性与连贯性

ShowMeAI周刊 No.11 | 上周最有讨论度的13个AI话题：李开复很忙、Monica进化、天工真会玩儿、15岁天才…

真假◎智能原生（AI Native）应用极其挑战

轻松创作、迅速成品：探索喜马拉雅的AI音频创作平台——音剪

一文彻底搞懂多模态 - 基本术语

对话杨植麟：聚焦生产力，做好Kimi这一个产品

7000字！深度学习的核心：训练与推理的深度解析

一文彻底搞懂多模态 - 基础知识

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

实测｜基于多模态嵌入的AI搜索与RAG应用实现，释放企业数据真正价值

大模型微调基本概念指北

一键生成完整海报，这个AI是要革PS和Canva的命。

对话「42章经」曲凯：越早勇敢相信 AI 的人越有机会获得更大的回报｜AI应用100问

微软 AI CEO 穆斯塔法：小模型绝对是未来趋势，AI 会小到能装在冰箱贴上

麻烦所有的 AI 搜索，都做成这种专业程度再推给我

秘塔科技专访：AI搜索这件事，我们是怎么想的？

State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程

RTE年度场景三强专访：实时语音、多模态Agent，创业机会在哪里？

AI Agent时代已至：重塑企业信息架构与业务流程的深刻变革

Runway CEO：AI公司的时代已经结束了

2.6K Star，终于有人把Transformer可视化了！

产品经理需要角度筛选的优质AI信息源

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

AGI 投资的新思考：大模型尚在“前浏览器或前IOS时代”。

AI应用100问｜当人类和AI一起创作内容成为日常，全新的内容平台还会远吗？

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

清程极智 CEO 汤雄超：训推一体机并非 AI Infra 的未来

独家信息：关于 o1 的 20 个真相

大模型驱动的产品范式创新研究与思考

OpenAI DevDay公布五项重大创新，AI实时语音的时代来了！成本比GPT-3降低近1000倍！

适合技术小白入门 AI 编程的六个场景

Claude CEO的最新万字长文，比山姆奥特曼更理性实际！

李继刚全网首播干货分享整理 | Prompt（提示词）的道和术，另附分享彩蛋

文生视频大模型「新版」测评基准（方案）发布

情绪又可以释放了，「歌词爆改机」它来了！

深度｜AI教父Hinton与AI教母李飞飞首次公开对谈：我们必须通过，让懂得数据的人和懂得如何使技术有效的人建立联系来搭建这座桥

【曾鸣演讲全文】我们正迎来AGI的雅虎时刻

Pika 1.5重磅上线四个新特效：从粉碎到消失，效果炸裂了！

OpenAI全新发布o1模型 - 我们正式迈入了下一个时代。

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

9个人的公司，做文生图，2500万用户，每年净利润200万美元

周鸿祎撺了十五家大模型公司，说要组一个「复仇者联盟」干灭霸？

9个人的公司，做文生图，2500万用户，每年净利润200万美元

Zpedia | 字节生AI半年大考，超级APP工厂如何继续跳动？

AI赋能客户服务：智能知识问答系统的架构解析

看了40款AI产品的定价模式，我好像发现了营收1000万美元的秘密

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉