PS可删啦！真电商神器 OminiControl 一键 P 图换衣超厉害

2024-12-02 20:32 广东

新加坡国立大学新近推出的 OminiControl 框架，那绝对是 AI P 图领域的一大神器呀。它能够极为轻松地通过一键操作，就生成出具有物体一致性的图像呢。

像是那些精美的产品效果图，还有那能让人直观感受的试衣图，都能轻松搞定。这一框架的出现，为 AI P 图领域带来了全新的变革，让图像生成变得更加便捷和高效啦。

之前呀，要是用 AI 来制作产品图和衣服模特图呢，当时最好的办法就是去训练每个产品的 Lora 啦，像那些能保持人像和物品一致性的 IP-Adapter 等模型，都没法达到让人满意的效果呢。

可自从 OminiControl 一推出呀，它立马就要变成电商领域的神器啦，轻轻松松就能在分分钟内生成各种各样的产品图以及衣服试穿图啦。

它的应用场景超广泛呢，OminiControl 以一种统一的方式来处理各种图像调节任务呢，其中包括主题驱动生成呀，还有空间对齐条件呢，像边缘、深度之类的。特别要提的是，这些功能可是通过对 DiT 自身生成的图像进行训练才实现的哦，这对主题驱动生成那可是特别有利呢。

就比如这个 Prompt：A close up view of this item. It is placed on a wooden table. The background is a dark room, the TV is on, and the screen is showing a cooking show. With text on the screen that reads 'Omini Control!.'

衣服试穿的场景真是别具一格呢。看这 Prompt 呀，在那沙滩上，一位女士坐在一把写着“Omini”的沙滩伞下，她身着这件衬衫，脸上洋溢着灿烂的笑容，身后还放着她的冲浪板呢。

而在背景中，太阳正在缓缓落下，天空呈现出美丽的橙紫色。这仿佛让我们身临其境，感受到了那份海边的惬意与美好呀。

图像修复的这一幕真是别开生面呢。左边是那原始的图像，中间是带有特定蒙版的图像，而右边则是经过填充后的图像。

现在又有个有趣的 Prompt 啦，说那蒙娜丽莎竟然戴上了一个白色的虚拟现实头戴设备，上面还写着“Omini”呢，这可真是让经典之作有了全新的面貌呀，仿佛给蒙娜丽莎赋予了现代的科技感呢。

有一本黄色的书，它的封面上用大大的字体印着“OMINI”这个单词呢。在封面的底部，还清晰地出现了“for FLUX”这样的文字。

这画面仿佛给人一种独特的视觉冲击，那黄色的书与显眼的“OMINI”字样相互映衬，让人忍不住想要去探究其中的奥秘呢。

除了前面提到的那些，还有其他的空间对齐任务呢。就像 Canny 边缘到图像、深度到图像、着色以及去模糊这些。

现在来看这个着色的描述，一张白色的边桌紧挨着沙发放置着，上面摆放着一盏白色的可调节台灯和一些书籍。

这场景中，白色的边桌、台灯和书籍相互搭配，营造出一种宁静而又舒适的氛围，仿佛能让人感受到那份静谧的美好呢。

在这一系列描述中，还有去模糊的场景呢。那暗沉的硬木地板与那苍白的墙壁以及家具形成了鲜明的对比。

这种对比给人一种强烈的视觉冲击，仿佛能让人清晰地感受到空间中的层次感和质感。

那深色的地板仿佛在诉说着岁月的沉淀，而苍白的墙壁和家具则增添了一份清新与淡雅，共同构成了一个独特而又迷人的空间氛围。

性能方面的优势十分显著呢。从广泛的评估结果来看，OminiControl在主题驱动生成以及空间对齐条件生成上，都要比现有的基于 UNet 和 DiT 的模型更出色呢。

具体到与 IP-Adapter 的对比，在修改精度上，OminiControl达到了 75.8%，而 FLUX 仅为 57.7%；在身份保存方面，OminiControl达到 50.6%，SD1.5 则为 29.4%。

尤其在最佳种子情况下，OminiControl更是展现出了惊人的性能，修改精度达到 90.7%，身份保存达到 82.3%，这一系列数据充分彰显了它的卓越之处。

这些数据所展现出的优势着实令人惊叹，它们分别超出了最强基线 15.8 和 18.0 个百分点，这强有力地证明了 OminiControl 的可靠性与优越性。

在技术创新方面，OminiControl 作为扩散变压器的最小化通用控制框架，其核心创新点在于独特的参数重用机制。

借助这一机制，DiT 模型（如 Flux）能够利用自身作为强大的主干网络来对图像条件进行编码，同时运用其灵活的多模态注意力处理器处理这些条件。

这种方式与依赖复杂架构附加编码器模块的现有方法大不相同。OminiControl 仅需约 0.1%的额外参数，就能高效且有效地整合注入的图像条件，意味着资源需求低且生成速度快。

而作为 OminiControl 项目的一部分，Subjects200K 数据集的发布也意义重大。

这是一个包含超过 200,000 个身份一致图像的多样化集合，每对图像都保持主题一致且呈现场景背景变化。

该数据集的发布以及高效的数据合成管道，将对主题一致生成的研究起到极大的推动作用。

在使用方面，存在一个情况，那就是由于在训练过程中缺乏人类数据，所以该模型目前主要聚焦于处理物体，而非人类主体。不过呢，官方已经开放了网页版供大家免费试用啦。

在使用时，输入的参考图像建议为 512x512 分辨率哦，要是不满足这个要求，系统会自动进行裁剪并调整为 512x512 分辨率呢。

在撰写提示词时，我们可以巧妙地运用“this item”“the object”或者“it”等短语来指代参考主题，这样能让生成的内容更具针对性。比如像这样的例子：一是“A close up view of this item. It is placed on a wooden table.”，二是“A young lady is wearing this shirt.”。

目前，在本地部署 Comfyui 方面应该很快就能实现啦，已经有大神在 github 上占坑了（Comfyui 插件页代码为空），看得出他们正在努力敲代码呢。

项目相关的页面信息如下：

- 项目页：github.com/Yuanshi9815/OminiControl

- 论文页：arxiv.org/abs/2411.15098

- 网页试用：huggingface.co/spaces/Yuanshi/OminiControl

- Comfyui 插件：github.com/pzc163/ComfyUI_OminiControl

Glen

关注我，免费领AI整合包合集。我是Glen，原鹅厂、字节高级产品经理，现AI公司创始人。我的使命是：让一部分人，看见AI并连接。分享人工智能、互联网、商业、职场等内容，管理精力，提升认知。种一棵树最好的时机是十年前，其次是现在！

最新文章

AI神了，一键视频下载+翻译+配音+字幕！（整合包）

腾讯版 Sora 开源啦！130 亿参数、物理模拟，电影级画质超棒！

AI无限换脸 - Facefusion最新3.0.1版整合包

12.3k Star！这款开源录屏神器，砸掉众多收费软件饭碗啦！

一键部署2000多种AI大模型！不挑环境、不吃配置，神了！

AI一键生成无限流视频，太强了！（整合包）

“躺平”神器NarratoAI，短视频制作从此“开挂”！

又快又好的AI数字人整合包来啦！

AI一键制作表情包神器！（整合包）

PS可删啦！真电商神器 OminiControl 一键 P 图换衣超厉害

AI朗读神器免费开源！一键生成有声书！

最强数字人又来，身体可动！（整合包）

免费无限AI换脸 - Facefusion最新3.0版整合包

开源最强数字人，炸裂更新，有你想要的一切（我已出手）！

AI一键视频风格转换，每个瞬间都精彩！（整合包）

AI一键生成跳舞视频，整合包来了！

GetQzonehistory，一键找回QQ空间那些年错过的好时光

爽！极品AI绘画资源，抓紧收藏！

AI一键视频抠图神器！我果断出手！

手绘风白板工具爆火！83.5k星开源神器，大牛们都在用！

AI一键生成无限流视频，让创意不设限！（整合包）

全网最强数字人，一口气看完！（整合包）

AI轻松剪辑，秒变大片！27.9k星的剪辑神器，小白也能轻松上手

快手可灵开源平替来了！超强AI一键生成视频（整合包）

我直接出手！又快又好的AI数字人整合包来啦！

颠覆视频创作！Genmo Mochi 1，开源模型新巅峰，解锁无限创意！

真·AI神器！一键裁剪、生成、优化视频Tailor

免费无限AI换脸 - Facefusion最新3.0版整合包

Meta开源Llama 3.2，内存缩减40%，速度翻倍，AI效率新突破！

牛！又一个超强AI换脸，免费整合包来啦！

AI换脸神器Luna，秒变网红达人！一站式换脸，快速成型！

开源最强AI数字人，加速又加强版！（整合包）

我直接出手！开源最强数字人Hallo2，拿下！

4K星标！秒截屏+OCR识别+多语翻译，这款开源神器让你效率翻倍！

AI绘画领域新霸主Flux，小显存可玩~

语音秒变文字！揭秘AsrTools如何让智能语音转换更精准

AI神了！一键搞定视频语音识别+字幕翻译！

最强AI单图换脸Roop复活！懒人包已准备好，快来

告别模糊！AI一键提升画质神器AuraSR（整合包）

Cobalt：一键下载无广告视频！

出手！快手可灵开源版，AI视频生成整合包！

揭秘：开源聊天机器人框架Lobe-Chat，性能与美观的完美结合！

有趣的灵魂万里挑一，一键生成平滑形变视频！

实时语音转文本神器：开源工具RealtimeSTT_LLM_TTS让沟通无障碍！

短视频剪辑新手的救星Autocut！一键剪辑视频，GPU加速，效率翻倍！

爆火二次元跳舞小姐姐 - AI免费无限生成！

手把手教你，创立一家员工都是AI的公司

超强AI一键扩图来啦！我当然是出手了

我的AI学习小圈子

AI马赛克克星！TecoGAN技术，一键还原模糊照片清晰度

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉