新加坡国立大学新近推出的 OminiControl 框架,那绝对是 AI P 图领域的一大神器呀。它能够极为轻松地通过一键操作,就生成出具有物体一致性的图像呢。
像是那些精美的产品效果图,还有那能让人直观感受的试衣图,都能轻松搞定。这一框架的出现,为 AI P 图领域带来了全新的变革,让图像生成变得更加便捷和高效啦。
之前呀,要是用 AI 来制作产品图和衣服模特图呢,当时最好的办法就是去训练每个产品的 Lora 啦,像那些能保持人像和物品一致性的 IP-Adapter 等模型,都没法达到让人满意的效果呢。
可自从 OminiControl 一推出呀,它立马就要变成电商领域的神器啦,轻轻松松就能在分分钟内生成各种各样的产品图以及衣服试穿图啦。
它的应用场景超广泛呢,OminiControl 以一种统一的方式来处理各种图像调节任务呢,其中包括主题驱动生成呀,还有空间对齐条件呢,像边缘、深度之类的。特别要提的是,这些功能可是通过对 DiT 自身生成的图像进行训练才实现的哦,这对主题驱动生成那可是特别有利呢。
就比如这个 Prompt:A close up view of this item. It is placed on a wooden table. The background is a dark room, the TV is on, and the screen is showing a cooking show. With text on the screen that reads 'Omini Control!.'
衣服试穿的场景真是别具一格呢。看这 Prompt 呀,在那沙滩上,一位女士坐在一把写着“Omini”的沙滩伞下,她身着这件衬衫,脸上洋溢着灿烂的笑容,身后还放着她的冲浪板呢。
而在背景中,太阳正在缓缓落下,天空呈现出美丽的橙紫色。这仿佛让我们身临其境,感受到了那份海边的惬意与美好呀。
图像修复的这一幕真是别开生面呢。左边是那原始的图像,中间是带有特定蒙版的图像,而右边则是经过填充后的图像。
现在又有个有趣的 Prompt 啦,说那蒙娜丽莎竟然戴上了一个白色的虚拟现实头戴设备,上面还写着“Omini”呢,这可真是让经典之作有了全新的面貌呀,仿佛给蒙娜丽莎赋予了现代的科技感呢。
有一本黄色的书,它的封面上用大大的字体印着“OMINI”这个单词呢。在封面的底部,还清晰地出现了“for FLUX”这样的文字。
这画面仿佛给人一种独特的视觉冲击,那黄色的书与显眼的“OMINI”字样相互映衬,让人忍不住想要去探究其中的奥秘呢。
除了前面提到的那些,还有其他的空间对齐任务呢。就像 Canny 边缘到图像、深度到图像、着色以及去模糊这些。
现在来看这个着色的描述,一张白色的边桌紧挨着沙发放置着,上面摆放着一盏白色的可调节台灯和一些书籍。
这场景中,白色的边桌、台灯和书籍相互搭配,营造出一种宁静而又舒适的氛围,仿佛能让人感受到那份静谧的美好呢。
在这一系列描述中,还有去模糊的场景呢。那暗沉的硬木地板与那苍白的墙壁以及家具形成了鲜明的对比。
这种对比给人一种强烈的视觉冲击,仿佛能让人清晰地感受到空间中的层次感和质感。
那深色的地板仿佛在诉说着岁月的沉淀,而苍白的墙壁和家具则增添了一份清新与淡雅,共同构成了一个独特而又迷人的空间氛围。
性能方面的优势十分显著呢。从广泛的评估结果来看,OminiControl在主题驱动生成以及空间对齐条件生成上,都要比现有的基于 UNet 和 DiT 的模型更出色呢。
具体到与 IP-Adapter 的对比,在修改精度上,OminiControl达到了 75.8%,而 FLUX 仅为 57.7%;在身份保存方面,OminiControl达到 50.6%,SD1.5 则为 29.4%。
尤其在最佳种子情况下,OminiControl更是展现出了惊人的性能,修改精度达到 90.7%,身份保存达到 82.3%,这一系列数据充分彰显了它的卓越之处。
这些数据所展现出的优势着实令人惊叹,它们分别超出了最强基线 15.8 和 18.0 个百分点,这强有力地证明了 OminiControl 的可靠性与优越性。
在技术创新方面,OminiControl 作为扩散变压器的最小化通用控制框架,其核心创新点在于独特的参数重用机制。
借助这一机制,DiT 模型(如 Flux)能够利用自身作为强大的主干网络来对图像条件进行编码,同时运用其灵活的多模态注意力处理器处理这些条件。
这种方式与依赖复杂架构附加编码器模块的现有方法大不相同。OminiControl 仅需约 0.1%的额外参数,就能高效且有效地整合注入的图像条件,意味着资源需求低且生成速度快。
而作为 OminiControl 项目的一部分,Subjects200K 数据集的发布也意义重大。
这是一个包含超过 200,000 个身份一致图像的多样化集合,每对图像都保持主题一致且呈现场景背景变化。
该数据集的发布以及高效的数据合成管道,将对主题一致生成的研究起到极大的推动作用。
在使用方面,存在一个情况,那就是由于在训练过程中缺乏人类数据,所以该模型目前主要聚焦于处理物体,而非人类主体。不过呢,官方已经开放了网页版供大家免费试用啦。
在使用时,输入的参考图像建议为 512x512 分辨率哦,要是不满足这个要求,系统会自动进行裁剪并调整为 512x512 分辨率呢。
在撰写提示词时,我们可以巧妙地运用“this item”“the object”或者“it”等短语来指代参考主题,这样能让生成的内容更具针对性。比如像这样的例子:一是“A close up view of this item. It is placed on a wooden table.”,二是“A young lady is wearing this shirt.”。
目前,在本地部署 Comfyui 方面应该很快就能实现啦,已经有大神在 github 上占坑了(Comfyui 插件页代码为空),看得出他们正在努力敲代码呢。
项目相关的页面信息如下:
- 项目页:github.com/Yuanshi9815/OminiControl
- 论文页:arxiv.org/abs/2411.15098
- 网页试用:huggingface.co/spaces/Yuanshi/OminiControl
- Comfyui 插件:github.com/pzc163/ComfyUI_OminiControl