OmniGen：统一图像生成和多任务集成模型，任意人物自由合影，8位量化7G可体验

科技 2024-11-07 21:51 浙江

OmniGen：统一图像生成和多任务处理模型

🌹大家好！欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上，我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群！本人仅运营公众号平台，未经授权严禁CSDN等其他平台抄袭和转载！

OmniGen简介

今天文章主题为一款由北京人工智能研究原提出的统一图像框架：OmniGen。OmniGen是一个统一的图像生成扩散模型，将多种图像处理任务集成到一个统一的简化框架中。与传统的扩散模型不同，OmniGen无需额外的模块如ControlNet或IP-Adapter即可处理多样化的控制条件。OmniGen的特点包括：

1. 统一性：OmniGen不仅能够执行文本到图像的生成，还内在支持多种下游任务，包括图像编辑、主题驱动生成和视觉条件生成。此外，OmniGen还能通过将它们转化为图像生成任务来处理一些经典计算机视觉任务，如边缘检测和人体姿态识别。
2. 简洁性：OmniGen的架构高度简化，消除了对额外文本编码器的需求，使得与现有扩散模型相比更加用户友好。它能够通过指令完成复杂任务，无需额外的预处理步骤，显著简化了图像生成的工作流程。
3. 知识迁移：得益于在统一格式中的学习，OmniGen能够有效地在不同任务之间转移知识，处理未见任务和领域，并展现出新的能力。

同时OmniGen团队还探索了模型的推理能力和链式思考机制的潜在应用，这是对通用图像生成模型的首次尝试。总之，OmniGen能够实现灵活和可控的图像生成，包括从文本生成图像、编辑生成图像的部分、基于生成图像中的人体姿态生成重绘，以及从另一图像中提取所需对象并整合到新图像中。它还能处理常见的图像生成任务和一些经典计算机视觉任务，如去模糊、去雨、修复以及人物姿态图和深度图。OmniGen展现了潜在的推理能力和一定程度的上下文学习能力，框架通过模仿人类逐步绘画的过程，迭代细化图像，从而处理更复杂和多样化的场景。此外，OmniGen的设计原则是通用性和简洁性，避免了过于复杂的结构设计和众多额外组件。为了实现强大的多任务处理能力，OmniGen训练了一个大规模和多样化的数据集，称为 X2I数据集，包含约0.1亿张图像。

• Github：https://github.com/VectorSpaceLab/OmniGen
• 项目主页：https://vectorspacelab.github.io/OmniGen/
• 在线体验地址：https://huggingface.co/spaces/Shitao/OmniGen

官方演示

灵活可控性

图像主体引用

常见图像任务

经典视觉任务

OmniGen ComfyUI体验

社区已有 @chflame163大佬的 ComfyUI_OmniGen_Wrapper支持ComfyUI中的体验，需要通过插件管理器GIT安装ComfyUI_OmniGen_Wrapper插件。首次运行插件时将自动下载模型。

• 插件地址：https://github.com/chflame163/ComfyUI_OmniGen_Wrapper
• Shitao/OmniGen-v1：需要下载Shitao/OmniGen-v1模型全部模型文件，并复制到ComfyUI/models/OmniGen/Shitao/OmniGen-v1文件夹。地址：https://huggingface.co/Shitao/OmniGen-v1/tree/main
• stabilityai/sdxl-vae：同时还需要从stabilityai/sdxl-vae中下载 diffusion_pytorch_model.safetensors 和 config.json 两个文件，并复制到ComfyUI/models/OmniGen/Shitao/OmniGen-v1/vae 文件夹。地址：https://huggingface.co/stabilityai/sdxl-vae/tree/main
• 除了从上述huggingface下载外，还可以用 @chflame163大佬的网盘下载：https://pan.baidu.com/s/1uivyo_voaZ668nT3aMLw8Q?pwd=ma06

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流：FLUX[续篇]：12B参数23G最大开源文生图模型，Dev版直出惊艳美图欣赏

本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验：

• FLUX.1哩布在线可运行-黑暗森林工作室：

https://www.liblib.art/modelinfo/488cd9d58cd4421b9e8000373d7da123

• F.1-绮梦流光-水湄凝香：

https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b

• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流：

https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8

OmniGen工作流

OmniGen工作流已上传LIBLIB平台下载：https://www.liblib.art/modelinfo/81d3c1ecb65f43ae92655648ebd7c064?versionUuid=7ec708a1ecdf47b1826734cd1ea3a33b

OmniGen核心节点

• image_1: 可选输入图片1。如果输入，须在prompt中描述此图，用{imgae_1}指代。
• image_2: 可选输入图片2。如果输入，须在prompt中描述此图，用{imgae_2}指代。
• image_3: 可选输入图片3。如果输入，须在prompt中描述此图，用{imgae_3}指代。
• dtype: 模型精度，default为模型默认精度, 可选int8。默认精度大约占用12GB显存，int8大约占用7GB显存。
• prompt: 生成图片的提示词。如果有图片输入，请用{imgae_1}、{imgae_2}、{imgae_3}指代。
• width: 生成图片的宽度，必须为16的倍数。
• height: 生成图片的高度，必须为16的倍数。
• guidance_scale: 引导比例。较高的值会使模型的生成结果更倾向于条件，但可能损失图像的多样性和自由度。
• image_guidance_scale: 图片引导比例。
• steps: 图片生成推理步数。
• separate_cfg_infer: 在不同引导下分别对图像进行推理；这可以在生成大尺寸图像时节省内存，但会使推理速度变慢。
• use_kv_cache: 使用kv缓存以加快推理速度。
• seed: 随机种子。推理使用不同的种子产生不同结果。
• control_after_generatel: 每次运行时种子值变化选项。
• cache_model: 设置为True时缓存模型，下次运行无需再次加载模型。

注意：

• 提示词需要按照固定格式 {imgae_1}引用对应图像，模型会自动编码为 <img><|image_1|></img> 格式。示例提示：2 person in the photo, The person in {image_1} on left and the person in {image_2} on right
• 在1张图25步情况下，8位量化需要56.59秒。默认全精度则需要69.34秒。

8位量化：

全全精度：

01. 基础文生图

(masterpiece, top quality, best quality, official art, beautiful and aesthetic:1.2), (1girl), extreme detailed,(fractal art:1.3),colorful,highest detailed..

02. 多图融合

测试中发现对输入图质量和角度要求较高（尽量使用正面高清图），实际出图与提示位置理解遵循仍需要抽卡。另外SDXL的手问题仍让是大问题。

 2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right

03. 美女合影

2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right

03. 单图识别

OmniGen不仅支持文生图、多图融合，同时还支持单图编辑功能（标注物体、改变物流艳色、移除物体、生成pose图、生成深度图、生成线稿图等）。但由于插件当前可能存在issue，无法测试，将在后续文章补充。另外笔者之所以选择@chflame163大佬的ComfyUI_OmniGen_Wrapper这款ComfyUI插件，因为测试出图效果这是最能接受的插件，不满意的出图质量是一直推迟推文的原因。

• [ComfyUI]MochiEdit：最新视频编辑工具，10分钟内Mochi视频生成加速方案

• [ComfyUI]FaceAging：太好玩啦！仅需几秒看完你或她的一生，从出生到百岁面容

• [ComfyUI]Flux:低显存救星,无限创意!无需部署就能体验最新Joy2|PuLID|LLM等,CF无缝集成

• [ComfyUI]Flux：超治愈！民间青草编织手工艺术，顽强生命微观世界

• [ComfyUI]Flux：适用F.1的sigmas细节增强工具，无需LoRA消除背景模糊和光晕提升图像质量

• [ComfyUI]PyramidFlow：快手开源视频模型，与Mochi比拼谁更强？8G可运行10秒768P与24帧视频生成

• [ComfyUI]Mochi：可商用！迄今最大开源视频生成模型，100亿参数&高保真动作&高提示遵循

• [ComfyUI]阿里EcomID：最强写真换脸？2百万淘宝图训练，结合PuLID和InstantID最新面部一致性框架

• [ComfyUI]Flux：太赞了！DGirl亚洲写实F.1再现，色彩调节与写实摄影

• [ComfyUI]Flux：超强反推Joy2！该升级你的反推插件了，多样风格和详细提示操作指南

• [ComfyUI]Flux：太酷啦！F.1创意小红书写真贴纸艺术风，字节PuLID和创意模板无限创意

感兴趣加入[AGI技术交流群]+V

如果觉得文章不错，就请赞、在看与转发三连

破狼

关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V：shunshizhiwu。

最新文章

[ComfyUI]Flux：圣诞主题皮肤！小红书照片最强网感时尚穿搭

[ComfyUI]FastVideo：混元官方点赞，6步8倍轻量级加速模型！腾讯混元视频模型一致性蒸馏技术

腾讯混元视频：ComfyUI官方原生支持！GGUF量化低显存福音！开源生态高速发展

[ComfyUI]MagicQuill：无需PS全功能P图编辑工具！8G可运行，最全避坑指南

[ComfyUI]如意：智驾企业下场搞开源视频模型！7B图生视频&首尾帧&任意宽高比&增强运动与相机控制

[ComfyUI]MEMO：让静止图片活起来！音唇同步&丰富且自然表情的对话视频生成技术

[ComfyUI]腾讯混元视频：运动镜头控制！行走动画LORA，最强开源视频可控性里程碑

[ComfyUI]OminiControl：Flux全能P图神器！乾坤大挪移&重绘&CN控制，极简全能控制器

[ComfyUI]腾讯混元视频：开源LORA生态来啦！视频人物一致性&运镜可控性里程碑，支持NSFW

[ComfyUI]ZenID：面部融合神器！揭秘基因遗传，提前预测你和她的下一代基因

ComfyUI原生精确多区域控制！官方最新LoRA和模型权重的遮罩和调度方法

腾讯混元视频:视频写真换脸,请合理使用！工作流一键视频写真,最强导演级&虚拟与现实完美融合开源视频模型

[ComfyUI]Flux：极致光影！F1复古胶片摄影写实，模拟胶片极致色彩&光影&颗粒感

[ComfyUI]Flux：MJ艺术风！基于黑森林F1的Midjourney风，光效&写实&建模&演示&特写镜头

Shuttle 3.1 Aesthetic：低显存福音！S3D升级写实提升，4步秒级出图可商用，ComfyUI体验

[ComfyUI]腾讯混元视频：v2v视频驱动，最强开源视频模型，影视级画质与导演级运镜，本地16G可体验

[ComfyUI]AWPortraitCN：更真实质感细腻！专门针对国人外貌和审美优化F1模型

[ComfyUI]腾讯混元视频：虚实完美融合创意无极限！130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作

DistyFlow：与众不同的工作流体验！降低入门难度，快捷高效全新体验，不容错过高效利器

[ComfyUI]Flux：国潮经典！敦煌古韵与现代极简国潮插画，敦煌风十二生肖和邮票集锦

[ComfyUI]CATVTON-Flux:电商虚拟换衣！基于黑森林F1重绘和阿里In Context LORA电商服装一致性

写实效果炸裂！疑似AI概率最低仅1%，轻松通过AI检测适用小红书日常写实模型，无缝接入ComfyUI自动化设计流程

[ComfyUI]RecraftAI：霸榜&比F1更真实的小红书写实风格模型！小熊猫无缝接入工作流自动化设计流程

IC-Light V2-Vary：打光模型重大升级，具有更强的光照变化，适用商用产品&摄影打光

ComfyUI桌面发布和开源，汉化共享等技巧，逐步完善win&mac多平台体验

[ComfyUI]SD3.5：ControlNet重磅发布！激烈竞争能否夺回黑森林Flux高地？

Lumiere：细节真实！专注更真实保持无损原生提示遵循和构图模型

[ComfyUI]Flux-IPA：效果惊艳！IPA基于10M数据F1专属风格迁移！补齐黑森林遗憾和空缺

[ComfyUI]LTXV：超高效视频模型！仅需4秒生成5秒24帧高质量视频，运动一致性且消除物体变形

[ComfyUI]FluxCN：精确控制！F1可控性组件最全剖析，线稿上色和转绘实战，黑森林官方下场亲手打造F1生态

[ComfyUI]FluxFill：先进与高效重绘和扩图神器，超越阿里等同类模型，黑森林官方下场亲手打造F1生态

[ComfyUI]FluxRedux：超好玩创意灵感，一丝小遗憾！F1风格化溶图组件，黑森林官方下场亲手打造F1生态

FLUX.1-Tools：黑森林官方重磅出手构建F1完善生态，补齐CN&IPA！加速生态里程碑进程

智谱CogVideoX1.5：重大升级，可商用开源模型！10秒&增强质量&任意分辨率，ComfyUI无缝体验

[ComfyUI]Flux：Lovely网红写真，极致细节写实，小红书网红人物写真风格

太酷啦！实时人物表情编辑神器，ComfyUI玩转视频表情无限创意

[ComfyUI]Flux：国漫经典《诛仙》之陆雪琪

PixelWave：更真实细节|动漫|摄影多种艺术风格显著提升，基于黑森林F.1D超5周精调模型

腾讯Hunyuan3D：仅需10秒生成3D视图，首个同时支持文字和图像生成3D开源模型，3D游戏|影视|电商|虚拟现实

PromptGenV2：仅1G低显存福音！更适合F1的CLIP和T5双通道反推！接近Joy性能与速率平衡反推模型

15秒F.1D直出，极限无损加速方案，环境大升级敢不敢来试？

Shuttle-3-Diffusion：可商用F.1去蒸馏模型！仅4步约3秒出图，性能质量显著提升

Mochi1：更简单和可商用，ComfyUI内核支持，社区生态推动4张H100到消费级显卡可用

CogVideo:重磅升级！图生视频完美镜头控制和3D环绕,商用级开源AI视频曙光

阿里InContextLoRA：更强ID一致性！基于黑森林F1身份一致性连贯视频分镜图集，10组风格无限创意

Flux-NewReality:栩栩如生摄影级解禁模型,追求真实细节&风景&神话高品质艺术

[ComfyUI]InstantIR：来自小红书团队模糊图像修复技术，效果是否惊艳？

更像了！5个百分点提升，字节写真换脸PuLID-F1再升级，小红书流量密码

[ComfyUI]F.1服装生成器，20.5K数据LORA助力服装电商设计

OmniGen：统一图像生成和多任务集成模型，任意人物自由合影，8位量化7G可体验

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉