OmniGen:统一图像生成和多任务集成模型,任意人物自由合影,8位量化7G可体验

科技   2024-11-07 21:51   浙江  

OmniGen:统一图像生成和多任务处理模型

🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !本人仅运营公众号平台,未经授权严禁CSDN等其他平台抄袭和转载!

OmniGen简介

今天文章主题为一款由北京人工智能研究原提出的统一图像框架:OmniGenOmniGen是一个统一的图像生成扩散模型,将多种图像处理任务集成到一个统一的简化框架中。与传统的扩散模型不同,OmniGen无需额外的模块如ControlNetIP-Adapter即可处理多样化的控制条件。OmniGen的特点包括:

  1. 1. 统一性:OmniGen不仅能够执行文本到图像的生成,还内在支持多种下游任务,包括图像编辑、主题驱动生成和视觉条件生成。此外,OmniGen还能通过将它们转化为图像生成任务来处理一些经典计算机视觉任务,如边缘检测人体姿态识别

  2. 2. 简洁性:OmniGen的架构高度简化,消除了对额外文本编码器的需求,使得与现有扩散模型相比更加用户友好。它能够通过指令完成复杂任务,无需额外的预处理步骤,显著简化了图像生成的工作流程

  3. 3. 知识迁移:得益于在统一格式中的学习,OmniGen能够有效地在不同任务之间转移知识,处理未见任务和领域,并展现出新的能力

同时OmniGen团队还探索了模型的推理能力和链式思考机制的潜在应用,这是对通用图像生成模型的首次尝试。总之,OmniGen能够实现灵活和可控的图像生成,包括从文本生成图像、编辑生成图像的部分、基于生成图像中的人体姿态生成重绘,以及从另一图像中提取所需对象并整合到新图像中。它还能处理常见的图像生成任务和一些经典计算机视觉任务,如去模糊、去雨、修复以及人物姿态图和深度图。OmniGen展现了潜在的推理能力和一定程度的上下文学习能力,框架通过模仿人类逐步绘画的过程,迭代细化图像,从而处理更复杂和多样化的场景。此外,OmniGen的设计原则是通用性和简洁性,避免了过于复杂的结构设计和众多额外组件。为了实现强大的多任务处理能力,OmniGen训练了一个大规模和多样化的数据集,称为 X2I数据集,包含约0.1亿张图像

  • • Github:https://github.com/VectorSpaceLab/OmniGen

  • • 项目主页:https://vectorspacelab.github.io/OmniGen/

  • • 在线体验地址:https://huggingface.co/spaces/Shitao/OmniGen

官方演示

灵活可控性

图像主体引用

常见图像任务

经典视觉任务

OmniGen ComfyUI体验

社区已有 @chflame163大佬的 ComfyUI_OmniGen_Wrapper支持ComfyUI中的体验,需要通过插件管理器GIT安装ComfyUI_OmniGen_Wrapper插件。首次运行插件时将自动下载模型。

  • • 插件地址:https://github.com/chflame163/ComfyUI_OmniGen_Wrapper

  • • Shitao/OmniGen-v1:需要下载Shitao/OmniGen-v1模型全部模型文件,并复制到ComfyUI/models/OmniGen/Shitao/OmniGen-v1文件夹。地址:https://huggingface.co/Shitao/OmniGen-v1/tree/main

  • • stabilityai/sdxl-vae:同时还需要从stabilityai/sdxl-vae中下载 diffusion_pytorch_model.safetensors 和 config.json 两个文件,并复制到ComfyUI/models/OmniGen/Shitao/OmniGen-v1/vae 文件夹。地址:https://huggingface.co/stabilityai/sdxl-vae/tree/main

  • • 除了从上述huggingface下载外,还可以用 @chflame163大佬的网盘下载:https://pan.baidu.com/s/1uivyo_voaZ668nT3aMLw8Q?pwd=ma06

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流:FLUX[续篇]:12B参数23G最大开源文生图模型,Dev版直出惊艳美图欣赏

本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验:
• FLUX.1哩布在线可运行-黑暗森林工作室
https://www.liblib.art/modelinfo/488cd9d58cd4421b9e8000373d7da123
• F.1-绮梦流光-水湄凝香
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流
https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8

OmniGen工作流

OmniGen工作流已上传LIBLIB平台下载:https://www.liblib.art/modelinfo/81d3c1ecb65f43ae92655648ebd7c064?versionUuid=7ec708a1ecdf47b1826734cd1ea3a33b

OmniGen核心节点

  • • image_1: 可选输入图片1。如果输入,须在prompt中描述此图,用{imgae_1}指代

  • • image_2: 可选输入图片2。如果输入,须在prompt中描述此图,用{imgae_2}指代

  • • image_3: 可选输入图片3。如果输入,须在prompt中描述此图,用{imgae_3}指代

  • • dtype: 模型精度,default为模型默认精度, 可选int8。默认精度大约占用12GB显存,int8大约占用7GB显存

  • • prompt: 生成图片的提示词。如果有图片输入,请用{imgae_1}、{imgae_2}、{imgae_3}指代

  • • width: 生成图片的宽度,必须为16的倍数

  • • height: 生成图片的高度,必须为16的倍数

  • • guidance_scale: 引导比例。较高的值会使模型的生成结果更倾向于条件,但可能损失图像的多样性和自由度。

  • • image_guidance_scale: 图片引导比例。

  • • steps: 图片生成推理步数。

  • • separate_cfg_infer: 在不同引导下分别对图像进行推理;这可以在生成大尺寸图像时节省内存,但会使推理速度变慢。

  • • use_kv_cache: 使用kv缓存以加快推理速度。

  • • seed: 随机种子。推理使用不同的种子产生不同结果。

  • • control_after_generatel: 每次运行时种子值变化选项。

  • • cache_model: 设置为True时缓存模型,下次运行无需再次加载模型。

注意

  • • 提示词需要按照固定格式 {imgae_1}引用对应图像,模型会自动编码为 <img><|image_1|></img> 格式。示例提示2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right 

  • • 在1张图25步情况下,8位量化需要56.59秒。默认全精度则需要69.34秒

8位量化:

全全精度:

01. 基础文生图

(masterpiece, top quality, best quality, official art, beautiful and aesthetic:1.2), (1girl), extreme detailed,(fractal art:1.3),colorful,highest detailed..

02. 多图融合

测试中发现对输入图质量和角度要求较高(尽量使用正面高清图),实际出图与提示位置理解遵循仍需要抽卡。另外SDXL的手问题仍让是大问题

 2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right 

03. 美女合影

2 person in the photo, The person in {image_1} on  left and the person in {image_2} on  right 

03. 单图识别

OmniGen不仅支持文生图、多图融合,同时还支持单图编辑功能(标注物体、改变物流艳色、移除物体、生成pose生成深度生成线稿图等)。但由于插件当前可能存在issue,无法测试,将在后续文章补充。另外笔者之所以选择@chflame163大佬的ComfyUI_OmniGen_Wrapper这款ComfyUI插件,因为测试出图效果这是最能接受的插件,不满意的出图质量是一直推迟推文的原因。

更多推荐文章:

• [ComfyUI]Flux:F.1多区域精确控图,无需LORA技术多区域自由构图工具

• [ComfyUI]MochiEdit:最新视频编辑工具,10分钟内Mochi视频生成加速方案

• [ComfyUI]FaceAging:太好玩啦!仅需几秒看完你或她的一生,从出生到百岁面容

• [ComfyUI]Flux:低显存救星,无限创意!无需部署就能体验最新Joy2|PuLID|LLM等,CF无缝集成

• [ComfyUI]Flux:超治愈!民间青草编织手工艺术,顽强生命微观世界

• [ComfyUI]Flux:适用F.1的sigmas细节增强工具,无需LoRA消除背景模糊和光晕提升图像质量

• [ComfyUI]PyramidFlow:快手开源视频模型,与Mochi比拼谁更强?8G可运行10秒768P与24帧视频生成

• [ComfyUI]Mochi:可商用!迄今最大开源视频生成模型,100亿参数&高保真动作&高提示遵循

• [ComfyUI]阿里EcomID:最强写真换脸?2百万淘宝图训练,结合PuLID和InstantID最新面部一致性框架

• [ComfyUI]Flux:太赞了!DGirl亚洲写实F.1再现,色彩调节与写实摄影

• [ComfyUI]Flux:超强反推Joy2!该升级你的反推插件了,多样风格和详细提示操作指南

• [ComfyUI]Flux:太酷啦!F.1创意小红书写真贴纸艺术风,字节PuLID和创意模板无限创意

    感兴趣加入[AGI技术交流群]+V
    如果觉得文章不错,就请在看转发三连

破狼
关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V:shunshizhiwu。
 最新文章