SD3.5荣登新王?我做了个和Flux的对比

财富   2024-10-24 09:01   山东  

10月22日半夜,StableAI发布了SD3.5,这次非常干脆,直接把Large版本开源。

已经死掉的SD3,又试图挣扎着醒来。

从官方文档看,SD3.5在各方面要优于已经开源的Flux(事实上,Flux只开源了两个中杯和小杯版本)。

事实情况如何呢?

我做了个测试,发现并非如此。

这是相同提示词、相同步数、相同工作流跑出的SD3.5和FLUX的对比图。

无论是光影,还是手指,还是背景人物的脸,SD3.5都无法和Flux抗衡。速度也没有明显超越Flux。

不过,考虑到SD1.5和SDXL的原生大模型都稀烂,只要生态丰富,随着创作者们不断的创作新的模型,会越来越强大。

(还要看Flux会不会开源新版本,二者势必形成竞争态势)

官方介绍:

Stable Diffusion 3.5 Large是一种多模态扩散变换器 (MMDiT) 文本到图像模型,具有改进的图像质量、排版、复杂提示理解和资源效率方面的性能。

请注意:该模型是根据稳定社区许可证发布的。请访问Stability AI了解或联系我们了解商业许可详细信息。

型号说明

开发者:稳定AI

模型类型: MMDiT 文本到图像生成模型

模型描述:该模型根据文字提示生成图像。它是一种多模态扩散变压器,使用三个固定的预训练文本编码器,并通过 QK 归一化来提高训练稳定性。

执照

社区许可证: 年收入总额低于 100 万美元的组织或个人免费用于研究、非商业和商业用途。更多详细信息可以在社区许可协议中找到。请访问https://stability.ai/license了解更多信息。

对于年收入超过 100 万美元的个人和组织:请联系我们获取企业许可证。

模型来源

对于本地或自托管使用,我们建议ComfyUI进行基于节点的 UI 推理,或扩散器或GitHub进行编程使用。

ComfyUI: Github,示例工作流程

拥抱空间: 空间

扩散器:见下文。

GitHub:GitHub。

API端点:

稳定性人工智能API

复制

深度基础设施

实施细节

QK归一化:实施QK归一化技术以提高训练稳定性。

文本编码器:

CLIP:OpenCLIP-ViT/G、CLIP-ViT/L、上下文长度 77 个标记

T5:T5-xxl,训练不同阶段的上下文长度77/256个标记

训练数据和策略:

该模型接受了各种数据的训练,包括合成数据和过滤后的公开数据。

有关原始 MMDiT 架构的更多技术细节,请参阅研究论文。

模型性能

请参阅博客,了解我们关于及时遵守和审美质量方面的比较表现的研究。

文件结构

单击此处访问“文件和版本”选项卡

├── text_encoders/

│ ├── README.md

│ ├── clip_g.safetensors

│ ├── clip_l.safetensors

│ ├── t5xxl_fp16.safetensors

│ └── t5xxl_fp8_e4m3fn.safetensors

├── README.md

├── LICENSE

├── sd3_large.safetensors

├── SD3.5L_example_workflow.json

└── sd3_large_demo.png

** File structure below is for diffusers integration**

├── scheduler/

├── text_encoder/

├── text_encoder_2/

├── text_encoder_3/

├── tokenizer/

├── tokenizer_2/

├── tokenizer_3/

├── transformer/

├── vae/

└── model_index.json

与扩散器一起使用

升级到最新版本的 扩散器库

pip install -U diffusers

然后你可以运行

import torch

from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)

pipe = pipe.to("cuda")

image = pipe(

"A capybara holding a sign that reads Hello World",

num_inference_steps=28,

guidance_scale=3.5,

).images[0]

image.save("capybara.png")

使用扩散器量化模型

减少 VRAM 使用量并使模型适合 VRAM GPU


pip install bitsandbytes


from diffusers import BitsAndBytesConfig, SD3Transformer2DModel

from diffusers import StableDiffusion3Pipeline

import torch

model_id = "stabilityai/stable-diffusion-3.5-large"

nf4_config = BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_quant_type="nf4",

bnb_4bit_compute_dtype=torch.bfloat16

)

model_nf4 = SD3Transformer2DModel.from_pretrained(

model_id,

subfolder="transformer",

quantization_config=nf4_config,

torch_dtype=torch.bfloat16

)

pipeline = StableDiffusion3Pipeline.from_pretrained(

model_id,

transformer=model_nf4,

torch_dtype=torch.bfloat16

)

pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(

prompt=prompt,

num_inference_steps=28,

guidance_scale=4.5,

max_sequence_length=512,

).images[0]

image.save("whimsical.png")

微调

请参阅此处的微调指南。

用途

预期用途

预期用途包括以下内容:

艺术品的生成以及在设计和其他艺术过程中的使用。

在教育或创意工具中的应用。

研究生成模型,包括理解生成模型的局限性。

该模型的所有使用都必须符合我们的可接受使用政策。

超出范围的用途

该模型并未经过训练来真实或真实地表示人或事件。因此,使用该模型生成此类内容超出了该模型的能力范围。

安全

作为我们设计安全和负责任的人工智能部署方法的一部分,我们采取审慎措施,确保完整性从开发的早期阶段开始。我们在模型开发的整个过程中实施安全措施。我们已经实施了安全缓解措施,旨在降低某些危害的风险,但我们建议开发人员进行自己的测试,并根据其特定用例应用其他缓解措施。

有关我们安全方法的更多信息,请访问我们的安全页面。

诚信评价

我们的完整性评估方法包括针对某些危害的结构化评估和红队测试。测试主要以英语进行,可能无法涵盖所有可能的危害。

已识别的风险和缓解措施:

有害内容:我们在训练模型时使用了经过过滤的数据集,并实施了保护措施,试图在有用性和防止伤害之间取得适当的平衡。但是,这并不能保证所有可能的有害内容都已被删除。所有开发人员和部署人员都应谨慎行事,并根据其特定的产品策略和应用程序用例实施内容安全防护措施。

滥用:技术限制以及开发人员和最终用户教育可以帮助减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策,包括在应用微调和提示工程机制时。请参阅 Stability AI 可接受使用政策,了解有关我们产品的违规使用的信息。

侵犯隐私:鼓励开发人员和部署人员使用尊重数据隐私的技术来遵守隐私法规。

1、升级启动器,推荐使用秋叶启动器,升级到最新版。

2、下载SD3.5原生大模型(含工作流)。

夸克网盘:

https://pan.quark.cn/s/cc1e3fa126b1

百度网盘:

https://pan.baidu.com/s/1myC0Q71j3K8bEoastDlAVA?pwd=ryk7

提取码:ryk7

3、模型安装路径:

ComfyUI\models\checkpoints

4、工作流简介:

升级后的ComfyUI,SD3.5的工作流和Flux通用。

Clip模型、VAE模型、T5模型等模型均和Flux通用,无需重新下载。

模型和工作流:

夸克网盘:

https://pan.quark.cn/s/cc1e3fa126b1

百度网盘:

https://pan.baidu.com/s/1myC0Q71j3K8bEoastDlAVA?pwd=ryk7

提取码:ryk7


路过银河AI
凝视深渊过久,深渊将回以凝视。天空的深渊,便是天渊。
 最新文章