SD3.5荣登新王？我做了个和Flux的对比

财富 2024-10-24 09:01 山东

10月22日半夜，StableAI发布了SD3.5，这次非常干脆，直接把Large版本开源。

已经死掉的SD3，又试图挣扎着醒来。

从官方文档看，SD3.5在各方面要优于已经开源的Flux（事实上，Flux只开源了两个中杯和小杯版本）。

事实情况如何呢？

我做了个测试，发现并非如此。

这是相同提示词、相同步数、相同工作流跑出的SD3.5和FLUX的对比图。

无论是光影，还是手指，还是背景人物的脸，SD3.5都无法和Flux抗衡。速度也没有明显超越Flux。

不过，考虑到SD1.5和SDXL的原生大模型都稀烂，只要生态丰富，随着创作者们不断的创作新的模型，会越来越强大。

（还要看Flux会不会开源新版本，二者势必形成竞争态势）

官方介绍：

Stable Diffusion 3.5 Large是一种多模态扩散变换器 (MMDiT) 文本到图像模型，具有改进的图像质量、排版、复杂提示理解和资源效率方面的性能。

请注意：该模型是根据稳定社区许可证发布的。请访问Stability AI了解或联系我们了解商业许可详细信息。

型号说明

开发者：稳定AI

模型类型： MMDiT 文本到图像生成模型

模型描述：该模型根据文字提示生成图像。它是一种多模态扩散变压器，使用三个固定的预训练文本编码器，并通过 QK 归一化来提高训练稳定性。

执照

社区许可证：年收入总额低于 100 万美元的组织或个人免费用于研究、非商业和商业用途。更多详细信息可以在社区许可协议中找到。请访问https://stability.ai/license了解更多信息。

对于年收入超过 100 万美元的个人和组织：请联系我们获取企业许可证。

模型来源

对于本地或自托管使用，我们建议ComfyUI进行基于节点的 UI 推理，或扩散器或GitHub进行编程使用。

ComfyUI： Github，示例工作流程

拥抱空间：空间

扩散器：见下文。

GitHub：GitHub。

API端点：

稳定性人工智能API

复制

深度基础设施

实施细节

QK归一化：实施QK归一化技术以提高训练稳定性。

文本编码器：

CLIP：OpenCLIP-ViT/G、CLIP-ViT/L、上下文长度 77 个标记

T5：T5-xxl，训练不同阶段的上下文长度77/256个标记

训练数据和策略：

该模型接受了各种数据的训练，包括合成数据和过滤后的公开数据。

有关原始 MMDiT 架构的更多技术细节，请参阅研究论文。

模型性能

请参阅博客，了解我们关于及时遵守和审美质量方面的比较表现的研究。

文件结构

单击此处访问“文件和版本”选项卡

├── text_encoders/

│ ├── README.md

│ ├── clip_g.safetensors

│ ├── clip_l.safetensors

│ ├── t5xxl_fp16.safetensors

│ └── t5xxl_fp8_e4m3fn.safetensors

│

├── README.md

├── LICENSE

├── sd3_large.safetensors

├── SD3.5L_example_workflow.json

└── sd3_large_demo.png

** File structure below is for diffusers integration**

├── scheduler/

├── text_encoder/

├── text_encoder_2/

├── text_encoder_3/

├── tokenizer/

├── tokenizer_2/

├── tokenizer_3/

├── transformer/

├── vae/

└── model_index.json

与扩散器一起使用

升级到最新版本的扩散器库

pip install -U diffusers

然后你可以运行

import torch

from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)

pipe = pipe.to("cuda")

image = pipe(

"A capybara holding a sign that reads Hello World",

num_inference_steps=28,

guidance_scale=3.5,

).images[0]

image.save("capybara.png")

使用扩散器量化模型

减少 VRAM 使用量并使模型适合 VRAM GPU

pip install bitsandbytes

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel

from diffusers import StableDiffusion3Pipeline

import torch

model_id = "stabilityai/stable-diffusion-3.5-large"

nf4_config = BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_quant_type="nf4",

bnb_4bit_compute_dtype=torch.bfloat16

)

model_nf4 = SD3Transformer2DModel.from_pretrained(

model_id,

subfolder="transformer",

quantization_config=nf4_config,

torch_dtype=torch.bfloat16

)

pipeline = StableDiffusion3Pipeline.from_pretrained(

model_id,

transformer=model_nf4,

torch_dtype=torch.bfloat16

)

pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(

prompt=prompt,

num_inference_steps=28,

guidance_scale=4.5,

max_sequence_length=512,

).images[0]

image.save("whimsical.png")

微调

请参阅此处的微调指南。

用途

预期用途

预期用途包括以下内容：

艺术品的生成以及在设计和其他艺术过程中的使用。

在教育或创意工具中的应用。

研究生成模型，包括理解生成模型的局限性。

该模型的所有使用都必须符合我们的可接受使用政策。

超出范围的用途

该模型并未经过训练来真实或真实地表示人或事件。因此，使用该模型生成此类内容超出了该模型的能力范围。

安全

作为我们设计安全和负责任的人工智能部署方法的一部分，我们采取审慎措施，确保完整性从开发的早期阶段开始。我们在模型开发的整个过程中实施安全措施。我们已经实施了安全缓解措施，旨在降低某些危害的风险，但我们建议开发人员进行自己的测试，并根据其特定用例应用其他缓解措施。

有关我们安全方法的更多信息，请访问我们的安全页面。

诚信评价

我们的完整性评估方法包括针对某些危害的结构化评估和红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。

已识别的风险和缓解措施：

有害内容：我们在训练模型时使用了经过过滤的数据集，并实施了保护措施，试图在有用性和防止伤害之间取得适当的平衡。但是，这并不能保证所有可能的有害内容都已被删除。所有开发人员和部署人员都应谨慎行事，并根据其特定的产品策略和应用程序用例实施内容安全防护措施。

滥用：技术限制以及开发人员和最终用户教育可以帮助减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调和提示工程机制时。请参阅 Stability AI 可接受使用政策，了解有关我们产品的违规使用的信息。

侵犯隐私：鼓励开发人员和部署人员使用尊重数据隐私的技术来遵守隐私法规。

1、升级启动器，推荐使用秋叶启动器，升级到最新版。

2、下载SD3.5原生大模型（含工作流）。

夸克网盘：

https://pan.quark.cn/s/cc1e3fa126b1

百度网盘：

https://pan.baidu.com/s/1myC0Q71j3K8bEoastDlAVA?pwd=ryk7

提取码：ryk7

3、模型安装路径：

ComfyUI\models\checkpoints

4、工作流简介：

升级后的ComfyUI，SD3.5的工作流和Flux通用。

Clip模型、VAE模型、T5模型等模型均和Flux通用，无需重新下载。

模型和工作流：

夸克网盘：

https://pan.quark.cn/s/cc1e3fa126b1

百度网盘：

https://pan.baidu.com/s/1myC0Q71j3K8bEoastDlAVA?pwd=ryk7

提取码：ryk7

http://mp.weixin.qq.com/s?__biz=MzU1Nzc2ODI0MA==&mid=2247501751&idx=1&sn=8d1f841508e810ea01e2e723ec2e177d

路过银河AI

凝视深渊过久，深渊将回以凝视。天空的深渊，便是天渊。

最新文章

造梦师手记：Flux任意场景AI组合

造梦师手记：Flux最佳AI扩图模型

最好用的ComfyUI客户端，超越秋叶

造梦师手记：AI动漫的杰作

好消息，AI会画手了；坏消息... ...

瘦身7G，小显存也可以玩Flux了

造梦师手记：当动漫和艺术结合

国风Flux大模型的里程碑

一张图片相当于LoRa，IPAdapter更新Flux版

造梦师手记：万圣节来捣蛋！

一个不下载你会后悔的AI模型

造梦师手记：用AI“伪造”电影剧情

Flux的Pony版来了？

更快的SD3.5：小显存秒速8步出图

造梦师手记：最完美的小说插画AI模型

SD3.5荣登新王？我做了个和Flux的对比

造梦师手记：AI正在抢夺摄影师和模特的份额

Flux完整版国风模型，12G显存可跑

造梦师手记：苏醒的AI巨人

造梦师手记：梦回敦煌

身体最完美的Flux模型（可NSFW）

备战双十一，AI量产电商海报！

画AI理屈词穷？交给史上最强反推！

ComfyUI升级，手把手教你使用新版界面

用AI给女朋友画个情头吧

最美的中式时装，是旗袍

为什么抖音上的姑娘都那么好看？

舞！舞！舞！最会画舞姿的AI模型

AI带你梦回西方黄金时代

我有AI仙女棒，变大变小变漂亮

史上最强，字节出品：Flux换脸插件

字节出手，Flux换脸插件来了！

造梦师手记：榨干Pony，体验最完美的国风

造梦师手记：真实的party

造梦师手记：水墨中国风

造梦师手记：AI最懂男人的最爱！

Pony最佳东亚女孩模型再次升级

AI绘画：最完美的手

造梦师手记：水晶公主刘亦菲

最勤奋的AI模型创作者，发布了Flux版（可以涩涩）

造梦师手记：最佳Pony动漫模型，没有之一

造梦师手记：为真实Flux添上更加真实的光影效果

Flux时代的极致真实

Pony时代最佳东亚女性模型

Flux模型安装和工作流分享

小显存再次沸腾：6步出图的Flux（可NSFW）

造梦师手记：我触摸到了真实，写实风格的动漫模型

造梦师手记：糟了，心动的感觉

AI助力中秋节电商海报

造梦师手记：超越人像摄影的，不是摄影师，是AI

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉