10月22日,Stable Diffusion 家族迎来了最新的成员——Stable Diffusion 3.5。
本次发布的模型包括多个变体版本,分别是 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。
此外,Stable Diffusion 3.5 Medium 将于10月29日发布。
Stable Diffusion 3.5 Large 拥有80亿个参数,是目前 Stable Diffusion 系列中最为强大的版本,其图像质量与对提示的遵循能力均表现出色,适用于专业场景下的百万像素分辨率图像生成。
而 Stable Diffusion 3.5 Large Turbo 则是在保留高图像质量的同时,通过仅需四步的生成过程实现了显著的速度提升,使得其在同级别模型中具有较高的竞争力。
Stable Diffusion 3.5 Medium 模型包含25亿个参数,并引入了改进后的 MMDiT-X 架构与训练方法。
该模型旨在消费者硬件上“开箱即用”,在质量和易于定制之间找到了平衡点,能够生成分辨率为25万至200万像素之间的图像。
在开发过程中,灵活性是设计的核心原则之一。
为了达到这一目标,开发团队在 Transformer 块中集成了查询-键值归一化技术,这不仅稳定了训练流程,还简化了后续的微调和开发工作。
然而,这种设计也带来了输出结果的多样性增加,这虽然有助于保持基础模型的知识库广度和风格多样性,但也可能导致对于不够具体的提示,生成的结果存在一定的不确定性,以及美学水平的变化。
对于 Stable Diffusion 3.5 Medium 特别版,开发人员调整了架构和训练协议,以提高图像质量、连贯性及多分辨率生成能力。
Stable Diffusion 3.5 在以下几个方面表现优异:首先,用户可以轻松地对模型进行微调以满足特定的创意需求,或基于定制的工作流程构建应用程序;
其次,在性能效率方面,该版本经过优化,可以在标准消费级硬件上运行,特别是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 模型,无需过多的硬件需求;
再者,它能创建代表世界多样性的图像,包括不同肤色和特征的人物形象,无需复杂的提示即可实现;
最后,它具备生成广泛风格图像的能力,从三维渲染到摄影、绘画、线条艺术等几乎任何视觉风格都可覆盖。
目前,用户可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo 模型,同时可以在 GitHub 上获取推理代码。
Stable Diffusion 3.5 的各个版本均按照开放的 Stability AI 社区许可提供,允许商业和个人用途的免费使用。
这也意味着开发者鼓励整个工作流程中的作品分发和货币化,无论是微调、LoRA 技术的应用、优化措施还是最终的艺术创作。
回顾历史,在今年6月发布的 Stable Diffusion 3 Medium 版本未能完全达到预期标准或社区期望后,开发团队没有选择快速修复,而是听取了社区反馈并投入更多时间进一步完善产品,最终推出了旨在推动视觉媒体转型的新版本。
Stable Diffusion 3.5 的推出标志着开发者致力于为建设者和创作者提供工具的决心,这些工具不仅易于获取且技术先进,而且适用于大多数使用场景。
无论是科研工作者、爱好者、初创公司还是大型企业,都可以从这一系列模型中找到符合自身需求的选择。
直达链接:https://huggingface.co/stabilityai
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】