来了!Stability AI 推出 Stable Diffusion 3.5

学术   2024-10-23 12:26   北京  


今日凌晨,Stability AI 推出了 Stable Diffusion 3.5,这是他们迄今为止最强大的模型。这一开放版本包括多个模型变体,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,以及一周后将发布的 Stable Diffusion 3.5 Medium。


据介绍,这些模型的大小是高度可定制的,能在消费级硬件上运行,并可根据允许的 Stability AI Community License 免费用于商业和非商业用途。现在可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo,并在 GitHub 上下载推理代码。


Stability AI 指出,他们于 6 月发布的 Stable Diffusion 3 Medium(Stable Diffusion 3 系列的第一个开放版本)未能完全满足他们的标准和社区的期望。因此,在听取了宝贵的社区反馈后,他们花时间进一步开发了一个版本,以推进他们改变视觉媒体的使命—— Stable Diffusion 3.5 应运而生。


Stable Diffusion 3.5 充分实现了 Stability AI 的承诺,即为构建者和创作者提供可广泛访问、最前沿且在大多数用例中免费的工具。他们鼓励在整个流程中对作品进行发布和货币化,无论是微调、LoRA、优化、应用还是艺术作品。


在最新官方文章中,他们分享了在模型开发中的一些研究心得、Stable Diffusion 3.5 版本的强大功能以及公司的下一步计划等内容。



发布内容


Stable Diffusion 3.5 提供了多种模型,以满足科研人员、业余爱好者、初创公司和企业的需求:


  • Stable Diffusion 3.5 Large:该基本模型具有 80 亿个参数,具有卓越的质量和及时的依从性,是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 MP 分辨率的专业用例。


  • Stable Diffusion 3.5 Large Turbo:Stable Diffusion 3.5 Large 的精简版本只需 4 个步骤即可生成具有出色快速粘附性的高质量图像,使其比 Stable Diffusion 3.5 Large 快得多。


  • Stable Diffusion 3.5 Medium(将于 10 月 29 日发布):该模型拥有 25 亿个参数,具有改进的 MMDiT-X 架构和训练方法,旨在“开箱即用”地在消费类硬件上运行,在质量和易于定制之间取得平衡。它能够生成分辨率在 0.25 到 2 MP 之间的图像。



开发模型


在开发模型时,Stability AI 优先考虑可定制性,以提供灵活的构建基础。为此,他们将 Query-Key Normalization 集成到 transformer 模块中,稳定了模型训练过程并简化了进一步的微调和开发。


为了支持这种级别的下游灵活性,他们必须做出一些权衡。具有不同 seeds 的同一 prompt 的输出可能会发生更大的变化,这是有意为之的,因为它有助于在基本模型中保留更广泛的知识库和不同的风格。然而,因此,缺乏特异性的提示可能会导致输出的不确定性增加,并且审美水平可能会有所不同。


特别是对于 Medium 模型,他们对架构和训练协议进行了一些调整,以提高质量、连贯性和多分辨率生成能力。



模型擅长什么?


Stable Diffusion 3.5 版本在以下方面表现出色,使其成为市场上可定制化程度最高、最易于使用的图像模型之一,同时在 Prompt Adherence 和图像质量方面保持顶级性能:


  • 可定制性:轻松微调模型以满足您的特定创意需求,或基于自定义工作流程构建应用程序。


  • 高效的性能:经过优化,可在标准消费类硬件上运行,无需高要求,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo。


  • 多样化的输出:创建代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征,无需大量提示。




  • 多功能风格:能够生成各种风格和美学,如 3D、摄影、绘画、线条艺术,以及几乎任何可以想象的视觉风格。



此外,他们的分析表明,Stable Diffusion 3.5 Large 在 Prompt Adherence 方面领先市场,在图像质量方面可与更大的模型相媲美。


Stable Diffusion 3.5 Large Turbo 提供了同尺寸中最快的推理时间,同时在图像质量和 Prompt Adherence 方面保持了极具竞争力,即使与类似尺寸的 non-distilled 模型相比也是如此。


Stable Diffusion 3.5 Medium 的性能优于其他中型模型,在 Prompt Adherence 和图像质量之间取得了平衡,使其成为高效、高质量性能的首选。



学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章