Stable Diffusion 3.5重磅开源三个最新版本,文生图模型霸主归来!

文摘   2024-11-08 08:02   浙江  
近期文章回顾(更多热门文章请关注公众号与知乎Rocky Ding哦)

写在前面

WeThinkIn最新福利放送:大家只需关注WeThinkIn公众号,后台回复“简历资源”,即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源,希望能给大家在AIGC时代带来帮助。

AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍(持续更新)独家资源:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章(持续更新),点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402


终于,Stability AI发布了自家最强的模型Stable Diffusion 3.5,而且是一个全家桶,包含三个版本。

链接:https://huggingface.co/stabilityai

Stable Diffusion 3.5 可以满足科研人员、业务爱好者、初创公司和企业的多样化需求,其中包括:

Stable Diffusion 3.5 Large:该基础模型拥有 80 亿参数,性能优于竞品模型并且响应迅速,是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 百万像素分辨率的专业用例。

Stable Diffusion 3.5 Large Turbo:该模型是 Stable Diffusion 3.5 Large 的蒸馏版本,只需四步即可生成高质量图像,速度远快于Stable Diffusion 3.5 Large。

Stable Diffusion 3.5 Medium:该模型拥有 25亿参数,采用改进的MMDiT-X架构和训练方法,可在消费级硬件上「开箱即用」,在质量和定制易用性之间实现了平衡。该模型能够生成分辨率在0.25到2百万像素之间的图像。

可以看到,以上模型均有较大幅度的升级。Stability AI 表示,在今年 6 月发布Stable Diffusion 3 Medium后发现模型没有满足社区的期望。因此在听到反馈意见后没有采取快速修复措施,而是「花时间进一步开发了一个新版本,以推进改造视觉媒体的使命。」

模型开发技巧

在开发模型时,Stability AI优先考虑可定制性,以提供灵活的构建基础。为了实现这一点,他们将Query-Key Normalization集成到transformer块中,稳定了模型训练过程并简化了进一步的微调和开发。

为了支持下游灵活性,Stability AI还必须做出一些权衡。使用不同种子的同一提示可能会产生很大的输出差异,这是有意为之,因为它有助于在基础模型中保留更广泛的知识库和多样化的风格。不过,缺乏特异性的提示可能会导致输出不确定性增加,并且美学水平可能会有所不同。

尤其是针对Medium版本,Stability AI 对架构和训练协议进行了一些调整,以提高质量、连贯性和多分辨率生成能力。

模型的优势

据介绍,Stable Diffusion 3.5各版本模型在以下多个方面表现出色:

可定制性:轻松微调模型以满足特定创作需求,或根据定制的工作流程构建应用程序。

高效性能:经过优化,均可在标准消费级硬件上运行,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。

多样化输出:无需大量提示,即可创建代表全世界的图像,而不仅仅是一种肤色和特征的人。

风格多样:能够生成各种风格和美感的图片,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。

可见,在这一代的模型中,Stability AI已经提前考虑好了手机等设备的运行。

此外,Stability AI表示,Stable Diffusion 3.5 Large在prompt adherence方面处于领先地位,并且在图像质量方面可与更大的型号相媲美。

Stable Diffusion 3.5 Large Turbo在同类模型中,推理速度最快,同时在图像质量和及时性方面保持了高度竞争力,即使与类似尺寸的非蒸馏模型相比也是如此。

Stable Diffusion 3.5 Medium 的表现优于其他中型型号,在prompt adherence和图像质量之间实现了平衡,使其成为高效、高质量性能的首选。

有人第一时间对比了Stable Diffusion 3.5 Large与FLUX 1.1 pro的生图效果。

除了Hugging Face上托管的模型以外,还有更多访问新模型的方式:

  • Stability AI API:https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post
  • Replicate:https://replicate.com/stability-ai/stable-diffusion-3.5-large
  • ComfyUI:https://blog.comfy.org/sd3-5-comfyui/
  • 以及DeepInfra

此外,在新版本模型中,Stability AI 从开发的早期阶段就引入了安全、负责任的 AI 实践。

最后,Stability AI 表示,Stable Diffusion 3.5 Medium 将在 10 月 29 日公开发布。不久之后,ControlNets 也将推出,为各种专业用例提供高级控制功能。

推荐阅读

1、加入AIGCmagic社区知识星球

AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等

那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,前200名限量活动价,终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠:

2、《三年面试五年模拟》算法工程师面试秘籍

《三年面试五年模拟》面试秘籍旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法,力求让读者在获得心仪offer的同时,增强技术基本面。

Rocky已经将《三年面试五年模拟》面试秘籍的完整版构建在Github上:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main,欢迎大家star!

《三年面试五年模拟》面试秘籍的内容框架

想要一起进行项目共建的朋友,欢迎点击链接加入项目团队:《三年面试五年模拟》版本更新白皮书,迎接AIGC时代

3、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

Sora等AI视频大模型文章地址:https://zhuanlan.zhihu.com/p/706722494

4、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

Stable Diffusion 3和FLUX.1文章地址:https://zhuanlan.zhihu.com/p/684068402

5、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260

6、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634

7、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126

8、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126

9、Transformer核心基础知识,核心网络结构,AIGC时代的Transformer新内涵,各AI领域Transformer的应用落地,Transformer未来发展趋势等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

Transformer文章地址:https://zhuanlan.zhihu.com/p/709874399

10、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!

码字不易,欢迎大家多多点赞:

AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114

11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!

码字不易,欢迎大家多多点赞:

算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303

《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer

12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761

13、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306

14、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。

WeThinkIn
Rocky相信人工智能,数据科学,商业逻辑,金融工具,终身成长,以及顺应时代的潮流会赋予我们超能力。
 最新文章