来了！Stability AI 推出 Stable Diffusion 3.5

学术 2024-10-23 12:26 北京

今日凌晨，Stability AI 推出了 Stable Diffusion 3.5，这是他们迄今为止最强大的模型。这一开放版本包括多个模型变体，包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo，以及一周后将发布的 Stable Diffusion 3.5 Medium。

据介绍，这些模型的大小是高度可定制的，能在消费级硬件上运行，并可根据允许的 Stability AI Community License 免费用于商业和非商业用途。现在可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo，并在 GitHub 上下载推理代码。

Stability AI 指出，他们于 6 月发布的 Stable Diffusion 3 Medium（Stable Diffusion 3 系列的第一个开放版本）未能完全满足他们的标准和社区的期望。因此，在听取了宝贵的社区反馈后，他们花时间进一步开发了一个版本，以推进他们改变视觉媒体的使命—— Stable Diffusion 3.5 应运而生。

Stable Diffusion 3.5 充分实现了 Stability AI 的承诺，即为构建者和创作者提供可广泛访问、最前沿且在大多数用例中免费的工具。他们鼓励在整个流程中对作品进行发布和货币化，无论是微调、LoRA、优化、应用还是艺术作品。

在最新官方文章中，他们分享了在模型开发中的一些研究心得、Stable Diffusion 3.5 版本的强大功能以及公司的下一步计划等内容。

发布内容

Stable Diffusion 3.5 提供了多种模型，以满足科研人员、业余爱好者、初创公司和企业的需求：

Stable Diffusion 3.5 Large：该基本模型具有 80 亿个参数，具有卓越的质量和及时的依从性，是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 MP 分辨率的专业用例。
Stable Diffusion 3.5 Large Turbo：Stable Diffusion 3.5 Large 的精简版本只需 4 个步骤即可生成具有出色快速粘附性的高质量图像，使其比 Stable Diffusion 3.5 Large 快得多。
Stable Diffusion 3.5 Medium（将于 10 月 29 日发布）：该模型拥有 25 亿个参数，具有改进的 MMDiT-X 架构和训练方法，旨在“开箱即用”地在消费类硬件上运行，在质量和易于定制之间取得平衡。它能够生成分辨率在 0.25 到 2 MP 之间的图像。

开发模型

在开发模型时，Stability AI 优先考虑可定制性，以提供灵活的构建基础。为此，他们将 Query-Key Normalization 集成到 transformer 模块中，稳定了模型训练过程并简化了进一步的微调和开发。

为了支持这种级别的下游灵活性，他们必须做出一些权衡。具有不同 seeds 的同一 prompt 的输出可能会发生更大的变化，这是有意为之的，因为它有助于在基本模型中保留更广泛的知识库和不同的风格。然而，因此，缺乏特异性的提示可能会导致输出的不确定性增加，并且审美水平可能会有所不同。

特别是对于 Medium 模型，他们对架构和训练协议进行了一些调整，以提高质量、连贯性和多分辨率生成能力。

模型擅长什么？

Stable Diffusion 3.5 版本在以下方面表现出色，使其成为市场上可定制化程度最高、最易于使用的图像模型之一，同时在 Prompt Adherence 和图像质量方面保持顶级性能：

可定制性：轻松微调模型以满足您的特定创意需求，或基于自定义工作流程构建应用程序。
高效的性能：经过优化，可在标准消费类硬件上运行，无需高要求，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo。
多样化的输出：创建代表世界的图像，而不仅仅是一种类型的人，具有不同的肤色和特征，无需大量提示。

多功能风格：能够生成各种风格和美学，如 3D、摄影、绘画、线条艺术，以及几乎任何可以想象的视觉风格。

此外，他们的分析表明，Stable Diffusion 3.5 Large 在 Prompt Adherence 方面领先市场，在图像质量方面可与更大的模型相媲美。

Stable Diffusion 3.5 Large Turbo 提供了同尺寸中最快的推理时间，同时在图像质量和 Prompt Adherence 方面保持了极具竞争力，即使与类似尺寸的 non-distilled 模型相比也是如此。

Stable Diffusion 3.5 Medium 的性能优于其他中型模型，在 Prompt Adherence 和图像质量之间取得了平衡，使其成为高效、高质量性能的首选。

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592563&idx=1&sn=ff293cfa012caadd9ff352a7a149ab87

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉