Stable Diffusion作者团队成立AI公司“黑森林实验室”，已获a16z领投3100万美元融资

文摘 2024-08-02 10:09 中国香港

Stable Diffusion对开源图像生成领域带来了巨大的影响。他们的作者现在做什么呢？

昨天，a16z宣布投资了一家名为Black Forest Labs的AI公司。Black Forest Labs由 Robin Rombach、Patrick Esser 和 Andreas Blattmann 领导，他们是Stable Diffusion系列模型的原始共同创建者。

Black Forest Labs发布了一个12B的AI图像模型套件Flux.1，超越了Midjourney和DALL·E 3。同时，还预告了接下来要发布了文生视频模型，将会成为SOTA。

以下是关于Black Forest Labs的详细信息。

Black Forest Labs

Robin Rombach是Stable Diffusion的第一作者，也是SDXL、SD3的灵魂人物。此前，Robin Rombach带领研究团队（SD论文的大部分作者）离开了Stability AI出走创业。如今，创业公司正式官宣，Black Forest Labs。

Black Forest Labs是一支由杰出的 AI 研究人员和工程师组成的团队，在学术、工业和开源环境中开发基础生成式 AI 模型方面拥有出色的业绩。

他们在潜在扩散模型方面的工作为Stable Diffusion奠定了基础，并影响了 DALL-E 2 和 3 以及 Sora 等模型的核心架构元素。如今，Stable Diffusion已成为开源图像生成社区的支柱。在 Hugging Face 上，下载次数最多的 10 个文本转图像模型中有 9 个是基于稳定扩散的衍生模型。

团队的创新包括创建VQGAN和Latent Diffusion、用于图像和视频生成的Stable Diffusion模型（ Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers）以及用于超快速实时图像合成的Adversarial Diffusion Distillation。

Black Forest Labs的使命深深扎根于生成式人工智能研究社区，旨在为图像和视频等媒体开发和推进最先进的生成式深度学习模型，并突破创造力、效率和多样性的界限。

Black Forest Labs表示，生成式人工智能将成为所有未来技术的基本组成部分，通过向广大受众提供模型，希望将其好处带给每个人，教育公众并增强对这些模型安全性的信任。

Black Forest Labs决心为生成式媒体打造行业标准。8月1日，作为实现这一目标的第一步，Black Forest Labs发布了 FLUX.1 模型套件，推动了文本到图像合成的前沿发展。

Black Forest Labs的核心信念是，广泛使用的模型不仅能促进研究界和学术界的创新和协作，还能提高透明度，这对于信任和广泛采用至关重要。团队致力于开发最高质量的技术，并让尽可能广泛的受众能够使用它。

已获得3100万美元种子轮融资

Black Forest Labs宣布，已经完成了 3100 万美元的种子轮融资。

本轮融资由主要投资者Andreessen Horowitz（a16z）领投，天使投资人Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun以及其他知名的人工智能研究和公司建设专家也参与其中。

Black Forest Labs已收到来自General Catalyst和MätchVC的后续投资，以支持完成将欧洲最先进的人工智能带给全世界每个人的使命。

此外，Black Forest Labs的顾问委员会，包括在内容创作行业拥有丰富经验的Michael Ovitz ，以及神经风格转换的先驱和欧洲开放人工智能研究的领先专家Matthias Bethge 教授。

Flux.1 模型系列

Black Forest Labs发布了 FLUX.1 文本到图像模型套件，为文本到图像合成定义了图像细节、及时遵守、风格多样性和场景复杂性的全新最先进水平。

为了在可访问性和模型功能之间取得平衡，FLUX.1 有三种版本：FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]：

FLUX.1 [pro]：FLUX.1 的最佳功能，提供最先进的性能图像生成，具有顶级的即时跟踪、视觉质量、图像细节和输出多样性。用户可以通过API注册以访问 FLUX.1 [pro] ，也可通过Replicate和fal.ai获得。此外，还提供专用和定制的企业解决方案。

FLUX.1 [dev]：FLUX.1 [dev] 是一种开放权重、指导提炼的模型，适用于非商业应用。FLUX.1 [dev] 直接从 FLUX.1 [pro] 提炼而来，具有相似的质量和及时遵守能力，同时比同等大小的标准模型更高效。FLUX.1 [dev] 权重可在HuggingFace上使用，并可直接在Replicate或Fal.ai上试用。对于商业环境中的应用，需要取得公司的许可证。

FLUX.1 [schnell]：最快的模型是为本地开发和个人使用量身定制的。FLUX.1 [schnell] 在 Apache2.0 许可下公开可用。类似地，FLUX.1 [dev]，权重可在 Hugging Face 上使用，推理代码可在GitHub和HuggingFace 的 Diffusers中找到。此外，FLUX.1 [schnell] 在第一天就与ComfyUI集成。

所有公开的 FLUX.1 模型均基于多模态和 parallel diffusion transformer的混合架构，并缩放至 12B 个参数。通过基于流匹配（一种通用且概念简单的生成模型训练方法，其中包括扩散作为特例）改进了以前最先进的扩散模型。此外，通过结合旋转位置嵌入和并行注意层来提高模型性能并提高硬件效率。

在不久的将来会发布更详细的技术报告。

FLUX.1 定义了图像合成领域的最新技术。Black Forest Labs的模型在各自的模型类别中树立了新标准。FLUX.1 [pro] 和 [dev] 在以下每个方面都超越了 Midjourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra 等热门模型：视觉质量、快速跟进、尺寸/长宽变化、排版和输出多样性。FLUX.1 [schnell] 是迄今为止最先进的几步模型，其表现不仅优于同类竞争对手，还优于 Midjourney v6.0 和 DALL·E 3 (HD) 等强大的非蒸馏模型。模型经过专门微调，以保留预训练的整个输出多样性。与目前最先进的技术相比，它们提供了显着改进的可能性，如下所示

所有 FLUX.1 型号变体均支持 0.1 和 2.0 百万像素的多种宽高比和分辨率，如下例所示。

接下来：SOTA 让所有人都能将文本转为视频

在发布 FLUX.1 文本转图像模型套件后，Black Forest Labs还预告了接下来的进展：凭借强大的创作能力，这些模型为即将推出的具有竞争力的生成式文本转视频系统套件奠定了坚实的基础。视频模型将以高清和前所未有的速度实现精确的创作和编辑。致力于继续开拓生成媒体的未来。

AI图像与视频生成，真是越来越热闹了！

END.

延伸阅读

大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告

http://mp.weixin.qq.com/s?__biz=MzIxNTY4NzIyNw==&mid=2247486985&idx=1&sn=f6f00e27dd612525ae5cea05483174a6

猜想笔记

探索AI边界

最新文章

Runway CEO：AI时代终结，真正的新媒体诞生

Kimi投放1亿、豆包投放2亿，国产AI在投流上杀疯了

a16z确认拥有2万块H100 GPU，为初创公司提供低价算力换取股权

OpenAI计划于12月发布新模型Orion，你需要了解五个背景信息

Anthropic教会大模型以人类的方式使用电脑，RPA不存在了？

萨姆·奥特曼联合创立的加密货币“世界币”重大发布

红杉资本最新发布：o1模型如何推动生成式AI进入推理竞赛？

字节跳动悄悄发布第二代机器人大模型GR-2，初步具备世界模型能力

豆包“王炸”：字节跳动一天发布两款视频生成大模型

一文收藏最全面的大模型技术图表

被称为第一个杀手级应用的Cursor，到底比Github Copilot强在哪里？

大模型会是一场泡沫吗？

贾扬清团队发文阐述关于H100 GPU的一切

《时代》周刊评选2024年AI影响力100人，梁汝波、王小川入选领导者

红杉资本熔炉时刻第9集：50岁成立ServiceNow，到避免1500亿美元的错误

超10万钉钉低代码应用完成AI化

累计融资近10亿元，清华系AI公司「无问芯穹」要做大模型时代首选的“算力运营商”

23名员工，8000张H100，融资4.65亿美元，发布1亿Tokens上下文大模型

传米哈游联合创始人蔡浩宇创立AGI公司Anuttacon，两位大佬已加入

夸克发布全新PC端，系统级全场景AI能力升级AI电脑

英伟达撕下了大模型长文本的遮羞布

为企业定制大模型，AI21 Labs估值达14亿美元，英伟达也投资了

A16z发布Top100生成式AI产品排行榜：字节跳动6款上榜

原腾讯机器人实验室1号员工创业，投身具身智能，2024年完成商业化

FLUX挑战Midjourney文生图王者地位，网友已经玩疯了

福布斯发布Cloud 100云计算榜单：平均市值82亿美元

日本公司Sakana AI发布“AI科学家”，自动撰写论文一篇15美元

特斯拉Dojo：埃隆·马斯克打造人工智能超级计算机的大计划

钢铁、服务器和电力：赢得下一阶段AI竞赛的条件

格雷格·布洛克曼是如何加入OpenAI的？

阿里云推出首个域名AI大模型应用

华为云初创生态出品大模型报告：2024年中国AI大模型场景探索及产业应用

OpenAI再次流失三位高管，萨姆·奥特曼回归不到一年最大的成就是拆家？

火山引擎119页生成式AI商业落地白皮书：给CXO的AI转型战术指南

硅谷大模型洗牌，大厂正在批量收购AI公司CEO

Stable Diffusion作者团队成立AI公司“黑森林实验室”，已获a16z领投3100万美元融资

前Stability AI CEO成立的去中心化新公司SchellingAI：如何思考民主化AI

苹果发布Apple Intelligence技术报告：没有选英伟达，在8192块TPU上训练【全文翻译】

“Salesforce之死”：为什么AI将改变下一代销售技术？

AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

Anthropic表明对SB 1047 AI监管法案立场：如果修改就支持

Coatue发布具身智能报告：通用机器人不会有ChatGPT时刻

如何使用 Llama 3.1 405B 创建合成数据？

OpenAI加入AI搜索大战！正式内测SearchGPT，下周向Plus订阅用户推出

Llama 3.1论文精读：为什么模型参数是4050亿？

Mistral发布旗舰模型Mistral Large 2：1230亿参数，代码生成、数学和推理能力显著增强

刚刚，Meta 发布全球最大开源模型Llama 3.1 405B，15项测试拿了7个第一

xAI的10万卡H100超级集群上线，马斯克亲自在工厂接光纤

苹果没有发布7B小模型，而是发布了开源数据集测试平台DCLM

刚刚，OpenAI与Mistral同时发布了各自最强小模型，针尖对麦芒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉