Stable Diffusion对开源图像生成领域带来了巨大的影响。他们的作者现在做什么呢?
昨天,a16z宣布投资了一家名为Black Forest Labs的AI公司。Black Forest Labs由 Robin Rombach、Patrick Esser 和 Andreas Blattmann 领导,他们是Stable Diffusion系列模型的原始共同创建者。
Black Forest Labs发布了一个12B的AI图像模型套件Flux.1,超越了Midjourney和DALL·E 3。同时,还预告了接下来要发布了文生视频模型,将会成为SOTA。
以下是关于Black Forest Labs的详细信息。
//
Black Forest Labs
Robin Rombach是Stable Diffusion的第一作者,也是SDXL、SD3的灵魂人物。此前,Robin Rombach带领研究团队(SD论文的大部分作者)离开了Stability AI出走创业。如今,创业公司正式官宣,Black Forest Labs。
Black Forest Labs是一支由杰出的 AI 研究人员和工程师组成的团队,在学术、工业和开源环境中开发基础生成式 AI 模型方面拥有出色的业绩。
他们在潜在扩散模型方面的工作为Stable Diffusion奠定了基础,并影响了 DALL-E 2 和 3 以及 Sora 等模型的核心架构元素。如今,Stable Diffusion已成为开源图像生成社区的支柱。在 Hugging Face 上,下载次数最多的 10 个文本转图像模型中有 9 个是基于稳定扩散的衍生模型。
团队的创新包括创建VQGAN和Latent Diffusion、用于图像和视频生成的Stable Diffusion模型( Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers)以及用于超快速实时图像合成的Adversarial Diffusion Distillation。
Black Forest Labs的使命深深扎根于生成式人工智能研究社区,旨在为图像和视频等媒体开发和推进最先进的生成式深度学习模型,并突破创造力、效率和多样性的界限。
Black Forest Labs表示,生成式人工智能将成为所有未来技术的基本组成部分,通过向广大受众提供模型,希望将其好处带给每个人,教育公众并增强对这些模型安全性的信任。
Black Forest Labs决心为生成式媒体打造行业标准。8月1日,作为实现这一目标的第一步,Black Forest Labs发布了 FLUX.1 模型套件,推动了文本到图像合成的前沿发展。
Black Forest Labs的核心信念是,广泛使用的模型不仅能促进研究界和学术界的创新和协作,还能提高透明度,这对于信任和广泛采用至关重要。团队致力于开发最高质量的技术,并让尽可能广泛的受众能够使用它。
已获得3100万美元种子轮融资
Black Forest Labs宣布,已经完成了 3100 万美元的种子轮融资。
本轮融资由主要投资者Andreessen Horowitz(a16z)领投,天使投资人Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun以及其他知名的人工智能研究和公司建设专家也参与其中。
Black Forest Labs已收到来自General Catalyst和MätchVC的后续投资,以支持完成将欧洲最先进的人工智能带给全世界每个人的使命。
此外,Black Forest Labs的顾问委员会,包括在内容创作行业拥有丰富经验的Michael Ovitz ,以及神经风格转换的先驱和欧洲开放人工智能研究的领先专家Matthias Bethge 教授。
Flux.1 模型系列
Black Forest Labs发布了 FLUX.1 文本到图像模型套件,为文本到图像合成定义了图像细节、及时遵守、风格多样性和场景复杂性的全新最先进水平。
为了在可访问性和模型功能之间取得平衡,FLUX.1 有三种版本:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]:
FLUX.1 [pro]:FLUX.1 的最佳功能,提供最先进的性能图像生成,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性。用户可以通过API注册以访问 FLUX.1 [pro] ,也可通过Replicate和fal.ai获得。此外,还提供专用和定制的企业解决方案。
FLUX.1 [dev]:FLUX.1 [dev] 是一种开放权重、指导提炼的模型,适用于非商业应用。FLUX.1 [dev] 直接从 FLUX.1 [pro] 提炼而来,具有相似的质量和及时遵守能力,同时比同等大小的标准模型更高效。FLUX.1 [dev] 权重可在HuggingFace上使用,并可直接在Replicate或Fal.ai上试用。对于商业环境中的应用,需要取得公司的许可证。
FLUX.1 [schnell]:最快的模型是为本地开发和个人使用量身定制的。FLUX.1 [schnell] 在 Apache2.0 许可下公开可用。类似地,FLUX.1 [dev],权重可在 Hugging Face 上使用,推理代码可在GitHub和HuggingFace 的 Diffusers中找到。此外,FLUX.1 [schnell] 在第一天就与ComfyUI集成。
所有公开的 FLUX.1 模型均基于多模态和 parallel diffusion transformer的混合架构,并缩放至 12B 个参数。通过基于流匹配(一种通用且概念简单的生成模型训练方法,其中包括扩散作为特例)改进了以前最先进的扩散模型。此外,通过结合旋转位置嵌入和并行注意层来提高模型性能并提高硬件效率。
在不久的将来会发布更详细的技术报告。
FLUX.1 定义了图像合成领域的最新技术。Black Forest Labs的模型在各自的模型类别中树立了新标准。FLUX.1 [pro] 和 [dev] 在以下每个方面都超越了 Midjourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra 等热门模型:视觉质量、快速跟进、尺寸/长宽变化、排版和输出多样性。FLUX.1 [schnell] 是迄今为止最先进的几步模型,其表现不仅优于同类竞争对手,还优于 Midjourney v6.0 和 DALL·E 3 (HD) 等强大的非蒸馏模型。模型经过专门微调,以保留预训练的整个输出多样性。与目前最先进的技术相比,它们提供了显着改进的可能性,如下所示
所有 FLUX.1 型号变体均支持 0.1 和 2.0 百万像素的多种宽高比和分辨率,如下例所示。
接下来:SOTA 让所有人都能将文本转为视频
在发布 FLUX.1 文本转图像模型套件后,Black Forest Labs还预告了接下来的进展:凭借强大的创作能力,这些模型为即将推出的具有竞争力的生成式文本转视频系统套件奠定了坚实的基础。视频模型将以高清和前所未有的速度实现精确的创作和编辑。致力于继续开拓生成媒体的未来。
AI图像与视频生成,真是越来越热闹了!
END.
延伸阅读