TLDR
还记得 Stable Diffusion 吗?这款开源文本到图像生成模型,现在其部分创始成员成立了新公司 Black Forest Labs,并带来了全新的力作——Flux,一个拥有 120 亿参数的文本到图像模型,也是目前最大的开源模型。Flux 提供三个版本:FLUX.1 [dev](非商业开源基础模型)、FLUX.1 [schnell](速度提升 10 倍的精简版)和 FLUX.1 [pro](仅限 API 使用的闭源版本)。Flux 以其卓越的图像质量、先进的人体解剖结构和逼真度、更精准的提示依从性以及更快的生成速度,被誉为文本到图像生成领域的重大突破。
Stable Diffusion 创始人再创业,Flux 横空出世!
Stable Diffusion 作为开源文本到图像生成领域的先驱,以其强大的图像生成能力和对社区的开放态度,在 AI 领域掀起了一股创新浪潮。如今,Stable Diffusion 部分创始成员创建了新公司 Black Forest Labs,并带来了他们的最新力作——Flux,再次将文本到图像生成技术推向新的高度。
2024 年 8 月 1 日,Black Forest Labs 正式发布 Flux,并将其誉为“文本到图像模型的下一个飞跃”。Flux 拥有 120 亿个参数,是迄今为止最大的开源文本到图像模型,其生成图像的质量和细节水平令人惊叹,甚至可以与 Midjourney 媲美。Black Forest Labs 强调,Flux 的一大优势是其生成图像的质量和分辨率。
Prompt: Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word "FLUX" is painted over it in big, white brush strokes with visible texture.
Flux 的核心优势:更逼真、更精准、更多样
为了满足不同用户群体的需求,Black Forest Labs 发布了三种版本的 Flux 模型:
• FLUX.1 [dev]: 作为 Flux 家族的基础模型,FLUX.1 [dev] 采用了非商业许可证开源,并托管在 HuggingFace 平台上,供社区在其基础上构建。开发者和研究人员可以深入了解 Flux 的内部机制,并在此基础上进行改进和创新,推动模型的持续发展。
• FLUX.1 [schnell]: "Schnell" 在德语中意为“快速”,而 FLUX.1 [schnell] 也名副其实。作为基础模型的精简版,FLUX.1 [schnell] 继承了 Flux 家族强大的图像生成能力,同时运行速度最高可达基础模型的 10 倍。它采用 Apache 2 许可证开源,为开发者和研究人员提供了更大的灵活性和便利性,可以更轻松地在本地环境中进行开发和测试,而无需依赖强大的计算资源。
• FLUX.1 [pro]: 为了满足企业用户的需求,Black Forest Labs 还推出了 FLUX.1 [pro]。这是一个闭源版本,只能通过 API 使用。FLUX.1 [pro] 提供了更稳定、更可靠的图像生成服务,以及更高级的功能和定制选项,以满足企业用户的特定需求。
Flux 模型凭借其强大的功能和卓越的性能,为用户带来了前所未有的文本到图像生成体验:
• 增强的图像质量: Flux 模型能够生成更高分辨率、更精细的图像,无论是细节刻画还是色彩还原都达到了新的高度。
Prompt: Portrait of a woman with sleek, black hair, her serene face framed by the collar of a light gray Patagonia fleece jacket. She gazes directly at the camera, a subtle strength in her eyes. The background is a soft-focus panorama of Huangshan's iconic peaks, bathed in the warm, golden light of a setting sun. The mood is tranquil yet powerful, echoing the timeless beauty of the mountains.
• 先进的人体解剖结构和逼真度: Flux 模型在生成人体图像时,能够更准确地表现人体的解剖结构,生成高度逼真的人物图像。
• 改进的提示依从性: Flux 模型能够更好地理解用户的文本提示,生成更符合用户预期,更精准的图像。
Prompt: A richly laden table appears amidst a misty mountain forest. Unseen hands, wreathed in ethereal light, arrange bowls of fantastical delicacies – glowing fruits, steaming dumplings, jade-colored tea. Capture the intricate details of mystical cuisine, inspired by Chinese folklore. The scene evokes wonder and enchantment, hinting at a magical feast for weary travelers on the Journey to the West.
• 卓越的速度: 特别是 Flux Schnell 版本,其运行速度相比之前的模型有了显著提升,能够在更短的时间内生成高质量的图像。
Flux 背后的技术创新:混合架构与“流匹配”技术
Flux 之所以能取得如此优异的性能,主要归功于两大技术创新:
1. 混合架构: Flux 采用了一种创新的混合架构,它结合了多模态和并行扩散变换器块的优势。多模态特性使 Flux 能够捕捉图像的不同方面,而并行计算则提高了图像生成的效率。这种混合架构赋予了 Flux 强大的图像生成能力,使其能够生成更逼真、更细腻的图像。
Prompt: A giant potato in sunglasses and a Hawaiian shirt lounges on a beach towel surrounded by colorful beach balls and flip-flops. Nearby, anthropomorphic fruits play beach volleyball. In the background, a lighthouse sand sculpture stands next to an ice cream truck with a giant cone, serving treats to cheerful beachgoers. The scene captures a fun, playful summer vibe with the sound of waves crashing nearby.
2. “流匹配”技术: 与传统的扩散模型不同,Flux 采用了一种名为“流匹配”的技术来训练生成模型。这种方法更加通用和简洁,将扩散模型视为一个特例,并通过学习数据分布和模型分布之间的可逆变换来实现高效的图像生成。“流匹配”技术的应用,使得 Flux 模型在训练过程中能够更有效地学习数据的特征,从而生成更逼真、更自然的图像。
Black Forest Labs :开源 AI 生力军
Black Forest Labs 由 Robin Rombach 和 Patrick Esser 等 Stable Diffusion 核心成员创建,致力于开发最先进的生成式 AI 模型,推动图像和视频生成技术的进步。Black Forest Labs 的使命是让生成式 AI 成为未来所有技术的基石,并通过将其模型提供给广大用户,造福每个人,教育公众,并增强对这些模型安全的信任。
Black Forest Labs 在 2024 年 8 月成功完成了 3100 万美元的种子轮融资,由 Andreessen Horowitz 领投,Brendan Iribe、Michael Ovitz 和 Garry Tan 等知名投资者也参与其中。这笔资金将用于支持 Black Forest Labs 继续开发 cutting-edge 的生成式深度学习模型,包括图像和视频领域。Black Forest Labs 团队成员均为经验丰富的 AI 研究人员和工程师,他们在生成式 AI 领域拥有丰富的经验和卓越的成就。
Flux 的未来:引领文本到图像生成的新浪潮
Flux 的发布标志着 Black Forest Labs 向着成为生成式 AI 领域领导者的目标迈出了坚实的一步。Flux 的开源特性将使其成为开发者和研究人员的强大工具,推动文本到图像生成技术的快速发展和应用。Black Forest Labs 表示,他们将继续致力于 Flux 模型的研发和改进,并计划在未来推出更多功能更强大、性能更优异的版本。他们相信,在不久的将来,Flux 将会成为文本到图像生成领域的标杆,并引领生成式 AI 技术的新浪潮。
相关链接
• Flux 的发布博客: https://blog.fal.ai/flux-the-largest-open-sourced-text2img-model-now-available-on-fal/
• Black Forest Labs 的官方网站: https://blackforestlabs.ai/announcing-black-forest-labs/?ref=blog.fal.ai
• FLUX.1 [dev] 模型权重: https://huggingface.co/black-forest-labs/FLUX.1-dev
• FLUX.1 [schnell] 推理代码: https://github.com/black-forest-labs/flux
• FLUX.1 [pro] API 文档: https://docs.bfl.ml/