FLUX.1：搅局百亿AI图像生成市场的最佳平替？

科技 2024-09-28 14:51 上海

还记得2021年OpenAI推出DALL-E那天吗？当时大家对文字生成图片的概念一头雾水，但也好奇心爆棚。而接下来几年，AI图像生成行业以惊人的速度增长，如今已经变成一个巨大产业，让各大广告公司兴奋得摩拳擦掌。

从千万到百亿，AI图像生成器的野心

根据最新研究，全球AI图像生成市场在2023年的营收达到了3.496亿美元，并有望在2030年达到10.81亿美元的规模。很多公司已经在用这些AI图像生成器来制作广告，以此节省成本。不信？你可能见过Coca-Cola的广告，又或是某些AI虚拟“网红”在为品牌代言。用途广泛得让人眼花缭乱，就连亚马逊也加入了AI生成图像的行列，在其广告中使用这些看起来几乎可以以假乱真的虚拟模特。

亚马逊印度站正在用AI生成的图片来打广告

在这个前景广阔的市场中，有Midjourney、Adobe、OpenAI、Stability AI、Google、微软、Leonardo AI、Runway AI等许多公司纷纷入局。直到2024年7月，AI图像生成领域的领头羊还包括Midjourney V6.1、OpenAI的DALL-E 3，以及Stability AI的开源Stable Diffusion模型。

黑马FLUX.1横空出世

但这一切在2024年8月1日被打破，一家名叫Black Forest Labs的初创公司推出了FLUX.1，令许多业内专家都大跌眼镜，而一些头部AI图像生成公司则感到十分不安。为啥呢？因为FLUX.1不仅能够生成最逼真的图像，而且它是开源的！没错，开源的！想象一下，生成超级精致的AI图像，而你不必花大价钱。那些闭源、收费的老牌公司要坐不住了。

这款“新AI图像生力军”FLUX.1的背后，是原先开发Stable Diffusion以及发明潜在扩散（latent diffusion）技术的团队。公司总部位于德国，并成功获得了3100万美元的种子轮融资，能不让人瞠目结舌吗？

FLUX.1的三大型号

FLUX.1目前有三个主要型号，它们分别是：

FLUX.1 Pro

这是旗舰模型，以卓越的提示词理解能力、画面质量、图像细节和输出多样性著称。它使用先进的AI技术，包括扩散模型和Transformer架构，能生成高度反映复杂文本提示的高质量图像。主要通过API提供，适合商业应用，是专业用途的不二之选。

FLUX.1 Dev

FLUX.1 Pro的“浓缩版”，专为非商业用途设计。虽然相比Pro，它的效率更高但尺寸更小，依旧保持了相似的图像质量和提示词理解力。这个模型是开源的，可以供个人和研究使用，使用上没有商业限制。

FLUX.1 Schnell

FLUX家族中的“速度之王”，专为本地开发和个人使用优化。它在Apache 2.0许可证下开放，适合那些想要快速实验AI图像生成、但不想受制于商业授权的用户。该模型优先考虑速度和效率，适合快速原型和个人项目。

如何使用FLUX.1模型？

访问FLUX.1模型的最佳途径就是去Hugging Face，一个致力于自然语言处理（NLP）和机器学习的知名AI公司和社区平台。Hugging Face现已成为AI社区的中心，尤其是那些从事语言相关AI任务的研究者们的天堂。

在Hugging Face平台上，你可以找到FLUX.1 DEV的空间，输入提示词并运行生成图片。然而，使用Hugging Face也有一个问题，就是使用频率有限，因为它允许所有人访问，这意味着等待时间有时可能会很长。

为了解决这些问题，Black Forest Labs与一些合作伙伴建立了合作，比如fal.ai、replicate、Freepik等平台。有免费和付费计划可供选择，你可以根据自己的需求来选择。对于我来说，我选了Premium订阅，能使用所有FLUX.1的模型，费用也相对划算。

Freepik上可以使用FLUX.1的所有模型

FLUX.1的“画质爆表”到底有多厉害？

别光听我说，我来给你展示几个生成的例子。比如使用FLUX.1 Pro生成的一些电影场景，你可以看到印度裔女孩与未来机器互动的场景，背景中复杂的机器设计灵感来源于H.R. Giger和艾舍尔，还融合了斯坦利·库布里克电影中的荒诞元素。你能想象到的复杂场景和细节，FLUX.1一次搞定。

对于AI图像生成爱好者们来说，文字渲染的痛点可谓刻骨铭心。但使用FLUX.1，你就再也不需要为此操心了，任何你想在图像中展示的文字，只要输入提示词，它就能原封不动地呈现出来。

Midjourney、Leonardo和FLUX.1的对比之战

来看看这三款模型生成的同一提示词下的图像：一个西班牙老奶奶在乡村家中的肖像。Midjourney的版本细腻，Leonardo AI的Lightning XL也不差，但FLUX.1 Pro生成的图像往往更加真实，细节甚至比Midjourney更丰富。

再来看FLUX.1 Dev和Midjourney生成的一张派对自拍。

Dev版只是FLUX.1的“家庭版”，却能与Midjourney相媲美，这真是让人刮目相看。

场景插图——让想象无限扩展

利用FLUX.1 Pro生成的一些插图，像是以“恐怖”为主题的中世纪城堡场景，或者以“太空探索”为主题的火星登陆画面，展示了如何将文字与场景结合，轻松创造引人注目的内容。不论是社交媒体推广还是产品宣传，这种视觉冲击力都很难被忽视。

家里拍张照片都能不“真实”了

还有个好玩的场景：用FLUX.1生成了一张老爷爷在客厅自拍的照片，手里举着纸牌，上面写着“我不是真的”。这种“手持认证”的场景，银行和一些在线验证网站爱用来防假人，而如今AI生成这种场景也是轻而易举。标题中的那张图也是用这个模型生成的，稍作了一些改动。

每天，AI图像生成工具都在不断改进，生成的图像也越来越难以辨别真假。许多行业早已利用这些工具开始赚钱，而广告公司和社交媒体网红们也在享受着AI图像的红利。到2030年，这个行业究竟会不会突破十亿美元大关？让我们拭目以待。

无广告无赞助的人工智障

AI时代的见证人｜Witnesses to the AI Era

最新文章

2024年的AI：是进化还是革命？——我们到底走了多远？

249美刀的NVIDIA Jetson Orin Nano Super值得买吗？AI神器还是智商税？

2017年的预言：Ilya Sutskever，到底打脸了多少？

Gemini 2.0 VS GPT-4o：谷歌这波是AI界的大爆杀？

Gemini 2.0 Flash PK Claude Sonnet 3.5：谷歌偷走了SWE-Bench的王冠？

没有广告，这就是我对这些AI工具付费后的真实感受

最值当的AI：哪些AI服务真的值得投入？

OpenAI推出200美元Pro计划：颠覆性创新还是智商税？

美国最新制裁意味着什么？对我国AI行业有什么影响

2024适用于LLM推理的最佳NVIDIA GPU大指南

你还在用AI写作文，人家已经用它去做这50件超值的事情改变生活了

面试现形记——疯狂时代中疯子们用AI来面试

AI审美疲劳：为什么厌倦了？

月之暗面：Kimi探索版发布、法律纠纷与融资增长的多重挑战

台积电因为川普当选瑟瑟发抖，全面禁运7纳米芯片到我国？

川普当选，这家中国科技公司最高兴，它的AI名叫？

为什么我试了SearchGPT之后，又乖乖回到Perplexity的怀抱

2024最佳科研AI工具对比：Consensus、SciSpace、Elicit及其他

Perplexity Pro用户有福了，可以免费用 Grok-2了

苹果认为的AI的“真相”报告，出乎意料？

我私藏的5个超棒的网站（不完全是AI），今天用来吸粉

Sonnet 4.0 真已经悄悄上线了吗？深度解读 Anthropic 的最新更新

Claude 3.6：它真的比你聪明，还是只是在死守规则？

Claude 的 Haiku 3.5：真的让你的生产力提升了一个档次？

Claude 3.5 Sonnet 新的系统提示词：更灵活的进步还是仅仅更长的提示词？

总结如何使用AI提示词撰写SEO优化文章（Prompt分享）

工作20年，拥有10万封邮件，用AI挖掘他们的价值？

你应该用AI构建什么——分析400家YCombinator支持的AI初创公司

ChatGPT的新未来， GPT-4o with Canvas？案例和prompt分享

本地运行大语言模型？这6个工具居然没人推荐

书上学不到的30条关于AI的总结

ChatGPT-4o 给我的日常生活带来的20大改变（每个都有prompt！）