超越Midjourney最强AI绘画FLUX.1发布

文摘科技 2024-08-10 07:30 江苏

引言

Flux.1 已经面世，为世界上的开源重量级AI图像绘画模型树立了新的标杆。它具有120 亿个参数量，在图像质量和性能方面超越了 Midjourney V6、OpenAI 的 Dall-E 3 和 Stability AI 的 SD3 Ultra 等行业巨头。

Flux.1 背后的团队有着有趣的历史。

他们是稳定扩散技术Stable Diffusion的最初开发者，也是潜在扩散技术latent diffusion的发明者。Stability AI公司出现了一些内部问题之后，团队核心成员相继离开，成立了一家名为 Black Forest Labs 的新公司。

这种 "技术外流 "往往会带来创新。当有才能的团队独立出来时，他们就可以自由地追求大胆的新想法，而不受大型组织的限制。

什么是FLUX.1 ？

Flux.1 是一套文本到图像生成的模型，它在图像细节、风格多样性和场景复杂性等方面创造了了文本到图像生成的新高度（SOTA）。

Black Forest Labs 共发布了三个开源模型：

Flux.1 Pro： 在图像生成视觉质量、图像细节和输出多样性上，达到了最先进的水平。
Flux.1 Dev： 这是一个开源权重、经过蒸馏后的模型，专为非商业用途而设计。它是从 Flux.1 Pro 中蒸馏出来的，达到了类似的质量，同时比相同大小的一般模型更加高效。
Flux.1 Schnell： 这是他们最快的模型，专为本地开发和个人使用而设计。它在 Apache 2.0 许可下开放使用

所有开源的 Flux.1 模型都使用了多模态和并行扩散Transformer块，共有 120 亿个参数量。这些模型比早期的扩散模型更好，因为它们使用了流式匹配，这是一种易于理解的方法，用于训练包括扩散模型在内的生成式模型。

此外，通过使用旋转位置编码嵌入和并行注意力机制层，这些模型的性能更好，使用硬件的效率更高。

性能对比

据研究人员称，Flux.1 Pro 和 Flux.1 Dev 在以下各方面都超过了 Midjourney v6.0、Dall-E3 和 Stable Diffusion 3 Ultra 等流行AI绘画模型：

视觉质量
提示词一致性
尺寸/纵横比的多样性
字体排版
输出多样性

但真的是这样吗? 我们不妨亲自来看些例子：

Prompt: old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome

提示：戴眼镜的老人肖像，照片，50mm，f1.4，自然光，铅灰色

Flux.1生成效果

Midjourney V6.1

Midjourney v6.0

您认为哪一款最好看？

如上图所示，所有 Flux.1的模型都支持不同的长宽比和分辨率，从 10 万像素到 200 万像素不等。

示例介绍

接下来，我们来看看使用 Flux.1 Pro 生成的一些令人惊叹的示例图像。让我们从人物图片开始，主要关注细节，如头发、皱纹、手指和四肢。

可以看到，生成人像中的细节部分，如头发、皱纹和手指等人体特征的细节逼真程度都非常出色。

Prompt: A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”

提示：一个拿着粉笔的机器人看着一块黑板，黑板上写着如下诗句："在像素的舞蹈中，人工智能的技艺将崛起，通过机器的眼睛改变视觉，从梦境到屏幕，新的世界展开了，人工智能的画笔重塑了我们的视觉世界"。

生成效果如下：

我们知道，文字渲染是人工智能图像生成中最难的领域之一。即使是最新版本的 Midjourney v6.1 在我的初步测试中仍然失败。Flux.1 似乎真的很不错，即使是具有挑战的长文本。

Prompt: beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry

提示：精美的动漫作品，一个看起来很沮丧的可爱动漫猫女拿着一张纸，纸上画着一个微笑，她的嘴上画着一个微笑，她要哭了

生成效果如下：

这看起来令人难以置信。柔和的色调和发光的高光使其看起来专业而精致，堪与手绘艺术品相媲美。

逼真程度

一些可以访问 Flux 的用户很快就发现了这些生成的图像是多么的逼真。以下是网络上用户分享的一些使用FLUX生成的超逼真的自拍肖像。

作为一个尝试过多个人工智能图像生成器的人，我可以自信地说，这是我见过的最逼真的人工智能生成的肖像。

如何访问？

对于那些渴望尝试 Flux.1 的人，有以下几种免费的方式供选择：

Replicate： https://replicate.com/black-forest-labs/flux-pro
HuggingFace： https://huggingface.co/black-forest-labs/FLUX.1-dev?text=an+image+of+an+astronaut+riding+a+horse+in+space
Fal： https://fal.ai/models/fal-ai/flux-pro

下面是使用Replicate生成的示例。

Prompt: The world’s largest black forest cake, the size of a building, surrounded by trees of the black forest

提示：世界上最大的黑森林蛋糕，有一栋楼那么大，周围环绕着黑森林的树木

下面是使用Fal生成的示例。

Prompt: Extreme closeup of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.

提示：一只虎眼的超大特写，正面直视。详细描述虹膜和瞳孔。突出眼睛的纹理和颜色。自然光线，捕捉真实的眼睛光泽和深度。用白色大笔触在上面画上 "FLUX "字样，纹理清晰可见。

下面是HuggingFace上使用FLUX模型生成的示例。

Prompt: An image of an astronaut riding a horse in space

提示：宇航员在太空骑马的图像

许可协议

现在，有些人可能会想，我能出于商业目的出售生成的图片吗？答案是可以或不可以，这取决于你使用的模式。

Flux.1 Pro：Flux.1 Pro 的商业使用是经过许可的，但目前仅限合作伙伴通过 Replicate 和 Fal.ai 等平台访问该模型。
Flux.1 Dev：图像的使用仅限于非商业目的，这意味着大家不能出于商业目的出售或分发本模型生成的图像。
Flux.1 Schnell：它在 Apache 2.0 许可下公开发布，使用起来更加灵活。这意味着，只要你遵守 Apache 2.0 许可协议的条款，就可以将 Flux.1 Schnell 用于个人和商业目的。

总之，如果您希望将 Flux.1 模型用于商业用途，Flux.1 Pro 和 Flux.1 Schnell 是您的最佳选择。Flux.1 Pro 可提供最高的生成质量，并可通过特定的合作关系获得，而 Flux.1 Schnell 则可根据开源许可协议可提供更方便的解决方案。

总结

虽然 Flux 模型的开源权重令人感到兴奋，但也有一个实际限制需要考虑。在本地部署大型语言模型（LLM）一起运行这些模型时需要强大的算力--通常是 A100 GPU 或更高。Flux.1 有 120 亿个参数量（磁盘容量有 24 GB），加上 9 GB 的文本编码器，大多数消费级硬件都无法胜任。

不过开放权重模型的Schnell也已经非常出色。我毫不怀疑，社区将努力寻找新的技术来调整、训练和扩展逐步精简的 Apache 2.0 版本。我很期待看到经过微调的模型能够产生更多令人惊叹的图像。

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

DeepSeek-R1模型架构深度解读（七）弄懂FP8-Training

使用DeepSeek-R1和Ollama搭建本地RAG知识库

2025年最火大模型DeepSeek-R1资源汇总

DeepSeek-R1模型架构深度解读（六）弄懂无辅助损失负载平衡算法

DeepSeek-R1模型架构深度解读（五）弄懂DualPipe

DeepSeek-R1模型架构深度解读（四）弄懂Multi-Token Prediction

DeepSeek-R1模型架构深度解读（三）弄懂DeepSeekMoE

DeepSeek-R1模型架构深度解读（二）MLA

DeepSeek-R1模型架构解读（一）总览

DeepSeek-R1论文解读

DeepSeek大火背后技术剖析

在 VSCode中本地运行 DeepSeek，打造功能强大的AI编码助手

混合专家模型 (MoE) 详解

DeepSeek R1：它如何做到如此高效和经济实惠

DeepSeek-Janus：用于图像理解和生成的统一多模态大模型

如何在本地电脑安装和使用 DeepSeek R-1

DeepSeek-R1：最佳开源推理LLM 优于 OpenAI-o1

了解 ChatGPT 的演变: 深入了解 CodeX 及Instruct GPT

了解 ChatGPT 的演变: 深入了解 GPT-2 及GPT-3

了解 ChatGPT 的演变: 深入了解 GPT-1 及其灵感来源

为什么在神经网络中需要非线性激活函数?

什么是Scale Self Attention？为什么Transformer中计算注意力权重时需要做缩放?

【Python】如何在秒级内处理10K图像

LLM的pad策略，为啥训练时是right，预测是left？

LLM中的Position Embeddings介绍

Transformer Encoder/Decoder结构中的掩码Mask介绍

大白话讲解LLM工作原理：从零入门ChatGPT

什么是Attention Mask?

一文弄懂提示词工程及相关技术分类

重新认识CLIP文本侧编码器

【Python】Python Typing 类型提示的重要性

PEFT：解锁高效参数微调的力量

【Python】Python字典中常见的6个陷阱

【Python】最容易被误解的Python功能

少样本提示的艺术：如何扩展LLM的强大能力

为什么大多数LLM只使用Decoder-Only结构？

大语言模型Decoder-Only结构 VS Encoder-Decoder结构

RAG Vision: 构建多模态计算机视觉系统

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内含测评和体验方式）

DINOv2 嵌入可视化指南

CLIP 与 DINOv2 在图像相似度性能对比

为什么 Bert 的三个 Embedding 可以进行相加？

VLM：计算机视觉模型的未来

Speculative Decoding：让LLM推理变得更快

GLIP：将图像语言预训练引入目标检测

Fine-Tuning vs. Zero-Shot vs. Few-Shot Learning

RAG Fusion -- 新一代信息检索技术

【Python】关于Python Itertools 后悔没有早点了解的九个函数

【Python】都2024了，还不会用dataclass，你Out了？

自回归模型的关键：Causal self-Attention

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉