超越Midjourney最强AI绘画FLUX.1发布

文摘   科技   2024-08-10 07:30   江苏  











01


引言



Flux.1 已经面世,为世界上的开源重量级AI图像绘画模型树立了新的标杆。它具有120 亿个参数量,在图像质量和性能方面超越了 Midjourney V6、OpenAI 的 Dall-E 3 和 Stability AI 的 SD3 Ultra 等行业巨头。

Flux.1 背后的团队有着有趣的历史。

他们是稳定扩散技术Stable Diffusion的最初开发者,也是潜在扩散技术latent diffusion的发明者。Stability AI公司出现了一些内部问题之后,团队核心成员相继离开,成立了一家名为 Black Forest Labs 的新公司。


这种 "技术外流 "往往会带来创新。当有才能的团队独立出来时,他们就可以自由地追求大胆的新想法,而不受大型组织的限制。






02


 什么是FLUX.1 


Flux.1 是一套文本到图像生成的模型,它在图像细节、风格多样性和场景复杂性等方面创造了了文本到图像生成的新高度(SOTA)。

 Black Forest Labs 共发布了三个开源模型:
  • Flux.1 Pro: 在图像生成视觉质量、图像细节和输出多样性上,达到了最先进的水平。
  • Flux.1 Dev: 这是一个开源权重、经过蒸馏后的模型,专为非商业用途而设计。它是从 Flux.1 Pro 中蒸馏出来的,达到了类似的质量,同时比相同大小的一般模型更加高效。
  • Flux.1 Schnell: 是他们最快的模型,专为本地开发和个人使用而设计。它在 Apache 2.0 许可下开放使用


所有开源的 Flux.1 模型都使用了多模态和并行扩散Transformer块,共有 120 亿个参数量。这些模型比早期的扩散模型更好,因为它们使用了流式匹配,这是一种易于理解的方法,用于训练包括扩散模型在内的生成式模型。

此外,通过使用旋转位置编码嵌入和并行注意力机制层,这些模型的性能更好,使用硬件的效率更高。




03


 性能对比


据研究人员称,Flux.1 Pro 和 Flux.1 Dev 在以下各方面都超过了 Midjourney v6.0、Dall-E3 和 Stable Diffusion 3 Ultra 等流行AI绘画模型:

  • 视觉质量
  • 提示词一致性
  • 尺寸/纵横比的多样性
  • 字体排版
  • 输出多样性

但真的是这样吗? 我们不妨亲自来看些例子:

Prompt: old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome 


提示:戴眼镜的老人肖像,照片,50mm,f1.4,自然光,铅灰色

Flux.1生成效果

Midjourney V6.1


Midjourney v6.0


您认为哪一款最好看?

如上图所示,所有 Flux.1的模型都支持不同的长宽比和分辨率,从 10 万像素到 200 万像素不等。






04


 示例介绍


接下来,我们来看看使用 Flux.1 Pro 生成的一些令人惊叹的示例图像。让我们从人物图片开始,主要关注细节,如头发、皱纹、手指和四肢。

可以看到,生成人像中的细节部分,如头发、皱纹和手指等人体特征的细节逼真程度都非常出色。

Prompt: A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”

提示:一个拿着粉笔的机器人看着一块黑板,黑板上写着如下诗句:"在像素的舞蹈中,人工智能的技艺将崛起,通过机器的眼睛改变视觉,从梦境到屏幕,新的世界展开了,人工智能的画笔重塑了我们的视觉世界"。

生成效果如下:

我们知道,文字渲染是人工智能图像生成中最难的领域之一。即使是最新版本的 Midjourney v6.1 在我的初步测试中仍然失败。Flux.1 似乎真的很不错,即使是具有挑战的长文本。

Prompt: beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry 


提示:精美的动漫作品,一个看起来很沮丧的可爱动漫猫女拿着一张纸,纸上画着一个微笑,她的嘴上画着一个微笑,她要哭了

生成效果如下:

这看起来令人难以置信。柔和的色调和发光的高光使其看起来专业而精致,堪与手绘艺术品相媲美。




05


  逼真程度


一些可以访问 Flux 的用户很快就发现了这些生成的图像是多么的逼真。以下是网络上用户分享的一些使用FLUX生成的超逼真的自拍肖像。

作为一个尝试过多个人工智能图像生成器的人,我可以自信地说,这是我见过的最逼真的人工智能生成的肖像。





06


  如何访问?


对于那些渴望尝试 Flux.1 的人,有以下几种免费的方式供选择:

  • Replicate: https://replicate.com/black-forest-labs/flux-pro

  • HuggingFace: https://huggingface.co/black-forest-labs/FLUX.1-dev?text=an+image+of+an+astronaut+riding+a+horse+in+space
  • Fal: https://fal.ai/models/fal-ai/flux-pro

下面是使用Replicate生成的示例。

Prompt: The world’s largest black forest cake, the size of a building, surrounded by trees of the black forest 


提示:世界上最大的黑森林蛋糕,有一栋楼那么大,周围环绕着黑森林的树木

下面是使用Fal生成的示例。

Prompt: Extreme closeup of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.

提示:一只虎眼的超大特写,正面直视。详细描述虹膜和瞳孔。突出眼睛的纹理和颜色。自然光线,捕捉真实的眼睛光泽和深度。用白色大笔触在上面画上 "FLUX "字样,纹理清晰可见。


下面是HuggingFace上使用FLUX模型生成的示例。

Prompt: An image of an astronaut riding a horse in space 


提示:宇航员在太空骑马的图像







07


  许可协议


现在,有些人可能会想,我能出于商业目的出售生成的图片吗?答案是可以或不可以,这取决于你使用的模式。

  • Flux.1 Pro:Flux.1 Pro 的商业使用是经过许可的,但目前仅限合作伙伴通过 Replicate 和 Fal.ai 等平台访问该模型。

  • Flux.1 Dev:图像的使用仅限于非商业目的,这意味着大家不能出于商业目的出售或分发本模型生成的图像。

  • Flux.1 Schnell:它在 Apache 2.0 许可下公开发布,使用起来更加灵活。这意味着,只要你遵守 Apache 2.0 许可协议的条款,就可以将 Flux.1 Schnell 用于个人和商业目的。
总之,如果您希望将 Flux.1 模型用于商业用途,Flux.1 Pro 和 Flux.1 Schnell 是您的最佳选择。Flux.1 Pro 可提供最高的生成质量,并可通过特定的合作关系获得,而 Flux.1 Schnell 则可根据开源许可协议可提供更方便的解决方案。







08


  总结


虽然 Flux 模型的开源权重令人感到兴奋,但也有一个实际限制需要考虑。在本地部署大型语言模型(LLM)一起运行这些模型时需要强大的算力--通常是 A100 GPU 或更高。Flux.1 有 120 亿个参数量(磁盘容量有 24 GB),加上 9 GB 的文本编码器,大多数消费级硬件都无法胜任。

不过开放权重模型的Schnell也已经非常出色。我毫不怀疑,社区将努力寻找新的技术来调整、训练和扩展逐步精简的 Apache 2.0 版本。我很期待看到经过微调的模型能够产生更多令人惊叹的图像。





点击上方小卡片关注我




添加个人微信,进专属粉丝群!



AI算法之道
一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
 最新文章