FLUX“官方版ControlNet”来了！

科技 2024-11-23 16:24 中国

克雷西发自凹非寺
量子位 | 公众号 QbitAI

“最强绘图模型”FLUX深夜更新，一口气连发四款工具！

用官方的话说，这次的更新给FLUX“带来了更多的控制方式和可操作性”。

别看官方说得简单，实际效果可是要震撼得多。

只用一个相同的轮廓，FLUX就能变幻出各式各样不同风格的画作：

或者传一张图，不用提示词就能让人物做出各种不同的动作，同时保持角色一致：

此外，还可以对现有的图像进行扩展，不断延伸画面：

具体来说，此次FLUX一共发布了这四款创意工具：

编辑工具fill，可以修改画面细节或扩展画面；
轮廓控制工具Canny，类似ControlNet；
景深控制工具Depth，类似ControlNet；
变换工具Redux，可改变人物动作、画面视角/风格。

这些工具分为dev和pro两个版本，dev版的代码和模型权重均已开放下载，pro版也通过API提供。

而且支持创作者常用的ComfyUI，能够简单整合进绘画工作流。

有网友评论说，这是一件大事，因为BFL（FLUX开发团队）终于有了自己的ControlNet。

还有人表示，这些工具解锁了（AI绘图的）可操纵性，是创意绘图的game changer。

四款工具一齐上线

首先来看fill，它可以对画面中包括文字在内的任意细节进行编辑或修复，比如图像中人物的衣着，或者加入新的元素。

此外还支持outpainting，可以将图像扩展到原始画面之外。

测评结果上，FLUX的官方工具，和第三方FLUX工具Alimama Creative体现出了优势。

同时也战胜了之前来踢馆的Ideogram，对比SD 1.5的类似功能则更是优势明显。

以文字修改任务为例，测试中对下图“Beers”部分进行了圈选，并要求修改为“Spaghetti”。

可以看出，官方Fill工具效果最为自然，Ideogram也还不错，但仔细对比会发现FLUX的文字粗细更加接近画面中的其他文字。

第三方插件则并未匹配原始字体，至于SD 1.5那更是惨不忍睹。

再来看看非文字的效果，这项任务需要在图像指定的位置（左侧）加上模糊（blurry）的小猫照片。

下图中的顺序和前面一样，可以看到除了左上角的FLUX fill工具之外，都没有满足“模糊”这个要求。

单看的话画面，第三方插件和Ideogram也都还可以，不过第三方插件“画蛇添足”地给原图的第一个木块加上了两个点。

而SD 1.5，似乎在保持着一种稳定的抽象。

第二个工具Canny，相当于一个轮廓ControlNet，通过边缘检测来精准地控制图像转换过程中的结构。

这次对比的对象包括第三方工具InstantX，以及SD 1.5和SDXL，结果FLUX.1 Canny的成绩优势明显。

当然这轮测试是直接把提取好的轮廓给模型，难度相对于让模型自己提取有一点降低。

利用这样的一个轮廓，每个模型或工具需要生成6张不同的图片（每个prompt两张）。

下图中，第一行为Flux.1 Canny（Pro）的作品，第二行为InstantX，第三第四行分别是SD 1.5和SDXL。

从左到右六张图片的prompt依次是：

1&2：a robot made of gold（一个金子做的机器人）
3&4：a robot made of brown and white clay（一个用棕色和白色黏土做的机器人）
5&6：a white robot in front of a gray background（一个白色的机器人在灰色的背景前方）

对于“金子”的部分，FLUX.1 Canny第一次画出来的效果是质感最好的，而且FLUX.1 Canny质量稳定性保持得是比较好的。

单就这个任务而言，SD 1.5的作品再次成为了最显眼包的一组。

接下来是Depth，它和Canny一样都是类似ControlNet的存在，顾名思义控制的内容是景深。

这次没有再把SD拉过来，参与对比的是两款第三方插件，还有MidJourney。

在一项测试任务中，提取之后的景深关系是这样的：

下图中，第一行对应FLUX.1 Depth（Pro），第二、三行对应Jasper和Shakker两款第三方工具，最后一行对应MidJourney。

从左到右，提示词依次是：

1&2：mountain cabin, anime style（山间小屋，动漫风格）
3&4：1950’s aesthetics（上世纪50年代的美学）

这里就不一一点评细节了，但FLUX.1 Depth的作品是最忠实于控制条件中景深关系的一组，而且也不像MidJourney那样出现了画面割裂的情况。

最后是Redux，给定输入图像，可以让FLUX在其基础之上进行“重新设计”，变换出各种不同的图片。

图像的背景、角度、画风都可以调整，同时在变换过程中保持角色一致。

如果实在没灵感，也可以只把图丢给模型，不用输入提示词，让模型自行发挥帮你转换。

相比于SD 1.5和SDXL，领先优势十分明显。

比如这张图中有只小猫正抱着一条鱼奔跑，测试过程当中没有输入提示词。

每个模型各自生成了三张图，由上到下分别是FLUX.1 Redux（Pro）、SD 1.5和SDXL。

在FLUX作品中鱼和猫的长相都和原图保持了一致，在细节动作时做出了变化，而SD 1.5生成的图像里猫和鱼都已经完全变了样子。

到了SDXL这里，好家伙，不要说风格了，猫和鱼直接陷入了“量子纠缠”，在三张图中都没有同时出现。

总之对比一圈之后发现，FLUX这次上线的四款官方工具，不管是相对第三方工具还是相对于其他模型，都十分扛打。

四款工具都是支持pro和dev两个版本（其中Canny和Depth还分完整版和LoRA版），dev版本代码和模型权重都是开放下载，pro版则要通过BFL API来使用。

另外，这四个工具还会通过五家FLUX合作的模型平台提供，这五家分别是fal（L的小写）.ai、Replicate、 Together.ai、Freepik和krea.ai。

公告地址（含代码/权重/测试集下载）：
https://blackforestlabs.ai/flux-1-tools/
参考链接：
[1]https://www.marktechpost.com/2024/11/21/black-forest-labs-release-flux-1-tools-a-suite-of-ai-models-designed-to-add-control-and-steerability-to-the-base-text-to-image-model-flux-1/
[2]https://x.com/fofrAI/status/1859621532550480342
[3]https://x.com/fofrAI/status/1859618518863323591

推荐阅读

（点击标题可跳转阅读）

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线

重磅！

1700多页的《人工智能学习路线、干货分享全集》PDF文档

扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。

长按扫码，申请入群

感谢你的分享，点赞，在看三连

http://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247568523&idx=3&sn=72959c901efa02bdaf816ddfae05bd1b

AI有道

一个值得关注的 AI 技术公众号。主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为您提供切实可行的 AI 学习路线。

最新文章

确实可以封神了：一个悄然崛起的国产项目！

新的 Mamba 架构又双叒来了！上交大 & 华为提出 QuadMamba ：多个视觉任务 SOTA!

绝了，图片秒变代码，开发越来越简单了！

不是，现在都流行用 Kaggle 写论文了吗？

吴恩达出手，开源最新 Python 包，一个接口调用 OpenAI 等模型！

超越 GPT-4o！开源科研神器登场

小红书，把“失业线”压到了32岁

斯坦福大学发布全球人工智能实力排行榜

更新了！带 Agent 的 Cursor 太疯狂了

王者归来！Transformer 彻底爆发了！

突破 XGBoost！时间序列预测！！

美国 AI 曼哈顿计划 793 页文件曝光！全力研发 AGI，十大战略直指中国

万字长文，大模型分布式训练的学习过程总结

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

特朗普上台，第一刀再次扎在了留学生身上。。。

大模型中上分技巧大总结！！

FLUX“官方版ControlNet”来了！

训练大模型，这次竟卡在没图这里了。。。

Make U-Nets Great Again！北大&华为强强联合

计算机视觉顶尖期刊和会议有哪些？

王炸！字节又一爆款面试神器诞生了！

突破 LSTM！时间序列预测！！

谷歌浏览器，要被强制出售！

ChatGPT 4.0 与 Claude Pro 国内直接用！

史上最强！YOLOv11 杀疯了！

知名开源项目，阿里官宣停更，太痛了！

机器学习中降维和特征选择的对比介绍

直播预约 | CDCC 施耐德电气专场：算领未来，赋能无限！

已注销！985 新校区，不建了

12 个 ChatGPT 写作秘诀让你事半功倍！OpenAI 官方发布

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

打破纪录！中国科学家让薛定谔的猫活了 23 分钟

好生猛，全球首款 AI 游戏问世！

谷歌 2024 博士奖学金名单揭晓！清华姚班大神吕欣，KAN一作刘子鸣获奖

211 大学教授、博导，落马！

深入理解机器学习中的正则化

教授何恺明在 MIT 的第二门课——《深度生成模型》，讲座PPT陆续已出

裁员 9000 人。

ChatGPT 4o 国内直接用！

全球首例：14 岁男孩和 AI 聊天网恋后被诱导自杀，生前对话曝光

今年顶会这情况。。。大家提前做准备吧！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

Ilya 认错，Scaling Law 崩了？自曝 SSI 秘密技术路线取代 OpenAI

被导师放养，后果可能很严重。。。

GPT-5 被曝不及预期，OpenAI 员工：没什么科学突破了，接下来只需要工程

开源版 SearchGPT 来了，两张 3090 就可复现，超越 Perplexity 付费版

80w，确实可以封神了！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

FLUX“官方版ControlNet”来了！

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

四款工具一齐上线

克雷西发自凹非寺
量子位 | 公众号 QbitAI