点击上方蓝字关注更多即时AI资讯!
速览-黑森林实验室成立
2024 年 8 月 1 日,黑森林实验室(Black Forest Labs)正式宣布成立,团队由 StableDiffusion 原班人马、多位 StabilityAI 前研究员组成,其核心成员包括 Robin Rombach 等,Robin Rombach 曾是 StabilityAI 的研究科学家,也是 StableDiffusion 模型的主要开发者之一,汇聚了一群在AI研究与工程领域成就斐然的精英。
黑森林团队拥有在学术界、工业界及开源环境中开发基础生成模型的辉煌记录。团队的创新成果涵盖VQGAN、Latent Diffusion,以及Stable Diffusion系列模型(Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),这些技术极大地推动了图像与视频生成的前沿,同时也通过Adversarial Diffusion Distillation实现了超高速实时图像合成的突破。秉持开放共享的理念,团队认为广泛可及的模型能激发创新合作,增强透明度,是构建信任与普及应用的基石。
该实验室植根于生成式AI研究的核心地带,其宗旨在于推动图像与视频等媒介的生成式深度学习模型的发展,拓宽创意、效率与多样性的边界。实验室坚信,生成式AI将成为未来技术发展的基石,并致力于通过普及其模型(开源),惠及大众,增进公众认知,强化模型安全性信任。
黑森林实验室首推FLUX.1模型系列,引领文本至图像合成技术的最新进展,迈出了其实现愿景的第一步。系列共包含 3 款图片生成模型,包括专业版(flux.1(pro))、开发者版(flux.1(dev))和快速版(flux.1(schnell)),有两个版本开源,并且支持中文输入。
在性能方面,FLUX.1 经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。其中 FLUX.1(pro)和(dev)两款模型,在多项测评标准中超过了 Midjourney v6.0、Dall·E3 和 StableDiffusion 3-Ultra 等热门模型。FLUX.1(schnell)作为轻量级模型,不仅优于同类竞争对手,还优于 Midjourney v6.0、Dall·E3 等强大的非蒸馏模型。所有 FLUX.1 模型均支持多种宽高比和分辨率。
FLUX.1模型套件的问世,树立了文本至图像转换的新标准。此系列分为三款,精心平衡了易用性与功能强度:FLUX.1 [pro]代表了顶级性能,为用户提供无与伦比的图像生成体验;
FLUX.1 [dev]则面向非商业用途,通过精炼技术保持高效与高质量;
FLUX.1 [schnell]作为最快速模型,适合个人与本地开发,且完全开源。
官方原文对三种选型说的比较清楚,这里引入来补充一下:
FLUX.1 [pro]:FLUX.1的顶级性能,提供最先进的图像生成,具有一流的提示词遵循、视觉质量、图像细节和输出多样性。通过我们的API注册FLUX.1 [pro]访问权限。FLUX.1 [pro]也可以通过Replicate和fal.ai获取。此外也提供专用和定制的企业解决方案。
FLUX.1 [dev]:FLUX.1 [dev]是一个开放权重的、指导蒸馏的模型,适用于非商业应用。直接从FLUX.1 [pro]蒸馏而来,FLUX.1 [dev]获得了类似的质量和提示词遵循能力,同时比同尺寸的标准模型更高效。FLUX.1 [dev]的权重可在HuggingFace上获取,并可以在Replicate或Fal.ai上直接试用。
FLUX.1 [schnell]:我们的最快模型,适合本地开发和个人使用。FLUX.1 [schnell]在Apache2.0许可下公开提供。类似于FLUX.1 [dev],权重可在Hugging Face上获取,推理代码可以在GitHub和HuggingFace’s Diffusers上找到。
该模型采用基于多模态和并行扩散 Transformer 模块的混合架构,并扩展到 12b 参数。团队通过建立流匹配来改进最先进的扩散模型,并通过结合旋转位置嵌入和并行注意力层,来提高模型性能和硬件效率。
所有公共的FLUX.1模型均基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。通过建立在流匹配上的方法改进了以前的最先进扩散模型,引入旋转位置嵌入和并行注意力层提高了模型性能和硬件效率等,实现了性能飞跃。
FLUX.1系列模型在视觉质量、指令响应、格式灵活性及创意多样性等方面,(官方说)超越了Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等知名模型,确立了新基准。此外,FLUX.1 [schnell]作为轻量级翘楚,展示了即使是少量步骤也能实现顶尖表现。所有模型支持广泛的分辨率与纵横比,进一步提升了适用范围。
黑森林实验室已完成 3100 万美元(约合人民币 2.25 亿元)的种子轮融资,由知名风投机构 A16z 领投,Oculus VR 联创 Brendan Iribe、YC 前合伙人 Gary Tan、英伟达研究员 Timo Aila 等专家及 AI 公司跟投,还收到了来自 General Catalyst 等一线基金的后续投资。其顾问委员会包括在内容创作行业拥有丰富经验的前迪士尼总裁 Michael Ovitz,以及神经风格转换的先驱 Matthias Bethge 教授。
未来,黑森林实验室将以FLUX.1的成功为基础,推出革命性的文本至视频系统,目标直指高清、高速的创作与编辑新时代,持续领航生成媒体的未来趋势。
FLUX.1 微调
各路大神纷纷测试,从目前的结果看,没有翻车,已经超越了SD3模型,可以与Midjourney匹敌。但是目前生态还不完善,不支持controlnet,甚至ceo都说从技术层面,FLUX.1不支持微调训练(LoRA)扎心了~🥱。
但就整个生态而言,SDXL模型有丰富的controlnet控制,LoRA微调,title模型等,而百花齐放的微调和插件的生态某种程度上带来的价值和可能性是更大的
比如现在大家都在用的AI绘图SD的1.5模型,基模其实能力比较有限,但是毕竟是开源的,一堆大神基于SD1.5,做出了非常牛逼的模型,比如Majic、DreamShaper、Anything等等。
虽然FLUX.1对外宣称不支持微调,单毕竟是开源模型,权重开放了,大神们总是有办法的,这不,微调模型已经在路上了 🤣。
讨论地址:
https://github.com/bghira/SimpleTuner/discussions/639该项目作者已经微调出LoRA了,而且已经在24G显存的机器上训练出来,实在让人惊喜。
但同时作者也提到,使用 Quanto 的 8 位量化在 24G 卡上运行,或在 Macbook 系统上运行 25.7G(速度很慢)!如果您追求准确度,40G 卡就足够了,而 80G 卡对于更大规模的训练来说则是最佳选择。
不管怎么样,还是迈出了第一步,有开源生态加持,FLUX.1未来可期呀。
FLUX.1 工作流
FLUX.1的工作流最核心的思路,还是在于利用大模型优化提示词,我们知道FLUX对提示词(prompt)的遵从性非常好,所以一个合适、高质量的提示词,对出图质量影响至关重要。我们甚至看到黑暗森林官方的网站,也给出了提示词优化的选项,其背后应该就是调用语言大模型的提示优化。
FLUX.1工作流基本工作流程:
1.使用一键提示词节点,初步生成提示词,会包含风格、主体,等可以直接选择的提示语;
2.使用gpt-4o进行提示词润色
3.FLUX.1 出图
4.SD upscale放大处理
1.提示词模块
经过提示词优化,一键提示词加gpt会把提示词写得非常细。
2.FLUX出图
这个就是flux标准流程,用了dev版本的模型。
3.SD upscale模块
SD upscale节点,本质上就是把图片分拆成六个分开采样,避免过高的内存占用。可以对图片进行适当的锐化和hdr处理,以获得更好的效果。
回来聊聊Stable Diffusion
其实当初SD3 API放出来的时候,Stability AI已经出现了很多的问题,从3月23日Stability AI的CEO Emad Mostaque宣布辞职,到第一季度结束营收不到500万美元,亏损超过3000万美元,拖欠云计算供应商和其他公司近1亿美元的账单...顶着“商业模式稀烂”的舆情压力,Stability AI却还是能时不时地开源一些模型,助力开源社区的发展。
比如代码模型Stable Code Instruct 3B、3D视频模型Stable Video 3D、3D模型TripoSR、音频模型Stable Audio Open等等...
6月12号,Stability AI开源了万众期待的SD3,不过是中型版本的SD3,20亿参数,Stable Diffusion 3 Medium。
地址:
https://huggingface.co/stabilityai/stable-diffusion-3-medium
Stability AI官方推出的Webui,是建立在ComfyUI的基础上进一步封装的一个UI,StableSwarmUI。
地址:https://github.com/Stability-AI/StableSwarmUI
StableSwarmUI非常快捷,导入工作流之后就可以直接使用了,同时官方也提供了一键配置环境文件包括mac电脑和linux环境配置文件。
Stability AI为了让更多人能用上SD3,与AMD谈了合作,AMD的显卡也能跑SD3了
Stable Diffusion的用户界面工具
WebUI
全称为Web User Interface,是一种为Stable Diffusion模型设计的图形用户界面。它通过网页形式提供直观的操作界面,使得用户无需深入了解底层代码或命令即可与Stable Diffusion模型进行交互,轻松生成图像。Stable Diffusion WebUI集成了许多程序,因其跨平台又有很好的扩充性,成为最多人使用SD的图形化程序首选
主要特点:
1. 易用性:WebUI提供了整合好的可视化界面,用户可以通过清晰的操作界面直接选择参数并生成图像,操作简单且直观。
2. 开源生态:WebUI拥有成熟的开源生态,集成了大量开发好的工具,用户可以直接使用,无需自行寻找。
3. 模型选择和参数设置:WebUI提供了丰富的模型选择和参数设置选项,满足广泛的图片生成需求。
4. 跨平台支持:WebUI支持Linux、Windows以及macOS系统,同时支持Nvidia、AMD、Intel Arc和Apple Silicon M的GPU。
5. 免费:用户可以免费在自己的电脑或服务器上运行WebUI,且在使用上几乎没有限制,只要遵守相应的授权条款。
WebUI也存在一些局限性,例如本地部署对硬件要求较高且占用资源,云端部署则需要付费。此外,对于批量生成图像的用户来说,WebUI在工作流程复制方面存在局限,每次操作可能需要手动设置参数,无法完整复刻工作流。对于想要批量出图的用户来说,局限会比较大,参数一点点不一样就可能导致得不到预期的结果,不能完整复刻工作流。
但是对于初学者来说,WebUI是一个能够快速上手的首选,而对于需要更高自由度和定制化工作流的用户,则可能需要考虑转向ComfyUI等更专业的工具。建议初学者从WebUI开始入手,熟悉后再考虑转向ComfyUI,以充分利用AI工作流程,实现效率的最大化。
ComfyUI
ComfyUI是一个为Stable Diffusion专门设计的基于节点的图形用户界面(GUI),它以其高度的可定制性、灵活性和强大的功能在AI绘画领域迅速流行起来。用户可以通过链接不同的节点来构建复杂的图像生成工作流程,这些节点可以包括加载检查点模型、输入提示、指定采样器等 。ComfyUI特别适合需要进行复杂图像生成和编辑的数字艺术家、设计师和摄影师,同时也适合AI研究人员和开发者进行模型和算法的构建和测试 。
ComfyUI的界面直观易用,采用模块化设计,支持多种输入和输出格式,可以方便地与其他工具集成。它还支持自定义插件和脚本,满足用户更高级的需求 。ComfyUI的开源特性意味着它拥有庞大的用户社区,用户可以轻松找到帮助和资源,解决使用过程中遇到的问题 。
对于初学者,ComfyUI提供了一套基础的组件库和详细的参数设置选项,使用户可以根据实际情况进行调整。此外,ComfyUI还提供了强大的可视化工具,帮助用户更好地理解AI管道的运行过程和结果 。ComfyUI的安装过程也相对简单,用户可以从官方网站下载并安装,具体步骤请参考官方文档 。
ComfyUI是一个功能强大、灵活易用的Stable Diffusion GUI,无论是对于AI绘画的新手还是专业人士,都能提供丰富的图像生成和编辑能力。ComfyUI采用节点式界面,让用户能够自由组合各种功能,实现从人像生成到图片转动画等多种创作。与传统的线性工作流相比,ComfyUI提供了更大的自由度和可控性,有助于深入理解Stable Diffusion的底层原理。用户可以通过导入、编辑和分享工作流来快速上手,并探索更多创意可能。ComfyUI的开放架构也使其能够及时支持新模型和功能,为AI绘画注入了更多的可能。
主要特点:
ComfyUI的节点式界面提供了更多自由组合功能,使得用户可以灵活调整工作流程,实现全自动化运作。
ComfyUI的底层代码简洁高效,对低配用户友好,且架构开放,能够快速应用新功能。
ComfyUI的安装简单,适用于不同操作平台,如Windows、A卡、Linux等,用户可以根据需求选择合适的安装方式,轻松上手使用。
ComfyUI的更新和迭代也非常活跃,今年7月的一次更新中,官方推出了Beta版UI,取消了原本的悬浮面板,还新增了工作流管理功能,使得整体使用体验有所提升 。此外,ComfyUI还提供了一些进阶功能,如局部特征调整、局部风格控制和复杂合成等,通过特定的节点可以精确控制图像生成过程中特定区域的表现,增强生成图像的定制性和表现力 。
在ComfyUI中,通过添加节点、连接节点和调节参数,可以重新构建工作流程。节点之间的连接和信息传递是工作流正常运作的关键。
节点之间的连接是通过拖拽线条来实现的,不同颜色的端口代表不同的数据形式,连接时需匹配数据类型。通过调整采样设置和种子控制方式,可以影响生成图像的结果。
WebUI vs. ComfyUI
WebUI和ComfyUI都是基于Stable Diffusion模型的用户界面工具,它们各有特点和优势。
WebUI是Stable Diffusion的官方界面,提供了一个可视化的操作界面,用户可以通过它直接进行图片生成。它的优点在于操作简单直观,拥有成熟的开源生态,集成了大量开发好的工具,适合新手使用。但是本地部署对硬件要求高,云端部署需要付费,且在批量生成图片时存在局限,不能完整复刻工作流 。
ComfyUI则是一个基于节点的图形用户界面,它允许用户通过链接不同的节点来构建复杂的图像生成工作流程。ComfyUI的优势在于其高度的可定制性和灵活性,支持批量生成图像,一键加载大量工作流,实现人像生成、背景替换等功能。但ComfyUI的学习曲线相对较陡,需要用户对Stable Diffusion及其扩展能力的原理有一定的了解 。
总的来说,如果是AI绘画的新手,或者更倾向于简单直观的操作,就选WebUI。如果需要更高的自由度和定制化的工作流,或者对Stable Diffusion有一定的了解,那就选择ComfyUI。
SD生图术语一览
扫码关注
和我一起学AI!