Flux官方模型更新,实测效果惊艳,图像领域创作更进一步!

2024-11-23 13:14   美国  

 Flux社区🔗成员知乎大佬「ChubbyPillow」投稿

胖友们大家好啊~窝又来写AI啦!

昨天Flux官方(Black Forest Labs)团队毫无征兆地放出了一堆Flux辅助工具!

这其中包括用来重绘和扩图的Fill模型,类似于IP Adapter的Redux模型,以及两个ControlNet模型——包括Canny和Depth,这两个模型还有不同的版本,一个是完整的22G UNet,一个是1G的LoRA。

鉴于我自己目前主力就是Flux dev,看到这个消息自然很激动,所以今天就来给大家看看实测效果!


在正文开始之前,先给大家科普一下这几个模型的用法:

1.进入这个网址:

https://comfyanonymous.github.io/ComfyUI_examples/flux/

2.找到你需要的ComfyUI workflow并下载(文中贴出的PNG图片就是自带Workflow的)

3.在BFL的官方HuggingFace主页下载对应模型

重绘扩图:

https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev/tree/main

Redux:

https://huggingface.co/black-forest-labs/FLUX.1-Redux-dev/tree/main 

Canny LoRA:

https://huggingface.co/black-forest-labs/FLUX.1-Canny-dev-lora 

Depth LoRA:

https://huggingface.co/black-forest-labs/FLUX.1-Depth-dev-lora

4.重绘扩图以及Redux的Workflow基本不用动,但是两个ControlNet LoRA你一定要记得在图片后面加上一个Preprocessor node(如果你用的是真实照片而不是Depth map,Canny map一类的),不然用不了哈。Preprocessor node我个人用的就是那个AIO Aux Preprocessor,我感觉比较方便切换。

5.用Redux的时候你需要额外下载一个CLIP Vision模型,并且你要下载这个Comfy-org的版本才能正常使用:

https://huggingface.co/Comfy-Org/sigclip_vision_384/tree/main

6.写好提示词,选好模型,Queue prompt,Enjoy!


01/Depth LoRA实测:

提示词:a photo of senbeiblr cat, it is facing camera, standing on its hind legs on a blue pillow, holding out one paw, wearing a wizard hat and a purple wizard robe, casting spells with its paw, silver sparkles swirling around its paw. The photo is taken in a spring garden in the morning, with bright diffused natural lighting.

整体来说效果还挺好的,但是可以看到Guidance=10,Weight=1的情况下,好像Artifacts要比另一张多(看紫色袍子前襟左边,那个粉色带子显然就属于artifacts,右边的金色镶边也不自然),右边相对来说找不到特别明显和碍眼的artifacts。

但是Guidance=10时好像和真猫的相似度更高(我用了我朋友家猫的LoRA)。

提示词:Professional photograph of a handsome white man, sitting on staircase, head turned to the side, wearing a dark blue jacket and striped pants, short light brown hair and blue eyes

这张图里值得注意的是我控制了变量,LoRA权重都是1,但是改变了Guidance数值。

我的体验是Guidance在10的时候Flux会更加严格的遵循原图的Depth map,3.5也可以用,但是没有那么严格遵循(可以看到他脸部的曲线和比例,图二是更接近原图的,图三就差得比较远。但是好在手指的识别都没有什么问题),顺便一说,我觉得图二的皮肤质感相对图三甚至还更好一些?


02/Canny LoRA实测:

提示词:w1z_bd, ligne claire comic style illustration of a young man, wearing blue hoodie, a large olive green rucksack on his back, he has short blonde hair and blue eyes, looking at viewer with soft smile, on sunny city street

这个的效果确实非常非常好,远远比我目前用过的其他非官方Line art/Canny要好得多。

不论是权重控制还是生成图片的细节等等,人物的身体比例和衣物皱褶等等都非常make sense,基本可以说是SD1.5的ControlNet(甚至更好)的水平了,而且它也可以和各种风格LoRA搭配使用,我觉得效果都还不错。   

示词:a cinematic photograph of a plucked, unfurled orange cabbage, there are sharp black beast fangs inside the cabbage. It has a green inner layer inside. It was placed on sunny city street.死,屏幕前的你是不是在疑惑为何我要生成咬人的包菜bushi)

这张图我采用了一个自创奇技淫巧……

因为Comfy给的那个workflow里,是从Pix to Pix Conditioning的Latent点直接连接到KSampler的Latent点,那也就是说不能用我以前常用的、把empty latent换成Load Image→VAE Encode→Latent的方法来图生图。

于是我寻思,嗯怎么整呢……

我鼓捣了一下之后发现,我可以加一个Latent Add节点,然后上面接一个Pix to Pix Conditioning出来的latent,下面接一个Load Image→VAE Encode出来的latent,再把Latend Add右边连到KSampler,然后把KSampler的denoising调低,结果真的可以!

虽然Flux的denoising一向比较难控制,但是能够有这种在一定程度上控制颜色的能力还是挺好的。


03/Redux实测:

说实在的,这个模型……它灵活性真的很低,我试了很多我偏好的主题(比如Pusheen玩偶这类)它都表现欠佳,轻则不像原图,重则……

大家自己想象吧,反正就是非常cursed……

当然我也理解,Pusheen这种东西本来就非常抽象,我光是训练出这个模型都费了不少功夫,感觉要让Flux从一张图片轻松学到Pusheen的四肢到底是怎么work的也不太实际……

但是,非常遗憾,Redux不仅仅是对Pusheen玩偶表现不佳,它对其他主题的呈现,很多时候也只能打个及格分,尤其是一旦涉及到基模里没有的较为抽象的概念,它基本就……没啥卵用。   

提示词:A photograph of a cat sitting behind a large blue cake, the cake has ocean-theme design, the cat is very fluffy with white fur, in a sunny living room(朋友家猫猫再次出场哈哈哈哈)

比如这个猫猫+蛋糕的主题,虽然我感觉Redux已经尽力把这两者拼在一起了,但是蛋糕仍然不完全是参考图里那个蛋糕,猫就差得更远了,基本不可能把它当削弱版LoRA用。

当然,我个人平时不怎么用IP Adapter(主要也是没这个需求……),我也不知道大家最趁手的IP Adapter是不是能做到特别精准地模仿,但是这个程度的reference感觉仍然没有到能够“实用”的地步。

提示词:Cinematic photograph of a white man with pale skin and long platinum blonde hair, golden eyes, looking at viewer with serious face, wearing victorian era unbuttoned open black long coat with golden military frog closure buttons, yellow high collar, black belt, without undershirt, a long vertical scar on his chest, holding a sword and a shield, in a dark castle at night

对于人像的模仿,我觉得效果反而好些。

但是比较难搞的概念该学不会还是学不会,我找的这个例子就比较特别,一个是Alucard服装里那个匪夷所思的巨大立领,再就是那个复古的扣子,很难……

但是还好其他的特征算是学得差不多吧,头发也是那种稍微有点卷的长发,整体构图确实差不多……

哦对了,这里我还要特别说一下,很多人觉得Redux的作用太强了导致Flux不听提示词,这种情况其实可以通过给主Conditioning和Redux Conditioning分开设置权重来解决,如下图这样:   

就像这样,Flux Guidance右边的conditioning接到右下角的那个Conditioning (Combine),Apply Style Model的conditioning也接到这里,然后通过combine一起接到Basic Guider左边。

大家如果感兴趣我的完整txt2img workflow的话可以在这里下:

https://civitai.com/models/973454/flux-dev-txt2img-workflow-with-redux-and-strength-adjustment


04/Fill(Inpaint/Outpaint)实测:  

提示词:A photo of a sunny bedroom

啊……Flux的这个Fill模型,使用时最大的注意点就是,不要输太多提示词!

不然的话Flux很可能会输出一个和原图完全不和谐的扩充图片。

所以正确打开方式就是,输很简单很简单的提示词,然后让Flux Fill自由发挥,下图也是一个比较好的例子:   

提示词:A wooden table on a sunny day, with plates of food on top

怎么说呢,整体还是很不错的,但是好像生成这个主题就有特别明显的artifact(见图片边缘的絮状物),当然我怀疑它也可能是被原图里的生菜给带跑了……

提示词:A photo of a fluffy senbeiblr cat wearing purple floral dress, standing on blue pillows, holding out one paw, on a sunny day in a garden

不得不说这个重绘模型真的惊艳到我了,完全没有那种一眼假的artifacts边缘,重绘区域和原图几乎可以说衔接得天衣无缝,这个重绘和Redux共同使用真的可谓是如虎添翼了。

虽然Redux还是有刚才那个“没法学得特别准确”的问题(笑死,这个裙子是无袖的啊喂!),但是只要你对于该主题的精度要求不太高,我觉得这还是非常非常有用的工具。

尤其是现在Photoshop也整出了类似的东西,但是大家都知道PS的那套是闭源乃至收费的,所以……   

提示词:A photo of psnplu plush pillow, inside a bowl of clam chowder, in a dark room

很厉害!!!虽然可能因为原图很亮,重绘到我这张图上之后也显得比较亮,但是它仍然非常聪明地把视角从半俯视变成了较低的视角,虽然和原图的视角还是有些差别,但是也很不错了!

而且重绘后的图,和原图的融合度也极其高,真的非常令人惊喜。我还没试过人像重绘,但是看这个水平绝对也不会差。

而且以上这两个重绘都是把denoising直接开到1,所以我估计这个Fill模型就是类似于我们熟悉的Inpaint Engine/Inpaint ControlNet一样的存在吧。

这个确实比我之前用过的Flux Inpaint ControlNet好太多了(之前阿里妈妈就出过一个,当时觉得还行,但是现在和官方的Fill模型比起来就……相形见绌),以后大概会常用!

好了,今天的测评就到这里!希望胖友们看得开心~ 

看到这里,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标哦!
⭐~谢谢你看我的文章。
⭐我是彩虹之眼:感谢你的阅读。
⭐视频号:RainbowEye
  

彩虹之眼
彩虹之眼(Rainbow Eye)-神秘而强大的 AI 情报组织。
 最新文章