字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

文摘 2024-10-27 00:00 江苏

之前的文章已经和大家介绍过字节开源的ID保持项目PuLID,感兴趣的小伙伴可以点击👇链接阅读～

最优SD角色特征固定工具来了！字节提出PuLID，实现文生图中高度的ID保真度与可编辑性。

随着FLUX模型的发布，PuLID也开源了 FLUX 版本的模型，不得不说FLUX的强大，两个月生态就赶上了SDXL。这次新发布PuLID-FLUX-v0.9.0模型，它为FLUX.1-dev提供了无需调整的ID定制解决方案。从效果看ID保持的很好，可以进行多种风格的转换，下面是一些视觉效果的展示。小伙伴们也可以点击文章下面的链接试用一下。

视觉结果

实用技巧

有两个参数至关重要，需要仔细设置：

timestep to start inserting ID：此参数控制ID插入的时间。如果设置为0，则从第一个时间步开始将ID插入DIT。插入得越早，ID的保真度就越高，但可编辑性可能会降低。插入得越晚，ID的保真度就越低，但可编辑性会增加，对原始模型行为的破坏也会更小。为了生成逼真的图像，我们建议将其设置为4。如果你发现ID相似度不够高，你可以尝试相应地降低此参数。为了生成风格化的图像，我们建议将其设置为0-1。

true CFG scale：FLUX.1-dev 是一个指导性提取模型，将原有的需要两倍推理步骤的 CFG 流程提取为指导性尺度，从而通过指导性尺度调制 DIT，以一半的推理步骤模拟真实的 CFG 流程。在下文中我们将此称为 fake CFG。我们的 PuLID-FLUX 模型可以在 fake CFG 设置下进行测试，指导性尺度可以设置为常用值，例如 4。但是该模型也支持使用真实的 CFG 进行推理。我们在下面对比了在照片级真实场景中使用 true CFG 和 fake CFG 的结果。

如上图所示，在 ID 保真度方面，使用 fake CFG 在大多数情况下与 true CFG 相似，只是在少数情况下，true CFG 实现了更高的 ID 相似度。在图像美观度和面部自然度方面，fake CFG 表现更佳。但是，通过仔细调整超参数，真正的 CFG 的性能可能会进一步提高，我们留给社区去探索。因此，我们建议在照片级真实场景中使用假 CFG。如果您对 ID 保真度不满意，可以尝试切换到真正的 CFG。此外，如下所示，我们发现在风格化场景中使用假 CFG 有时会导致 ID 相似度较低和风格响应较差，因此在风格化场景中遇到这两个问题，可以切换到真正的 CFG。

一些技术细节

PuLID-FLUX-v0.9.0将ID编码器从MLP结构切换到Transformer结构。感兴趣的小伙伴户、可以参考源代码：源码链接
受到Flamingo的启发，每隔几个 DIT 块插入额外的交叉注意力块，以将 ID 特征与 DIT 图像特征进行交互。
加速方法（如 SDXL-Lightning）是一种可选的加速技巧，但它对于训练 PuLID 来说并非不可或缺。未来会更新 arxiv 论文的相关细节。请继续关注。

局限性

该模型目前处于测试版本，部分男性输入的身份保真度可能不高，也许模型需要更多训练。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247488536&idx=4&sn=dddbdaf231a7b6b1f16c51117a77d0a1

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

IC-light V2：基于FLUX训练，支持风格化图像，细节远高于SD1.5。

Flux Lora｜可以和二次元合影啦！RealAnime-Detailed V2，可将动画与真实人物风格融合！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

ComfyUI-Detail-Daemon：用于控制图像生成细节的ComfyUI节点，文中附工作流下载。

Flux LoRA | Then and Now：可将历史照片和现代场景融合，实现不同时间点的对比展示。

Controlnet作者新作IC-light V2：基于FLUX训练，支持处理风格化图像，细节远高于SD1.5。

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型。

统一图像生成模型OmniGen：可由多模态提示直接生成各种图像。

图像编辑大一统？多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑。

文本转视频模型Allegro，可以生成长达 6 秒、15 FPS 和 720p 分辨率的高质量视频。

NeurIPS2024 | OCR-Omni来了！字节&华师提出统一的多模态生成模型TextHarmony。

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

3D服装生成新SOTA！谷歌和CMU提出FabricDiffusion：可将织物纹理从单个图像迁移到3D服装

告别大头娃娃，东京大学开源数字人TANGO：能根据目标语音音频生成同步全身手势的视频。

超级智能“试衣镜”！GarDiff：高保真保持目标人物特征和服装细节，虚拟试穿技术新SOTA！

GarmentAligner，解决服装生成中语义对齐、数量、位置和相互关系等问题。

Flux LoRA | Then and Now：可将历史照片和现代场景融合，实现不同时间点的对比展示。

英伟达提出ComfyGen：通过LLM来生成匹配文本的工作流。

Story-Adapter：能够生成更高质量、更具细腻交互的故事图像。

混合专家模型 (MoE) 详解

统一图像生成模型OmniGen：可由多模态提示直接生成各种图像。

NeurIPS2024 | OCR-Omni来了！字节&华师提出统一的多模态生成模型TextHarmony。

登顶Hugging Face文生图模型榜首！Recraft V3可精确处理复杂长文本和手指等解剖学细节！

刚刚，阿里重磅开源基于FLUX的In-Context LoRA，可一次生成多张风格和ID一致的图片集。

超火的开源文本转语音工具 F5-TTS，一段音频+文字就可以模仿你想要的任何声色。

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Seed-Music：字节跳动开发的音乐生成模型支持多种数据输入生成和编辑音乐！

Controlnet作者新作IC-light V2：基于FLUX训练，支持处理风格化图像，细节远高于SD1.5。

IC-Light，可以操控图像生成时的光照，光照难题终于被解决了！

OpenFLUX.1：去蒸馏版本的FLUX.1-schnell，可进行微调，文中附模型下载地址。

零样本主题驱动图像生成新方法！EZIGen：在保持灵活性的同时保留主题身份！

Flux Lora｜可以和二次元合影啦！RealAnime-Detailed V2，可将动画与真实人物风格融合！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

阿里巴巴推出升级版AI翻译工具：Marco MT 性能超越Google、DeepL和ChatGPT

UIUC提出InstructG2I：从多模态属性图合成图像，结合文本和图信息生成内容更丰富有趣！

港大和字节提出长视频生成模型Loong，可生成一分钟具有一致外观、动态和场景过渡的视频。

ScribbleDiff：使用涂鸦精细引导扩散，实现无需训练的文本到图像生成。

图像编辑大一统？多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑。

自动生成ComfyUI工作流？英伟达提出ComfyGen：通过LLM来生成匹配文本的工作流。

长篇故事可视化方法Story-Adapter：能够生成更高质量、更具细腻交互的故事图像。

CVPR 2024 | 英伟达发布新一代视觉基础模型: AM-RADIO = CLIP + DINOv2 + SAM

做游戏不用建模了？微软提出DIAMOND：AI可根据玩家行为自动实时合成下一帧画面！

Story-Adapter：能够生成更高质量、更具细腻交互的故事图像。

ComfyUI 轻松实现二次元线稿上色，快速生成精美动漫图像。

阿里开源MIP-Adapter，可将IP-Adapter推广到多个参考图像！

统一的图像生成模型OmniGen：可以根据多模态提示直接生成各种图像，无需额外插件。

GroundingBooth：一个用于文本到图像的定制框架，支持多主题和文本联合接地定制！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

视觉结果

相关链接

实用技巧

一些技术细节

局限性