MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

文摘 2024-09-19 00:01 江苏

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力，从而增加了人们对个性化文本到图像应用的兴趣，尤其是在多主题场景中。然而，这些进步受到两个主要挑战的阻碍：

需要根据文本描述准确维护每个参考主题的细节；
难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

针对这些问题，阿里联合浙大提出了MS-Diffusion，MS-Diffusion 框架有助于在单主题场景（上图）和多主题上下文（下图）中实现个性化。值得注意的是，在保留主题细节的复杂性的同时，MS-Diffusion 实现了文本保真度的显著提升。

论文阅读

MS-Diffusion：具有布局指导的多主题零样本图像个性化

摘要

需要根据文本描述准确维护每个参考主题的细节；
难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

为了解决这些问题，我们的研究引入了 MS-Diffusion 框架，用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合，以保持主题之间的细节保真度。在布局指导下，MS-Diffusion 进一步改进了交叉注意力以适应多主题输入，确保每个主题条件作用于特定区域。所提出的多主题交叉注意力在保留文本控制的同时协调了和谐的跨主题构图。全面的定量和定性实验证实，该方法在图像和文本保真度方面均超越现有模型，促进了个性化文本到图像生成的发展。

方法

MS-Diffusion 为模型引入了两项关键增强功能：基础重采样器和多主体交叉注意机制。首先，基础重采样器能够熟练地吸收视觉信息，并将其与特定实体和空间约束相关联。随后，有针对性的交叉注意机制促进了图像条件与多主体注意层内潜在的扩散之间的精确交互。在整个训练阶段，预先存在的扩散模型的所有组件都保持冻结状态。

效果

单主题个性化

MS-Diffusion 在所有主题中都表现出极佳的文本保真度，同时保留了主题细节，尤其是活体（狗）。可以注意到，由于在生成过程中参考了整个图像，因此背景中的一些元素（第三行和第四行）也出现在结果中（草和茶壶架）。它们的作用范围取决于输入边界框。在实际应用中，建议使用蒙版图像作为条件。

多主题个性化

多主题结果涵盖了丰富的组合类型，充分体现了MS-Diffusion的通用性和鲁棒性。当场景根据文本自由变化时，主题的细节得以保留而不受影响。除了常见的平行组合，MS-Diffusion在具有一定重叠区域的组合的个性化生成中也表现出色，例如“生活+穿搭”、“物品+场景”。

布局控制能力

MS-Diffusion 关于布局控制能力的定性示例。不同颜色的边界框对应具有不同颜色边框的主体。可以证明 MS-Diffusion 可以生成符合布局条件的图像，即使是同一类别的两个实例也是如此。但是，生成的位置并不完全准确，尤其是在“草地上的一只猫和一只猫”中，说明与个性化任务中的文本和图像提示相比，布局条件相对较弱。

与 ControlNet 集成

整合不同控制条件时的生成结果。整合的控制网络由深度、Canny Edge 和 Openpose 组成。

主题插值

多主题生成中的主题插值。我们选择两只狗和两顶帽子进行线性插值，文本设置为“沙滩上戴着帽子的狗”。

结论

本研究通过开发 MS-Diffusion 为 P-T2I 扩散模型领域做出了重大贡献。这种零样本框架擅长捕捉复杂的主体细节，并将多个主体平滑地融合成单个连贯的图像。我们的模型配备了创新的 Grounding 重采样器和多主体交叉注意机制，有效地克服了常见的多主体个性化问题，例如主体忽视和冲突。与现有模型相比，广泛的消融研究强调了 MS-Diffusion 在图像合成保真度方面的增强性能。对于无需微调且需要布局指导的 P-T2I 应用程序来说，它是一种突破性的方法。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487942&idx=4&sn=b67570b04e4bef94d3f0a9af3c078592

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

相关链接

论文阅读

摘要

方法

效果

单主题个性化

多主题个性化

布局控制能力

与 ControlNet 集成

主题插值

结论