近年来,基于扩散模型的图像编辑方法在处理单一主要物体和简单构图的图像时表现出色。然而,针对多物体和复杂构图图像的局部编辑需求日益增加,但现有研究尚显不足。 本文提出了一种即插即用的方法——基于掩码的注意力图约束调整引导。此方法可与现有基于注意力的编辑方法和基于Inversion的方法相结合,增强了基于注意力的编辑效果,提升了复杂场景中的局部图像编辑能力。广泛的定量和定性实验验证了该方法在复杂场景中具有和文本对齐并且保持结构一致性的局部编辑能力。
本文提出了一种即插即用的方法——基于掩码的注意力图约束调整引导。此方法可与现有基于注意力的编辑方法和基于Inversion的方法相结合,增强了基于注意力的编辑效果,提升了复杂场景中的局部图像编辑能力。广泛的定量和定性实验验证了该方法在复杂场景中具有和文本对齐并且保持结构一致性的局部编辑能力。
论文题目:
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
论文地址:
https://arxiv.org/abs/2312.11396
项目主页:
https://mag-edit.github.io/
一、亮点
二、摘要
近年来,基于扩散模型的图像编辑方法在处理单一主要物体和简单构图的图像时表现出色。然而,针对多物体和复杂构图图像的局部编辑需求日益增加,但现有研究尚显不足。例如,基于掩码的内绘方法难以保留编辑区域的底层结构,导致与周围环境不协调。基于注意力的方法(如 "Prompt-to-Prompt"(P2P))在复杂图片中易出现编辑泄漏和错位问题。
为此,本文提出了基于掩码的交叉注意力调整算法(MAG-Edit),这是一种即插即用的推理阶段优化方法。该方法增强了基于注意力的编辑效果,提升了复杂场景中的局部图像编辑能力。具体来说,MAG-Edit通过增大编辑词元的两个基于掩码的交叉注意比率来优化噪声潜特征,从而逐步增强与所需提示的局部对齐。广泛的定量和定性实验验证了该方法在复杂场景中具有和文本对齐并且保持结构一致性的局部编辑能力。
三、背景
四、方法
如图1所示,本文提出了一种基于掩码的注意力调整引导模块,应用于去噪过程。该模块包含两个步骤:
图 1(b)展示的计算两个基于掩码的约束
图 1(c)所示的执行梯度引导
图 1 算法框架图。
4.1 基于掩码的注意力调整约束
词元比例约束
空间比例约束
4.2 梯度引导的执行
在建立基于掩码的约束后,计算其梯度,以确定引导当前潜在噪声特征的最佳方向。具体来说,为了将编辑效果限制在预定义的区域内,我们使用下式更新掩码内的潜在噪声特征:
此外,此方法还可适用于多种文本提示进行编辑,公式如下:
五、实验结果分析/analysis
现有数据集缺少包含多个物体、具有复杂构图的图像。为了更好地衡量本文提出的方法在复杂场景中局部编辑的性能,本文收集了一个复杂场景数据集MAG-Bench,并在此数据集中进行实验。
本文的基线模型为现有的具有代表性的免训练扩散图像编辑方法进行了比较,包括基于掩码的内绘方法、基于注意力的方法和P2P的改进方法:首先将本文的方法中使用的相同混合操作与P2P结合起来,称为 P2P+Mask。此外,本文还结合了P2P中的重加权操作(Re-weighting),将目标编辑词元的CA,在掩码内放大十倍,称为 P2P+Re-weight。
5.1 局部编辑能力比较
定性评估
图 2 不同复杂场景下的局部图像编辑的定性实验比较。
定量评估
表 1 局部图像编辑的定量实验比较。
图 3 用户偏好调查。
5.2 消融实验
迭代次数的影响
图 4 优化迭代次数的影响。
优化扩散步骤的影响
图 5 通过不同数量的扩散步骤应用MAG-Edit。
不同约束的影响
图 6 建议约束的粒度级别。
5.3 局部编辑的应用
图 8 MAG-Edit其他类型不同的编辑应用。
六、总结
作者:毛琪
来源:公众号【智能多媒体处理小组】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。