ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

创业 2024-08-13 08:22 北京

近年来，基于扩散模型的图像编辑方法在处理单一主要物体和简单构图的图像时表现出色。然而，针对多物体和复杂构图图像的局部编辑需求日益增加，但现有研究尚显不足。
本文提出了一种即插即用的方法——基于掩码的注意力图约束调整引导。此方法可与现有基于注意力的编辑方法和基于Inversion的方法相结合，增强了基于注意力的编辑效果，提升了复杂场景中的局部图像编辑能力。广泛的定量和定性实验验证了该方法在复杂场景中具有和文本对齐并且保持结构一致性的局部编辑能力。

论文题目：
MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
论文地址：
https://arxiv.org/abs/2312.11396
项目主页：
https://mag-edit.github.io/

一、亮点

本文提出了一种即插即用的方法——基于掩码的注意力图约束调整引导。此方法可与现有基于注意力的编辑方法和基于Inversion的方法相结合，来提高其编辑能力。具体而言，方法旨在最大限度地提高两方面的比例：第一，编辑词元的交叉注意力值与掩码区域内所有词元的交叉注意力值的比例；第二，编辑词元的交叉注意力图在掩码内的值与其所有的值在空间上的比例。随后，这些约束条件的梯度会引导潜在噪声特征的更新，从而使编辑效果逐步符合所需的文本提示和空间要求。

二、摘要

近年来，基于扩散模型的图像编辑方法在处理单一主要物体和简单构图的图像时表现出色。然而，针对多物体和复杂构图图像的局部编辑需求日益增加，但现有研究尚显不足。例如，基于掩码的内绘方法难以保留编辑区域的底层结构，导致与周围环境不协调。基于注意力的方法（如 "Prompt-to-Prompt"（P2P））在复杂图片中易出现编辑泄漏和错位问题。

为此，本文提出了基于掩码的交叉注意力调整算法（MAG-Edit），这是一种即插即用的推理阶段优化方法。该方法增强了基于注意力的编辑效果，提升了复杂场景中的局部图像编辑能力。具体来说，MAG-Edit通过增大编辑词元的两个基于掩码的交叉注意比率来优化噪声潜特征，从而逐步增强与所需提示的局部对齐。广泛的定量和定性实验验证了该方法在复杂场景中具有和文本对齐并且保持结构一致性的局部编辑能力。

三、背景

大规模文本到图像（T2I）扩散模型的最新进展展示了它们在生成高质量、多样化图像方面的卓越能力，尤其是在反映特定文本描述时。经过大量数据集的训练，这些模型能有效地将文本与相应图像联系起来，开辟了基于文本图像编辑的新可能性。过去一年中，基于扩散模型的文本图像编辑方法显著增加，大致可分为三类：基于指令的训练、微调以及无需训练的方法。

本文聚焦于改进无需训练的编辑方法。现有无需训练的方法，如混合潜在扩散模型（BLD），会导致编辑区域的结构显著改变，破坏与复杂背景的视觉和谐。基于注意力的编辑方法（如 "Prompt-to-Prompt"（P2P））能保持原始图像的结构和布局，但编辑效果可能超出目标区域。尽管结合这两种方法可以减少目标区域之外的编辑，但在与文本提示的精确对齐方面仍存在挑战，导致编辑内容无法准确定位。

为解决这些问题，本文提出了一种新颖的优化策略，称为基于掩码的注意力调整引导（MAG-Edit）。该方法在推理阶段使用两个基于掩码的交叉注意力约束条件，对噪声潜特征进行局部优化，以增强图像特征与文本的对齐程度，从而实现平衡效果和结构的局部编辑。

四、方法

如图1所示，本文提出了一种基于掩码的注意力调整引导模块，应用于去噪过程。该模块包含两个步骤：

图 1(b)展示的计算两个基于掩码的约束
图 1(c)所示的执行梯度引导

图 1 算法框架图。

4.1 基于掩码的注意力调整约束

考虑到交叉注意力图（Cross-Attention,CA）定义了输入特征和文本嵌入之间的相似性，CA值越大，表示文本和图像特征的对齐效果越好。这一观察结果启发我们制定了两个基于掩码的约束条件，目的是在预定义的编辑区域内最大化词元和空间方面的CA 值比例。

词元比例约束

鉴于 CA 值是按所有标记的维度计算的，我们提出了一个标记比例约束。该约束的目的是增加目标标记相对于掩码 M 中所有其他标记的比例，从而将编辑效果更精确地集中在指定区域。如图 1(b) 左侧图块所示，标记比例约束的定义如下

空间比例约束

为了解决这个问题，我们引入了一个额外的空间公式，旨在最大化屏蔽区域内的 CA 值，同时最小化屏蔽区域外的 CA 值。图 3(b) 右侧图块所示

4.2 梯度引导的执行

在建立基于掩码的约束后，计算其梯度，以确定引导当前潜在噪声特征的最佳方向。具体来说，为了将编辑效果限制在预定义的区域内，我们使用下式更新掩码内的潜在噪声特征：

此外，此方法还可适用于多种文本提示进行编辑，公式如下：

五、实验结果分析/analysis

现有数据集缺少包含多个物体、具有复杂构图的图像。为了更好地衡量本文提出的方法在复杂场景中局部编辑的性能，本文收集了一个复杂场景数据集MAG-Bench,并在此数据集中进行实验。

本文的基线模型为现有的具有代表性的免训练扩散图像编辑方法进行了比较，包括基于掩码的内绘方法、基于注意力的方法和P2P的改进方法：首先将本文的方法中使用的相同混合操作与P2P结合起来，称为 P2P+Mask。此外，本文还结合了P2P中的重加权操作（Re-weighting），将目标编辑词元的CA，在掩码内放大十倍，称为 P2P+Re-weight。

5.1 局部编辑能力比较

定性评估

以下展示的使复杂场景下的局部图像编辑定性比较图。其中，白色虚线表示目标区域，源图像上显示了简化的目标提示。与其他基线模型（a-g）相比，本文提出的方法（h）不仅实现了出色的编辑效果，而且更好地保留了局部区域的结构。

图 2 不同复杂场景下的局部图像编辑的定性实验比较。

定量评估

本文利用自动指标和人工评估对提出的方法与基线模型进行了定量评估。下表中粗体和下划线分别表示最佳值和次佳值。图3显示了人类对本文方法和基线模型局部编辑结果的偏好。所显示的数值反映了，与其他方法相比，用户更青睐本文提出的方法的比例。可以看出，本文提出的方法在自动指标和人类偏好上都优于基线方法。

表 1 局部图像编辑的定量实验比较。

图 3 用户偏好调查。

5.2 消融实验

迭代次数的影响

优化噪声潜特征的最大迭代次数对于调节编辑幅度至关重要。如图4所示，增加迭代次数可以提高编辑的粒度。但是，在纹理和形状编辑中，过多的迭代次数可能会由于结构的改变而导致明显的伪影。

图 4 优化迭代次数的影响。

优化扩散步骤的影响

优化的步数对编辑效果存在影响。总体来说，在 25 个步骤后更新潜噪声特征并不能明显改善纹理编辑的粒度，反而会延长优化时间。对于形状编辑，超过 25 步的过度优化会因结构变化而产生明显的伪影。

图 5 通过不同数量的扩散步骤应用MAG-Edit。

不同约束的影响

如下图所示，词元比例约束和空间比例约束的编辑粒度不同。前者擅长保持编辑区域内的固有结构，这有助于实现自然的颜色和纹理修改。另一方面，后者通过直接放大遮罩内的 CA 值提供了更强的引导性，从而使编辑区域内的结构变化更加明显。因此，后者更适合涉及较大结构形状变化的编辑。

图 6 建议约束的粒度级别。

5.3 局部编辑的应用

如图 6 所示，MAG-Edit 可以应用于一些列局部编辑应用。在图 8(a)中显示，MAG-Edit 能够平衡各种文本提示的编辑粒度，满足用户对不同目标词元的特定需求。此外，图 8(b)展示了MAG Edit对单幅图像中的多个对象进行迭代式局部编辑的能力。此外，MAG-Edit 还能控制编辑的空间位置和实施部件级编辑，如图 8(c)、图 8(d) 所示。

图 8 MAG-Edit其他类型不同的编辑应用。

六、总结

本文提出了一种新颖的即插即用、推理阶段优化方案——基于掩码的注意力调整引导（MAGEdit）。该方法增强了基于注意力的编辑框架（如 "Prompt-to-Prompt"（P2P））的能力，以加强在具有多个对象和复杂组合的复杂场景中的本地化编辑。具体来说，该方法最大化两个基于掩码的CA比例，即标记和空间比率，以局部优化噪声潜特征，从而增强与目标编辑标记的对齐。定量和定性实验结果一致表明，MAG-Edit 在复杂场景下的局部图像编辑方面优于现有方法。

作者：毛琪
来源：公众号【智能多媒体处理小组】

llustration From IconScout By Delesign Graphic

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513130&idx=2&sn=06f3d535c2673af98072da21bee3a412

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉