SIGGRAPH 2024 | 参考图像驱动的真实图像补全

创业 2024-12-10 08:23 北京

本文是VCC张明启同学对论文 RealFill: Reference-Driven Generation for Authentic Image Completion 的解读，该工作来自康奈尔大学、Google Research以及Snap Research，已被发表在计算机图形学顶级会议SIGGRAPH 2024上。
该工作提出了一种真实图像补全方法，该方法允许用户使用少量的参考图像对模型进行个性化训练，通过学习输入图像的真实场景信息从而对目标图像进行补全和扩展，并且对输入的参考图像和目标图像没有严格限制，图像可以在视点、光照、风格等方面存在差异。相比于其他补全方法，RealFill补全结果能更好保持真实场景的结构和细节，而后者会产生合理但不真实的内容。

论文标题：
RealFill: Reference-Driven Generation for Authentic Image Completion
论文链接：
https://arxiv.org/abs/2309.16668
项目主页：
https://realfill.github.io/

一、引言

照片捕捉了我们生活中短暂而宝贵的经历，但是在许多情况下，我们拍摄不到具有完美角度的照片。因此，人们希望可以借用图像补全技术来得到想要的图像。图像补全是计算机视觉领域的一个长期挑战，其目的是用可信的内容来填充图像缺失部分，在许多应用场景具有广泛的应用潜力。过去解决此类问题主要采用经典的基于几何的方法，这些方法依赖于特征匹配、深度估计和3D变换等操作，无法处理复杂场景。最近出现的生成模型，尤其是概率扩散模型，在图像补全和拓展任务上展现了强大的性能。然而现有生成方法仍难以恢复真实场景的结构和细节。

为了能够真实地还原场景信息，本文提出了一种参考图像驱动的图像补全方法，RealFill。该方法根据用户提供的参考图像和目标图像，对预训练的补全扩散模型进行微调，使得模型可以学习到输入图像中的场景的内容、光照和风格，然后即可使用微调后的模型通过标准的扩散采样过程补全目标图像。RealFill能够有效地根据真实场景信息对图像进行补全和拓展，即使参考图像和目标图像在视点、光照、风格等方面具有较大差别，RealFill也能够很好地处理。因为扩散模型具有不确定性，生成结果的质量参差不齐，所以本文最后设计了一种基于对应关系的种子选择策略，从多个输出中选择一组补全效果较好的图像作为最终结果。

二、技术贡献 ‍

本工作主要贡献如下：

定义了一种新的任务：真实图像补全，给定一组参考图像和目标图像，本工作希望补全的内容符合输入图像中的场景信息；
提出了一种用于真实图像补全任务的方法，RealFill，通过在参考图像上利用LoRA微调预训练的扩散模型，即可使用微调后的模型进行真实图像补全；
提出了RealBench数据集，数据集内包含33个场景的信息，可以用于真实图像补全任务的定量评估。

三、方法介绍

给定一组随机捕获到的参考图像（至多5张），RealFill的目标是在缺失区域生成符合真实场景信息的内容，输出图像不仅要可信和逼真，而且要符合参考图像场景信息。RealFill的训练和推理过程如下图1所示。在训练阶段，本文根据用户输入图像，利用LoRA对预训练的补全模型进行参数微调，使得模型学习输入图像的场景信息；在推理阶段，利用微调后的模型，以特定句式“a photo of [V]”、目标图像及其掩膜作为控制条件，并且采用现有的Denoising Diffusion Probabilistic Models（DDPM）采样器，从一张纯噪声的图像生成最终的补全图像。

图1 RealFill的训练和推理过程

不论是对于基于几何的方法，还是基于重建的方法来说，真实图像补全的任务都十分具有挑战性。这是因为该任务只有少数图像可以作为输入，在参考图像和目标图像之间几乎没有设置任何几何约束，而且参考图像可能具有与目标图像十分不同的风格和光照条件。因此，该方法首先通过在参考图像上微调预训练的生成模型，从而将场景信息注入到模型中。然后，以目标图像及掩码作为条件，使用微调后的模型补全图像，从而使得生成的图像呈现目标场景。

训练过程

RealFill的实现基于预训练的补全扩散模型，通过在训练阶段为预训练模型注入LoRA参数，并在和上用随机生成的掩膜对参数进行微调，从而使得RealFill学习到当前输入图像的场景信息。损失函数如下所示：

其中，是一个文本描述词。对于而言，损失函数只会在非缺失区域进行计算。该工作使用开源的Stable Diffusion v2补全模型，并在text encoder和UNet中注入LoRA参数。在训练过程中为特定句式：“a photo of [V]”。对于每个训练样本，该工作生成多个随机的矩形区域，取矩形的并集或者并集的补集构建随机掩模图像。

推理过程

在完成训练后，本文采用DDPM采样器生成并以、和作为模型的控制条件。在实验结果中, 的非掩码区域发生了畸变，与中对应区域的内容不相符。为了解决这个问题，本文首先对掩膜进行羽化处理，然后用羽化处理过的掩膜对和做alpha混合，这样可以使最终结果的已有区域和输入图像一致，并在生成区域的边界处产生平滑过渡。

基于对应关系的种子选择

由于扩散模型的推理过程是随机的，相同的输入可以生成不同的图像。这种随机性使得生成图像的质量参差不齐，该工作将参考图像作为基准，帮助识别高质量的生成图像。具体来说，采用和之间的匹配特征点对的数量作为度量，粗略地量化结果与参考图像的相似度。

四、部分结果展示

Inpaint和outpaint

现有的基于参考图像的图像补全基准主要关注小区域的补全，并假设参考图像和目标图像之间的差异非常微小。为了更好地评估本文测试用例，本文创建了一个包含33个场景的图像数据集，RealBench。图2和图3展示了RealFill的生成结果，说明该方法能够对图像进行补全和扩展，生成与参考图像信息一致的内容，并且能够处理相机姿态、光照、焦外模糊、图像风格的显著差异等情况。

图2 outpaint结果

图3 inpaint结果

定量评估

参考图像信息一致的内容，并且能够处理相机姿态、光照、焦外模糊、图像风格的显著差异等情况。本文与基于参考图像、基于提示词的两组基线方法进行了比较，并在RealBench数据集上对所有方法进行了定量评估。RealFill在所有指标上都优于另外两种方法，如表1所示：

表1 RealFill与基准方法的定量评估

图4展示了上述评估的可视化结果，与基准方法相比，RealFill不仅能够生成高质量的图像，而且补全的内容更加符合输入图像的场景信息。

图4 与基准方法定量评估的可视化结果

基于对应关系的种子选取

对于不同场景，本文根据匹配特征点对的数量对生成结果进行排序和筛选，以此来评估种子选取策略与结果质量之间的相关性。图5展示了具有不同匹配特征点对数量的RealFill输出，该结果表明匹配特征点对的数量越少通常意味着结果质量越低。

图5 匹配特征点对的数量与结果质量的相关性

五、总结与展望

本文首先介绍了一种新的真实图像补全任务，给定一组参考图像，本工作希望补全图像的内容符合输入图像的真实场景信息。为此，本文提出了一种简单但有效的方法RealFill，该方法首先用参考图像和目标图像对T2I补全扩散模型进行微调，然后使用微调后的模型补全目标图像的缺失区域。实验结果表明，RealFill能输出高质量、符合参考图像真实场景信息的补全结果，即使参考图像与目标图像之间存在视点、光照、风格等方面的差异，RealFill的表现也同样出色。

六、思考与讨论

Q: RealFill还存在着哪些不足？

A: 当参考图像与目标图像之间的视点差异过大时，比如只有一张参考图像，此时RealFill的结果通常无法还原场景信息。另外，由于RealFill在学习输入图像的场景信息时是一个基于梯度优化的过程，因此RealFill的训练速度很慢。

Q: 参考图像的选择是否会影响RealFill的结果？

A: 根据经验，当有参考图像的数量更多时，或者当参考图像在视点、光照等方面与目标图像差异较小时，RealFill能够输出更好的结果，如图6所示：

图6 参考图像的选择对结果的影响

以下是开放性问题，欢迎读者朋友留言讨论：

Q: 是否可以将RealFill对场景内容的学习能力用来做图像生成，通过将不同场景的结构和风格融合在一起，从而创建新的场景或者纹理？

参考文献

[1] Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan. Emergent correspondence from image diffusion. Advances in Neural Information Processing Systems (NeurIPS). 1363-1389, 2023.

[2] Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T.Freeman. Maskgit: Masked generative image transformer. Conference on Computer Vision and Pattern Recognition (CVPR). 11315-11325, 2022.

[3] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Bjorn Ommer. High-resolution image synthesis with latent diffusion models. Conference on Computer Vision and Pattern Recognition (CVPR). 10684-10695, 2022.

[4] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. Conference on Computer Vision and Pattern Recognition (CVPR). 22500-22510, 2023.

作者：张明启
来源：公众号【深圳大学可视计算研究中心】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉