本文是VCC张明启同学对论文 RealFill: Reference-Driven Generation for Authentic Image Completion 的解读,该工作来自康奈尔大学、Google Research以及Snap Research,已被发表在计算机图形学顶级会议SIGGRAPH 2024上。 该工作提出了一种真实图像补全方法,该方法允许用户使用少量的参考图像对模型进行个性化训练,通过学习输入图像的真实场景信息从而对目标图像进行补全和扩展,并且对输入的参考图像和目标图像没有严格限制,图像可以在视点、光照、风格等方面存在差异。相比于其他补全方法,RealFill补全结果能更好保持真实场景的结构和细节,而后者会产生合理但不真实的内容。
该工作提出了一种真实图像补全方法,该方法允许用户使用少量的参考图像对模型进行个性化训练,通过学习输入图像的真实场景信息从而对目标图像进行补全和扩展,并且对输入的参考图像和目标图像没有严格限制,图像可以在视点、光照、风格等方面存在差异。相比于其他补全方法,RealFill补全结果能更好保持真实场景的结构和细节,而后者会产生合理但不真实的内容。
论文标题:
RealFill: Reference-Driven Generation for Authentic Image Completion
论文链接:
https://arxiv.org/abs/2309.16668
项目主页:
https://realfill.github.io/
一、引言
二、技术贡献
本工作主要贡献如下:
定义了一种新的任务:真实图像补全,给定一组参考图像和目标图像,本工作希望补全的内容符合输入图像中的场景信息;
提出了一种用于真实图像补全任务的方法,RealFill,通过在参考图像上利用LoRA微调预训练的扩散模型,即可使用微调后的模型进行真实图像补全;
提出了RealBench数据集,数据集内包含33个场景的信息,可以用于真实图像补全任务的定量评估。
三、方法介绍
图1 RealFill的训练和推理过程
训练过程
推理过程
基于对应关系的种子选择
四、部分结果展示
Inpaint和outpaint
图2 outpaint结果
图3 inpaint结果
定量评估
表1 RealFill与基准方法的定量评估
图4 与基准方法定量评估的可视化结果
基于对应关系的种子选取
图5 匹配特征点对的数量与结果质量的相关性
五、总结与展望
本文首先介绍了一种新的真实图像补全任务,给定一组参考图像,本工作希望补全图像的内容符合输入图像的真实场景信息。为此,本文提出了一种简单但有效的方法RealFill,该方法首先用参考图像和目标图像对T2I补全扩散模型进行微调,然后使用微调后的模型补全目标图像的缺失区域。实验结果表明,RealFill能输出高质量、符合参考图像真实场景信息的补全结果,即使参考图像与目标图像之间存在视点、光照、风格等方面的差异,RealFill的表现也同样出色。
六、思考与讨论
Q: RealFill还存在着哪些不足?
A: 当参考图像与目标图像之间的视点差异过大时,比如只有一张参考图像,此时RealFill的结果通常无法还原场景信息。另外,由于RealFill在学习输入图像的场景信息时是一个基于梯度优化的过程,因此RealFill的训练速度很慢。
Q: 参考图像的选择是否会影响RealFill的结果?
图6 参考图像的选择对结果的影响
以下是开放性问题,欢迎读者朋友留言讨论:
Q: 是否可以将RealFill对场景内容的学习能力用来做图像生成,通过将不同场景的结构和风格融合在一起,从而创建新的场景或者纹理?
参考文献
[1] Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan. Emergent correspondence from image diffusion. Advances in Neural Information Processing Systems (NeurIPS). 1363-1389, 2023.
[2] Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T.Freeman. Maskgit: Masked generative image transformer. Conference on Computer Vision and Pattern Recognition (CVPR). 11315-11325, 2022.
[3] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Bjorn Ommer. High-resolution image synthesis with latent diffusion models. Conference on Computer Vision and Pattern Recognition (CVPR). 10684-10695, 2022.
[4] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. Conference on Computer Vision and Pattern Recognition (CVPR). 22500-22510, 2023.
作者:张明启 来源:公众号【深圳大学可视计算研究中心】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。