图像抠图革新!Matting by Generation生成式抠图技术,智能识别主体,边缘处理细腻入微。

文摘   2024-09-14 00:00   江苏  

今天给大家介绍港中文和国立台湾大学提出的一种创新的图像抠图方法,称为“生成式抠图”,其核心在于将传统的回归任务重新定义为生成建模挑战。

想象一下,给定一张图片,我们的模型就像一位巧妙的艺术家,它在无数次“噪音去除”的过程中逐步了解了前景和背景。我们首先教模型识别图片中的物体,并为它们分配透明度值。这样,当你给它一个新的图片时,它能够自动判断哪个部分是你想要保留的,并且能生成逼真的边缘细节。

通过生成抠图以条件生成的方式解决了无三元图抠图问题,而不是以前的基于回归的方式。仅使用图像作为输入,该方法就会自动提取前景(例如人)并生成高质量的边界细节,这得益于丰富的生成先验,从而产生逼真的构图。与人工标注相比,该方法结果为本例中的输入图像提供了更清晰的细节和更高的保真度。

本文亮点:

  • 我们将回归问题转化为生成建模问题,在正则化训练之前有效地利用生成扩散。
  • 我们开发了一个能够高效地处理高分辨率输入的模型。
  • 我们的模型是通用的,能够处理各种提示的场景,包括trimaps,蒙版,文本,根本没有提示。

相关链接

论文地址:https://arxiv.org/pdf/2407.21017v1

项目地址:https://lightchaserx.github.io/matting-by-generation

论文阅读

摘要

本文介绍了一种创新的图像抠图方法,将传统的基于回归的任务重新定义为生成建模挑战。我们的方法利用潜在扩散模型的功能,并丰富了大量的预训练知识,以规范抠图过程。我们提出了新颖的架构创新,使我们的模型能够生成具有卓越分辨率和细节的抠图。

所提出的方法用途广泛,可以执行无引导和基于引导的图像抠图,并适应各种附加提示。我们对三个基准数据集的全面评估证明了我们的方法在定量和定性方面的卓越性能。结果不仅反映了我们方法的强大有效性,还突出了它能够生成接近照片级真实质量的视觉上引人注目的抠图。

我们定制的高分辨率推理使任意分辨率图像的处理成为可能。除了无指导的抠图,我们可以无缝地集成额外的指导到我们的训练模型,如trimap,粗掩模,涂鸦和文本,以减轻抠图的模糊性。

方法

不完美的人类标注。训练数据通常要么是模糊的,要么缺乏一些细节。因此,基于回归的模型会过度拟合不完美的地面真相。

我们以条件生成的方式来解决抠图问题,通过训练一个扩散模型来联合建模alpha matte的分布𝑝(𝜶),并从以输入图像x为条件的分布中绘制alpha matte 𝜶。

由于其生成能力和预训练的丰富图像知识,我们的模型可以在没有指导的情况下找到前景并生成具有精细边界细节的alpha matte。由于其生成能力和预训练的丰富图像知识,我们的模型可以在没有指导的情况下找到前景并生成具有精细边界细节的alpha哑光。我们定制的高分辨率推理使任意分辨率图像的处理成为可能。除了无指导的抠图,我们可以无缝地将额外的指导集成到我们的训练模型,如trimap,粗掩模,涂鸦和文本,以减轻抠图中的模糊性。

效果

无trimap对PPM-100的消光效果。与之前的工作相比,我们的方法实现了更精确的抠图结果,特别是在薄而详细的结构周围。我们使用Germer et al.提出的技术提取前景,并将其合成到从公共背景数据库采样的新背景上。

使用指导。 通过各种指导,我们可以减少歧义。

消融研究。我们实现了该方法的四种变体,并对PPM-100进行了消融研究:

  1. 我们的模型不使用预训练的SD权值;
  2. 训练与相同的提示从一个图像的所有裁剪补丁;
  3. 我们的模型使用调整大小的完整图像进行训练,而不是使用不同尺度的小块进行训练;
  4. 在我们的训练阶段添加像素损失。

视频推理。通过单独处理下采样帧,我们的方法在视频中产生时间不一致。虽然采用高分辨率帧可以缓解这个问题,但它仍然存在与基于回归的方法类似的问题。

更多结果

RVP数据集上无导向抠图的视觉结果。

消光与失焦模糊。与人工标注的非焦点区域的硬标签相比,我们生成了软mattes.

基于trimap的抠图结果。我们的视觉结果看起来更好,但我们的评估分数比DiffMat差,主要是因为人工注释不完美。

肖像以外的抠图。基于SAM, MAM可以为长颈鹿图像生成语义正确的alpha哑光,但牺牲了一些细节。另一方面,ViTAE-S无法产生语义正确的结果,并且丢失了细节。我们的结果与人类注释非常匹配。

结论

我们的方法提供了一种简单但高效的抠图技术。它可以执行无三元图和基于引导的图像抠图任务。通过将问题重新定义为生成任务,并利用富含预训练知识的扩散模型进行正则化,我们设计了创新的设计,使我们的模型能够产生高分辨率和高质量的结果。我们在三个基准数据集上的实验结果不仅在定量方面证明了我们方法的有效性,而且还展示了其卓越的视觉性能,使其成为抠图领域的有前途的解决方案。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章