图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

文摘 2024-09-14 00:00 江苏

今天给大家介绍港中文和国立台湾大学提出的一种创新的图像抠图方法，称为“生成式抠图”，其核心在于将传统的回归任务重新定义为生成建模挑战。

想象一下，给定一张图片，我们的模型就像一位巧妙的艺术家，它在无数次“噪音去除”的过程中逐步了解了前景和背景。我们首先教模型识别图片中的物体，并为它们分配透明度值。这样，当你给它一个新的图片时，它能够自动判断哪个部分是你想要保留的，并且能生成逼真的边缘细节。

通过生成抠图以条件生成的方式解决了无三元图抠图问题，而不是以前的基于回归的方式。仅使用图像作为输入，该方法就会自动提取前景（例如人）并生成高质量的边界细节，这得益于丰富的生成先验，从而产生逼真的构图。与人工标注相比，该方法结果为本例中的输入图像提供了更清晰的细节和更高的保真度。

本文亮点:

我们将回归问题转化为生成建模问题，在正则化训练之前有效地利用生成扩散。
我们开发了一个能够高效地处理高分辨率输入的模型。
我们的模型是通用的，能够处理各种提示的场景，包括trimaps，蒙版，文本，根本没有提示。

论文阅读

摘要

本文介绍了一种创新的图像抠图方法，将传统的基于回归的任务重新定义为生成建模挑战。我们的方法利用潜在扩散模型的功能，并丰富了大量的预训练知识，以规范抠图过程。我们提出了新颖的架构创新，使我们的模型能够生成具有卓越分辨率和细节的抠图。

所提出的方法用途广泛，可以执行无引导和基于引导的图像抠图，并适应各种附加提示。我们对三个基准数据集的全面评估证明了我们的方法在定量和定性方面的卓越性能。结果不仅反映了我们方法的强大有效性，还突出了它能够生成接近照片级真实质量的视觉上引人注目的抠图。

我们定制的高分辨率推理使任意分辨率图像的处理成为可能。除了无指导的抠图，我们可以无缝地集成额外的指导到我们的训练模型，如trimap，粗掩模，涂鸦和文本，以减轻抠图的模糊性。

方法

不完美的人类标注。训练数据通常要么是模糊的，要么缺乏一些细节。因此，基于回归的模型会过度拟合不完美的地面真相。

我们以条件生成的方式来解决抠图问题，通过训练一个扩散模型来联合建模alpha matte的分布𝑝(𝜶)，并从以输入图像x为条件的分布中绘制alpha matte 𝜶。

由于其生成能力和预训练的丰富图像知识，我们的模型可以在没有指导的情况下找到前景并生成具有精细边界细节的alpha matte。由于其生成能力和预训练的丰富图像知识，我们的模型可以在没有指导的情况下找到前景并生成具有精细边界细节的alpha哑光。我们定制的高分辨率推理使任意分辨率图像的处理成为可能。除了无指导的抠图，我们可以无缝地将额外的指导集成到我们的训练模型，如trimap，粗掩模，涂鸦和文本，以减轻抠图中的模糊性。

效果

无trimap对PPM-100的消光效果。与之前的工作相比，我们的方法实现了更精确的抠图结果，特别是在薄而详细的结构周围。我们使用Germer et al.提出的技术提取前景，并将其合成到从公共背景数据库采样的新背景上。

使用指导。 通过各种指导，我们可以减少歧义。

消融研究。我们实现了该方法的四种变体，并对PPM-100进行了消融研究:

我们的模型不使用预训练的SD权值;
训练与相同的提示从一个图像的所有裁剪补丁;
我们的模型使用调整大小的完整图像进行训练，而不是使用不同尺度的小块进行训练;
在我们的训练阶段添加像素损失。

视频推理。通过单独处理下采样帧，我们的方法在视频中产生时间不一致。虽然采用高分辨率帧可以缓解这个问题，但它仍然存在与基于回归的方法类似的问题。

结论

我们的方法提供了一种简单但高效的抠图技术。它可以执行无三元图和基于引导的图像抠图任务。通过将问题重新定义为生成任务，并利用富含预训练知识的扩散模型进行正则化，我们设计了创新的设计，使我们的模型能够产生高分辨率和高质量的结果。我们在三个基准数据集上的实验结果不仅在定量方面证明了我们方法的有效性，而且还展示了其卓越的视觉性能，使其成为抠图领域的有前途的解决方案。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487779&idx=4&sn=6ad474ff3452a5c1a2cd293ca56e6be0

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

相关链接

论文阅读

摘要

方法

效果

更多结果

结论