ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

科技 2024-11-28 21:29 广东

题目：RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images
作者：Benzhi Wang, Jingkai Zhou, Jingqi Bai, Yang Yang, Weihua Chen , Fan Wang , Zhen Lei
来源：arxiv 2024
论文链接：https://arxiv.org/abs/2409.03644
内容整理：张凌铠
本文介绍了一种名为RealisHuman的后处理框架，旨在修复生成图像中畸形的人体部分。该框架采用两阶段的方法：在第一阶段生成逼真的人体部件，RealisHuman利用原始畸形部件作为参考，生成逼真的人体部件，如手和脸。这一过程确保了与原始图像的一致性和细节的保留。在第二阶段无缝整合修复部件，框架通过重绘周围区域，将修复后的人体部件无缝整合回原始图像中，确保自然的融合效果。研究表明，RealisHuman显著提升了生成图像中人体的真实感，实验结果在定性和定量指标上均显示出显著改善。此外，该方法还具有强大的泛化能力，能够适用于不同风格的图像修复任务，包括其他结构固定物体的修复。在实验部分，研究者通过与现有方法的比较，验证了RealisHuman在手部和面部修复任务中的优越性，展示了其在处理畸形部件时的有效性和可靠性。尽管如此，文章也讨论了该方法的局限性，并指出未来的改进方向。RealisHuman为生成图像中的人体部分修复提供了一种有效的后处理解决方案，展示了在视觉生成领域的重要应用潜力。

引言
方法

修正人体部位生成
区域细节编码器
无缝的人体部位整合
训练

实验

数据集和评估准则
对比结果
消融实验

结论

引言

图1：修复结果对比图示。每对图像由两幅图像组成：左图像为原始图像，右图像为修复结果。

近年来，扩散模型在视觉生成领域取得了革命性的进展，超越了传统的生成对抗网络（GAN）框架。基于扩散原理的诸多模型，作为参数化的马尔可夫链，通过一个连续的优化过程，显示出将随机噪声转换为复杂图像的能力，在图像生成和各种相关任务中表现出了巨大的潜力。然而，由于人类结构的复杂性，尤其是手部和面部特征的复杂性，再加上VAE编码器降采样后保留的信息的有限性，生成具有真实语义部分（如手和面部）的图像仍然是一个重大挑战。

已有的后处理方法，例如HandRefiner，常常因为信息的缺失和有限性而无法在肤色和纹理上保持一致。另外，还存在引入其他区域的失真、难以在手部面积过小的情况下进行重建优化的问题。

为了解决这个问题，本文提出了一种名为RealisHuman的新型后处理解决方案。RealisHuman框架分为两个阶段。RealisHuman 能够定位并裁剪畸形区域，从而集中精力进行详细的局部修复，确保小区域的高质量修复。与仅限于手部修复的 HandRefiner 不同，RealisHuman 能够修复多种人类部位，同时保持皮肤色调和纹理等细节。修复后的部位设计为真实且与周围图像一致，从而提升整体图像质量。RealisHuman还展示了强大的泛化能力，能够有效处理包括卡通、素描等在内的不同风格的图像。

如图2所示，我们的RealisHuman框架分两个阶段运行。首先，利用原始的畸形部分作为参考，生成逼真的人类部分（如手或面部），确保与原始图像的一致细节。其次，通过重新绘制周围区域，将修正后的人类部分无缝集成回其对应位置，以确保平滑和真实的融合。该研究训练了一个能够将人体部位与周围区域无缝融合的模型，确保了平稳过渡和现实融合。该方法不仅纠正了结构上的不准确性，而且保持了与原始图像的视觉一致性，为图像生成任务中的人体部位细化提供了一种解决方案。RealisHuman框架显著增强了人类生成的真实感，通过综合实验证明了在定性和定量测量方面的改进。

图2：Realishuman的实现细节。该方法将细化畸形人体部位的任务分为两个不同的阶段。在第一阶段，我们专注于使用部件详细信息编码器生成逼真的人体部件。给定一幅包含畸形人体部位的图像，我们首先对目标区域进行定位和裁剪。随后，过滤了目标区域的背景，创建了一个提供重要部分细节的参考图像，例如皮肤色调。还估计了人体部位的3D结构，以作为姿势引导。利用参考图像和部件结构，生成了具有精确结构和细节信息的逼真的人体部件。在第二阶段，目标是将细化后的人体部位无缝地融合到原始图像的相应区域中，从而得到细化后的图像I。为了避免切割和粘贴的外观，还对背景和校正后的人体部位之间的区域进行了重新绘制，确保了无缝集成和更自然的整体外观。

综上所示，本文的贡献可以列出如下：

提出了一种名为RealisHuman的新颖的后处理框架，以解决在生成图像中细化人体部位的任务，保持了与原始图像一致的细节，有效地处理了小部分的细化，并且在不同的图像风格中表现出强大的泛化能力。
RealisHuman框架显著增强了人类生成的现实性，大量实验证明了其在定性和定量指标上的增强。

方法

本研究的目标是在保留原始部件的一致细节的同时，细化畸形部件。总体框架流程已在图2中表示。为了保证校正后的人体部位的真实感，将流程分为两个明显的阶段。第一阶段，在区域网格和畸形部分图像的引导下生成矫正后的人体的部分。在第二阶段，将第一阶段得到的矫正后的人体部位整合回局部图像中，随后对周围区域进行重新绘制，以达到最终的结果。

修正人体部位生成

数据准备

目前，已有一系列由算法生成的包含畸形人体部位的原始人体图像和对应的生成图像。首先使用人体骨架估计方法对目标部分区域进行定位和裁剪。隔离得到存在畸形部位的区域后，采用当前最先进的网格重建方法来对每个畸形部位区域的网格进行重建。此外，本文渲染网格以产生深度图和二值掩膜图。为了减少背景的影响，聚焦于逼真的人体部位生成，我们应用掩膜滤除背景，得到人体部位的前景区域作为参考图像。

区域细节编码器

在已有的方法中，采用CLIP将图片的信息压缩成一维向量并与交叉注意力机制融合。然而，这些方法在保持外观细节方面面临挑战，因为将参考图像编码为语义级别的特征会导致空间表示的丢失。

之前的工作发现，自注意力机制可以显著增强参考图像中细节的保留。受这些发现的启发，我们引入部件细节编码器，通过整合参考图像的细节信息来提高矫正人体部件的真实感。部件详细信息编码器与原始的稳定扩散( Stable Diffusion，SD )具有相同的架构，包含自注意力和交叉注意力层，并使用原始的SD UNet进行初始化。为了更好地融合细节信息，将输入修改为UNet的自注意力机制。具体而言，将部件细节编码器的中间输出与原始SD的中间输出进行级联，并将该级联输出作为原始SD的自注意力机制的输入。这种方法保证了细粒度的细节被保留下来，增强了生成的人体部位的整体真实感。修改后的自注意力机制可以表示为：

式中：为特征维数。、和分别表示原始SD的自注意力层中的查询、密钥和值。同时，和分别表示部件详细信息编码器自注意力层的键和值。

同时，我们使用DINOv2得到参考图像的图像嵌入，然后通过交叉注意力机制传递到模型中。该方法补充了参考图像的语义级特征。深度图通过若干卷积层的处理后，可以得到姿态的条件。然后将其添加到输入到去噪UNet之前的潜在噪声中。根据上述设计，该部分的训练的损失可以定义为：

其中表示去噪UNet的可训练参数，为时间步长嵌入。

无缝的人体部位整合

另一个重要问题是直接将矫正后的人体部件粘贴回来，在编辑区域引入了复制和粘贴伪影，使得生成的图像显得不自然。为了解决这个问题，我们重新绘制了背景和矫正后的人体部位之间的区域，将它们无缝地集成到目标区域中，以获得更自然的外观。

完成畸形人体部分的定位后，获取得到畸形区域的二进制掩码。在此基础上，通过先膨胀后腐蚀的方法，修正二进制掩码的位置，利用被腐蚀的掩码，我们提取出被腐蚀的人体部分，并将其粘贴回相应的区域。腐蚀过程是至关重要的，因为第一阶段生成的矫正人体部分往往表现出不和谐的边缘，这显著影响了重绘结果。假设局部人体部位图像记为，相应的掩模图像和二值掩模可以用和得到。其中，，。

我们的目标是在保持其他区域不变的情况下，预测二值掩码等于1的区域，从而得到最终的输出。为了达到这个目的，我们首先对被掩盖的图像进行编码，得到被掩盖的隐变量。接下来，我们对二进制掩码进行下采样，以匹配掩码隐层的大小。使用SD -修复权重来初始化模型。通过该设计，该阶段的损失项计算如下：

在推理过程中，将校正后的人体部分粘贴回相应的区域，并对未知区域进行预测，以保证校正后的人体部分和谐集成。在推理过程中的表达式由给出。

训练

RealisHuman 模型分为两个阶段进行训练。所有实验均在 8 个 NVIDIA A800 GPU 上进行。训练持续 50,000 步，批量大小为 5。在第二阶段，仅 Inpainting U-Net 可优化，该网络初始化自 SDinpainting。对 Inpainting U-Net 进行 20,000 步的训练，批量大小为 16。在推理过程中，采用 DDIM 采样器进行 20 次去噪步骤完成。

实验

数据集和评估准则

本研究收集了一个数据集，包含大约 58,000 张高质量的局部手部图像和 38,000 张高质量的局部面部图像，用于训练模型。为了验证方法在修复畸形部位方面的有效性，在 UBC Fashion数据集上评估其性能。UBC Fashion 中的人体对象手部和面部清晰可见。该数据集包含 500 个训练视频和 100 个测试视频，每个视频大约包含 350 帧。具体而言，我们使用 Fre ́chet Inception Distance (FID)和手部检测器或面部检测器的关键点检测置信度分数（来评估生成的人体部位的合理性。

对比结果

在生成人体图像后，对包含人体部位的区域进行定位和裁剪，并应用我们的RealisHuman框架对畸形部位进行细化。为了减轻原始图像中人体部分尺寸相对较小的影响，并更好地评估度量指标，将评估重点放在包含人体部分的区域上。

在表 1 中，显示了在使用 RealisHuman 之前和之后，面部和手部区域的 FID 和检测置信度（Det. Conf.）得分。结果表明了本文方法的有效性。具体来说，观察到在应用的精化过程后，这两个指标都有显著的改善。

为了评估RealisHuman方法在修复手部图像方面的有效性，将其还进行了详细分析，以说明我们方法的优势。如图 3 所示，每个比较图由三幅水平排列的图像组成：从左到右依次显示原始图像、我们方法的修复结果以及 HandRefiner 方法的修复结果。该图展示了我们的方法与Hand Refiner方法在几个关键方面的综合比较：

(a)手部细节的保持：RealisHuman擅长于保持和匹配原始的细节，例如手部的皮肤色调。它在保留复杂的细节、精确地恢复纹理和手部的精细特征方面表现出卓越的一致性。因此，修复后的手部具有更加自然和逼真的外观。
( b )在小区域手部修复中的有效性：与HandRefiner相比，RealisHuman有效地修复了较小的手，细致地恢复了它们的细节和形状。
( c )其他区域的保留：与HandRefiner不同，HandRefiner在修复手部的同时会造成人脸等其他区域的失真，RealisHuman保留了图像的整体完整性和外观。

图3：手部细化结果的比较。每组图像从左到右依次显示原始图像、本文方法的修复结果和HandRefiner方法的修复结果。

此外，本文还展示了 RealisHuman 在面部修复方面的能力。如图 4 所示，我们的方法有效地解决了原始图像中面部特征扭曲和眼睛不聚焦等问题，突显了我们方法的有效性。结果表明，RealisHuman 能显著增强面部特征的真实感和准确性，进一步验证了我们方法在各种人像修复风格中的鲁棒性、多样性和强泛化能力。

消融实验

框架第二阶段的作用

如上所述，我们通过重新绘制背景与修正后人部位之间的过渡区域来解决复制粘贴伪影的问题，从而确保与目标区域的无缝融合，以获得更自然的外观。图5比较了直接粘贴修正后人部位与我们方法的结果。从图中可以明显看出，侵蚀掩膜的存在，使得填补的部分能够有效的融合到整体的图片中。

侵蚀掩膜的效果

如上所述，侵蚀掩膜用于减轻第二阶段中不和谐边缘的影响。如果没有侵蚀掩膜，这些不和谐的边缘可能会妨碍修正后人部位与周围环境的无缝融合，导致产生如头发、手表和其他伪影等不协调元素。我们在图 6 中展示了侵蚀掩膜的影响，比较了处理有无侵蚀掩膜的图像。第一行显示了没有侵蚀掩膜的结果，其中存在明显的伪影。第二行展示了使用侵蚀掩膜时的结果，有效减少了边缘伪影，实现了更平滑的融合。

结论

在本研究中，介绍了RealisHuman，这是一种新颖的后处理解决方案，旨在修复生成图像中畸形的人体部件。我们的方法分为两个阶段：首先，利用原始畸形的人体部件作为参考，生成逼真的人体部件，以保持细节的一致性；其次，通过重新绘制周围区域，将修复后的人体部件无缝整合到原始图像中。该框架有效地解决了人体部件生成中的挑战，并且可以扩展到其他局部修复任务，例如标志修复。全面的实验结果表明，我们的方法在定性和定量指标上均显著提高，验证了其有效性和鲁棒性。

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉