NeurIPS 2024 | 从单图到3D：HumanSplat 基于Gaussian Splatting实现高保真人体3D生成

科技 2024-12-22 09:51 重庆

在虚拟和增强现实中，构建写实风格的虚拟人体形象已成为实现自然交互和逼真体验的关键技术之一，并且在社交媒体、游戏、电商、远程交流等领域拥有广泛应用。然而，现有的人体重建方法通常依赖大量的多视图图像输入或需要对每个实例进行耗时的优化处理，这不仅限制了其在实际场景中的适用性和效率，也难以满足快速和高质量建模的需求。因此，仅从单张输入图像生成高保真度的人体模型仍然是一个充满挑战的课题。

在近日召开的神经信息处理系统大会（NeurIPS 2024）中，来自字节跳动 PICO 交互感知团队、清华大学和北京大学的研究人员发表了最新研究成果《HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors》。该论文提出了一种创新的单张图像人体重建方法——HumanSplat，这是一个基于结构先验的泛化人体3D生成框架，可以高效地从单张输入图像预测人体的3D重建结果。

HumanSplat在保持最快运行时间的同时，实现了领先的渲染质量：(a) 定性结果对比；(b) 效果和运行时间对比

论文链接：

https://arxiv.org/pdf/2406.12459

项目主页：

https://humansplat.github.io/

代码链接：

https://github.com/humansplat/humansplat

背景

目前，单图像人体重建方法主要分为显式方法和隐式方法。显式方法（如基于参数化人体模型SMPL的方法）通过直接优化模型参数和服装偏移以拟合输入图像，从而生成人体网格。然而，这些方法通常难以处理复杂的服装样式，并且需要较长的优化时间。隐式方法则通过连续函数（如占据场、SDF 或 NeRF）表示人体，这些方法在建模灵活拓扑结构上表现较好，但由于训练和推理的高计算成本，其在可扩展性和效率方面存在局限性。

近期，3D Gaussian Splatting（3DGS）技术为3D人体模型重建提供了效率与渲染质量的平衡。然而，已有的方法通常需要多视图图像或单目视频作为输入，并未能解决单图像输入重建问题。此外，一些基于扩散模型的研究通过得分蒸馏采样（SDS）将二维扩散模型先验提升到三维，但每个实例通常需要长达数小时的优化时间；一些泛化的人/物体生成模型虽然能够直接生成三维表示，但往往忽略了人体几何先验，或仍然需要多视图输入，导致其在稳定性和实用性上的不足

HumanSplat 的核心是结合2D生成扩散模型和人体几何结构先验，在统一的框架中整合几何和语义信息，从而在保持高质量的同时实现高效重建。为了解决单视图输入下的不可见区域问题，HumanSplat 首先利用一个 2D 多视角扩散模型（novel-view synthesizer）生成目标人体的不可见区域，然后通过一个泛化的隐空间重建 Transformer （latent reconstruction transformer）将扩散模型生成的特征与人体结构先验进行深度交互，最终重建基于3DGS表达的人体模型。

方法

HumanSplat设计了一个泛化的人体3DGS生成框架，通过在人体数据集上精调的2D多视角扩散模型和精心设计的基于参数化模型的3D人体结构先验实现高保真度的人体重建。与现有的3DGS方法不同，我们的方法直接从单张输入图像推断3DGS的高斯属性，无需对每个实例进行优化，也无需密集捕获的目标人体的图像数据，从而有效地在各种场景下进行泛化，提供高质量的重建结果。

核心框架 HumanSplat网络的核心框架如下图所示，它结合了2D生成式扩散模型（novel view synthesizer，图中（a）所示）与隐空间重建Transformer（latent reconstruction transformer，图中（b）所示），并在统一框架中充分融合了人体几何先验、2D外观先验和基于人体语义信息的分层监督和定制损失函数（图中（c）所示）。我们的方法主要分为以下几步：

结构先验与CLIP特征提取 我们首先使用SMPL预测器估计人体结构先验，即当前图像对应的参数化人体模型SMPL参数，并通过CLIP特征提取器提取输入图像的嵌入式特征。
多视角特征生成器 我们采用了基于时间-空间隐式编码的2D扩散模型，即通过人体数据精调SV3D视频生成模型，然后结合输入图像和CLIP嵌入式特征生成多视角潜空间特征。
隐空间重建与高斯点云生成 我们提出了一种新颖的隐空间重建Transformer，结合第一步中得到的人体几何先验与和第二步中得到的多视角隐空间特征，经过一个Transformer框架的模型进行信息交互，信息交互方式如下图所示，然后生成人体高斯属性。随后，这些高斯点被渲染成新的视角图像。

分层语义损失设计 最后，为了提升人体的细节重建质量并更好地约束多视角生成结果，我们还设计了分层语义感知损失，将人体语义先验融入到训练中。

训练与推理

训练阶段 我们使用3000个3D扫描的人体数据进行训练，以确保网络能够从不同视角获取准确的监督信号。训练过程在八卡A100上不超过3天。
推理阶段在推理时，直接基于训练好的模型从单张图像生成新视角，无需任何微调或优化步骤。

贡献总结

提出了一个新颖的泛化的单图人体高斯生成网络，实现从单图像进行高保真度人体重建。我们的方法首次结合2D生成式扩散模型与隐空间高斯重建模型，在端到端框架中高效且准确地进行单图像人体重建。
通过结合SMPL模型中的人体几何先验与2D生成式扩散模型中的外观先验，稳定了人体几何的高质量生成，并帮助生成有着复杂几何人体的不可见部分。
通过引入语义线索、分层监督和定制损失函数，提升了重建人体模型的细节保真度，实验结果表明，我们的方法超越了现有方法，达到了领先的效果。

实验结果

在我们的实验中，HumanSplat展现了显著的优势，尤其在渲染质量、重建速度和泛化能力方面，超越了现有的一些最先进的方法。

重建速度：HumanSplat 在视频扩散模型生成多视角潜在特征的速度上仅需约 9秒，而后续的3D高斯重建只需 0.3秒，显著提升了效率。此外，基于 NVIDIA A100 GPU，它能够以超过 150 FPS 的速度渲染新视角，极大提升了实时渲染性能。
定量对比：在 THuman2.0 和 Twindom 数据集上，HumanSplat 在 PSNR 和 LPIPS 等指标上都表现出色，尤其在 Twindom 数据集上，PSNR 提升了 10.16%，LPIPS 减少了 0.063，超越了最新的 TeCH 方法。与 TeCH 需要 4.5小时的重建时间相比，HumanSplat 的重建时间仅为 9.3秒，大大提高了实用性。
定性对比：如下图所示，和已有的方法对比，HumanSplat 显示出更加细致和高保真度的结果，HumanSplat 比 GTA 和 LGM 更能还原细节。此外，HumanSplat 能有效预测3D高斯点的属性，无需针对每个实例进行优化，展示了强大的泛化能力。

在复杂姿势、不同身份和摄像机视角下的重建的对比见下图：

b. 在挑战性较大的一般（In-the-wild）图像中的对比见下图：

总结

HumanSplat 展示了仅依靠单张图像即可生成高保真虚拟人体模型的能力，特别是在面部和手部等关键区域实现了高质量的重建效果。该方法结合了生成式扩散模型与隐码重建Transformer模型，并融入了人体结构先验与语义感知的分层损失设计，实现了无需优化或微调的高保真度重建，特别是在面部和手部等关键区域效果显著。与现有方法相比，HumanSplat在质量与效率上均有显著提升，能够稳健应对复杂姿态和宽松服饰。

相信在未来的虚拟现实与沉浸式体验场景中，借助 HumanSplat 的技术，个性化虚拟形象的生成将变得更加高效便捷。无论是在社交媒体、虚拟会议还是游戏娱乐中，每个人都能快速创建专属的高真实感形象，显著提升互动的沉浸感与真实感，为各种领域的用户体验带来改变。

欢迎加入字节跳动PICO交互感知团队

团队致力于在3D数据资产和数字内容消费等领域开发AI技术。我们专注于3D数字内容的获取、处理以及AI生成。团队注重协作、创新思维与持续学习，诚邀您的加入，共同为公司的成长贡献力量！

👇通过扫描下方二维码，或者点击下方阅读原文进行简历投递：

字节跳动技术团队

字节跳动的技术实践分享

NDSS 2025｜抖音集团安全研究团队提出机密沙箱内存管理方案WAVEN

ABCoder 在大模型编程领域的探索

来战！「豆包 MarsCode 算法竞技赛」第二期开赛，丰厚奖金等你来拿

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

豆包MarsCode AI编程云课堂回顾｜「入门开发者系列」

Kitex/Hertz 助力大模型：三周年重要特性回顾

北京大学-字节跳动“豆包大模型系统软件联合实验室”成立，聚焦AI系统软件关键问题

直播预约｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

火山引擎veImageX助力谱时智能云深耕照片直播赛道

见证无限可能！火山引擎冬季 Force 大会开发者论坛来袭

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

参与AI 红人共创计划，拿万元现金大奖！每日投票抽奖！

深度揭秘“快稳省”背后的数仓硬核技术

来战！激发你的编程潜力，挑战极限！豆包 MarsCode 算法竞技赛火热来袭！

APMPlus 发布 HarmonyOS NEXT 鸿蒙系统 App 性能监控

更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

初级开发者系列｜AI编程云课堂课程预告来啦！

大幅降低数据科学门槛！豆包大模型团队开源AutoKaggle，端到端解决数据处理

QCon演讲实录|赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

字节跳动基于 Ray 的大规模多模态数据处理框架

无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

首度揭示！个性化视频技术——短视频体验的秘密！

又稳又快！基于ByteHouse ELT构建高性能离/在线一体化数仓

【请领取打卡礼】刷题不停，Offer可期！豆包MarsCode & 掘金 AI 刷题功能再次升级！

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

火山引擎论文入选国际会议ACM IMC'24｜一种面向大规模视频点播系统的算法实验平台

火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACM Multimedia 2024最佳论文提名

创新实践：基于边缘智能+扣子的智能取物机器人解决方案

QCon演讲实录|徐广治：边缘云原生操作系统的设计与思考

一句话轻松 P 图！字节跳动图像编辑模型SeedEdit发布，产品端可体验

直播预约｜豆包MarsCode校园发布会即将上线！万元大奖，玩法多多先睹为快

视频生成模型能否“理解”物理规律？豆包大模型团队公布系统性实验结论

抖音集团也在用的数仓「降本」利器

BlockFramework —— 客户端模块化业务开发框架

超低延迟多路径传输：技术演进与大规模业务实践

最高提升20倍吞吐量！豆包大模型团队发布全新 RLHF 框架，现已开源！

AI 代码编程助手真的有用吗

万圣节，一起 Cozeplay ！ iPhone 16 Pro Max、Switch、扣子周边等500份“糖果”掉落！

单元化架构在字节跳动的落地实践

技术专题27期 | 后端Java技术创意冠军角逐赛

【万字干货】保姆级AI编程基础入门，看这篇就够了！

豆包MarsCode Agent 登顶 SWE-bench Lite 评测集

1024 码上奇妙夜｜开发者专属，万元“豪”礼，宠爱满满！

揭秘云数仓ByteHouse四大「降本」硬招

1024限时加码｜豆包MarCode小助手给合伙人送礼啦！

扣子上新！文生播客、客服、陪伴、教育…官方带你抄作业！

一文教会你轻松上手豆包MarsCode 编程助手！（文末送AirPods 4啦）

1024，火山引擎开发者社区给你精彩！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉