南开大学人工智能学院刘景泰教授团队:基于3D Gaussian Splatting技术的3维重建技术综述

文摘   2024-09-30 19:00   辽宁  

本文由“机器人ROBOT”公众号原创,欢迎转载,请务必完整转载全文并在文章初始位置插入本公众号名片和链接。


欢迎引用:

曹振中, 光金正, 张千一, 胡郑希, 吴仕超, 刘景泰. 基于3D高斯溅射的3维重建技术综述[J]. 机器人, 2024, 46(5): 611-622. 收稿日期:2024-04-26


识别二维码,访问全文PDF



+ 图文导读

       

2023年底推出的基于3D Gaussian Splatting(3D GS)技术在新视图合成领域相较于传统主流算法NeRF表现出显著优势,迅速引发了广泛关注。具体而言,3D GS通过显式的3D高斯基元对场景进行表示,克服了NeRF技术在渲染速度上的瓶颈,实现了实时的图像渲染。这一突破使得3D GS在处理复杂场景时,能够保持高效的渲染性能,极大地提升了应用场景的实用性。同时,3D GS在新视图合成的质量上也具有优势,其高精度的场景表达和细腻的图像细节呈现,显著超越了NeRF所需的长时间训练和渲染过程。因此,3D GS技术不仅为实时应用场景带来了新的可能性,还为研究者和开发者提供了更高效、更灵活的工具,推动了新视图合成领域的发展与创新。

图1 本文结构分布图

近日,南开大学人工智能学院刘景泰教授团队在《机器人》上发表了题为“基于3D高斯溅射的3维重建技术综述”。本文分析了3D GS技术精髓和巨大的应用潜力,对比了3D GS和三维重建领域主流算法NeRF的技术细节,全面梳理了基于3D GS的3维重建技术在视觉SLAM(同步定位与地图构建)、动态场景重建、生成式AI(人工智能)以及自动驾驶领域的应用,最后从科研产出和实际落地两方面展望了3D GS技术的潜力和技术迭代趋势。

1. 3D GS和NeRF的区别

NeRF是一种隐式辐射场技术,通过多层感知机(MLP)将空间坐标映射为像素值,输入为3D坐标和观察方向,输出颜色和密度。它通过体渲染方法,将射线上的点的颜色和密度加权求和,生成最终图像。NeRF的训练依靠最小化渲染结果与真实图像的L2损失。而3D GS则是一种显式辐射场技术,使用数以万计的3D高斯基元填充场景,通过分块光栅化实现高效渲染。3D GS的训练通过最小化L1损失和SSIM损失优化高斯基元参数。相比NeRF,3D GS不仅实现了实时渲染,还提升了场景的可编辑性。

2. 基于3D GS的视觉SLAM

视觉SLAM是一种通过视觉传感器实现同时定位和地图构建的关键技术,广泛应用于室内服务机器人。其核心在于创建高精度的环境地图,传统的视觉SLAM分为直接法和间接法,但两者在不同场景下都有局限性。NeRF的引入使3D场景重建取得了突破性进展,许多基于NeRF的SLAM算法如iMAP、NICE-SLAM等尝试通过MLP和混合表示法提高场景重建精度。然而,这些方法渲染速度慢,无法满足实时需求。3D GS技术的出现克服了NeRF的速度瓶颈,通过3D高斯基元实现高效的实时渲染,推动了基于3D GS的视觉SLAM算法的发展。

3. 基于3D GS的动态场景重建

动态场景重建是一项通过多个视频帧数据生成3D动态模型的关键技术,对于机器人导航和交互至关重要。与静态场景相比,动态场景包含复杂的运动和变化,建模其运动和变形规律是核心挑战。虽然NeRF技术推动了动态场景重建的发展,如D-NeRF等方法取得了进展,但其训练时间和渲染速度仍是瓶颈。3D GS技术通过显式表达和可微分渲染实现实时渲染,但主要用于静态场景。为解决动态场景问题,4D GS技术应运而生,扩展了3D GS的时序能力,适应场景变形和运动。

4. 基于3D GS的生成式AI

AIGC(人工智能生成内容)指利用人工智能自动创建内容,包括文本、图像、视频等。随着大模型的发展,AIGC在机器人领域应用广泛,如增强交互能力、提升自主性和操作效率。当前热门应用是文本到3D场景生成,但现有方法存在渲染缓慢、训练时间长、模型细节不足的问题。3D GS技术通过显式表达法提升可编辑性和实时渲染能力,为文本到3D模型生成带来了新的发展。

图 2 GaussianEditor场景编辑效果

5. 基于3D GS 的自动驾驶

自动驾驶是指通过计算机系统、传感器和人工智能技术,使车辆无需人类干预自动行驶。其核心功能之一是识别和感知周围环境,实时重建场景对导航、安全等至关重要。虽然NeRF技术能实现逼真的视图合成和3D重建,但速度过慢,难以满足自动驾驶的实时需求。3D GS技术虽能提升实时渲染性能,但由于自动驾驶场景复杂且规模大,实时重建面临挑战,因此目前使用3D GS进行建模的研究较少。


总结与展望

   

综上所述,3D GS技术的出现,颠覆了NeRF技术在新视图合成和3D重建方面的底层架构,3D GS技术凭借其显式辐射场的场景表征以及分块并行的高效光栅化,可以在不降低重建质量的前提下实现场景的 实时渲染。此外,3D GS技术的训练时间非常短,3D高斯基元表征也提高了场景的可编辑性。对于未来来说,机器人与人的协作共融是机器人领域的热点方向,旨在使得机器人理解和预测人类行为,从而更好地与人协作,这对机器人场景感知和场景建模的精度和实时性要求比较高,而3D GS技术兼顾了精度和实时性,因此,3D GS技术在机器人与人协作共融方面具有发掘潜力。通过本文的梳理和展望,希望可以为研究者们进一步改进3D GS技术,为3D GS在机器人领域的应用和创新提供帮助。


南开大学人工智能学院博士研究生曹振中为本文第一作者,南开大学人工智能学院刘景泰教授为本文通信作者,本文得到了国家自然科学基金(62173189)的支持。

请点击下方“阅读原文”了解更多。  

联系我们 :

电话:024-23970050

 E-mail:jqr@sia.cn

网址:https://robot.sia.cn

 
欢迎关注《机器人》视频号

机器人ROBOT
《机器人》是由中国科学院主管,中国科学院沈阳自动化研究所、中国自动化学会共同主办的科技类核心期刊,主要报道中国在机器人学及相关领域具有创新性的、高水平的、有重要意义的学术进展及研究成果。
 最新文章