本文由“机器人ROBOT”公众号原创,欢迎转载,请务必完整转载全文并在文章初始位置插入本公众号名片和链接。
欢迎引用:
曹振中, 光金正, 张千一, 胡郑希, 吴仕超, 刘景泰. 基于3D高斯溅射的3维重建技术综述[J]. 机器人, 2024, 46(5): 611-622. (收稿日期:2024-04-26)
识别二维码,访问全文PDF
+ 图文导读
2023年底推出的基于3D Gaussian Splatting(3D GS)技术在新视图合成领域相较于传统主流算法NeRF表现出显著优势,迅速引发了广泛关注。具体而言,3D GS通过显式的3D高斯基元对场景进行表示,克服了NeRF技术在渲染速度上的瓶颈,实现了实时的图像渲染。这一突破使得3D GS在处理复杂场景时,能够保持高效的渲染性能,极大地提升了应用场景的实用性。同时,3D GS在新视图合成的质量上也具有优势,其高精度的场景表达和细腻的图像细节呈现,显著超越了NeRF所需的长时间训练和渲染过程。因此,3D GS技术不仅为实时应用场景带来了新的可能性,还为研究者和开发者提供了更高效、更灵活的工具,推动了新视图合成领域的发展与创新。
近日,南开大学人工智能学院刘景泰教授团队在《机器人》上发表了题为“基于3D高斯溅射的3维重建技术综述”。本文分析了3D GS技术精髓和巨大的应用潜力,对比了3D GS和三维重建领域主流算法NeRF的技术细节,全面梳理了基于3D GS的3维重建技术在视觉SLAM(同步定位与地图构建)、动态场景重建、生成式AI(人工智能)以及自动驾驶领域的应用,最后从科研产出和实际落地两方面展望了3D GS技术的潜力和技术迭代趋势。
1. 3D GS和NeRF的区别
NeRF是一种隐式辐射场技术,通过多层感知机(MLP)将空间坐标映射为像素值,输入为3D坐标和观察方向,输出颜色和密度。它通过体渲染方法,将射线上的点的颜色和密度加权求和,生成最终图像。NeRF的训练依靠最小化渲染结果与真实图像的L2损失。而3D GS则是一种显式辐射场技术,使用数以万计的3D高斯基元填充场景,通过分块光栅化实现高效渲染。3D GS的训练通过最小化L1损失和SSIM损失优化高斯基元参数。相比NeRF,3D GS不仅实现了实时渲染,还提升了场景的可编辑性。
2. 基于3D GS的视觉SLAM
4. 基于3D GS的生成式AI
图 2 GaussianEditor场景编辑效果
5. 基于3D GS 的自动驾驶
自动驾驶是指通过计算机系统、传感器和人工智能技术,使车辆无需人类干预自动行驶。其核心功能之一是识别和感知周围环境,实时重建场景对导航、安全等至关重要。虽然NeRF技术能实现逼真的视图合成和3D重建,但速度过慢,难以满足自动驾驶的实时需求。3D GS技术虽能提升实时渲染性能,但由于自动驾驶场景复杂且规模大,实时重建面临挑战,因此目前使用3D GS进行建模的研究较少。
+ 总结与展望
综上所述,3D GS技术的出现,颠覆了NeRF技术在新视图合成和3D重建方面的底层架构,3D GS技术凭借其显式辐射场的场景表征以及分块并行的高效光栅化,可以在不降低重建质量的前提下实现场景的 实时渲染。此外,3D GS技术的训练时间非常短,3D高斯基元表征也提高了场景的可编辑性。对于未来来说,机器人与人的协作共融是机器人领域的热点方向,旨在使得机器人理解和预测人类行为,从而更好地与人协作,这对机器人场景感知和场景建模的精度和实时性要求比较高,而3D GS技术兼顾了精度和实时性,因此,3D GS技术在机器人与人协作共融方面具有发掘潜力。通过本文的梳理和展望,希望可以为研究者们进一步改进3D GS技术,为3D GS在机器人领域的应用和创新提供帮助。
请点击下方“阅读原文”了解更多。
联系我们 :
电话:024-23970050
E-mail:jqr@sia.cn
网址:https://robot.sia.cn