是否还在担心大规模场景训练和压缩耗时太长、显存开销太大?是否还在苦恼重建出的建筑物和道路表面破碎不堪?是否还在困扰如何定量衡量大规模场景几何重建的精确程度? 来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法CityGaussianV2,能够在快速实现训练和压缩的同时,得到精准的几何结构与逼真的实时渲染体验。
来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法CityGaussianV2,能够在快速实现训练和压缩的同时,得到精准的几何结构与逼真的实时渲染体验。
论文标题:
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
论文链接:
https://arxiv.org/pdf/2411.00771
代码链接(500+⭐):
https://github.com/DekuLiuTesla/CityGaussian
项目主页:
https://dekuliutesla.github.io/CityGaussianV2
一、研究背景
三维场景重建旨在基于围绕目标场景拍摄的一组图像恢复出场景的三维结构,其核心追求是精准的几何结构以及逼真的图像渲染。随着近两年的发展,3D Gaussian Splatting(3DGS)因其训练和渲染效率上的优势逐渐成为该领域的主流算法。这一技术使用一组离散的高斯椭球来表示场景,并使用高度优化的光栅器进行渲染。
然而,这一离散且无序的表征形式通常难以很好地拟合物体表面的实际分布,导致重建出的场景几何结构并不精准。近来包括SuGaR、2DGS、GOF在内的一系列杰出工作针对这一问题进行了探索,并给出了有效的解决方案。
几何重建质量可视化比较
尽管这些技术在单一目标或小场景上取得了巨大的成功,但它们应用于复杂的大规模场景却往往面临比3DGS更加严峻的挑战。上图展现了不同算法在大规模场景下的几何重建效果。SuGaR的模型容量有限,难以还原精细的几何结构;GOF受到严重的模糊鬼影的干扰,许多视角下画面被鬼影完全遮挡,以至于监督失效,重建结果面对显著的欠拟合;2DGS受到模糊鬼影的影响较弱,但也妨碍了其收敛效果,并且退化现象容易诱发高斯基元的过度增长,进而引起显存爆炸,训练难以为继。
此外,大规模场景下长期以来缺少几何重建质量的有效评估手段,已有的工作或只进行了可视化定性比较,或忽视了欠观测区域不稳定的重建效果对指标产生的干扰。大规模场景的重建往往还意味着显著的训练开销,要重建1.97km²的区域会产生接近两千万的高斯点,这意味着4.6G的存储以及31.5G的显存开销,以及超过三小时的训练时长。如果要进一步完成压缩,通常还需要额外将近一个小时的时间。
针对这三方面的技术挑战,本文提出了CityGaussianV2。该算法继承了CityGaussian的子模型划分与数据分配方案,并使用2DGS作为基元来重建。在此基础上,CityGaussianV2引入了基于延展率过滤和梯度解耦的稠密化技术,以及深度回归监督,同时合并了训练和压缩过程,得到了端到端的高效。训练管线,不仅有效加速算法收敛,同时保障了稳定、快速、低显存开销的并行训练。
二、CityGaussianV2算法介绍
1. 场景重建基础
3DGS使用一组高斯分布表征的椭球对场景进行表征,每个高斯球同时绑定包括不透明度、颜色以及高阶球谐系数等用于alpha blending渲染的属性,并通过包含L1损失和SSIM损失的加权和对渲染质量进行监督。在训练过程中,算法还会根据每个高斯基元的梯度信息进行自适应地分裂和克隆,使得重建效果不佳的区域能够自动被更合适的基元填充。2DGS旨在增强几何重建精度,并将椭球降维为椭圆面片作为基元表征场景,同时对渲染出的深度和法向量分布施加监督,保证重建表面的平整性。
CityGaussian旨在将3DGS泛化到大场景,首先预训练一个表征全局场景的粗粒度的3DGS场,随后将预训练结果划分为一系列子模型,并根据子模型对训练视图渲染的贡献程度为每个子模型分配训练数据。每个子模型随后会用不同的GPU并行微调,并在训练结束后进行合并和压缩,得到场景的最终表征。
2. CityGaussianV2的优化算法
我们观察到,在复杂大规模场景上,2DGS在早期训练阶段比3DGS受到更严重的模糊伪影的干扰,导致在迭代次数有限的情况下性能显著劣于3DGS。为了缓解这一问题,我们引入梯度解耦策略,利用对图像结构差异更为敏感的SSIM损失作为稠密化的主要梯度来源:
3. CityGaussianV2的并行训练管线
CityGaussianV2训练管线,虚线框为摒弃的算法流程
CityGaussianV2 在V1的基础上进一步优化了并行训练管线,使得训练和压缩过程得到统一,删除了冗余的后处理流程。具体而言,算法在子模型的并行训练过程中周期性地遍历训练视角集合并计算每个高斯基元的重要性分数:
4. 大规模重建几何评估协议
大规模场景几何精度评估流程
三、实验与分析
与主流算法的性能对比
渲染质量可视化比较
街拍场景可视化比较
高斯基元数量相近情况下的重建性能及训练开销比较
四、总结
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。