点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
作者:Yang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang
机构:NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences、University of Chinese Academy of Sciences、Centre for Artificial Intelligence and Robotic, HKISI、Shandong University、University of Science and Technology Beijing
原文链接:https://arxiv.org/abs/2411.00771
代码链接:https://github.com/DekuLiuTesla/CityGaussian
官方主页:https://dekuliutesla.github.io/CityGaussianV2/
1. 导读
最近,三维高斯分布(3DGS)已经彻底改变了辐射场重建,表现出高效和高保真的新视图合成。然而,由于3DGS的非结构化性质,准确地表示表面,尤其是在大型和复杂的场景中,仍然是一个巨大的挑战。在本文中,我们介绍了CityGaussianV2,一种新的大规模场景重建方法,解决了与几何精度和效率相关的关键挑战。基于2D高斯分布图良好的泛化能力,我们解决了它的收敛性和可扩展性问题。具体而言,我们实现了一种基于分解梯度的致密化和深度回归技术,以消除模糊的伪影并加速收敛。为了扩大规模,我们引入了一个伸长滤波器,以减轻由2DGS退化引起的高斯计数爆炸。此外,我们针对并行训练优化了CityGaussian管道,至少实现了高达10倍的压缩节省25%在训练时间,和一个减少50%在内存使用方面。我们还建立了大规模场景下的标准几何基准。实验结果表明,我们的方法在视觉质量、几何精度以及存储和培训成本之间取得了有希望的平衡.
2. 引言
三维场景重建是计算机视觉和图形学领域的一个长期研究课题,其核心追求在于实现逼真的照片级渲染和精确的几何重建。继神经辐射场(Neural Radiance Fields,NeRF)之后,三维高斯溅射(3D Gaussian Splatting,3DGS)凭借其训练收敛性和渲染效率方面的优势,已成为该领域的主流技术。3DGS通过一组离散的高斯椭球体表示场景,并使用高度优化的光栅化器进行渲染。然而,这些基本元素具有无序结构,与场景的实际表面不能很好地对应。这一局限性损害了其在外推视图中的合成质量,并阻碍了其在编辑、动画和重新照明等下游应用中的发展。最近,为解决这一问题,已提出了许多优秀的工作。尽管它们在单个物体或小型场景上取得了巨大成功,但在直接应用于复杂的大规模场景时,却遇到了难题。
一方面,现有方法面临可扩展性和泛化能力方面的重大挑战。例如,SuGaR通过高斯网格细化。然而,在大型和复杂的场景中,网格可能会变得庞大且精细,从而导致巨大的内存需求和容量限制。GOF在处理大型、过度模糊的高斯时遇到困难。这些高斯不仅严重损害了其渲染和几何质量,还会生成难以去除的壳状网格。而2DGS展现出更好的泛化能力,如表1所示。此外,在通过并行训练进行扩展时,它还会遇到高斯数量激增的问题。另一个挑战在于评估协议:由于边界区域的观测不足,这些区域的几何估计容易出错且不稳定。因此,评估指标可能会显著波动并低估实际性能,使得难以客观评估和比较算法。
另一方面,实现高效的并行训练和压缩对于实现大规模场景的几何精确重建至关重要。如表2所示,在并行训练期间,高斯的总数可增加到1930万个,导致4.6GB的存储需求和31.5GB的内存成本,同时渲染速度降至25帧每秒(FPS)以下。此外,现有的VastGaussian训练成本近3小时,而CityGaussian则需要4小时才能完成训练和压缩。对于在低端设备或时间严格受限的情况下进行的重建,这些训练成本和渲染速度是不可接受的。因此,迫切需要一种经济高效的并行训练和压缩策略。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]。
为应对这些挑战,我们提出了CityGaussianV2,这是一种几何精确且高效的大规模场景重建策略。我们采用2DGS作为基本元素,因其具有良好的泛化能力。为加速重建,我们采用Depth-Anything V2和基于分解梯度的致密化(Decomposed-Gradient-based Densification,DGD)进行深度回归。DGD有效消除了模糊的面元,这对于性能提升至关重要。为解决可扩展性问题,我们引入了一个伸长滤波器,以减轻2DGS在并行训练过程中退化所导致的高斯数量激增问题。为减轻单个GPU的负担,我们基于CityGaussian的块划分策略进行并行训练。并且,我们简化了流程,省略了CityGaussian中耗时的后修剪和蒸馏步骤。相反,我们从零开始实现2阶球谐函数,并将基于贡献的修剪整合到每个块的微调中。它在提升复杂结构表面质量的同时,显著降低了训练成本。此外,我们基于贡献的矢量树量化技术使得大规模2DGS的存储需求降低了十倍。在评估方面,我们引入了TnT风格(Knapitsch等人,2017)的协议,以及基于可见性的裁剪体积估计策略,该策略可以高效地排除观测不足的区域,并提供稳定和一致的评估。
3. 效果展示
(a) CityGaussianV2从多视图RGB图像中重建具有精确几何形状的大规模复杂场景,恢复树林、建筑物和道路的复杂结构。(b)“Ours-coarse”表示用我们的优化算法训练2DGS。该策略在渲染质量(PSNR,SSIM)和几何精度(F1分数)方面加速了2DGS重建。(c)我们优化的并行训练管道将训练时间和内存分别减少了25%和50%,同时实现了更好的几何质量。在这里,我们报告了高斯场景数据集中的平均质量度量。
表面重建质量的定性比较。这里的“Russian”和“Modern”分别表示俄罗斯建筑和现代建筑场景。“Aerial”表示矩阵的鸟瞰图。GOF的混乱结果主要归因于近地壳状网格。
4. 主要贡献
我们的贡献包括以下四个方面:
• 为2DGS提出了一种新颖的优化策略,该策略可加速其在大型场景下的收敛,并使其能够扩展到高容量。
• 提出了一种高度优化的并行训练管道,显著降低了训练成本和存储需求,同时实现了实时渲染性能。
• 针对大型无界场景,提出了一种TnT风格的标准化评估协议,为大规模场景重建建立了几何基准。
• 据我们所知,我们的CityGaussianV2是首批在大型表面重建中实现高斯辐射场的系统之一。实验结果证实了我们在几何质量和效率方面的最前沿性能。
5. 方法
如图2所示,在给定相机姿态下,将二维高斯投影到屏幕空间,并通过定制的光栅化器进行渲染。所得输出用于损失计算。高斯溅射(GS)算法需要通过迭代优化来消除每个视图中的单目线索歧义,最终收敛到一致的3D几何体。为促进收敛,我们将深度先验作为几何优化的辅助指导。遵循Kerbl等人(2024)的做法,我们利用Depth-Anything-V2来估计逆深度,并将其与数据集的尺度对齐,我们将其表示为Dk。假设ˆDk表示预测的逆深度。相应的损失函数定义为LDepth = |ˆDk − Dk|。随着训练的进行,我们按指数级减小损失权重α,以逐渐抑制不完美深度估计的不利影响。
扩展2DGS(二维高斯球面)的关键障碍在于并行调优阶段某些基元过度增殖。通常,一个二维高斯球在远距离投影时会收缩为一个非常小的点,尤其是那些表现出极端拉伸形态的点。由于这些微小点的高不透明度,它们在复杂场景中的移动会引起显著的像素变化,从而导致明显的位置梯度。如图3左半部分所示,这些微小、类似沙粒的投影点对高梯度点的形成有很大贡献,且它们属于极端拉伸点。此外,一些点的投影小于一个像素,导致它们的协方差通过抗锯齿低通滤波器时被固定值替代。因此,这些点无法根据有效梯度正确调整其缩放和旋转。在块级并行调优中,分配给每个块的视图远少于总数。因此,这些远距离视图经常被观察到,导致退化点的梯度迅速累积。这些点随后导致高斯计数呈指数增长,并最终引发内存溢出错误,如图3右半部分所示。
基于这一观察,我们实现了一个简单却有效的拉伸滤波器来解决这一问题。在加密之前,我们评估每个面元的拉伸率。拉伸率低于某个阈值的面元将被排除在克隆和分裂过程之外。如图3右半部分所示,该滤波器缓解了内存溢出错误,并促进了更稳定的高斯计数变化。
CityGaussian的后剪枝和蒸馏过程耗时较长,并且在并行调优过程中引入了显著的内存开销。考虑到这些问题,我们提出了一种新的流程,如图4所示。为了绕过蒸馏步骤,我们从一开始就使用2阶球面调和(SH),从而将SH特征维度从48降低到27。这在整个流程中节省了大量内存和存储空间。为了消除后剪枝的需求,我们在块级调优过程中加入了修剪步骤。
6. 实验结果
我们从定量和定性两个方面将CityGaussianV2与当前最优(SOTA)方法进行了比较。如表1所示,基于NeRF的方法更容易失败,原因在于多层感知机(MLP)的NaN输出,或是在大规模场景下的稀疏监督下收敛性差。此外,这些方法的训练时间普遍超过10小时。相比之下,基于高斯球面(GS)的方法在数小时内即可完成训练,同时展现出更强的性能和泛化能力。对于GauU-Scene,我们的模型在渲染质量上显著优于现有的几何专业方法。
在训练成本方面,如表2所示,CityGaussianV2的小型版本(ours-s)将训练时间减少了25%,内存使用量降低了50%以上,同时提供了与CityGS相当的几何性能和渲染质量。微型版本(ours-t)甚至可以将训练时间减半。这些优势使得我们的方法特别适用于对质量和即时性有不同要求的场景。
7. 总结 & 未来工作
在本文中,我们揭示了基于高斯球面的表面重建方法在扩展规模时面临的挑战,并为大规模场景建立了几何基准。我们的CityGaussianV2采用二维高斯球面(2DGS)作为基本元素,解决了其在收敛速度和扩展能力方面的问题。尽管如此,我们还对2DGS实施了并行训练和压缩,与CityGaussian相比,显著降低了训练成本。在多个具有挑战性的数据集上的实验结果表明,我们的方法在效率、有效性和鲁棒性方面表现出色。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~