CityGaussianV2重磅开源！高效且几何精确的大规模场景重建！10倍压缩！（中科院）

科技 2024-11-05 07:05 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

作者：Yang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

机构：NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences、University of Chinese Academy of Sciences、Centre for Artificial Intelligence and Robotic, HKISI、Shandong University、University of Science and Technology Beijing

原文链接：https://arxiv.org/abs/2411.00771

代码链接：https://github.com/DekuLiuTesla/CityGaussian

官方主页：https://dekuliutesla.github.io/CityGaussianV2/

1. 导读

最近，三维高斯分布(3DGS)已经彻底改变了辐射场重建，表现出高效和高保真的新视图合成。然而，由于3DGS的非结构化性质，准确地表示表面，尤其是在大型和复杂的场景中，仍然是一个巨大的挑战。在本文中，我们介绍了CityGaussianV2，一种新的大规模场景重建方法，解决了与几何精度和效率相关的关键挑战。基于2D高斯分布图良好的泛化能力，我们解决了它的收敛性和可扩展性问题。具体而言，我们实现了一种基于分解梯度的致密化和深度回归技术，以消除模糊的伪影并加速收敛。为了扩大规模，我们引入了一个伸长滤波器，以减轻由2DGS退化引起的高斯计数爆炸。此外，我们针对并行训练优化了CityGaussian管道，至少实现了高达10倍的压缩节省25%在训练时间，和一个减少50%在内存使用方面。我们还建立了大规模场景下的标准几何基准。实验结果表明，我们的方法在视觉质量、几何精度以及存储和培训成本之间取得了有希望的平衡.

2. 引言

三维场景重建是计算机视觉和图形学领域的一个长期研究课题，其核心追求在于实现逼真的照片级渲染和精确的几何重建。继神经辐射场（Neural Radiance Fields，NeRF）之后，三维高斯溅射（3D Gaussian Splatting，3DGS）凭借其训练收敛性和渲染效率方面的优势，已成为该领域的主流技术。3DGS通过一组离散的高斯椭球体表示场景，并使用高度优化的光栅化器进行渲染。然而，这些基本元素具有无序结构，与场景的实际表面不能很好地对应。这一局限性损害了其在外推视图中的合成质量，并阻碍了其在编辑、动画和重新照明等下游应用中的发展。最近，为解决这一问题，已提出了许多优秀的工作。尽管它们在单个物体或小型场景上取得了巨大成功，但在直接应用于复杂的大规模场景时，却遇到了难题。

一方面，现有方法面临可扩展性和泛化能力方面的重大挑战。例如，SuGaR通过高斯网格细化。然而，在大型和复杂的场景中，网格可能会变得庞大且精细，从而导致巨大的内存需求和容量限制。GOF在处理大型、过度模糊的高斯时遇到困难。这些高斯不仅严重损害了其渲染和几何质量，还会生成难以去除的壳状网格。而2DGS展现出更好的泛化能力，如表1所示。此外，在通过并行训练进行扩展时，它还会遇到高斯数量激增的问题。另一个挑战在于评估协议：由于边界区域的观测不足，这些区域的几何估计容易出错且不稳定。因此，评估指标可能会显著波动并低估实际性能，使得难以客观评估和比较算法。

另一方面，实现高效的并行训练和压缩对于实现大规模场景的几何精确重建至关重要。如表2所示，在并行训练期间，高斯的总数可增加到1930万个，导致4.6GB的存储需求和31.5GB的内存成本，同时渲染速度降至25帧每秒（FPS）以下。此外，现有的VastGaussian训练成本近3小时，而CityGaussian则需要4小时才能完成训练和压缩。对于在低端设备或时间严格受限的情况下进行的重建，这些训练成本和渲染速度是不可接受的。因此，迫切需要一种经济高效的并行训练和压缩策略。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]。

为应对这些挑战，我们提出了CityGaussianV2，这是一种几何精确且高效的大规模场景重建策略。我们采用2DGS作为基本元素，因其具有良好的泛化能力。为加速重建，我们采用Depth-Anything V2和基于分解梯度的致密化（Decomposed-Gradient-based Densification，DGD）进行深度回归。DGD有效消除了模糊的面元，这对于性能提升至关重要。为解决可扩展性问题，我们引入了一个伸长滤波器，以减轻2DGS在并行训练过程中退化所导致的高斯数量激增问题。为减轻单个GPU的负担，我们基于CityGaussian的块划分策略进行并行训练。并且，我们简化了流程，省略了CityGaussian中耗时的后修剪和蒸馏步骤。相反，我们从零开始实现2阶球谐函数，并将基于贡献的修剪整合到每个块的微调中。它在提升复杂结构表面质量的同时，显著降低了训练成本。此外，我们基于贡献的矢量树量化技术使得大规模2DGS的存储需求降低了十倍。在评估方面，我们引入了TnT风格（Knapitsch等人，2017）的协议，以及基于可见性的裁剪体积估计策略，该策略可以高效地排除观测不足的区域，并提供稳定和一致的评估。

3. 效果展示

(a) CityGaussianV2从多视图RGB图像中重建具有精确几何形状的大规模复杂场景，恢复树林、建筑物和道路的复杂结构。(b)“Ours-coarse”表示用我们的优化算法训练2DGS。该策略在渲染质量(PSNR，SSIM)和几何精度(F1分数)方面加速了2DGS重建。(c)我们优化的并行训练管道将训练时间和内存分别减少了25%和50%,同时实现了更好的几何质量。在这里，我们报告了高斯场景数据集中的平均质量度量。

表面重建质量的定性比较。这里的“Russian”和“Modern”分别表示俄罗斯建筑和现代建筑场景。“Aerial”表示矩阵的鸟瞰图。GOF的混乱结果主要归因于近地壳状网格。

4. 主要贡献

我们的贡献包括以下四个方面：

• 为2DGS提出了一种新颖的优化策略，该策略可加速其在大型场景下的收敛，并使其能够扩展到高容量。

• 提出了一种高度优化的并行训练管道，显著降低了训练成本和存储需求，同时实现了实时渲染性能。

• 针对大型无界场景，提出了一种TnT风格的标准化评估协议，为大规模场景重建建立了几何基准。

• 据我们所知，我们的CityGaussianV2是首批在大型表面重建中实现高斯辐射场的系统之一。实验结果证实了我们在几何质量和效率方面的最前沿性能。

5. 方法

如图2所示，在给定相机姿态下，将二维高斯投影到屏幕空间，并通过定制的光栅化器进行渲染。所得输出用于损失计算。高斯溅射（GS）算法需要通过迭代优化来消除每个视图中的单目线索歧义，最终收敛到一致的3D几何体。为促进收敛，我们将深度先验作为几何优化的辅助指导。遵循Kerbl等人（2024）的做法，我们利用Depth-Anything-V2来估计逆深度，并将其与数据集的尺度对齐，我们将其表示为Dk。假设ˆDk表示预测的逆深度。相应的损失函数定义为LDepth = |ˆDk − Dk|。随着训练的进行，我们按指数级减小损失权重α，以逐渐抑制不完美深度估计的不利影响。

扩展2DGS（二维高斯球面）的关键障碍在于并行调优阶段某些基元过度增殖。通常，一个二维高斯球在远距离投影时会收缩为一个非常小的点，尤其是那些表现出极端拉伸形态的点。由于这些微小点的高不透明度，它们在复杂场景中的移动会引起显著的像素变化，从而导致明显的位置梯度。如图3左半部分所示，这些微小、类似沙粒的投影点对高梯度点的形成有很大贡献，且它们属于极端拉伸点。此外，一些点的投影小于一个像素，导致它们的协方差通过抗锯齿低通滤波器时被固定值替代。因此，这些点无法根据有效梯度正确调整其缩放和旋转。在块级并行调优中，分配给每个块的视图远少于总数。因此，这些远距离视图经常被观察到，导致退化点的梯度迅速累积。这些点随后导致高斯计数呈指数增长，并最终引发内存溢出错误，如图3右半部分所示。

基于这一观察，我们实现了一个简单却有效的拉伸滤波器来解决这一问题。在加密之前，我们评估每个面元的拉伸率。拉伸率低于某个阈值的面元将被排除在克隆和分裂过程之外。如图3右半部分所示，该滤波器缓解了内存溢出错误，并促进了更稳定的高斯计数变化。

CityGaussian的后剪枝和蒸馏过程耗时较长，并且在并行调优过程中引入了显著的内存开销。考虑到这些问题，我们提出了一种新的流程，如图4所示。为了绕过蒸馏步骤，我们从一开始就使用2阶球面调和（SH），从而将SH特征维度从48降低到27。这在整个流程中节省了大量内存和存储空间。为了消除后剪枝的需求，我们在块级调优过程中加入了修剪步骤。

6. 实验结果

我们从定量和定性两个方面将CityGaussianV2与当前最优（SOTA）方法进行了比较。如表1所示，基于NeRF的方法更容易失败，原因在于多层感知机（MLP）的NaN输出，或是在大规模场景下的稀疏监督下收敛性差。此外，这些方法的训练时间普遍超过10小时。相比之下，基于高斯球面（GS）的方法在数小时内即可完成训练，同时展现出更强的性能和泛化能力。对于GauU-Scene，我们的模型在渲染质量上显著优于现有的几何专业方法。

在训练成本方面，如表2所示，CityGaussianV2的小型版本（ours-s）将训练时间减少了25%，内存使用量降低了50%以上，同时提供了与CityGS相当的几何性能和渲染质量。微型版本（ours-t）甚至可以将训练时间减半。这些优势使得我们的方法特别适用于对质量和即时性有不同要求的场景。

7. 总结 & 未来工作

在本文中，我们揭示了基于高斯球面的表面重建方法在扩展规模时面临的挑战，并为大规模场景建立了几何基准。我们的CityGaussianV2采用二维高斯球面（2DGS）作为基本元素，解决了其在收敛速度和扩展能力方面的问题。尽管如此，我们还对2DGS实施了并行训练和压缩，与CityGaussian相比，显著降低了训练成本。在多个具有挑战性的数据集上的实验结果表明，我们的方法在效率、有效性和鲁棒性方面表现出色。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247709685&idx=2&sn=cfbd0e3123b44c5a0733d8bdd768b590

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉