高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

创业 2024-12-06 08:22 北京

是否还在担心大规模场景训练和压缩耗时太长、显存开销太大？是否还在苦恼重建出的建筑物和道路表面破碎不堪？是否还在困扰如何定量衡量大规模场景几何重建的精确程度？
来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法CityGaussianV2，能够在快速实现训练和压缩的同时，得到精准的几何结构与逼真的实时渲染体验。

论文标题：
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes
论文链接：
https://arxiv.org/pdf/2411.00771
代码链接(500+⭐)：
https://github.com/DekuLiuTesla/CityGaussian
项目主页：
https://dekuliutesla.github.io/CityGaussianV2

一、研究背景

三维场景重建旨在基于围绕目标场景拍摄的一组图像恢复出场景的三维结构，其核心追求是精准的几何结构以及逼真的图像渲染。随着近两年的发展，3D Gaussian Splatting（3DGS）因其训练和渲染效率上的优势逐渐成为该领域的主流算法。这一技术使用一组离散的高斯椭球来表示场景，并使用高度优化的光栅器进行渲染。

然而，这一离散且无序的表征形式通常难以很好地拟合物体表面的实际分布，导致重建出的场景几何结构并不精准。近来包括SuGaR、2DGS、GOF在内的一系列杰出工作针对这一问题进行了探索，并给出了有效的解决方案。

几何重建质量可视化比较

尽管这些技术在单一目标或小场景上取得了巨大的成功，但它们应用于复杂的大规模场景却往往面临比3DGS更加严峻的挑战。上图展现了不同算法在大规模场景下的几何重建效果。SuGaR的模型容量有限，难以还原精细的几何结构；GOF受到严重的模糊鬼影的干扰，许多视角下画面被鬼影完全遮挡，以至于监督失效，重建结果面对显著的欠拟合；2DGS受到模糊鬼影的影响较弱，但也妨碍了其收敛效果，并且退化现象容易诱发高斯基元的过度增长，进而引起显存爆炸，训练难以为继。

此外，大规模场景下长期以来缺少几何重建质量的有效评估手段，已有的工作或只进行了可视化定性比较，或忽视了欠观测区域不稳定的重建效果对指标产生的干扰。大规模场景的重建往往还意味着显著的训练开销，要重建1.97km²的区域会产生接近两千万的高斯点，这意味着4.6G的存储以及31.5G的显存开销，以及超过三小时的训练时长。如果要进一步完成压缩，通常还需要额外将近一个小时的时间。

针对这三方面的技术挑战，本文提出了CityGaussianV2。该算法继承了CityGaussian的子模型划分与数据分配方案，并使用2DGS作为基元来重建。在此基础上，CityGaussianV2引入了基于延展率过滤和梯度解耦的稠密化技术，以及深度回归监督，同时合并了训练和压缩过程，得到了端到端的高效。训练管线，不仅有效加速算法收敛，同时保障了稳定、快速、低显存开销的并行训练。

二、CityGaussianV2算法介绍

1. 场景重建基础

3DGS使用一组高斯分布表征的椭球对场景进行表征，每个高斯球同时绑定包括不透明度、颜色以及高阶球谐系数等用于alpha blending渲染的属性，并通过包含L1损失和SSIM损失的加权和对渲染质量进行监督。在训练过程中，算法还会根据每个高斯基元的梯度信息进行自适应地分裂和克隆，使得重建效果不佳的区域能够自动被更合适的基元填充。2DGS旨在增强几何重建精度，并将椭球降维为椭圆面片作为基元表征场景，同时对渲染出的深度和法向量分布施加监督，保证重建表面的平整性。

CityGaussian旨在将3DGS泛化到大场景，首先预训练一个表征全局场景的粗粒度的3DGS场，随后将预训练结果划分为一系列子模型，并根据子模型对训练视图渲染的贡献程度为每个子模型分配训练数据。每个子模型随后会用不同的GPU并行微调，并在训练结束后进行合并和压缩，得到场景的最终表征。

2. CityGaussianV2的优化算法

高斯基元优化算法示意图

现有表面重建方案在泛化到大场景时往往展现出收敛迟缓、训练不稳定等问题，导致并行训练失败，难以取得良好的重建效果。我们的算法以泛化能力最好的2DGS为基元，在引入Depth-Anything-V2的伪深度监督提供几何先验的基础上，进一步提出了新的高斯基元稠密化方案。

我们观察到，在复杂大规模场景上，2DGS在早期训练阶段比3DGS受到更严重的模糊伪影的干扰，导致在迭代次数有限的情况下性能显著劣于3DGS。为了缓解这一问题，我们引入梯度解耦策略，利用对图像结构差异更为敏感的SSIM损失作为稠密化的主要梯度来源：

此处用于控制梯度的尺度；另外在大规模场景下用2DGS进行重建的障碍在于其退化现象。实验证据表明，当从远距离或侧面视角渲染时，部分面片可能会退化成线或点，尤其是那些延展率比较高的面片。对于那些具有高不透明度的投影点，它们的移动往往意味着像素值的剧烈变化，从而使得它们获得较高的梯度，并在稠密化过程中大量增殖，导致基元数量指数级增长，最终导致显存爆炸问题。

为了解决这一问题，在稠密化过程中，我们对容易引起退化和梯度集中的具有极端延展率的高斯面片进行了筛选，并对其增殖过程进行了限制，从而在不牺牲性能的情况下有效稳定了训练过程，保障了优化过程的顺利进行。

3. CityGaussianV2的并行训练管线

CityGaussianV2训练管线，虚线框为摒弃的算法流程

CityGaussianV2 在V1的基础上进一步优化了并行训练管线，使得训练和压缩过程得到统一，删除了冗余的后处理流程。具体而言，算法在子模型的并行训练过程中周期性地遍历训练视角集合并计算每个高斯基元的重要性分数：

其中为第张训练视图的像素集合，为第个基元的不透明度。以此为基础，重要性低于一定百分比阈值的基元会被删除，从而降低显存和存储的开销，使得训练对于低端设备更友好，也显著加速了模型总体的收敛速度。

4. 大规模重建几何评估协议

大规模场景几何精度评估流程

CityGaussianV2填补了大规模场景下几何评测协议长期以来的空白，在Tanks and Temple (TnT) 数据集的启发下，基于点云的目击频次统计设计了针对大规模场景欠观测区域的边界估计方案。具体而言，点云真值会首先被初始化为3DGS，在遍历所有训练视图的同时记录每个点的观测频次，观测频次低于阈值的点将被滤除；剩余的点将用于估计垂直方向的高度分布范围，以及地平面内的多边形外接轮廓，二者构成的Crop Volume进一步用于TnT形式的指标计算。这一方案有效规避了欠观测区域重建效果不稳定带来的指标波动，使得大规模复杂场景的几何性能评估更为客观公正。

三、实验与分析

与主流算法的性能对比

在实验中，相比于已有算法，CityGaussianV2在几何精度（精度P，召回率R，综合指标F1-Score）方面达到了最佳的性能表现。从可视化结果中也可以看到，CityGaussianV2的重建结果具有更准确的细节，完整性也更高。而渲染质量方面，CityGaussianV2则达到了和V1相媲美的程度，能够带来逼真的浏览体验。此外，CityGaussianV2还能较好地泛化到街道景观，并且在渲染质量和几何精度上都取得良好的性能结果。

渲染质量可视化比较

街拍场景可视化比较

高斯基元数量相近情况下的重建性能及训练开销比较

在训练开销方面，CityGaussianV2克服了2DGS泛化到大规模复杂场景下的种种挑战，不仅有效规避显存爆炸问题，而且实现了相对于V1显著的显存优化，同时在训练用时和几何质量方面大幅领先。针对2DGS的量化压缩策略也使得大规模场景的重建结果能够以400M左右的开销存储下来。

四、总结

在本工作中，我们致力于大规模复杂场景的高效精准重建，并建立了大规模场景下的几何精度评估基准。我们提出的CityGaussianV2 以 2DGS 为基元，消除了其收敛速度和扩展能力方面的问题，并实现了高效的并行训练和压缩，从而大大降低了模型的训练成本。在多个具有挑战性的数据集上的实验结果证明了我们方法的效率、有效性和鲁棒性。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉