英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

文摘 2024-11-15 07:01 中国

作者 | Xuanchi Ren等编辑 | 具身智能之心

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

学界在三维场景重建上可谓煞费苦心。谁不想重建出像“黑神话悟空”里一样真实的场景呢？为游戏平添了许多高级感！b站up团队“影视飓风”曾为了重建老君山，开了好几架无人机，花了整整一周采集数据，才把山重建出来。

来源：https://www.bilibili.com/video/BV1gF4m1u74D/?share_source=copy_web&vd_source=3c02362adfaf92cb2ff1d12c553dc123

想象一下，如果仅用三张图，就能实现大规模三维场景重建，是不是很nb？

最新英伟达团队就肝出来了！

来源：https://research.nvidia.com/labs/toronto-ai/scube/

在此之前，前人已就 3D 场景重建做了许多相关的工作，主要聚焦于3D场景表示、稀疏视图3D重建、3D生成模型方面，具体如下：

（1）3D场景表示（3D Scene Representation）：野外场景规模大且结构复杂，传统表示方法如三平面、密集体素网格或网格因容量或内存限制而失败。基于优化的重建方法虽使用高分辨率哈希网格，但神经网络推断存在困难。稀疏体素网格因高效稀疏神经算子在学习场景重建方面有效，高斯溅射实现了实时神经渲染，但现有混合表示未充分利用数据先验。本文提出的 VoxSplat 结合了稀疏体素层次结构和高斯溅射的优点，可直接推断重建。

（2）稀疏视图3D重建（Sparse-view 3D Reconstruction）：稀疏视图图像缺乏传统重建方法所需的对应关系。一种方法是使用学习到的图像空间先验增强优化过程，另一种是使用前馈模型预测可渲染特征，还有在 3D 空间直接学习的方法能提高一致性和减少失真。本文输入来自同一装置且稀疏低重叠视图，更具挑战性，语义场景完成工作虽重建体素但分辨率低且无外观。

（3）3D生成模型（Generative Models for 3D）：3D 重建可视为条件生成问题，对象的文本和单图像到 3D 生成已有探索，但扩展到大场景未被充分研究。一些方法通过递归应用图像生成模型修复 3D 缺失区域，但重建规模有限且模糊。XCube 是首个直接学习高分辨率 3D 场景先验的模型之一，本文在此基础上扩展，增加多视图图像条件并预测外观。

早期算法如立体匹配和 SfM 用于从图像数据恢复 3D 信号，近年来 NeRF 等方法通过拟合体素场增强了传统 SfM 管道，但存在逐场景优化耗时、无法利用数据先验及外推重建等问题。同时，深度学习方法在预测 3D 时也面临着如仅适用于低分辨率单物体、存在 3D 不一致性等局限。此外，尽管一些技术如高斯溅射和稀疏体素层次结构在特定方面有所进展，但仍存在不足。

鉴于现有方法的诸多问题，本文旨在提出一种新的方法 SCube，用于从稀疏的姿态图像集重建大规模 3D 场景（包括几何、外观和语义）。期望该方法能够克服现有技术的局限，满足以下要求：一是将重建推广到通用场景而非仅单一物体；二是在密集视图下产生准确、高质量重建，并在稀疏视图下利用数据先验生成合理重建；三是在处理大规模、高分辨率输入时快速且高效（运行时和内存方面）。

英伟达实验室团队使用一种新颖的表示 VoxSplat 对重建的场景进行编码，VoxSplat 是一组支持在高分辨率稀疏体素支架上的 3D 高斯。为了从图像中重建 VoxSplat，文章采用了一个以输入图像为条件的分层体素潜在扩散模型，然后是前馈外观预测模型。扩散模型以粗略到精细的方式逐步生成高分辨率网格，并且外观网络预测每个体素中的一组高斯分布。从少至 3 个不重叠的输入图像中，SCube 可以在 20 秒内生成数百万个高斯，其中包含跨越数百米的 1024^3 体素网格。

SCube: Instant Large-Scale Scene Reconstruction using VoxSplats
https://arxiv.org/abs/2410.20030
https://research.nvidia.com/labs/toronto-ai/scube/

模型搭建

接下来一起看看SCube的流程吧~

SCube 分两步重建高分辨率 3D 场景，先重建场景几何，再预测场景外观，并可通过可选的后处理步骤提高输出质量。

（1）体素网格重建

以 XCube 为基础，通过将输入图像的 DINO - v2 特征提升到 3D 空间来实现几何重建：先使用预训练的 DINO - v2 模型提取输入图像特征，经处理后将特征通道拆分为常规特征和深度分布向量，通过特定策略将图像反投影到 3D 体素网格，构建条件输入并与 XCube 的潜在编码连接，作为扩散网络的输入，从而生成稀疏体素层次结构。

训练过程与 XCube 相似，先训练变分自编码器（VAE）学习稀疏体素层次结构的潜在空间，添加语义对数预测以辅助模型学习几何。然后训练扩散模型，采用包含扩散损失和深度损失的组合损失函数，深度损失用于监督深度分布向量，使模型能更好地权衡图像特征并正确放置到体素中。由于 XCube 的生成性质，即使部分 3D 数据不完整，模型也能学习数据先验生成完整几何。

（2）外观重建

在第二阶段，基于几何阶段生成的固定体素网格，通过预测每个体素中的一组高斯分布（VoxSplats）来建模场景外观。采用高斯溅射技术，将场景外观表示为高斯之和，每个高斯具有透明度、中心、协方差和颜色等属性。通过前馈模型预测高斯参数，限制高斯位置在支持体素邻域内，以保持几何结构，避免使用复杂的优化策略。

为捕捉远离预测几何的外观，从所有输入图像构建天空特征全景，将其视为扩展的单位球体并进行逆等距柱状投影。通过将全景像素投影到图像平面获取图像特征，应用天空遮罩确保聚焦于天空区域。渲染新视角时，通过采样天空全景并解码为 RGB 值获取背景外观，再与前景图像进行 alpha 合成。

通过 3D 稀疏卷积 U - Net 预测每个体素中的高斯参数，网络输入为几何阶段输出的稀疏体素网格，其中体素特征通过对输入图像进行处理和射线投射累积得到。天空全景模型使用相同图像特征，训练时通过特定损失函数监督外观模型，包括 L1 损失、SSIM 损失和 LPIPS 损失，以确保预测视图与真实视图在外观上的一致性。

（3）后处理及应用

直接从外观模型渲染的新视图可能存在体素化伪影或噪声，可通过可选的轻量级条件生成对抗网络（GAN）进行后处理。GAN 的判别器从输入稀疏视图图像采样图像块，并基于渲染图像生成的图像进行判别。在推理时为每个场景独立拟合 GAN，虽耗时但能有效提高图像质量，去除伪影和噪声（此为 SCube + 方法）。此外，还提出一种无需逐场景优化的通用后处理方法（SCube + *），使用 pix2pix - turbo 模型，能减少体素块伪影和解决图像内不一致问题，但会降低帧率。

SCube有广泛的应用场景，比如：（1）可以进行一致的 LiDAR 模拟：SCube 能够将稀疏视图图像转换为 LiDAR 点云，实现传感器到传感器的转换。通过利用模型输出的高分辨率高斯分布，对 LiDAR 射线进行光线追踪获取距离，由于重建场景的干净体素支架，可确保点云无浮动且与几何结构更好对齐，模拟的 LiDAR 序列能有效覆盖长距离并解析复杂几何结构。（2）也可用于从文本提示生成 3D 场景：首先训练一个多视图扩散模型（如采用 VideoLDM 架构），利用 CogVLM 自动大规模标注图像进行训练。训练完成后，将多视图模型输出输入 SCube，将 2D 观察提升到 3D 空间以实现新视图合成，生成的 3D 场景几何和外观符合输入文本提示及相应图像。

实验部分

接下来文章通过一些实验验证了SCube的有效性。数据集处理流程如图3所示。基于 Waymo Open Dataset 构建数据处理管道，包括 LiDAR 点云积累与语义标注、多视图立体算法重建点云及语义标签、添加动态对象点样本，最后裁剪为局部块用于训练和评估。

为评估方法在 3D 场景重建中的能力，遵循新视图合成任务的常见协议。给定输入多视图图像，渲染未来时间戳的新视图，并与真实帧对比，计算 PSNR、SSIM 和 LPIPS 指标。在大规模场景重建中，与 PixelNeRF、PixelSplat 等多种基线方法对比，如表1所示，SCube 在当前帧和未来帧的重建和预测任务中，在 PSNR、SSIM 和 LPIPS 等指标上均显著优于基线方法。

如图4所示，PixelNeRF 受网络表示能力限制，无法捕捉高频细节；PixelSplat 依赖输入视图重叠区域，在稀疏视图下表现差；基于多视图立体的方法无法实现极端新视图合成且难以恢复遮挡区域；DUSt3R 虽能学习合理位移，但存在缺失区域、不对齐和深度边界不准确等问题。而 SCube 能重建完整场景几何，准确且一致，生成高质量新视图渲染。如图5所示，通过与基于 Metric3Dv2 的方法对比，进一步证明了 SCube 在 3D 空间学习和表示几何的优势。

由于 SCube 生成的场景级 3D 高斯具有准确几何和外观，可用于初始化大规模 3D 高斯溅射训练，尤其在户外驾驶场景中，当结构光运动（SfM）因视点稀疏可能失败时，这种初始化方法非常有用。文中考虑并对比了三种初始化方法：随机初始化、Metric3Dv2 初始化和 SCube 初始化。文章选择第一帧视图，控制初始点数量，将后续帧纳入训练和测试，固定训练迭代次数和学习率，在 15 个静态场景中进行实验。结果如表2所示，SCube 初始化在平均指标上表现最佳，能提供准确的 3D 基础，缓解对训练视图的过拟合，证明了其作为初始化策略的有效性。

图 6 展示了一致的激光雷达模拟结果，其中模拟序列能够有效地覆盖远离输入相机位置的长距离范围，同时解析诸如建筑物、树木或电线杆等复杂的几何结构。

图 7 举例说明了文章的方法所实现的文本到场景生成能力，结果显示 3D 几何形状和外观遵循输入文本提示以及相应的图像。

在消融研究部分，文章将体素网格重建阶段的图像条件策略替换为普通方案（将相同特征广播到像素射线对应的所有体素），发现精细级体素网格的最终 IoU 从 34.31% 降至 30.33%，考虑体素语义预测准确性的 mIoU 从 20.00% 降至 16.61%，证明原策略能有效区分不同深度体素。

文章对比了单阶段模型（同时预测稀疏体素和外观）和两阶段模型，单阶段模型在 PSNR/LPIPS（平均 T + 5 和 T + 10 帧）仅为 17.88/0.57，而两阶段模型为 19.34/0.48，且单阶段模型在几何质量（Chamfer 距离）上比两阶段模型差很多（高达 100 倍），表明两阶段模型能更好地利用不同类型模型。

文章还验证了外观重建阶段体素网格分辨率和每个体素中高斯数量（M）的影响。结果表明，更高分辨率的体素网格对捕捉详细几何至关重要，增加高斯数量仅略微提升性能，因此最终选择 M = 4。同时对比发现，基于 GAN 的后处理虽耗时，但能通过锐化渲染提高图像质量，对生成高质量图像有益。

讨论与展望

文章证明了SCube 是一种有效的前馈方法，能在数十秒内从稀疏非重叠图像预测高分辨率 3D 场景表示，在重建质量上优于现有方法。但当前方法不能处理复杂场景（如极端光照或天气下的动态场景），遮挡区域外观质量不确定，且依赖真实 3D 训练数据（并非总是可用）。未来计划通过结合更先进的神经渲染技术和探索生成训练数据的有效方法来解决上述局限性。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516317&idx=2&sn=2bcab04891c352939a2c8c87bf5965ad

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉