点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了大型空间模型(LSM),一个统一的框架,用于从未经标定和未姿势化的图像中进行全景3D语义重建,并支持通过语言进行交互。LSM通过跨视角注意力机制汇聚多视角信息,并利用多尺度跨模态注意力将语义丰富的特征融合到基于点的表示中。它通过回归各向异性3D高斯分布进行点溅射,生成新视角,并支持实时端到端的3D建模。文章展示了LSM在新视角合成、3D语义分割和深度估计等任务中的高效性能,尤其在多个数据集上的表现优于现有方法。尽管LSM具有较高的计算效率,但仍然依赖于预训练模型,且需要真实的深度图作为输入,这可能限制了它在大规模视频应用中的可扩展性。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Large Spatial Model: End-to-end Unposed Images to Semantic 3D
作者:Zhiwen Fan,Jian Zhang等
作者机构:UT Austin,NVIDIA Research等
论文链接:https://arxiv.org/pdf/2410.18956
2. 摘要
从有限数量的图像中重建和理解3D结构是计算机视觉中的一个经典问题。传统的方法通常将这一任务分解为多个子任务,涉及不同数据表示之间的复杂映射的多个阶段。例如,使用运动重建(SfM)进行密集重建需要将图像转化为关键点、优化相机参数并估计结构。接下来,精确的稀疏重建是进一步密集建模所必需的,然后将其输入特定任务的神经网络中。这种多阶段的范式导致了显著的处理时间和工程复杂性。在这项工作中,我们引入了大空间模型(LSM),该模型直接处理无姿态的RGB图像生成语义辐射场。LSM通过单次前向传递同时估计几何、外观和语义,并能够通过语言在新视角下进行交互,合成多样的标签图。LSM基于通用的Transformer框架,通过像素对齐的点图预测全局几何。为了提高空间属性回归的准确性,我们采用了多尺度融合的局部上下文聚合,增强了细节的准确性。为了解决标注的3D语义数据稀缺的问题,并实现自然语言驱动的场景操作,我们将一个预训练的基于2D语言的分割模型与3D一致的语义特征场相结合。一个高效的解码器将一组语义各向异性高斯分布参数化,实现了监督式端到端学习。通过对各种任务的全面实验,证明了LSM能够直接从无姿态图像中统一多种3D视觉任务,首次实现了实时的语义3D重建。
3. 效果展示
3D特征场的可视化。我们提出了从新的视角呈现的特征的例子,说明我们的方法如何将2D特征转换为一致的3D,促进通用和有效的分割。使用PCA生成可视化。
新视图合成(NVS)比较。我们通过将我们的方法与需要每个场景优化的方法进行比较来评估场景级重建,例如NeRF-DFF和Feature-3DGS,它们预测RGB和分割,以及可推广的3D高斯溅射方法(pixelSplat)。值得注意的是,这些方法需要预处理步骤来使用现成的SfM获得相机姿态。通过端到端的数据驱动训练,我们的方法实现了与这些方法相当的视觉质量,同时在单个前馈通道中重建3D辐射场。
4. 主要贡献
我们介绍了一种统一的3D表示和端到端框架,直接从无姿态图像中通过单次前向传递解决密集3D重建、基于3D语言的语义分割和新视角合成问题。 我们的方法利用基于Transformer的架构,通过跨视图注意力进行多视图几何预测,结合分层跨模态注意力传播丰富的几何特征。我们还整合了一个预训练的语义分割模型以增强3D理解。通过在点级别聚合局部上下文,我们实现了细粒度的特征融合,使得预测各向异性3D高斯分布并高效地进行RGB、深度和语义的溅射成为可能。推荐课程:彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用。 我们的模型能够同时执行多个任务,在单个GPU上实现实时重建和渲染。实验表明,我们的统一方法在不同的3D视觉任务中具有有效的扩展性,超越了许多最先进的基准方法,无需额外的SfM步骤。
5. 基本原理是啥?
这篇文章中的基本原理主要围绕 大型空间模型(LSM) 进行3D语义重建的框架:
无校准和无标定图像的3D语义重建:LSM能够从未经校准和未标定的图像中进行3D重建。这意味着它不依赖于传统的摄像头内参(如焦距、传感器尺寸等)或摄像机姿态信息来构建3D场景。这使得它在处理不具备明确标定信息的数据时具有高度的灵活性和适应性。
跨视角注意力(Cross-View Attention):LSM通过跨视角注意力机制来聚合来自不同视角的信息,能够利用多视角的线索来提升重建的准确性和鲁棒性。换句话说,通过比较来自多个视角的数据,模型可以更好地理解和整合不同角度的3D信息。
多尺度跨模态注意力(Multiscale Cross-Modal Attention):LSM使用多尺度的跨模态注意力机制,将语义丰富的特征(如颜色、纹理、物体类别等)整合到基于点的表示中。这一机制使得模型能够在不同尺度上关注到图像中不同层次的信息,进一步增强3D重建的质量和语义理解。
基于点的表示和层级化聚合:在生成3D重建时,LSM通过点云(point cloud)表示,并利用层级化的点聚合层(point-wise aggregation layers)进一步优化这些表示。这样的处理能够精细化每个点的信息,使得重建结果更精确。
通过回归的各向异性3D高斯进行"溅射"(Splatting):LSM使用回归的各向异性3D高斯分布进行“溅射”,这是一种高效的表示方法,用于生成新的视角并且能够生成具有多功能标签图的3D重建结果。溅射方法本质上是将每个回归的高斯分布映射到空间中,以构建3D场景。
6. 实验结果
实验结果部分展示了 大型空间模型(LSM) 在多个任务上的表现和与现有方法的对比:
新视角合成(Novel View Synthesis)
评估方法:使用 NeRFDFF 和 Feature-3DGS 对合成图像的质量进行了评估,这两种方法都能够预测RGB值和特征。 对比方法:将LSM与最先进的 像素Splat 进行比较,后者是一种基于姿势的3D高斯溅射方法,通过前馈传递生成基于点的表示。 结果:LSM与 NeRFDFF 和 Feature-3DGS 的输出质量相当,但其结果更加清晰且具备更少的伪影。此外,LSM在合成图像时表现出比像素Splat更高的效率,后者需要较长的推理时间。 可视化:在图像4中展示了合成结果,LSM的结果比NeRFDFF更加锐利,且与Feature-3DGS和像素Splat表现相当。
开放词汇3D语义分割(Open-Vocabulary Semantic 3D Segmentation)
评估指标:通过类别间的交并比(mIoU)和平均像素准确度(mAcc)评估3D语义分割效果。 方法:将多个数据集中的类别标签映射到一组常见类别(例如墙、地板、天花板等),并将LSM与 Feature-3DGS 和 NeRFDFF 进行比较。 结果:LSM展示了与基准方法相比的竞争性性能,能够在没有真实相机参数和每场景优化的情况下实现较高的语义分割精度。相比之下,LSeg(2D方法)提供了详细的分割结果,但缺乏跨视角一致性。 可视化:图像5展示了LSM能够生成视角一致的语义图,而LSeg则缺乏这一一致性。
深度精度评估(Depth Accuracy)
评估方法:使用 绝对相对误差(rel) 和 内点比例(τ) 来评估每个场景的深度估计。 结果:LSM在ScanNet数据集上的深度估计精度超过了基准方法,且相较于其他基准方法,LSM的推理速度显著更快,因为其仅需一次前向传播。
消融实验(Ablation Studies)
实验1:通过将ViT编码器特征融合到点聚合层的隐藏层中,改进了语义分割任务的效果,mIoU从 0.4562 提升到 0.5410。 实验2:在多尺度的点聚合层中加入跨模型融合,进一步改善了语义嵌入的注入,mIoU从 0.4562 提升到 0.5586。 实验3:通过多尺度融合,解码后的特征质量得到提升,语义mIoU从 0.5586 提升到 0.6042。
模块时间分析(Module Timing)
分析:对每个模块的计算成本进行了分析,通过在ScanNet测试数据集上进行1,000次推理,计算了每个模块的平均推理时间。
在新数据集上的泛化评估(Generalizable Methods on New Datasets)
数据集:使用了Replica数据集(一个高质量的模拟3D数据集),用于全面评估模型的泛化能力。 结果:LSM在Replica测试集上表现良好,达到了最佳的深度估计指标,并能够执行3D语义分割,表现出较强的泛化能力。 对比:与 Splatter Image 等方法相比,LSM在复杂背景下的场景重建表现更好,而Splatter Image在遮挡背景下的物体重建表现优越。
7. 总结 & 未来工作
我们提出了大型空间模型(LSM),这是一个统一的框架,用于从未经校准和未标定的图像中进行整体3D语义重建,并具备通过语言进行交互的能力。LSM利用跨视角注意力聚合多视角信息,并通过多尺度跨模态注意力将语义丰富的特征整合到基于点的表示中。层级化的逐点聚合层进一步细化这些表示,并增强跨模态注意力的整合。通过对回归的各向异性3D高斯进行“溅射”,LSM能够生成带有多功能标签图的新视角。LSM高效且能实时进行端到端的3D建模,支持多种下游应用。
尽管我们的方法显著加速了语义3D场景重建,但它依赖于预训练模型进行特征提升,这可能在训练过程中增加GPU内存需求,特别是在集成的2D模型参数量较大时。此外,虽然已有数百万个带有深度图的多视角数据集,地面真值深度图的需求可能限制其在互联网规模视频应用中的扩展性。
我们的研究实现了高效的实时3D场景级重建和理解,这对端到端的机器人学习、增强现实/虚拟现实(AR/VR)以及数字双胞胎等应用具有重要意义。然而,也存在潜在的滥用风险,比如数字资产的任意分发或与建筑结构相关的隐私泄露。这些风险可以通过在3D资产中嵌入水印来缓解。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~