点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:SCRREAM : SCan, Register, REnder And Map:A Framework for Annotating Accurate and Dense 3D Indoor Scenes with a Benchmark
作者:HyunJun Jung, Weihang Li, Shun-Cheng Wu, William Bittner, Nikolas Brasch, Jifei Song, Eduardo Pérez-Pellitero, Zhensong Zhang, Arthur Moreau, Nassir Navab, Benjamin Busam
机构:TUM、华为诺亚
原文链接:https://arxiv.org/abs/2410.22715
代码链接:https://github.com/Junggy/SCRREAM
1. 导读
传统上,3d室内数据集通常优先考虑比例而不是地面实况精度,以获得更好的概化。然而,使用这些数据集来评估密集几何任务(如深度渲染)可能会有问题,因为数据集的网格通常不完整,并且可能会产生错误的地面真实来评估细节。在本文中,我们提出了SCRREAM,一个数据集注释框架,它允许注释场景中对象的完全密集网格,并在真实图像序列上注册相机姿态,这可以为稀疏3D和密集3D任务产生精确的地面真实。我们展示了数据集注释管道的细节,并展示了可以从我们的框架和示例场景中获得的数据集的四种可能的变体,例如室内重建和SLAM、场景编辑和对象移除、人体重建和6d姿态估计。最近用于室内重建和SLAM的管道成为新的基准。与以前的室内数据集相比,我们的设计允许在11个样本场景上针对精确渲染的地面真实深度图评估密集几何任务。
2. 引言
室内任务与人类活动紧密相关。因此,感知三维室内场景是三维计算机视觉中的一项主要任务。计算机视觉领域已经引入了一系列采用不同标注方法的室内数据集,为训练和性能评估提供必要的数据。然而,这些数据集通常仅从有限数量的视角使用深度传感器捕获场景,并尽量避免对场景做出任何改变,以简化配准和融合。虽然这种扫描方式可以加快数据集捕获过程,从而实现大规模数据的快速创建,但由于视线问题或传感器精度不足等原因,可能会获取到不完整的网格。
另一方面,单独且连续地扫描所有物体,并将它们配准到场景中,可以确保对所有物体进行密集且完整的标注。这些标注可用于生成密集的真实值。然而,使用机械臂会限制场景设置以及相机轨迹,例如,仅限于桌面场景,此类场景中的相机由于机械臂关节操作范围有限而无法自由移动。因此,我们设计了一种新颖的管道,用高精度局部重扫描和配准程序替代了基于工具尖端的物体配准。
我们采用基于特征匹配的姿态估计方法,利用从已配准模型中渲染的合成视图来替代基于外部硬件的相机跟踪。由于该方法在扫描和标注用于不同目的的场景方面具有灵活性,我们将其称为框架。该框架可用于各种任务,如室内重建与SLAM(即时定位与地图构建)、场景编辑与物体移除、人体重建和6D姿态估计。我们将详细介绍该框架的步骤,并讨论如何设置场景以获得不同的室内数据集变体。为了展示该框架的通用性,我们提供了使用所提框架获得的11个示例场景。整个数据集可供社区使用,并且我们为使用当前最先进的室内重建与SLAM方法在示例场景上执行的三维几何任务提供了基准。
3. 效果展示
数据集比较。我们数据集中的每个场景都用单独扫描的防水高分辨率网格和纹理贴图进行了注释,纹理贴图作为数字孪生资产提供。因此,可以呈现完全密集的地面真实地图,例如高度详细的深度和实例/类别分割地图。这是准确的基准数据。此外,我们还提供场景中对象减少的场景,以提供对象移除和包含额外9k帧的场景编辑设置。
4. 主要贡献
我们的贡献如下:
我们提出了一种能够对完全密集室内场景进行标注的数据集标注框架。该框架可应用于不同的室内感知任务。
我们详细说明了标注框架的步骤,以供将来使用,并将获取的数据集与详细文档一起发布到公共领域。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]。
我们创建了场景级几何任务的新基准,包括使用精确渲染的密集深度真实值以及精确网格进行的室内场景重建、新视图合成和SLAM。
我们的目标是建立一个能够对完全密集场景以及由手持相机以可靠相机姿态记录的图像序列进行标注的管道。我们的管道遵循SCRREAM方案:扫描完整网格、将网格配准到场景、渲染合成场景以及将视频序列映射到合成场景以获得相机姿态。
5. 方法
我们详细地解释SCRREAM管道的每个部分。
扫描。在扫描步骤中,我们分别扫描整个空房间、场景中的家具和小物体,以获得完整的网格,从而使场景中的所有物体和家具无论扫描器或相机轨迹的视线如何都能完整呈现。我们使用EinScan-SP(SHINING 3D)扫描小型家用物品,使用Artec Leo(Artec 3D)扫描家具和房间。对于小型家用物品和家具,我们确保扫描的网格是防水的,并且具有高质量的纹理贴图。扫描步骤对应于管道中的图2(a),扫描网格的示例如图3(a)所示。
配准。扫描完所有物体、家具和房间后,我们通过将家具和物体放置在房间内来创建场景。然后,使用手持扫描仪对整个场景进行扫描,以提供可用于将预扫描的网格配准到场景中的稀疏网格。通过选择在预扫描网格和稀疏网格之间对应的3-5对点来进行初始配准。然后使用ICP进行进一步细化。配准步骤对应于图2(b)、(c)。部分扫描及其对应的已配准网格的示例如图3(c)、(d)所示。为方便起见,我们使用商业软件(Artec Studio 17 Professional)执行此配准步骤。
渲染。然后,使用预扫描的网格对配准后的场景进行渲染,使其呈现逼真的效果。我们通过导入所有已配准的网格并将光源放置在接近真实场景的位置,使用Blender4.0对场景进行渲染。我们渲染大约50-100帧,这些帧可以覆盖场景的多个视图,这些视图可用于下一步的映射,并将相应的相机姿态和内参作为一对进行保存。渲染步骤对应于图2(d)。渲染图像的示例如图4(a)所示。
建图。建图阶段将真实图像序列映射到前一步获得的渲染序列。为了获得场景的真实图像序列,我们使用了一个多模态相机组合,包括一个RGB+P传感器(Lucid Phoenix配备Sony Polarsens)、一个主动立体深度传感器(Intel RealSense D435)和一个I-Tof深度传感器(Lucid Helios)。从每个深度传感器到RGB传感器获得外参校准。
我们首先放置一个ChArUco板,并从所有相机捕获图像序列,以获得具有轨迹TcamX→board的序列。对于深度传感器,使用红外图像来捕获ChArUco板。然后,我们使用Horn的方法将来自深度传感器的轨迹与RGB传感器的轨迹对齐。对齐矩阵是RGB传感器和深度传感器之间的外参矩阵。一旦从每个深度传感器到RGB传感器获得外参矩阵,就使用其自身的传感器深度和它们的外参将相应的深度图像与RGB图像对齐。需要注意的是,我们使用带有噪声的传感器深度将深度图像与RGB图像对齐,这会在最终深度图像中引入额外的噪声。我们之所以这样设计,是因为这就是真实深度传感器将其深度图像与RGB图像对齐的方式。所有三个相机都通过Raspberry Pi生成的硬件同步信号进行同步。
一旦获得真实图像序列,我们的任务就是获得相对于已配准场景网格中心的相机姿态。我们将现成的运动恢复结构(SfM)方法COLMAP修改为两个阶段(两阶段映射),以从与相机姿态和内参配对的合成图像中获得真实相机姿态。我们首先匹配合成图像中的特征,并使用配对的相机姿态和内参将它们反投影到三维空间。然后,提取真实图像的特征,并将它们与合成图像特征进行匹配,并优化相应的相机姿态,以将反投影的真实图像特征映射到反投影的合成特征上。映射步骤对应于图2(e)-(g)。真实图像序列和映射特征的示例(带有检索到的相机姿态)如图4(b)所示。
获得相机姿态后,我们可以使用相机姿态和网格将可用的三维信息映射到相机帧上,以用密集深度(见图2(h))、物体姿态、分割掩码、表面法线、边界框等对场景帧进行标注。
6. 实验结果
新型视图合成几何基准测试。我们选择了四种当前最优的新型视图合成(NVS)方法及深度监督变体来进行基准测试。这些方法包括:带有和不带深度先验的NerFacto(即带有两个深度传感器先验的Depth-Facto)、Zip-NeRF、Gaussian-Splatting和Mip-Splatting。与现有的任何NVS基准测试不同,我们的数据集提供了高度详细的渲染真实深度图,且物体上没有缺失部分。这使我们能够进一步提供深度渲染的评估指标(即均方根误差RMSE、绝对相对误差Abs Rel、平方相对误差Sqr Rel、δ<1.25n),以与传统视图合成指标(如峰值信噪比PSNR、结构相似性SSIM、感知图像补丁相似性LPIPS)一起评估每种方法的几何线索。我们每10帧用于训练,中间帧(每10帧+5)用于测试。定量和定性评估结果分别如表2和图7所示。
室内SLAM基准测试。对于SLAM,我们选择了三种当前最优的RGB-D SLAM方法作为基准,分别是NICE-SLAM、CO-SLAM和Gaussian-SLAM。如前所述,SLAM方法需要深度作为输入,因此我们使用两种传感器深度(主动立体视觉和飞行时间ToF)进行实验,以评估在真实场景下的性能,同时也使用渲染的真实深度来了解每种方法在最佳情况下的最大可能性能。我们使用所有帧来训练和评估获得的相机姿态和场景重建。跟踪性能通过绝对轨迹误差(ATE)和均方根误差(RMSE)进行评估。映射性能使用神经RGB-D SLAM的三个常用指标进行评估:准确性、完整性、完成率。在网格评估之前,剔除未见和遮挡区域。定量和定性评估结果分别如表3和图8所示。
7. 限制 & 总结
SCRREAM构成了一个室内3D数据集标注框架,能够对单个高质量的场景网格进行标注。我们通过提供示例数据集,展示了其在四种不同任务标注中的应用。此外,还给出了使用最新方法在重建和SLAM数据集上的基准测试结果。尽管场景标注更为详细,但所使用的硬件配置可能成本高昂、结构复杂且耗时较长,这导致数据集标注流程的可扩展性较低;对于人体重建和6D姿态估计数据集,我们仅包含了一些示例数据集场景,而没有提供相应主题的基准测试。为了使单个图像之间最具可比性,我们选择了固定的曝光时间,这可能会导致图像在较暗的场景中曝光不足/过度,并产生运动模糊。使用基于特征的匹配和姿态估计方法需要静态捕获条件,以确保在标注阶段实现高精度的相机姿态估计。这限制了所提出的场景编辑设置只能移除物体,而无法处理实际的人机交互[40]。受扫描速度的限制,我们使用模特人偶代替真实人物,因为真实人物缺乏动作和逼真效果,尤其是在面部和手部区域。尽管存在这些不足,但据我们所知,我们的数据集是唯一一个具有如此精确设置的数据集,能够使用手持相机覆盖室内房间。这一独特性使得能够对最流行的3D应用(如新型视图合成(NVS)和SLAM)中的方法进行深入的几何评估和基准测试。我们坚信,通过客观评估和向研究界公开访问(而非简单地将传感器深度视为既定事实),我们的数据集和基准测试能够推动该领域的发展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~