NeurlPS'24开源 | 助力三维重建、SLAM、6D位姿！TUM重磅：自动标注稠密网格、位姿真值、深度图！

科技 2024-11-04 07:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：SCRREAM : SCan, Register, REnder And Map:A Framework for Annotating Accurate and Dense 3D Indoor Scenes with a Benchmark

作者：HyunJun Jung, Weihang Li, Shun-Cheng Wu, William Bittner, Nikolas Brasch, Jifei Song, Eduardo Pérez-Pellitero, Zhensong Zhang, Arthur Moreau, Nassir Navab, Benjamin Busam

机构：TUM、华为诺亚

原文链接：https://arxiv.org/abs/2410.22715

代码链接：https://github.com/Junggy/SCRREAM

1. 导读

传统上，3d室内数据集通常优先考虑比例而不是地面实况精度，以获得更好的概化。然而，使用这些数据集来评估密集几何任务(如深度渲染)可能会有问题，因为数据集的网格通常不完整，并且可能会产生错误的地面真实来评估细节。在本文中，我们提出了SCRREAM，一个数据集注释框架，它允许注释场景中对象的完全密集网格，并在真实图像序列上注册相机姿态，这可以为稀疏3D和密集3D任务产生精确的地面真实。我们展示了数据集注释管道的细节，并展示了可以从我们的框架和示例场景中获得的数据集的四种可能的变体，例如室内重建和SLAM、场景编辑和对象移除、人体重建和6d姿态估计。最近用于室内重建和SLAM的管道成为新的基准。与以前的室内数据集相比，我们的设计允许在11个样本场景上针对精确渲染的地面真实深度图评估密集几何任务。

2. 引言

室内任务与人类活动紧密相关。因此，感知三维室内场景是三维计算机视觉中的一项主要任务。计算机视觉领域已经引入了一系列采用不同标注方法的室内数据集，为训练和性能评估提供必要的数据。然而，这些数据集通常仅从有限数量的视角使用深度传感器捕获场景，并尽量避免对场景做出任何改变，以简化配准和融合。虽然这种扫描方式可以加快数据集捕获过程，从而实现大规模数据的快速创建，但由于视线问题或传感器精度不足等原因，可能会获取到不完整的网格。

另一方面，单独且连续地扫描所有物体，并将它们配准到场景中，可以确保对所有物体进行密集且完整的标注。这些标注可用于生成密集的真实值。然而，使用机械臂会限制场景设置以及相机轨迹，例如，仅限于桌面场景，此类场景中的相机由于机械臂关节操作范围有限而无法自由移动。因此，我们设计了一种新颖的管道，用高精度局部重扫描和配准程序替代了基于工具尖端的物体配准。

我们采用基于特征匹配的姿态估计方法，利用从已配准模型中渲染的合成视图来替代基于外部硬件的相机跟踪。由于该方法在扫描和标注用于不同目的的场景方面具有灵活性，我们将其称为框架。该框架可用于各种任务，如室内重建与SLAM（即时定位与地图构建）、场景编辑与物体移除、人体重建和6D姿态估计。我们将详细介绍该框架的步骤，并讨论如何设置场景以获得不同的室内数据集变体。为了展示该框架的通用性，我们提供了使用所提框架获得的11个示例场景。整个数据集可供社区使用，并且我们为使用当前最先进的室内重建与SLAM方法在示例场景上执行的三维几何任务提供了基准。

3. 效果展示

数据集比较。我们数据集中的每个场景都用单独扫描的防水高分辨率网格和纹理贴图进行了注释，纹理贴图作为数字孪生资产提供。因此，可以呈现完全密集的地面真实地图，例如高度详细的深度和实例/类别分割地图。这是准确的基准数据。此外，我们还提供场景中对象减少的场景，以提供对象移除和包含额外9k帧的场景编辑设置。

4. 主要贡献

我们的贡献如下：

我们提出了一种能够对完全密集室内场景进行标注的数据集标注框架。该框架可应用于不同的室内感知任务。

我们详细说明了标注框架的步骤，以供将来使用，并将获取的数据集与详细文档一起发布到公共领域。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]。

我们创建了场景级几何任务的新基准，包括使用精确渲染的密集深度真实值以及精确网格进行的室内场景重建、新视图合成和SLAM。

我们的目标是建立一个能够对完全密集场景以及由手持相机以可靠相机姿态记录的图像序列进行标注的管道。我们的管道遵循SCRREAM方案：扫描完整网格、将网格配准到场景、渲染合成场景以及将视频序列映射到合成场景以获得相机姿态。

5. 方法

我们详细地解释SCRREAM管道的每个部分。

扫描。在扫描步骤中，我们分别扫描整个空房间、场景中的家具和小物体，以获得完整的网格，从而使场景中的所有物体和家具无论扫描器或相机轨迹的视线如何都能完整呈现。我们使用EinScan-SP（SHINING 3D）扫描小型家用物品，使用Artec Leo（Artec 3D）扫描家具和房间。对于小型家用物品和家具，我们确保扫描的网格是防水的，并且具有高质量的纹理贴图。扫描步骤对应于管道中的图2（a），扫描网格的示例如图3（a）所示。

配准。扫描完所有物体、家具和房间后，我们通过将家具和物体放置在房间内来创建场景。然后，使用手持扫描仪对整个场景进行扫描，以提供可用于将预扫描的网格配准到场景中的稀疏网格。通过选择在预扫描网格和稀疏网格之间对应的3-5对点来进行初始配准。然后使用ICP进行进一步细化。配准步骤对应于图2（b）、（c）。部分扫描及其对应的已配准网格的示例如图3（c）、（d）所示。为方便起见，我们使用商业软件（Artec Studio 17 Professional）执行此配准步骤。

渲染。然后，使用预扫描的网格对配准后的场景进行渲染，使其呈现逼真的效果。我们通过导入所有已配准的网格并将光源放置在接近真实场景的位置，使用Blender4.0对场景进行渲染。我们渲染大约50-100帧，这些帧可以覆盖场景的多个视图，这些视图可用于下一步的映射，并将相应的相机姿态和内参作为一对进行保存。渲染步骤对应于图2（d）。渲染图像的示例如图4（a）所示。

建图。建图阶段将真实图像序列映射到前一步获得的渲染序列。为了获得场景的真实图像序列，我们使用了一个多模态相机组合，包括一个RGB+P传感器（Lucid Phoenix配备Sony Polarsens）、一个主动立体深度传感器（Intel RealSense D435）和一个I-Tof深度传感器（Lucid Helios）。从每个深度传感器到RGB传感器获得外参校准。

我们首先放置一个ChArUco板，并从所有相机捕获图像序列，以获得具有轨迹TcamX→board的序列。对于深度传感器，使用红外图像来捕获ChArUco板。然后，我们使用Horn的方法将来自深度传感器的轨迹与RGB传感器的轨迹对齐。对齐矩阵是RGB传感器和深度传感器之间的外参矩阵。一旦从每个深度传感器到RGB传感器获得外参矩阵，就使用其自身的传感器深度和它们的外参将相应的深度图像与RGB图像对齐。需要注意的是，我们使用带有噪声的传感器深度将深度图像与RGB图像对齐，这会在最终深度图像中引入额外的噪声。我们之所以这样设计，是因为这就是真实深度传感器将其深度图像与RGB图像对齐的方式。所有三个相机都通过Raspberry Pi生成的硬件同步信号进行同步。

一旦获得真实图像序列，我们的任务就是获得相对于已配准场景网格中心的相机姿态。我们将现成的运动恢复结构（SfM）方法COLMAP修改为两个阶段（两阶段映射），以从与相机姿态和内参配对的合成图像中获得真实相机姿态。我们首先匹配合成图像中的特征，并使用配对的相机姿态和内参将它们反投影到三维空间。然后，提取真实图像的特征，并将它们与合成图像特征进行匹配，并优化相应的相机姿态，以将反投影的真实图像特征映射到反投影的合成特征上。映射步骤对应于图2（e）-（g）。真实图像序列和映射特征的示例（带有检索到的相机姿态）如图4（b）所示。

获得相机姿态后，我们可以使用相机姿态和网格将可用的三维信息映射到相机帧上，以用密集深度（见图2（h））、物体姿态、分割掩码、表面法线、边界框等对场景帧进行标注。

6. 实验结果

新型视图合成几何基准测试。我们选择了四种当前最优的新型视图合成（NVS）方法及深度监督变体来进行基准测试。这些方法包括：带有和不带深度先验的NerFacto（即带有两个深度传感器先验的Depth-Facto）、Zip-NeRF、Gaussian-Splatting和Mip-Splatting。与现有的任何NVS基准测试不同，我们的数据集提供了高度详细的渲染真实深度图，且物体上没有缺失部分。这使我们能够进一步提供深度渲染的评估指标（即均方根误差RMSE、绝对相对误差Abs Rel、平方相对误差Sqr Rel、δ<1.25n），以与传统视图合成指标（如峰值信噪比PSNR、结构相似性SSIM、感知图像补丁相似性LPIPS）一起评估每种方法的几何线索。我们每10帧用于训练，中间帧（每10帧+5）用于测试。定量和定性评估结果分别如表2和图7所示。

室内SLAM基准测试。对于SLAM，我们选择了三种当前最优的RGB-D SLAM方法作为基准，分别是NICE-SLAM、CO-SLAM和Gaussian-SLAM。如前所述，SLAM方法需要深度作为输入，因此我们使用两种传感器深度（主动立体视觉和飞行时间ToF）进行实验，以评估在真实场景下的性能，同时也使用渲染的真实深度来了解每种方法在最佳情况下的最大可能性能。我们使用所有帧来训练和评估获得的相机姿态和场景重建。跟踪性能通过绝对轨迹误差（ATE）和均方根误差（RMSE）进行评估。映射性能使用神经RGB-D SLAM的三个常用指标进行评估：准确性、完整性、完成率。在网格评估之前，剔除未见和遮挡区域。定量和定性评估结果分别如表3和图8所示。

7. 限制 & 总结

SCRREAM构成了一个室内3D数据集标注框架，能够对单个高质量的场景网格进行标注。我们通过提供示例数据集，展示了其在四种不同任务标注中的应用。此外，还给出了使用最新方法在重建和SLAM数据集上的基准测试结果。尽管场景标注更为详细，但所使用的硬件配置可能成本高昂、结构复杂且耗时较长，这导致数据集标注流程的可扩展性较低；对于人体重建和6D姿态估计数据集，我们仅包含了一些示例数据集场景，而没有提供相应主题的基准测试。为了使单个图像之间最具可比性，我们选择了固定的曝光时间，这可能会导致图像在较暗的场景中曝光不足/过度，并产生运动模糊。使用基于特征的匹配和姿态估计方法需要静态捕获条件，以确保在标注阶段实现高精度的相机姿态估计。这限制了所提出的场景编辑设置只能移除物体，而无法处理实际的人机交互[40]。受扫描速度的限制，我们使用模特人偶代替真实人物，因为真实人物缺乏动作和逼真效果，尤其是在面部和手部区域。尽管存在这些不足，但据我们所知，我们的数据集是唯一一个具有如此精确设置的数据集，能够使用手持相机覆盖室内房间。这一独特性使得能够对最流行的3D应用（如新型视图合成（NVS）和SLAM）中的方法进行深入的几何评估和基准测试。我们坚信，通过客观评估和向研究界公开访问（而非简单地将传感器深度视为既定事实），我们的数据集和基准测试能够推动该领域的发展。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247709541&idx=2&sn=ea6ab2eb4374aad659d163f0e4a79221

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉