不费吹灰之力，照样玩转3D室内空间语义建模！

2024-11-26 11:16 安徽

点击上方卡片，关注“AI学术工坊”公众号

各种重磅干货，第一时间送达

SSR-2D：从 2D 图像进行语义 3D 场景重建

摘要

大多数用于对 3D 室内空间进行全面语义建模的深度学习方法都需要在 3D 领域中进行昂贵的密集注释。在这项工作中，我们探索了一个中心 3D 场景建模任务，即在不使用任何 3D 注释的情况下进行语义场景重建。我们方法的关键思想是设计一个可训练的模型，该模型同时使用不完整的 3D 重建及其对应的源 RGB-D 图像，将跨域特征融合到体积嵌入中，以仅使用 2D 标记（可以是手动的也可以是机器生成的）来预测完整的 3D 几何、颜色和语义。我们的关键技术创新是利用可区分的颜色和语义渲染来连接 2D 观察和未知的 3D 空间，分别使用观察到的 RGB 图像和 2D 语义作为监督。我们还开发了一个学习流程和相应的方法，以便从不完美的预测 2D 标签中进行学习，这些标签可以通过在一组增强的虚拟训练视图中合成来补充原始的真实捕获，从而实现更高效的语义自监督循环。因此，我们的端到端可训练解决方案联合解决了有限 RGB-D 图像的几何补全、着色和语义映射问题，而无需依赖任何 3D ground truth信息。我们的方法在两个大型基准数据集 MatterPort3D 和 ScanNet 上实现了语义场景补全的最先进的性能，即使在使用昂贵的 3D 注释的情况下，在预测几何和语义方面也超越了基线。据我们所知，我们的方法也是第一个同时解决现实世界 3D 扫描的补全和语义分割的 2D 驱动方法。

论文链接：https://arxiv.org/abs/2302.03640

论文标题：SSR-2D: Semantic 3D Scene Reconstruction from 2D Images

论文作者：Junwen Huang, Alexey Artemov, Yujin Chen, Shuaifeng Zhi, Kai Xu, Matthias Nießner

1.关键字

场景重建、语义分割、场景完成、自监督学习、可区分渲染

2.引言

将现实世界的 3D 环境数字化是一个多方面的计算机视觉问题，定义在多个解释层面。它涵盖各种任务，从几何和外观重建（例如，旨在真实地再现照片上捕捉到的场景作为纹理 3D 资产），到预测场景中对象的语义和功能，到推断和描述它们的空间关系，到动态变化的隔离和重建（例如，[1]、[2]、[3]、[4] 提供了这些和其他相关方向的高级摘要）。下游应用程序通常需要共同利用多个表示层来满足其要求。例如，引人注目的自由视点虚拟游览要求场景中的物体具有完整的 3D 形状和真实的纹理，并在不同的光照下真实地变化 [3]、[5]。为了使虚拟-现实交互（例如，在虚拟世界中抓取和操纵物体）直观，必须隔离具有形状和固有物理参数的单个动态实体，更一般地说，应该解析场景布局 [6]。基于视觉的自动机器人抓取 [7] 和机器人导航 [8] 也存在类似的要求；这些任务中的额外好处可以通过利用更高级别的广义概念（例如，以可供性的形式 [9]）来获得，例如每个实体的效用。

然而，即使对于本研究的重点静态室内 3D 区域，获取高质量的数字复制品仍然是一项艰巨的任务，这一点在最近专注于数据收集的各种项目中都得到了承认 [5]、[10]、[11]、[12]。由于物理约束（例如遮挡）和范围 3D 扫描的限制对 3D 区域的覆盖产生不利影响，因此所有获得的真实世界采集的数据本质上都是不完整的，而且重建其他表示（例如 3D 语义）仍然是一个问题。此外，依靠人类专家进行扫描、艺术编辑或构建密集注释等额外图层不太可能提供完美、完整的数字 3D 资产，而且众所周知这是一项劳动密集型工作 [5]、[10]。

近年来，3D 扫描研究领域出现了一个新的重要方向，旨在开发能够弥补扫描局限性的自动化工具，其范式可以粗略地概括为“观察某物并恢复其余部分”。在这种方法中，人们投入了大量精力来处理不同类型和稀疏度的原始输入，例如单视图 [18]、[19]、[20]、[21]、多视图 [22]、[23] 和融合 3D 采集 [24]、[25]、[26]、[27]。另一方面，大量单独的目标表示已经得到广泛研究，包括几何补全 [28]、[29]、语义 [22]、[23]、[30] 和语义实例 [25]、[27] 分割、着色 [26] 等。所有这些方法都不再依赖于完整的 3D 输入，而是假设获取不可避免地（并且基本上）是部分的。从技术上讲，这些工作（与我们的工作非常相似）是由 3D 深度学习领域的发展推动的，可以利用具有大量部分但互补的观察结果的 3D 扫描数据集。

从实际角度来看，最好将学习多种有意义的表示组合到单一算法中，超越纯几何或纹理重建进行推理。首先，在一个系统中解决许多任务将消除在获得完整重建后必须采取的任何额外处理步骤，从而使重建方法更容易应用于大量数据。其次，可以有效地利用互补任务之间的相互作用来提高所有任务的性能。许多针对语义场景完成的研究都注意到了这一点[18]、[19]、[20]、[24]、[27]（有关相关文献的更完整研究，请参阅第 2 节），但除了重建（无色）语义实例之外，没有进行任何探索。相反，场景重建方法专注于生成越来越高质量的纹理“3D 资产”[26]，但缺乏生成任何额外表示层以理解重建的能力。最后，“任务之间的有用结构”的存在（例如，参见[31]）及其利用方法在经验转移和多任务学习算法（我们的算法是后者的一个例子）的背景下引起了越来越多的关注。

在这项工作中，我们提出了一种基于深度学习的方法，该方法首次针对大规模 3D 场景，联合生成完整的纹理 3D 重建，并配备了额外的有用表示层：3D 语义分割。具体来说，我们使用三分支 3D 神经架构联合预测体积几何、外观和语义；据我们所知，我们的系统是第一个使用单个紧凑训练模型从不完美的 RGB-D 扫描中预测三个互补目标的系统。

深度卷积神经网络 (CNN) 非常适合此目的，因为它们可以轻松融合和解码多维异构信号。然而，在 3D 领域以密集监督的方式训练多模态、高度参数化的 3D 网络具有挑战性，因为它依赖于大量多样化、高质量、完整且带标签的 3D 数据。原则上，在合成数据集 [13]、[14]、[15]、[16]、[17]、[20] 上进行训练可以提供合适的训练数据，但生成的模型不太可能完全推广到真实的 3D 扫描；我们决定在我们的方法中不采用此选项。在某些情况下，真实世界的 RGB-D 数据集提供了真实的 2D/3D 语义分割掩码（参见，例如，[5]、[10]、[32]）；然而，这些数据集中的几何和语义标签都是不完整和不完美的，会污染训练信号。相反，我们选择了一些设计选择，使我们的学习算法能够仅利用原始 RGB-D 图像以及 2D 语义。

首先，受最近方法 [26]、[28] 的启发，我们从输入中删除 RGB-D 帧的子集，并学习从不完整的重建中预测完整的语义场景；为此，我们设计了一个三分支深度 3D CNN，以联合输出每个体素中的几何、颜色和语义。其次，为了支持基于学习的算法的端到端优化，我们开发了一种扩展的可微渲染方法，使我们能够通过光线投射直接将 3D 体积数据渲染为深度、RGB 和语义图像。我们设计了训练算法来重现原始 RGB-D 数据；作为学习语义的关键要素，我们学习由手动注释或在多样化、多领域数据上训练的通用神经预测器提供的分割。第三，我们还采用了受最近工作 [30] 启发的虚拟视图增强方案，以进一步提高机器生成的不完美标签的训练性能。

我们选择的方向与最近的方法一致，其中 2D 视图信息用于监督 3D 预测 [26]、[33]。我们的方法还可以看作是对最近的几项工作 [24]、[26]、[28] 的概括，通过整合 2D RGB 和语义输入作为监督；在几个例子中，我们与这些现有技术进行了比较。

总而言之，我们的主要贡献如下：

据我们所知，我们的方法是第一个解决从具有挑战性的现实世界室内 3D 场景的不完整观察中进行语义场景完成这一具有挑战性的任务的方法，而无需手动 3D 注释。
我们在两个大型基准测试中实现了最先进的语义场景完成性能，即 Matterport3D [5] 和 ScanNet [10]。
我们通过使用通用的代理分割标签对其进行监督，证明了我们的方法在一个重要的特殊情况下的实用性，而无需访问昂贵的人工 3D 注释。

3.方法

3.1 方法概述

我们的方法的目标是训练一个可泛化网络，使其同时执行语义几何补全、外观（颜色）重建和语义标记，而无需在训练期间访问任何 3D ground truth (GT) 注释。我们方法的输入是一组 RGB-D 帧及其各自估计的相机姿势。为了生成输入不完整重建，我们选择视图子集，通过体积融合 [51] 将它们融合到截断有符号距离场 (TSDF) 表示中，其中体素外观是通过平均投影像素颜色计算的。作为输出，我们的模型预测输入网格每个体素中的校正 TSDF 值、颜色和语义标签。

我们的网络遵循 3D U 形编码器-解码器架构，其中两个编码器处理几何和颜色，三个解码器分支分别输出每个体素的几何、外观和语义标签（第 3.2 节）。对于计算预测，我们通过基于光线追踪的 TSDF 体积可微分渲染过程合成 2D 深度、外观和语义视图 [26]（第 3.3 节）。为了在没有真实 3D 注释的情况下实现自监督训练，我们最小化了一组 2D 损失，这些损失涉及 (1) 真实图像和合成彩色图像，(2) 参考语义图（真实图像或由通用语义分割模型生成）和通过渲染重建语义生成的语义图（第 3.6 节），(3) 原始深度采集和精炼 TSDF 体积的深度渲染。对于几何补全，我们还使用不完整的扫描进行自监督训练，以生成更完整的对应物。

在训练过程中，我们能够利用通用分割模型 [52] 中机器生成的不完美分割，而不是 GT 2D 标签。我们发现，在学习过程中融合异构、多视图信息可实现具有竞争力的 3D 分割性能（第 3.4 节），而通过集成从一组虚拟视点计算出的通用分割，可以进一步提升这一性能（参见 [30]，第 3.5 节）。

我们的训练过程的总体流程如图 2 所示。我们的框架是模块化的，我们研究了各种输入、处理分支和不同监督选项的影响；我们在以下章节中总结了我们的结论，并在第 4 节中报告了支持这些结论的实验结果。

3.2 语义场景重建架构

我们的网络架构基于之前为光度场景生成提出的变体 [26]。作为输入，我们的算法接受一个 4D 张量（即具有每个体素 TSDF RGB 值的 3D 体积）。为了从输入体积中提取几何和颜色特征，我们使用了一个密集的 3D U-Net [53] 主干，该主干由两个 3D 编码器分支组成，每个分支有 5 个 ResNet 类型 [54] 卷积块，以及三个 3D 解码器分支，每个分支有相同数量的卷积块。

网络架构细节。我们的 3D CNN 架构如图 3 所示，其中我们总结了卷积模型中各层之间的数据流。我们从场景级 3D 几何和颜色数据中提取输入数据的子体积以用于训练目的。首先，我们通过在两个编码器中使用卷积层对体积输入进行 3D 卷积来分别并行处理这些数据，逐渐将输入下采样到特征体积（我们使用 128 × 8 × 4 × 4 代码）。在下采样之前的每个块中，我们还会计算堆叠的几何/颜色特征图，以传递给解码器中的各个上采样块。接下来，将独立计算的特征体积连接成 4D 特征图（），并通过一组卷积层融合以构建具有相同形状的联合潜在特征空间。最后，这个融合的特征体由三个解码器分支独立处理，以在每个体素中生成精细的 TSDF 、颜色和语义值。为了在 U-Net 中下采样-上采样层次结构的每个级别上实现更好的特征传播，我们将颜色/几何编码连接到解码器中相应的上采样层。

没有颜色信息的输入和网络种类。我们注意到与原始 SPSG 原型 [26] 相比，存在一些重要的架构差异，具体取决于可用的输入。在某些情况下，原始捕获的输入可能不包括彩色图像，但仅提供深度观察 {Du}。重要的是，在这种情况下，颜色可能假设任意值（例如，房间中的墙壁可能被漆成白色或具有生动的纹理）；然而，仅从几何形状中产生幻觉逼真的外观是一个困难的生成问题，并且需要对我们模型的架构进行非平凡的复杂化（例如，在 [26] 中包含对抗组件）。为了验证，我们修改了我们的模型，并通过删除 2D 和 3D 颜色编码器和解码器，并在渲染期间禁用外观合成并排除 RGB 损失项，使其完全“色盲”。总体而言，我们发现与 RGB-D 输入相比，仅深度输入会大大降低我们方法的性能。我们将在第 3.6 节中详细说明如何训练每个变体。

3.3 深度、颜色和语义的可区分渲染

我们的关键设计选择是训练一个在 3D 空间中定义的网络，但利用原始 2D RGB-D 图像中包含的信息（可能还添加了语义信息），而不是直接依赖 3D 注释。因此，我们需要进行 3D 到 2D 的转换，以实现从像素到体素表示的梯度流。此类操作称为可微分体积渲染 [55]，已被证明在多项任务（例如场景生成 [26] 或表面重建 [56]）中必不可少。其中，我们选择扩展一种简单、高效的基于光线投射的 TSDF 体积渲染方法 [26]，并使用子程序来渲染语义图。

我们的可微分渲染算法接受具有每个体素预测颜色和语义的预测 TSDF 体积，并分别生成一组深度、颜色和语义图像。为此，我们选择从与块表面重叠最多的观看方向 {v} 拍摄的 RGB-D 图像（前 5 个视图，每个视图至少有 5% 的深度样本在 2 厘米内接近近表面体素）进行监督。对于渲染语义，我们计算一个二进制掩码来通过光线投射表示每个语义类，获得一个 nsem 通道的独热语义图像，其中等于语义类的数量。深度和颜色渲染是使用与 [26] 类似的过程获得的。生成的 RGB 彩色图像包含三个通道，语义图像包含个通道，表示相应集合的类别分类法中每个语义类别的二进制语义掩码 [5], [10]。合成视图的图像分辨率设置为 320 × 256 像素。

我们注意到，由于假设预测在 3D 中是完整的，因此可以使用任意的观察方向；我们在第 3.4-3.5 节的视图合成和增强技术中探讨了这个想法，并在第 4.2 节中探讨了它对性能的影响。

3.4 使用通用预测器的伪监督

为了展示我们方法的通用性和实用性，我们讨论了我们任务的一个相关实例——原始 RGB-D 数据完全没有ground truth语义分割标签。事实上，虽然获得合理的 RGB-D 捕获越来越便宜，但它们的语义标记（特别是手动的）仍然很昂贵；问题是：我们还能使用我们的方法获得 3D 中的语义重建吗？

我们选择使用通用语义预测器（预训练的神经网络或未经训练的模型，如 CRF [57]）来回答这个问题，我们可以使用它来构建一组标签，我们称之为伪ground truth。更正式地说，让表示将观察到的 RGB 图像映射到每个像素的语义标签的函数。为了获得一组捕获的 RGB-D 图像的伪ground truth语义标签，我们使用并计算。由于原始 RGB 图像没有光度预测伪影，因此在源 RGB 图像上使用伪 GT 而不是 GT 分割可以提供稳定的学习信号。原则上，可以将使用视为对不精确、通用标签情况的注释的概括，制定我们的伪监督训练循环，如图 4 (a) 所示。

然而，由于源视图的有限集合可能会限制我们模型可用的监督量，因此通用预测器使我们能够灵活地从任意姿势的大量（合成）RGB 图像上生成伪标签。因此，我们创建了一个自监督训练循环，如图 4 (b) 所示，仅使用从这些虚拟视图预测的监督。

为此，我们随机抽取一组观看方向（有关生成这些视点的详细信息，请参阅第 3.5 节），为每个视图渲染 RGB 和语义图像，预测渲染外观视图的分割，并计算各个语义图对 () 之间的每像素交叉熵。与实际捕获的图像不同，上面的语义图需要针对任意视点的渲染 RGB 图像动态生成。因此，在这种设置下的训练过程中，我们从这个训练循环中包含了一个额外的监督（见图 4），其中包含一个附加项语义分割成本。结合上述两个语义目标，我们力求使直接渲染的、伪 GT 和预测的语义视图尽可能少地有所不同。

3.5 虚拟视图生成与选择

我们发现，生成额外的视图可以显著提高我们方法的性能。[30] 也提出了类似的观察，他们认为，生成具有各种不同寻常的观察方向和视野 (FOV) 的新视图可以显著提高语义 3D 网格分割的性能。我们遵循这种直觉，构建了一个视图选择方案，并通过实验证明了该方案可以提高我们方法的性能。

我们寻求构建虚拟视图，以覆盖扫描中有意义的区域，观察大量完整的对象，并反映它们的上下文关系。为此，我们从原始相机姿势开始，这样就可以将相机绑定到房间空间，而无需重新计算块视图对应关系，并随机扰动它们的位置、方向和视场。更具体地说，我们通过将其视野扩大一个均匀分布在 [1, 3] 中的因子来改变相机的内在参数（在针孔相机模型下），从而可以捕捉更大的空间上下文。为了扰动相机的外部参数，我们

通过添加在 [−45◦, +45◦] 内均匀分布的随机增量，随机扰乱摄像机的偏航角；
通过添加在 [−30◦, +30◦] 内均匀分布的随机增量，随机扰乱摄像机的俯仰角；
通过沿 x、y、z 轴独立移动，以 [−1 m, +1 m] 内均匀分布的距离，随机偏移摄像机位置；
为了丰富 2D 视图的比例以及上下文信息，我们将摄像机随机平移到远离 SDF 零等值面的方向上，最多 2 m；
还采用原始视图，因为它们往往是具有物理约束的真实世界 3D 场景中手动选择的良好视图。

在实践中，我们应用这些虚拟视图生成程序的组合。图 5 展示了我们从 Matterport3D [5] 中选择场景的过程中得到的示例虚拟视图。

3.6 具有二维监督的端到端联合训练

在本节中，我们介绍了训练过程中每个关键组件采用的损失项。我们注意到，虽然我们的学习算法受到 SPSG [26] 的启发，但它与 SPSG 的不同之处在于，最重要的是，它注入了语义监督并排除了对抗性组件，这大大简化了我们的系统。不过，与 SPSG 类似，我们的最终方案仅涉及在 2D 域中制定的目标，是端到端可微分的，并产生 3D CNN 模型。

几何补全。为了自我监督几何补全任务，我们使用渲染的深度图像，并通过逐像素损失惩罚它们与捕获的深度图的偏差：

我们还使用 3D 损失项对预测的 3D TSDF 距离进行自监督几何重建，通过与从完整 RGB-D 序列融合的完整对应项进行比较：

其中是第个块的有效体素数。我们将所有块相加以获得最终的 3D 损失。

使用原始 RGB 图像进行外观重建。SPSG [26] 非常强调对抗训练的必要性，并优化基于感知的损失以实现视觉上引人注目的 RGB 合成。相比之下，我们选择不使用对抗部分进行训练，而是使用颜色或法线图，从而绕过了训练鉴别器的需要；为了让优化器的训练任务更容易，我们还排除了感知损失项。总体而言，我们发现这些修改对实现高质量完成和语义分割的影响有限，同时显着简化了我们的系统，加速了收敛并减少了可训练参数的数量。因此，为了使用我们的模型实现忠实的颜色合成，我们只需最小化合成外观视图和目标视图之间的每像素距离：

从真实和虚拟视图进行语义分割。我们的语义损失遵循一般直觉，要求在 3D 域中推断的分割在特定的一组 2D 视图下生成合理的 2D 语义图。我们考虑可用于原始捕获的 RGB-D 图像以及虚拟相机姿势下渲染的 RGB 图像（第 3.5 节）的分割标签，并计算每对渲染的和参考语义视图之间的交叉熵 (CE) 损失（即，ground truth和机器生成的分割，下部索引为或）：

联合训练配置。总而言之，我们的最终训练目标整合了几何、颜色和语义术语

其中，对于每个批次，第一项对视图集或处的个有效像素集（即，在中预测表面几何形状的像素）求和，第二项对块数求和。具体来说，为了计算 2D 域中的损失项，我们使用形式为（我们使用）的 3D 体积掩模，对应于生成的几何图形，在输入体积网格的每个体素中完成几何图形后即可获得。

4.实验

4.1 实现细节

通用语义预测器。对于使用伪 GT 标签进行训练，我们使用预训练的 MSeg 语义分割网络 [52] 对其进行建模，将其视为通用语义预测器（第 3.4 节中的）；我们强调该模型应用于测试模式，在训练期间未见过的数据上。按照 [24]，我们将 MSeg 的 196 个通用类别映射到我们测试数据中最常见的类别中（Matterport3D 为 11 个，ScanNet 为 15 个）。从数量上看，我们的通用预测器分别对 Matterport3D 和 ScanNet 表现出 36.9% 和 37.4% 的平均 IoU 性能（在训练分割上，没有任何微调）。

语义的可微分渲染。我们的可微分渲染器除了颜色和深度图外，还在每个相机视图中生成多通道语义图。为了构建 RGB、深度和语义通道，我们从相机的光学中心将光线投射到场景的每个占用体素中（最多 640K 条光线）。我们将最大深度设置为 6 米；超过此深度的光线对应的像素将被设置为特殊值。

使用虚拟视图选择进行训练。在训练期间，我们会动态生成独立于数据中原始视图的额外虚拟视图，以提供辅助语义监督。[30] 中提出了一种类似的技术，通过对具有其他不寻常方向和视野的视图进行采样，提高了语义 3D 网格分割的性能。

训练细节。我们使用 128×64×64 块，对应的空间范围为。对于 Matterport3D 数据集中的大规模场景进行训练，为了实现高效且数据高效的训练，我们使用批处理大小为 2 和初始学习率为 0.01 的 SGD 优化器，该优化器根据指数学习率计划进行退火。平均而言，对于 Matterport3D 数据，我们的模型需要大约 15 个 epoch（大约 200K 次训练迭代），对于 ScanNet 数据，需要 20 个 epoch（260K 次迭代）才能实现收敛。我们使用单个 Nvidia RTX3090 GPU 训练我们的模型大约 60 小时。

4.2 基准和数据生成

基准数据集。为了评估我们的系统并验证我们的设计选择，我们使用 Matterport3D [5] 和 ScanNet 数据集 [10] 集合中具有挑战性的大规模真实 3D 扫描进行了一系列实验。

ScanNet 是一个大规模真实世界 RGB-D 视频数据集，提供超过 1,500 个场景。手持结构传感器捕获了大约 250 万个 RGB-D 扫描。Matterport3D 提供了大量的 RGB-D 扫描，从 90 个建筑物规模的场景中收集了 194,400 个 RGB-D 图像。图像由一个固定的三脚架安装的摄像机装置收集，该装置有三个彩色摄像机和三个深度摄像机，旨在避免手持摄像机在实时扫描过程中产生的运动模糊和其他伪影。不同的捕获配置也会导致我们数据生成过程中的不同过程，如下一小节所述。

这两个数据集都提供了足够数量的真实世界训练和测试数据；按照官方指南，我们在 Matterport3D 上使用 1788 个空间进行训练和验证，使用 394 个空间进行测试；在 ScanNet 上，我们使用 1201 个空间进行训练，使用 312 个空间进行验证。为了获得高度详细的重建，我们在 TSDF 融合期间使用分辨率为 2 厘米的精细体素；为了实现内存高效的训练，我们从融合扫描中提取了 64 × 64 × 128 个子体积，如 [26]。总体而言，我们分别使用 77,581 个和 88,420 个块对 Matterport3D 和 ScanNet 进行训练。

不完整扫描的生成。为了生成具有合理场景实例覆盖范围的不完整扫描以供训练和评估，我们对涉及 Matterport3D 和 ScanNet 集合的实验使用了略有不同的程序，因为它们的数据采集配置不同。

对于 Matterport3D，我们通过选择视图子集并使用体积融合将它们融合到 TSDF 体积中来生成输入重建 [51]。实际上，我们平均使用 40% 的视图来构建不完整的输入。

对于 ScanNet，我们使用所有可用视图首先重建场景，但通过使用立方体形状的掩码遮罩体积网格，从融合重建中裁剪随机部分。背后的主要动机是 ScanNet 场景中的对象被少数视图覆盖，因此直接融合序列子集会导致某些场景内容完全丢失，并且无法再恢复。对这两个集合进行分析后，我们在统计上发现，要对每个场景中约 90% 的对象实例进行不完全采样，ScanNet 需要约 60% 的随机选择的帧（相比之下，Matterport3D 需要约 38%），但保持这个比例将有效地使用 ScanNet 场景的几乎所有数据。但是，大幅降低采样率以匹配 Matterport3D 将导致完全丢失场景中相当一部分对象。因此，我们选择了这种简单、受控的块掩码方法来展示我们的方法在 ScanNet 场景上的能力。

至于 ScanNet 数据生成的随机掩蔽，我们使用 3 种立方体形状，具体来说分别为和个立方体素（此处 1 个立方体素等于）。我们为每个立方体分配一个相等的概率，保留的概率以使扫描部分保持完整。为了应用掩蔽，我们使用每个立方体大小的体积网格上的滑动窗口提取输入扫描中的子体积，并使用形状为的立方体以概率应用掩蔽。结果，我们最终掩蔽了近 60% 的有效输入体素。

评估指标。遵循 [23]、[24]、[26]、[28]、[30]，对于 3D 语义分割，我们报告平均交并比（我们交替使用 mIoU 和 Sem. mIoU）和平均体素准确度（我们交替使用 mAcc 和 Sem. mAcc）；对于几何补全，我们报告平均几何交并比 (Geo. mIoU) 和平均几何召回率 (Geo. Recall)。

4.3 与最新技术的比较

评估设置。我们专注于评估两个不同的具有挑战性的任务（1）语义场景完成（SSC）和（2）语义场景分割（SG），因为这些任务需要预测不同的语义相关量。特别是，语义场景完成是我们的核心任务，因为我们期望我们的方法能够在给定原始和不完整的 RGB-D 扫描（SSC）的情况下生成具有完整 3D 几何和准确语义分割的高质量 3D 扫描。为了分别展示我们的方法在给定各种质量和完整性级别的扫描的情况下生成 3D 标签的能力，我们通过固定输入几何和预测每个体素（SG）中的语义标签来评估语义分割性能。

在定量评估过程中，对于 SSC 任务，我们将原始的部分扫描作为输入，在我们的案例中，该输入仅具有约 40% 的已占用ground truth体素，并在完整场景上进行评估。而为了公平地比较 SG 任务，我们排除完成部分，仅对输入扫描中出现的体素进行评估。为了计算特定场景中 SSC 任务的准确性，我们将正确的语义预测数量除以ground truth表面体素的数量，其中我们评估输入体素和作为输入扫描的完成而生成的体素的所有语义类别的 m-IoU 和 m-Acc。

对于 SG 任务，由于我们只关注语义分割，而不会改变表面几何形状，因此我们通过输入表面体素的数量对正确的语义预测数量进行归一化。重要的是，语义分割可以在两种细粒度场景中执行，我们将其表示为原始和复合（表 3）。前者侧重于评估明显不完整场景的语义分割，即通过融合 RGB-D 图像子集获得的原始稀疏输入几何形状将被分割；因此，不完整场景的输入表面体素数量用作归一化常数。对于后者复合场景，我们对通过融合所有可用 RGB-D 图像获得的更完整的真实几何形状运行语义分割，并将结果与被视为真实值的输入表面体素进行归一化。

作为评估输出语义的总体规则，SSC 任务以部分扫描作为输入，但对完整的真实扫描进行评估；SG 以完整或部分原始扫描作为输入，并对与输入相同的体素进行评估。

语义场景完成 (SSC)。作为语义场景完成基线，我们使用 ScanComplete [24]，这是一种在 3D TSDF 体积上运行的监督方法，同时执行场景完成和语义分割，类似于我们提出的方法。但是，ScanComplete 以分层方式执行这些任务。我们还对 BPNet [23] 进行了评估，这是一种最先进的监督方法，它将 3D 扫描和 2D RGB 图像作为输入，并使用跨域的语义标签监督网络。虽然 BPNet 不执行几何完成，但它利用 2D 域信息来辅助 3D 语义预测。值得注意的是，这些方法利用 3D 注释作为监督信号来训练 3D 网络，这比仅使用 2D 注释要昂贵得多。相比之下，我们提出的方法可以几何地完成扫描并预测输入和重建表面体素的语义，只需给定视图子集的 2D 注释，即使给定具有有限 RGB-D 视图的原始扫描也是如此。

此外，我们评估了几何补全结果作为参考，并将其与不针对语义分割任务的自监督 SGNN [28] 和 SPSG [26] 进行了比较。在这些方法中，ScanComplete 和 SPSG 执行复杂的多模态训练，而 SGNN 仅关注补全。

我们在表 1 和表 2 中展示了两个具有挑战性的真实世界基准 Matterport3D [5] 和 ScanNet [10] 的统计结果。对于语义场景完成 (SSC) 任务的语义分割和几何完成组成部分，我们提出的方法在两个数据集上都表现出比所有基线显著的优势，证明了我们的框架的有效性，该框架以统一的方式联合执行外观预测、几何完成和语义分割。我们还在图 6 中提供了两个数据集上语义场景完成的详细视觉比较。

语义场景分割 (SG)。为了展示我们在各种网格质量上对 3D 语义标记的性能，我们还单独进行了语义标记评估，而不执行几何补全。我们在 Matterport3D 和 ScanNet 数据集上进行定量和定性语义分割的结果分别列于表 3 和图 7 中，其中场景为部分或完整。

值得注意的是，我们的网络是针对补全和分割（特别是语义场景补全）进行联合训练的。为了确保与最先进的 3D 分割方法 BPNet [23] 进行公平比较，我们使用了 BPNet 的官方实现，并对其进行训练以预测输入 3D 场景（没有场景补全）上的分割标签。我们通过向 BPNet 提供与我们的方法相同的训练输入（截断扫描）来报告其语义分割性能。

尽管我们的方法仅利用了 2D 标签，但它在各个方面都优于大多数基线。在评估完整输入扫描 (comp.) 时，我们的方法与 ScanNet 数据集上的所有基线相比都表现出显着的改进。同样，在评估原始部分输入扫描 (raw) 时，我们的方法也明显优于 Matterport3D 数据集上的所有基线。这表明我们的方法能够在生成新的未观察区域的同时在观察到的 3D 区域上保持高性能。

在另一端，我们展示了在给定足够昂贵的 3D 注释的情况下达到上限性能的性能。事实证明，我们的方法可以在所有基线上使用单个紧凑模型实现最先进的分割性能。我们相信这个结果揭示了我们的框架设计在多模态学习中的有效性。然而，我们并不声称这是我们的主要成果，因为我们更感兴趣的是利用更容易访问的 2D 标签。

通过可微分渲染实现语义融合。我们的方法依赖于可微分渲染，以便仅从 2D 图像中完成语义场景。从这个意义上说，最近提出的神经辐射场 (NeRF) [58] 也以自监督的方式从密集的 2D 观测中学习隐式 3D 语义场景表示 [50]。我们认为，看看这些方法在稀疏 RGBD 观测的具有挑战性的设置下的表现会很有启发性，因为这两种方法都旨在通过差分渲染仅从摆姿势的 2D 图像和标签中语义地重建 3D 场景。虽然我们的方法在概念上与基于 NeRF 的方法（例如 [50]）在许多方面有所不同，使得直接的点对点比较变得不太可能且没有意义，但我们进行了定量和定性比较，以突出我们的方法的泛化能力和对复杂室内场景的清晰重建（图 9）。

具体来说，我们使用了 Semantic-NeRF [50] 的公开实现对 5 个 ScanNet 场景进行了评估。为了进行公平的比较，我们在 [50] 中引入了额外的深度监督，并使用与我们相同数量的输入视图。我们通过经验发现，由于视图有限及其密度场表示，经过场景优化的 Semantic-NeRF 很难预测杂乱的室内场景的清晰 3D 几何形状。为了进一步突出语义标签融合的性能，我们将 [50] 的语义评估与其底层几何形状隔离开来，将其 2D 语义渲染投影到从ground truth深度融合的完美 3D 几何形状上。如表 4 所示，我们的方法仍然实现了更好的 3D 分割性能。

颜色重建。为了证明我们的模型可以在输入部分扫描的语义和颜色重建中保持良好的质量，我们还在图 8 中展示了在 Matterport3D 数据集上重建的彩色网格的定性结果。与 SPSG[26] 相比，我们在几何完成和颜色修复方面都实现了同等的性能。

4.4 消融研究

伪标记的影响。在本节中，我们进行了严格的定量分析，以评估用机器生成的 2D 伪标记替换 2D GT 标记的性能影响，这些伪标记来自使用公式 (4) 训练的通用网络。表 3 中显示的结果突出了我们的方法相对于直接融合技术 VMFusion [30] 的显著优势，后者也完全依赖于 2D 标签来重建 3D 语义。应该注意的是，报告的结果对应于对完整输入扫描进行的语义分割 (SG) 任务，因为 VMFusion 需要足够的视图阵列来重建整个场景。

鉴于 VMFusion [30] 的公开实现不可用，我们通过将同一组训练 2D 标签融合到 3D 体素中，利用我们的方法提供的相机姿势和深度来展示其性能。必须强调的是，为了确保公平和无偏见的比较，我们精心实施了 VMFusion [30]，并在推理过程中使用了相同的 2D 伪语义标签，以反映我们自己的方法。通过反向投影和融合过程获得最终的 3D 分割，其中 2D 伪标签与ground truth深度和相机姿势相结合。这进一步强调了我们的方法在弥合 3D 和 2D 观察之间的差距方面的有效性，尤其是与纯基于视图的方法相比。

此外，我们在表 1 中报告了语义场景完成 (SSC) 任务的结果，与使用 2D GT 标签训练的模型相比，其性能有所下降。尽管如此，与 SSC 基线的结果相比，所取得的结果仍然合理。这些发现优雅地展示了我们的框架在有效利用不完善的通用标签方面的固有灵活性，从而展示了其潜在的优势。

虚拟视图选择的影响。我们深入研究了利用由我们的虚拟视图生成和选择机制（见第 3.5 节）生成的不同数量的合成视图的影响。我们在表 5 中对使用 2D GT 标签和 2D 伪标签监督的虚拟视图数量进行了全面分析。对于 2D GT 监督，我们利用 3D 注释来渲染与指定姿势相对应的虚拟视图，从而从 2D 域提供额外的监督信号；对于 2D 伪监督，我们利用预先训练的预测器为虚拟 RGB 图像生成分割标签。

值得注意的是，我们将每个块的附加视图数量限制为五个，以确保与基线进行公平比较并优化训练效率。我们观察到，更多的附加视图会导致语义重建方面的结果得到改善。然而，在伪标签训练的情况下，性能受到预训练和重新映射标签质量有限的限制，从而无法获得极高的准确度。尽管如此，我们相信，结合更多基于 2D ground truth标签的视图将相应地提高性能，逐渐缩小与 GT 标签相比的性能差距（表 5）。

几何补全对分割的影响。虽然这不是我们论文的主要关注点，但当目标仅仅是对可能不完整的输入网格进行语义分割时，有必要探究学习场景补全是否有用。为了解决这个问题，我们进行了一项实验，从我们的框架中删除了补全头。如表 6 所示，如果不包含补全，语义分割准确率会显著下降。因此，我们得出结论，几何和语义的明确和联合推理有利于语义分割，特别是在处理具有挑战性的部分 3D 结构时。

颜色监督的影响。在另一端，我们研究颜色信息对实现精确语义重建结果的影响。在我们的调查中，我们通过选择性地删除 SSC 任务框架内的颜色编码器分支或颜色解码器分支，对图 3 中所示的网络架构进行了消融研究。

直观地讲，颜色编码器的作用是从原始部分输入扫描中捕获 RGB 信息，从而有助于提取潜在嵌入的纹理和上下文特征。相反，颜色解码器与几何完成和语义预测分支一起充当多任务头。预计实际的 RGB 图像将为预测体素的颜色重建提供监督。

根据表 7 中所示的结果，在编码器或解码器中包含颜色信息对于我们方法的性能至关重要。此外，我们观察到，与没有颜色解码器相比，没有颜色编码器会导致性能下降更明显。这表明将颜色信息编码到特征嵌入中对于预测语义完成都更为重要。因此，我们得出结论，在我们的案例中，多模态训练更多地受益于在输入阶段结合颜色信息，而不是仅仅依靠输出头的监督。

完成缺失的物体。图 10 展示了我们的方法使用部分线索有效完成椅子几何形状的能力，同时强调了在没有任何几何线索的情况下推断椅子所面临的挑战。我们选择一个仅部分观察到椅子的扫描裁剪（右上输入），并将此扫描用作我们模型的输入，从而生成完整的椅子（右上输出）。为了便于比较分析，我们随后在输入扫描（右下输入）中屏蔽了椅子，因此，椅子的存在被完全消除，这在输出扫描（右下输出）中很明显，其中椅子明显缺失。这个结果与我们的预期一致，因为我们的网络经过训练，可以在观察到的上下文信息背景下熟练地完成未观察到的区域，而不是参与整体场景生成。通过优先考虑网络生成专门针对现实世界扫描的连贯内容的能力，我们确保网络不会参与制作任意或不切实际的内容。

3D-2D 联合训练的效果。为了评估我们的方法可实现的性能上限，我们在网络训练期间利用 2D 和 3D ground truth注释作为监督信号。语义场景完成任务的结果如表 1 所示，表明与仅使用 2D 或 3D ground truth标签相比，加入两种模式的监督可提高性能。这一发现强调了我们的框架在适应各种形式的监督方面的多功能性，从而证明了其在不同模式下的可扩展性。

不同输入扫描稀疏度水平的稳健性。为了评估我们模型的弹性，我们通过选择性地使用来自捕获的真实图像的不同比例的视图进行了涉及不完整输入重建的实验。在上面的表 8 中，我们展示了在推理过程中不同程度的输入数据完整性的影响。我们的研究结果表明，当提供 30% 到 50% 的帧时，我们的方法始终表现良好。即使将可用输入帧的百分比降低到 10%，性能下降仍然在合理的范围内。

在真实世界数据集上进行交叉评估。为了评估我们的方法在训练场景之外的通用性，我们使用两个不同的真实数据集进行交叉评估实验：Matterport3D 和 ScanNet。目的是检查我们的模型如何在具有不同房间规模和结构的不同领域中进行扩展。如表 9 所示，结果表明，我们的模型能够成功地跨不同领域进行推广。然而，值得注意的是，当模型在 ScanNet 数据集上进行预训练，随后在 Matterport3D 数据集上进行测试时，性能会更明显下降。这种差异可以归因于与 ScanNet 数据集相比，Matterport3D 数据集中房间的多样性和规模更大。尽管如此，我们的模型仍然在这些不同的数据集和领域中表现出合理的通用性。

5.结论

我们提出了迄今为止首个算法，用于在单一自监督训练过程中学习几何补全、扫描着色和语义分割。我们的自监督学习方法建立在几个关键的设计选择之上，最重要的是，具有残差块的高效多模态深度神经 U 网络、增强以生成语义图的可微分渲染技术，以及通用语义预训练方面的进展。从根本上讲，我们的方法可以实现联合几何和颜色重建以及对未见场景的语义标记，而无需ground truth标签，这是构建真实世界环境的准确语义模型的垫脚石。我们还确定，在可用的地方添加ground truth信息可以大大提高语义重建性能；事实上，利用 3D ground truth可以实现最先进的结果。

虽然我们在实验中已经证明，即使使用在新房间中捕获的有限数量的 RGB-D 图像，我们的方法也能够生成具有 3D 语义标签的重建彩色网格。当我们对 Matterport3D 和 ScanNet 数据集进行交叉评估时，仍然存在性能差距。尽管它们具有一些共同的语义类别，但物体分布、房间规模、装饰风格和照明条件的巨大差异导致了这一领域适应问题。这些挑战通常出现在真实的机器人场景中。在未来的研究中，通过探索数据增强和测试时间适应技术来解决这一挑战是有希望的。此外，在大规模户外环境中，保持训练效率和扫描分辨率之间的平衡仍然是一个需要进一步研究的挑战。

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247488413&idx=3&sn=11bd1933c3f02f15f07cc15a2bffd507

AI学术工坊

分享最新AI资源