TPAMI 2024 | RDFC-GAN: RGB-Depth融合循环GAN用于室内深度补全

文摘 2024-11-07 19:00 辽宁

点击下方“PaperEveryday”，每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目：RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion

RDFC-GAN: RGB-Depth融合循环GAN用于室内深度补全

作者：Haowen Wang; Zhengping Che; Yufan Yang; Mingyuan Wang; Zhiyuan Xu; Xiuquan Qiao; Mengshi Qi; Feifei Feng; Jian Tang

摘要

在室内环境中捕获的原始深度图像经常由于传感器和环境的固有限制而表现出广泛的缺失值。例如，透明材料经常逃避深度传感器的检测；由于其光滑的纹理、延伸的距离和与传感器的斜入射角度，表面可能会引入测量不准确。不完整的深度图在后续视觉应用中带来了重大挑战，促使开发了许多深度完成技术来缓解这个问题。许多方法擅长从稀疏样本重建密集的深度图，但面对室内环境中普遍和关键的大面积连续缺失深度值时，它们常常失败。为了克服这些挑战，我们设计了一个新颖的双分支端到端融合网络，名为RDFC-GAN，它接受一对RGB和不完整的深度图像作为输入，以预测一个密集且完成的深度图。第一个分支采用编码器-解码器结构，通过遵循曼哈顿世界假设并利用RGB-D信息中的法线图作为指导，从原始深度图中回归局部密集的深度值。另一个分支应用了RGB-深度融合CycleGAN，擅长将RGB图像翻译成详细的、有纹理的深度图，同时通过循环一致性确保高保真度。我们通过自适应融合模块W-AdaIN融合这两个分支，并在伪深度图的帮助下训练模型。在NYU-Depth V2和SUN RGB-D数据集上的综合评估表明，我们的方法在现实室内环境中显著提高了深度完成性能。

关键词

深度完成，生成对抗网络，室内环境，RGB-深度融合

Ⅰ. 引言

深度图，也称为深度图像，作为3D空间信息的可靠表示，在许多视觉应用中得到了广泛应用，包括增强现实、室内导航和3D重建任务。然而，大多数现有的商业深度传感器（例如，Kinect、RealSense和Xtion）在室内空间感知方面并不足够强大，无法生成精确且无损耗的深度图。室内环境中不完整深度图的普遍性主要源于传感器的固有限制和场景的内在属性，这些缺陷显著影响了下游任务在深度图上的性能。例如，激光扫描仪和结构光传感器经常无法检测到窗户和玻璃等表面，因为光线直接穿过这些透明材料而不是反射回来。同样，天花板和墙壁等光滑表面可能会反射或吸收光线，导致深度数据中的空白。与传感器方向相对的极端距离和锐角进一步促成了这些不完整的测量，强调了需要复杂的深度完成技术来解决这些缺陷。

为了缓解不完美深度图带来的挑战，已经开发了许多方法，统称为深度完成，以从其不完整的对应物重建全面的深度图。深度完成通常涉及利用来自单一深度感知设备的原始深度和RGB图像对，以填补缺失的深度信息并提高深度图的准确性。最近的研究在深度完成任务中取得了显著进展，这要归功于卷积神经网络（CNN）。Ma和Karaman引入了一个编码器-解码器网络，直接从稀疏深度图和RGB图像回归密集的深度图。该方法与常规算法相比取得了巨大进步，但由于缺乏捕获的局部信息，其输出通常过于模糊。

为了生成更精细的完成深度图，最近出现了许多工作，可以根据不同的优化方法分为两组。第一组工作学习相对像素的亲和力，并迭代细化深度预测，这高度依赖于原始全局深度图的准确性，并遭受推理效率低下的问题。其他工作分析了几何特性，并相应地调整了特征网络结构，例如，通过估计表面法线或将深度投影到离散平面。同时，现有方法使用RGB图像作为指导或辅助信息。例如，基于从图像-深度对中提取的统计数据，深度不连续性在图像边缘处大量对齐的共同先验已被广泛采用。然而，充分研究RGB语义特征和深度图之间更深层次关联的方法仍然需求量大。此外，模型参数可能无法有效地推广到不同的场景，因为很少有方法深入考虑纹理和上下文信息，模型参数可能无法有效地推广到不同的场景。

值得注意的是，由于其特殊属性，室内环境中的深度完成并没有得到现有深度完成方法的很好解决。流行的深度完成方法强调了局部像素的复杂自适应传播结构，这可能无法处理室内场景中普遍存在的大面积无效深度图。此外，人造房屋通常遵循规则的几何结构，如相互垂直的墙壁、地板和天花板。这种领域知识，通常称为曼哈顿世界假设，可以帮助人们轻松地识别无效和不合理的深度估计结果，并已在SLAM、单目深度估计和3D重建中得到适当使用。然而，有效地将这种结构规律纳入深度完成方法，特别是RGB和深度图像的融合，尚未被探索。

更值得注意的是，大多数现有方法只考虑完成稀疏深度图像，并统一随机采样一定数量的有效像素从原始或完整的密集深度图像作为训练和评估的输入。虽然这种下采样设置很好地模拟了从原始Lidar扫描到密集注释的户外深度完成任务（如图2底部所示），但它不适用于室内RGB-深度传感器数据，因为采样模式与室内场景中真实的缺失模式大相径庭，例如，大面积缺失区域和语义缺失模式。具体来说，如图2顶部所示，室内深度传感器捕获的原始深度图是密集且连续的，这与下采样输入的稀疏模式大不相同。同时，下采样输入在模拟的缺失区域中泄露了完成模型无法获得的真实深度值，导致评估有缺陷。因此，尚不清楚在均匀稀疏深度图设置中成功的方法是如何在室内深度完成任务中仍然获胜的。这应该通过为室内场景特别设计的合理训练策略和综合评估设置来解决。

为了解决室内深度完成中的这些问题，我们提出了一个新颖的双分支端到端网络，以生成室内环境的完成密集深度图。一方面，受一系列生成对抗网络（GAN）的启发，包括CycleGAN，它们可以有效地捕获和利用纹理风格信息，我们提出了一个RGB-深度融合CycleGAN（RDFCGAN）分支，用于融合RGB图像和深度图。CycleGAN的循环一致性损失对于保留基本特征和纹理至关重要，确保详细和真实的深度图忠实地反映原始场景的结构。另一方面，我们设计了一个曼哈顿约束网络（MCN）分支，利用室内场景的几何属性，在生成的法线图中引导深度完成。为了连接这两个分支并细化估计的深度，我们引入了加权自适应实例归一化（W-AdaIN）模块，并使用一个置信度融合头部来得出最终结果。此外，我们通过根据室内深度缺失特征采样原始深度图像来生成伪深度图，用于训练。

我们的主要贡献总结如下：我们提出了一个新颖的端到端网络，名为RDFC-GAN，它有效地融合了原始深度图和RGB图像，以在室内环境中产生一个完整的密集深度图。我们设计了利用室内场景几何属性的曼哈顿约束网络，有效地引入了更平滑的深度值约束，并进一步提高了RDFC-GAN的性能。我们详细阐述了伪深度图的定义和训练用途，它模仿了室内原始深度缺失模式，并可以提高深度完成模型的性能。我们展示了我们提出的方法在NYU-Depth V2和SUN RGB-D上对深度完成实现了最先进的性能，并通过综合评估指标证明了其在提高下游任务性能（如目标检测）方面的有效性。

Ⅲ. 方法

本节描述了我们提出的深度完成方法，如图3所示。该模型接受一个原始的（噪声和可能不完整的）深度图draw ∈ RH×W×1及其对应的RGB图像r ∈ RH×W×3作为输入，并输出完成和细化的密集深度图估计（即，最终深度图）dpred ∈ RH×W×1，以接近真实的深度图dgt ∈ RH×W×1，其中H和W分别是深度图的高度和宽度。

该模型主要由两个分支组成：曼哈顿约束网络（MCN）分支和RGB深度融合CycleGAN（RDFC-GAN）分支。MCN和RDFC-GAN分别接受深度图和RGB图像作为输入，并产生各自的深度完成结果。为了融合两个分支之间的表示，在模型的不同阶段部署了一系列中间融合模块，称为W-AdaIN。最后，置信度融合头部结合两个通道的输出，并提供更可靠和鲁棒的深度完成结果。此外，我们引入了伪深度图的训练策略，并描述了用于训练的整体损失函数。

A. 曼哈顿约束网络（MCN）分支

第一个分支，曼哈顿约束网络（MCN）分支，由曼哈顿法线模块和卷积编码器-解码器结构组成。如图3左下角所示，该分支主要依赖于原始深度图，以及来自RGB图像的辅助信息，并输出密集的局部深度图dl ∈ RH×W×1和局部置信度图cl ∈ RH×W×1。

曼哈顿法线模块：在共面区域中进行深度预测可以从已知的表面法线中受益。然而，由于室内场景中普遍存在的大范围无纹理平面具有一致的亮度，估计室内场景中的表面法线是具有挑战性的。为了解决这个问题，我们设计了一个曼哈顿法线模块，利用曼哈顿世界假设，即大多数室内场景的表面通常与三个主要方向正交并与之对齐。一方面，我们使用预训练的分割网络来识别RGB场景中的楼层、天花板和墙面区域。我们还使用U-Net作为法线生成器来生成一个既可以近似真实情况又遵循曼哈顿假设的法线图。

具体来说，对于所有预测的法线向量np ∈ R3，其中p指的是任何像素，我们通过以下方式优化预测法线向量与真实法线图之间的余弦相似性损失Ln：

其中n^*是真实的法线图。对于平面区域，我们纳入了分割结果中的信息（即，每个像素p是否属于地板、天花板、墙面或不属于），并确保法线与平面的物理方向一致。例如，我们强制所有地板点向上垂直定向：

其中vz = (0, 0, 1)是向上的垂直单位法线向量，I(·)是指示函数。类似地，天花板点和墙面点被限制为向下和水平方向，分别，我们有：

总之，曼哈顿法线模块的损失为：

编码器-解码器结构：曼哈顿法线模块的输出（即，一个三通道图n ∈ RH×W×3）与单通道原始深度图draw连接，形成输入到编码器-解码器。MCN的编码器-解码器如图5所示，基于在ImageNet数据集上预训练的ResNet-18。给定这个输入，编码阶段将特征尺寸缩小32倍，并将特征维度扩展到512。编码器学习从深度图空间到深度潜在空间的映射，并产生z ∈ R^(H/32)×(W/32)×512作为融合的深度特征信息。解码阶段应用一系列上采样块来提高特征分辨率，并具有来自编码器的跳跃连接。解码器的输出是局部深度图及其相应的局部置信度图，这是MCN分支的最终输出。

MCN分支的总体损失LMCN也包括局部深度图上的L1损失，即：

其中λl是L1损失的权重超参数。

B. RGB-深度融合CycleGAN（RDFC-GAN）分支

为了生成细致的纹理和密集的深度图，我们提出了模型的第二个分支，这是一个基于GAN结构的RGB和深度图融合模型，如图3左上角所示。与大多数现有融合方法直接连接不同域的输入不同，我们的融合模型，受条件和风格GAN的启发，a) 使用不完整深度图的深度潜在向量作为输入，RGB图像作为条件，生成密集融合的深度预测df ∈ RH×W×1和融合置信度图cf ∈ RH×W×1，b) 使用鉴别器来区分真实深度图和生成的深度图。

生成器G(·)的结构与MCN的编码器-解码器相似，如图5所示，不同的是RGB-only输入和与W-AdaIN的融合。给定相应的RGB图像r作为条件，生成器G(·)与深度潜在向量z一起生成融合的密集深度图df和融合置信度图cf。来自MCN的潜在向量z使用后面部分中描述的W-AdaIN将深度信息传递到RGB图像。我们通过鉴别器D(·)区分融合深度图df和真实深度图dgt，其结构基于PatchGAN。

除了主要的GAN结构外，为了增强生成深度图中纹理信息的效果，我们形成了一个CycleGAN的结构，辅助对生成器Gr(·)和鉴别器Dr(·)，分别从深度图生成RGB图像和区分生成的RGB图像和真实RGB图像。Gr(·)采用ResNet-18架构，Dr(·)的架构与D(·)相同，只是没有条件输入。

我们采用WGAN和CycleGAN的目标函数来训练RDFC-GAN。具体来说，RDFC-GAN损失包括两个鉴别器损失（LD和LDr），两个生成器损失（LG和LGr），以及一个循环损失（Lcycle）：

其中，鉴别器和生成器损失只影响相应的鉴别器和生成器。

RDFC-GAN分支的总体损失LRDFC结合了上述所有损失项，即：

C. W-AdaIN：加权自适应实例归一化

为了使深度特征信息在所有阶段指导RGB分支的完成结果，我们设计并应用了加权自适应实例归一化（W-AdaIN）模块，该模块首次在我们的初步工作中引入，并将在后面进一步详细说明。

受StyleGAN的启发，该模块使用AdaIN将给定的风格适应内容，并保留高级内容属性，所提出的W-AdaIN将深度和RGB图像视为风格和内容输入，分别模仿深度图像，同时保留RGB图像的语义特征。通过在中间层应用W-AdaIN，RDFC-GAN分支逐步吸收来自MCN分支的深度表示。

给定来自RDFC-GAN分支中间阶段的RGB图像特征图fr ∈ Rh×w×C和来自MCN对应阶段的深度特征图z ∈ Rh×w×C，其中h、w和C分别是高度、宽度和通道数（即，特征维度），对于每个通道c（1 ≤ c ≤ C），我们计算通道级缩放特征y^s(c)和偏置y^b(c)：

其中f_r(c)和z(c)是特征图的第c个通道，μ(·)和σ(·)分别是空间不变的通道级均值和方差。然后，W-AdaIN(z, fr)的每个元素计算如下：

其中1 ≤ i ≤ h, 1 ≤ j ≤ w, 1 ≤ c ≤ C，xi,j,c和xi,j分别指的是变量x的第(i, j, c)个和第(i, j)个元素，Attn(x) ∈ Rh×w是在x的维度降低（通过1 × 1卷积层）上的自注意力结果。与没有可学习参数的原始AdaIN相比，W-AdaIN通过在两个输入上进行自注意力操作，更细致地控制融合过程中任一特征模块的强度，增强了模块输出的整体一致性。

D. 置信度融合头部

我们遵循我们的初步版本，结合两个分支的深度完成结果。MCN分支生成的局部深度图dl更多依赖于有效的原始深度信息，而RDFC-GAN分支生成的融合深度图df更多依赖于纹理RGB特征。在置信度融合头部，如图3右侧所示，我们使用置信度图来计算最终深度预测dpred：

其中1 ≤ i ≤ H, 1 ≤ j ≤ W，x(i, j)指的是变量x的第(i, j)个元素。在最终深度预测中，局部和融合深度图分别对原始深度图中的准确和噪声/缺失区域贡献更多。

E. 用于训练的伪深度图

为了获得更强大的室内深度完成模型，我们根据我们的初步工作，适应了用于训练的伪深度图。与图2中的常见随机稀疏采样方法相比，由于深度分布和缺失模式的差异显著，因此不适用于室内场景。

我们提出了以下五种种合成方法：1) 高光屏蔽：由于IR射线从高光表面反射回来的光线微弱或散射，RGB-D相机很难获得高光表面的深度数据，高光和光滑的物体在RGB图像中常常导致高光和亮点。因此，我们检测RGB图像中的高光区域，并在深度图中屏蔽它们以生成伪深度图。2) 黑色屏蔽：黑暗和哑光表面吸收而不是反射辐射，这严重影响了深度图值。我们随机屏蔽RGB值全部在[0, 5]中的深度像素，以直接模拟黑暗区域中的无效深度值。3) 基于图的分割屏蔽：复杂环境中的混乱光反射干扰了红外光的返回，并在深度图中引起离散和不规则的噪声。为了模拟这种现象，我们使用基于图的分割将RGB图像分割成块，并随机屏蔽一些小块。4) 语义屏蔽：一些材料，如玻璃、镜子和瓷器表面，很容易引起散射的红外反射和缺失的深度值。我们利用语义标签信息定位可能包含这些材料的物体，如电视、镜子和窗户，我们随机屏蔽每帧中的一个或两个这样的物体（但在它们的边缘保留深度像素）。5) 语义XOR屏蔽：与图基分割屏蔽的动机类似，我们使用语义分割来识别复杂区域，并在这些区域中屏蔽深度值。复杂区域被定义为预测的分割结果与真实情况不同的区域。换句话说，我们对分割结果和真实情况执行异或（XOR）操作以获得屏蔽。

对于这五种方法中的每一种，，我们独立地以50%的概率随机选择它，我们将挑选出的方法的掩码结合起来，从原始深度图中生成最终的伪深度图。一个例子如图6所示。

F. 总体损失函数

我们以端到端的方式训练所有网络，包括前面描述的所有损失和最终预测的L1损失。总体损失函数定义为：

其中λpred是L1损失的权重超参数。

Ⅳ. 实验

A. 数据集

我们在两个广泛使用的基准数据集上进行了实验：NYU-Depth V2和SUN RGB-D。

NYU-Depth V2：NYU-Depth V2数据集包含从464个室内场景中使用Microsoft Kinect收集的RGB和深度图像对。该数据集包含密集标记的数据样本，分为训练集（795张图像）和测试集（654张图像）。每个样本包括一个RGB图像、由传感器捕获的原始深度图像、作为真实标签的处理后的深度图和分割掩码。该数据集还包括大约50,000个未标记的数据样本，只有RGB和原始图像。按照现有方法，我们在未标记的图像和训练集上进行训练，并使用测试集进行评估。所有图像都被调整到320×240，并中心裁剪到304×228。
SUN RGB-D：SUN RGB-D数据集包含由四种不同传感器捕获的10,335个RGB-D图像，提供了多样化和全面的场景集合，有效促进了模型泛化能力的评估。此外，该数据集具有密集的语义分割和3D边界框注释，这使得可以进行下游任务（例如，目标检测）评估。按照官方数据集划分，我们使用4,845张图像进行训练，4,659张图像进行测试，并使用从多帧派生的处理后的深度图作为评估的真实标签。所有图像都被调整到320×240，并随机裁剪到304×228。

B. 评估指标

为了全面评估深度完成方法的性能，我们在原始深度空间和点云空间都采用了常见的指标，以及深度图和点云的可视化进行定性评估。

深度值：我们采用了三种直接测量深度值的指标：均方根误差（RMSE）、绝对相对误差（Rel）和δth，如Ma等人所提出的。

RMSE对严重错误敏感，并提供了整体准确性的宝贵见解，定义为：

Rel通过将绝对偏差除以真实值来评估相对误差，定义为：

δth测量了预测像素的相对误差在相对阈值th内的百分比。δth的数学表达式为：

其中I(·)是指示函数。相同的阈值下，更高的δth值表示深度完成结果的一致性更好。

点云：我们注意到，深度值上的指标有效地评估了整体准确性，但不足以解决局部异常。因此，我们提出将完成的深度图转换为点云，并测量Chamfer距离（CD）和平均F1分数（F1），以进行全面评估。CD和F1都能捕捉到点云的几何结构和相对位置关系，因此对局部异常和噪声更敏感。

将深度图（dpred和dgt）转换为点云（Ppred和Pgt），我们对每个像素（i, j）在深度图中使用以下公式获得相应的点p = (x, y, z)在点云中：

其中K代表相机的内参矩阵。

Chamfer距离（CD）是两个点云之间的对称距离度量，定义为：

其中和分别表示和中的点数，p和p'表示3D空间中的点，∥·∥是欧几里得距离。

平均F1分数（F1）定义为精确度（PrecΔ）和召回率（RecΔ）的调和平均值，距离阈值Δ（单位：米）：

其中I(·)是指示函数，Δ决定两个点是否匹配（即，足够接近）。

C. 实施细节

对于MCN分支，分割结果来自具有ResNet-50主干的预训练和冻结的PSPNet，法线图生成器是一个与其它模块一起训练的预训练U-Net。RDFC-GAN分支和网络的其它部分从零开始训练。G(·)、Gr(·)、D(·)和Dr(·)中的权重和偏置分别从N(0, 0.022)和0初始化。λl和λpred的值分别设置为0.5和5。MCN的优化器是AdamW，权重衰减为0.01，初始学习率lr0为0.002。其他模块的优化器是Adam，初始学习率lr0为0.004。所有优化器都有β1 = 0.5，β2 = 0.999。我们训练网络150个周期，并在100个周期后使用线性学习率调度器进行更新，其中学习率lr_epoch = lr0 × (1 − max(epoch,100)−100/50)。

D. 训练和评估设置

为了进行全面的性能分析，我们设置了三种不同的评估方案及其相应的训练策略。在测试阶段，为了预测和重建深度图（记为T），我们分别使用三种不同的输入，分别是原始深度图（R）、从原始深度图中随机采样的稀疏深度图（R）和从重建深度图中随机采样的稀疏深度图（T）。三种设置如下：

设置A（R ⇒ T）：为了最符合室内深度完成的真实场景，我们在测试期间输入一个未经下采样的原始深度图。我们使用伪深度图作为输入，并以原始深度图为监督，训练Sparse2Dense、CSPN、DeepLidar、NLSPN、GraphCSPN、初步模型RDF-GAN和提出的模型RDFC-GAN。同时，我们比较了在合成半密集传感器数据上训练的DM-LRN和MS-CHN。
设置B（R* ⇒ T）：按照一些工作，我们使用原始深度图中500个随机采样的深度像素作为测试期间的输入。在训练阶段，输入与测试期间相同，但由于缺乏完成的深度图，真实深度图作为地面真实。
设置C（T* ⇒ T）：为了与更多关注稀疏场景中深度完成的方法进行比较，我们使用从重建深度图中500个随机采样的深度像素作为测试期间的输入。训练输入和输出真实与设置B相同。如图2所示，这种设置中的下采样输入泄露了在实践中不可用的真实深度值。

如我们所讨论的，设置A（R ⇒ T）最符合室内深度完成的真实场景，也是我们旨在解决的问题的主要焦点。因此，设置A在所有实验中使用。我们包含其他两种设置在NYU-Depth V2 的主要实验中进行全面比较，并展示了我们方法的泛化性，即在不同条件下的鲁棒性和适应性。

E. 与最先进方法的比较

NYU-Depth V2: 我们的方法和其他最先进方法在NYU-Depth V2上的性能比较显示在表I中。基于结果，我们得出以下结论：

在最现实的设置R ⇒ T中，与所有基线相比，RDFC-GAN在性能上有显著优势，并且比之前的RDF-GAN有适度的改进，从而获得了显著的RMSE为0.120和Rel为0.012。
我们选择了一些代表性场景，并在设置R ⇒ T中可视化了不同方法的完成结果，如图7所示。RDFC-GAN在缺失深度区域产生了更准确和有纹理的深度预测。例如，红框内的结果清楚地描绘了微妙物体（笔记本电脑和椅子）和大缺失物体（门）的轮廓和深度信息。
在设置R∗ ⇒ T中，RDFC-GAN在RMSE上优于基线，并在所有δth指标上表现最佳，Rel上第二好。此外，RDFC-GAN通过22%的相对改进在RMSE上大幅度改进了RDF-GAN，表明新提出的CycleGAN和曼哈顿约束组件的有效性。
我们在设置T ∗ ⇒ T中观察到类似的趋势，RDFC-GAN在所有五个指标中获得了四个最好的结果。就RMSE而言，无需任何迭代处理的RDFC-GAN仅低于NLSPN和GraphCSPN（但分别比它们快1.2倍和1.5倍），这是值得称赞的，因为RDFC-GAN不是为稀疏设置而设计的。

SUN RGB-D: 在设置A中的SUN RGB-D结果如表II所示。我们观察到以下情况：

与NYU-Depth V2相比，SUN RGB-D上的深度完成任务要困难得多。这可能是因为SUN RGB-D包含了更多样化的场景，并且来自各种传感器。尽管如此，RDFC-GAN在所有指标上都取得了最佳性能（例如，与第二好的方法相比，RMSE为0.214对0.232，Rel为0.040对0.049）。
当δth的阈值增加时，RDFC-GAN与最佳基线之间的性能差距增大（从δ1.25的-0.3到δ1.253的+1.2）。结果表明，基线甚至在更大的公差阈值下也未能完成某些区域的深度，而RDFC-GAN对局部异常更为鲁棒。
从图1中的可视化结果来看，RDFC-GAN为所有不同的传感器完成了缺失深度的详细纹理信息，展示了其出色的泛化能力。

点云上的比较：为了检验局部准确性并提供全面比较，我们选择了一些代表性的基线，将它们的输出深度图在NYU-Depth V2上转换为点云，并测量性能。基于表III中的定量结果和图8中的可视化结果，我们可以得出以下结论：

RDFC-GAN在前两个设置中获得了最低的Chamfer距离值和最高的平均F1分数，在另一个设置中排名第二，表明在各种实验设置中，特别是在我们解决的室内场景中，性能优越。
可视化清楚地表明，RDFC-GAN完成了缺失区域的稳定和合理的深度图，而其他方法则做出了扭曲甚至不完整的估计。结果突出了我们提出的方法在实现更准确完成结果方面的有效性。

F. 消融研究

我们在最能反映室内场景的NYU-Depth V2上进行了消融研究，设置为R ⇒ T。

MCN分支：a) 分支结构：我们评估了提出的MCN结构与早期模型RDF-GAN中的最佳替代品（即，局部引导模块）的性能比较，如表IV所示。仅使用预训练的法线图生成器（案例A-2），模型的表现与局部引导相似，这可能是由于它们相似的网络结构（U-Net）。微调步骤（案例A-3）增强了法线图生成器的能力，RMSE从0.147提高到0.132。使用分割网络及其相应的损失（案例A-4）进一步提高了性能。我们还包括了分割网络的特征作为法线图生成器的额外输入（案例A-5），但其性能略差。我们认为，法线图生成器只需要为不同部分识别法线，而不是利用语义特征。

b) 分支损失：我们对MCN分支中引入的损失进行了消融研究。如表V所示，每个损失项在实现准确的法线估计中都起着重要作用（案例B-2至B-4），将它们结合起来比单独使用任何一个都要好（案例B-5）。

在三个损失中，Lwall贡献最大。我们还比较了直接模拟法线正交性和平行性的损失（案例B-6），如下所示：

其中Pw、Pf和Pc分别是墙面、地板和天花板的点集。LWMA实现了与更高复杂性（即，对于n个点的O(n^2)）相当的性能，但如果相机展现出翻滚和俯仰旋转，可以使用它。

RDFC-GAN分支：表VI显示了GAN分支的消融研究结果。没有GAN的模型（案例C-1）退化为双编码器-解码器结构。在这种情况下，完成的深度图趋向于模糊，结果很差。加上GAN结构（案例C-2）显著提高了性能，使用CycleGAN结构（案例C-3）进一步改进了性能（RMSE从0.129提高到0.120）。
W-AdaIN模块：如表VII所示，对于多阶段融合模块，W-AdaIN（案例D-1）优于替代品，即实例归一化（IN）（案例D-2）和AdaIN（案例D-3），差异明显。我们还观察到与RDF-GAN中类似的趋势，AdaIN略逊于原始的IN，表明直接应用自适应方法可能不适用于深度完成，我们基于注意力的W-AdaIN是必需的。
双分支结构：在图9中，我们提供了三个深度图完成输出的可视化：来自MCN分支的dl，来自RDFC-GAN分支的df，以及整个模型的dpred。MCN分支生成了一个精确的深度图，尽管缺乏鲜明的轮廓。RDFC-GAN分支生成了一个具有更多纹理细节的深度图，但也引入了一些噪声和异常值。值得注意的是，借助置信度融合头部的帮助，完整的RDFC-GAN模型产生了一个既精确又鲁棒的最终完成，充分利用了两个分支的优势。

G. 在完成的深度图上进行目标检测

我们使用在SUN RGB-D上完成的深度图作为输入，对3D目标检测进行了扩展实验，以评估我们的深度完成质量。使用了两个最先进的模型，VoteNet和H3DNet，作为检测器。表VIII显示，两个检测器使用我们的完成深度图都获得了适度的改进。同时，DeepLidar在检测指标上的改进很小；NLSPN在完成中产生太多噪声，甚至损害了检测性能。使用SUN-RGBD提供的真实深度图（作为输入）除了RDF-GAN和RDFC-GAN之外，超过了所有其他方法。原因是SUN-RGBD中的真实深度图是通过整合多帧计算的，仍然存在缺失深度区域，导致次优的检测性能。结果不仅突出了我们方法的优越性，还展示了其鲁棒性。

Ⅴ. 结论

在这项工作中，我们提出了一个新颖的双分支端到端网络RDFC-GAN，用于室内深度完成。我们设计了一个RGB-深度融合CycleGAN模型来产生细致的纹理深度图，并受到曼哈顿约束网络的约束。此外，我们提出了一种新颖有效的采样方法，用于生成用于训练室内深度完成模型的伪深度图。广泛的实验表明，我们提出的解决方案在NYU-Depth V2和SUN RGB-D数据集上实现了最先进的性能。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247502435&idx=2&sn=fb3b2a91bfcc81b1f59f0fa836f9ca83

PaperEveryday

为大家分享计算机和机器人领域顶级期刊