点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
RDFC-GAN: RGB-Depth融合循环GAN用于室内深度补全
作者:Haowen Wang; Zhengping Che; Yufan Yang; Mingyuan Wang; Zhiyuan Xu; Xiuquan Qiao; Mengshi Qi; Feifei Feng; Jian Tang
摘要
在室内环境中捕获的原始深度图像经常由于传感器和环境的固有限制而表现出广泛的缺失值。例如,透明材料经常逃避深度传感器的检测;由于其光滑的纹理、延伸的距离和与传感器的斜入射角度,表面可能会引入测量不准确。不完整的深度图在后续视觉应用中带来了重大挑战,促使开发了许多深度完成技术来缓解这个问题。许多方法擅长从稀疏样本重建密集的深度图,但面对室内环境中普遍和关键的大面积连续缺失深度值时,它们常常失败。为了克服这些挑战,我们设计了一个新颖的双分支端到端融合网络,名为RDFC-GAN,它接受一对RGB和不完整的深度图像作为输入,以预测一个密集且完成的深度图。第一个分支采用编码器-解码器结构,通过遵循曼哈顿世界假设并利用RGB-D信息中的法线图作为指导,从原始深度图中回归局部密集的深度值。另一个分支应用了RGB-深度融合CycleGAN,擅长将RGB图像翻译成详细的、有纹理的深度图,同时通过循环一致性确保高保真度。我们通过自适应融合模块W-AdaIN融合这两个分支,并在伪深度图的帮助下训练模型。在NYU-Depth V2和SUN RGB-D数据集上的综合评估表明,我们的方法在现实室内环境中显著提高了深度完成性能。
关键词
深度完成,生成对抗网络,室内环境,RGB-深度融合
Ⅰ. 引言
深度图,也称为深度图像,作为3D空间信息的可靠表示,在许多视觉应用中得到了广泛应用,包括增强现实、室内导航和3D重建任务。然而,大多数现有的商业深度传感器(例如,Kinect、RealSense和Xtion)在室内空间感知方面并不足够强大,无法生成精确且无损耗的深度图。室内环境中不完整深度图的普遍性主要源于传感器的固有限制和场景的内在属性,这些缺陷显著影响了下游任务在深度图上的性能。例如,激光扫描仪和结构光传感器经常无法检测到窗户和玻璃等表面,因为光线直接穿过这些透明材料而不是反射回来。同样,天花板和墙壁等光滑表面可能会反射或吸收光线,导致深度数据中的空白。与传感器方向相对的极端距离和锐角进一步促成了这些不完整的测量,强调了需要复杂的深度完成技术来解决这些缺陷。
为了缓解不完美深度图带来的挑战,已经开发了许多方法,统称为深度完成,以从其不完整的对应物重建全面的深度图。深度完成通常涉及利用来自单一深度感知设备的原始深度和RGB图像对,以填补缺失的深度信息并提高深度图的准确性。最近的研究在深度完成任务中取得了显著进展,这要归功于卷积神经网络(CNN)。Ma和Karaman引入了一个编码器-解码器网络,直接从稀疏深度图和RGB图像回归密集的深度图。该方法与常规算法相比取得了巨大进步,但由于缺乏捕获的局部信息,其输出通常过于模糊。
为了生成更精细的完成深度图,最近出现了许多工作,可以根据不同的优化方法分为两组。第一组工作学习相对像素的亲和力,并迭代细化深度预测,这高度依赖于原始全局深度图的准确性,并遭受推理效率低下的问题。其他工作分析了几何特性,并相应地调整了特征网络结构,例如,通过估计表面法线或将深度投影到离散平面。同时,现有方法使用RGB图像作为指导或辅助信息。例如,基于从图像-深度对中提取的统计数据,深度不连续性在图像边缘处大量对齐的共同先验已被广泛采用。然而,充分研究RGB语义特征和深度图之间更深层次关联的方法仍然需求量大。此外,模型参数可能无法有效地推广到不同的场景,因为很少有方法深入考虑纹理和上下文信息,模型参数可能无法有效地推广到不同的场景。
值得注意的是,由于其特殊属性,室内环境中的深度完成并没有得到现有深度完成方法的很好解决。流行的深度完成方法强调了局部像素的复杂自适应传播结构,这可能无法处理室内场景中普遍存在的大面积无效深度图。此外,人造房屋通常遵循规则的几何结构,如相互垂直的墙壁、地板和天花板。这种领域知识,通常称为曼哈顿世界假设,可以帮助人们轻松地识别无效和不合理的深度估计结果,并已在SLAM、单目深度估计和3D重建中得到适当使用。然而,有效地将这种结构规律纳入深度完成方法,特别是RGB和深度图像的融合,尚未被探索。
更值得注意的是,大多数现有方法只考虑完成稀疏深度图像,并统一随机采样一定数量的有效像素从原始或完整的密集深度图像作为训练和评估的输入。虽然这种下采样设置很好地模拟了从原始Lidar扫描到密集注释的户外深度完成任务(如图2底部所示),但它不适用于室内RGB-深度传感器数据,因为采样模式与室内场景中真实的缺失模式大相径庭,例如,大面积缺失区域和语义缺失模式。具体来说,如图2顶部所示,室内深度传感器捕获的原始深度图是密集且连续的,这与下采样输入的稀疏模式大不相同。同时,下采样输入在模拟的缺失区域中泄露了完成模型无法获得的真实深度值,导致评估有缺陷。因此,尚不清楚在均匀稀疏深度图设置中成功的方法是如何在室内深度完成任务中仍然获胜的。这应该通过为室内场景特别设计的合理训练策略和综合评估设置来解决。
为了解决室内深度完成中的这些问题,我们提出了一个新颖的双分支端到端网络,以生成室内环境的完成密集深度图。一方面,受一系列生成对抗网络(GAN)的启发,包括CycleGAN,它们可以有效地捕获和利用纹理风格信息,我们提出了一个RGB-深度融合CycleGAN(RDFCGAN)分支,用于融合RGB图像和深度图。CycleGAN的循环一致性损失对于保留基本特征和纹理至关重要,确保详细和真实的深度图忠实地反映原始场景的结构。另一方面,我们设计了一个曼哈顿约束网络(MCN)分支,利用室内场景的几何属性,在生成的法线图中引导深度完成。为了连接这两个分支并细化估计的深度,我们引入了加权自适应实例归一化(W-AdaIN)模块,并使用一个置信度融合头部来得出最终结果。此外,我们通过根据室内深度缺失特征采样原始深度图像来生成伪深度图,用于训练。
我们的主要贡献总结如下:我们提出了一个新颖的端到端网络,名为RDFC-GAN,它有效地融合了原始深度图和RGB图像,以在室内环境中产生一个完整的密集深度图。我们设计了利用室内场景几何属性的曼哈顿约束网络,有效地引入了更平滑的深度值约束,并进一步提高了RDFC-GAN的性能。我们详细阐述了伪深度图的定义和训练用途,它模仿了室内原始深度缺失模式,并可以提高深度完成模型的性能。我们展示了我们提出的方法在NYU-Depth V2和SUN RGB-D上对深度完成实现了最先进的性能,并通过综合评估指标证明了其在提高下游任务性能(如目标检测)方面的有效性。
Ⅲ. 方法
本节描述了我们提出的深度完成方法,如图3所示。该模型接受一个原始的(噪声和可能不完整的)深度图draw ∈ RH×W×1及其对应的RGB图像r ∈ RH×W×3作为输入,并输出完成和细化的密集深度图估计(即,最终深度图)dpred ∈ RH×W×1,以接近真实的深度图dgt ∈ RH×W×1,其中H和W分别是深度图的高度和宽度。
该模型主要由两个分支组成:曼哈顿约束网络(MCN)分支和RGB深度融合CycleGAN(RDFC-GAN)分支。MCN和RDFC-GAN分别接受深度图和RGB图像作为输入,并产生各自的深度完成结果。为了融合两个分支之间的表示,在模型的不同阶段部署了一系列中间融合模块,称为W-AdaIN。最后,置信度融合头部结合两个通道的输出,并提供更可靠和鲁棒的深度完成结果。此外,我们引入了伪深度图的训练策略,并描述了用于训练的整体损失函数。
A. 曼哈顿约束网络(MCN)分支
第一个分支,曼哈顿约束网络(MCN)分支,由曼哈顿法线模块和卷积编码器-解码器结构组成。如图3左下角所示,该分支主要依赖于原始深度图,以及来自RGB图像的辅助信息,并输出密集的局部深度图dl ∈ RH×W×1和局部置信度图cl ∈ RH×W×1。
曼哈顿法线模块:在共面区域中进行深度预测可以从已知的表面法线中受益。然而,由于室内场景中普遍存在的大范围无纹理平面具有一致的亮度,估计室内场景中的表面法线是具有挑战性的。为了解决这个问题,我们设计了一个曼哈顿法线模块,利用曼哈顿世界假设,即大多数室内场景的表面通常与三个主要方向正交并与之对齐。一方面,我们使用预训练的分割网络来识别RGB场景中的楼层、天花板和墙面区域。我们还使用U-Net作为法线生成器来生成一个既可以近似真实情况又遵循曼哈顿假设的法线图。
具体来说,对于所有预测的法线向量np ∈ R3,其中p指的是任何像素,我们通过以下方式优化预测法线向量与真实法线图之间的余弦相似性损失Ln:
编码器-解码器结构:曼哈顿法线模块的输出(即,一个三通道图n ∈ RH×W×3)与单通道原始深度图draw连接,形成输入到编码器-解码器。MCN的编码器-解码器如图5所示,基于在ImageNet数据集上预训练的ResNet-18。给定这个输入,编码阶段将特征尺寸缩小32倍,并将特征维度扩展到512。编码器学习从深度图空间到深度潜在空间的映射,并产生z ∈ R^(H/32)×(W/32)×512作为融合的深度特征信息。解码阶段应用一系列上采样块来提高特征分辨率,并具有来自编码器的跳跃连接。解码器的输出是局部深度图及其相应的局部置信度图,这是MCN分支的最终输出。
B. RGB-深度融合CycleGAN(RDFC-GAN)分支
C. W-AdaIN:加权自适应实例归一化
D. 置信度融合头部
E. 用于训练的伪深度图
F. 总体损失函数
Ⅳ. 实验
A. 数据集
NYU-Depth V2:NYU-Depth V2数据集包含从464个室内场景中使用Microsoft Kinect收集的RGB和深度图像对。该数据集包含密集标记的数据样本,分为训练集(795张图像)和测试集(654张图像)。每个样本包括一个RGB图像、由传感器捕获的原始深度图像、作为真实标签的处理后的深度图和分割掩码。该数据集还包括大约50,000个未标记的数据样本,只有RGB和原始图像。按照现有方法,我们在未标记的图像和训练集上进行训练,并使用测试集进行评估。所有图像都被调整到320×240,并中心裁剪到304×228。 SUN RGB-D:SUN RGB-D数据集包含由四种不同传感器捕获的10,335个RGB-D图像,提供了多样化和全面的场景集合,有效促进了模型泛化能力的评估。此外,该数据集具有密集的语义分割和3D边界框注释,这使得可以进行下游任务(例如,目标检测)评估。按照官方数据集划分,我们使用4,845张图像进行训练,4,659张图像进行测试,并使用从多帧派生的处理后的深度图作为评估的真实标签。所有图像都被调整到320×240,并随机裁剪到304×228。
B. 评估指标
深度值:我们采用了三种直接测量深度值的指标:均方根误差(RMSE)、绝对相对误差(Rel)和δth,如Ma等人所提出的。
点云:我们注意到,深度值上的指标有效地评估了整体准确性,但不足以解决局部异常。因此,我们提出将完成的深度图转换为点云,并测量Chamfer距离(CD)和平均F1分数(F1),以进行全面评估。CD和F1都能捕捉到点云的几何结构和相对位置关系,因此对局部异常和噪声更敏感。
C. 实施细节
D. 训练和评估设置
设置A(R ⇒ T):为了最符合室内深度完成的真实场景,我们在测试期间输入一个未经下采样的原始深度图。我们使用伪深度图作为输入,并以原始深度图为监督,训练Sparse2Dense、CSPN、DeepLidar、NLSPN、GraphCSPN、初步模型RDF-GAN和提出的模型RDFC-GAN。同时,我们比较了在合成半密集传感器数据上训练的DM-LRN和MS-CHN。 设置B(R* ⇒ T):按照一些工作,我们使用原始深度图中500个随机采样的深度像素作为测试期间的输入。在训练阶段,输入与测试期间相同,但由于缺乏完成的深度图,真实深度图作为地面真实。 设置C(T* ⇒ T):为了与更多关注稀疏场景中深度完成的方法进行比较,我们使用从重建深度图中500个随机采样的深度像素作为测试期间的输入。训练输入和输出真实与设置B相同。如图2所示,这种设置中的下采样输入泄露了在实践中不可用的真实深度值。
E. 与最先进方法的比较
NYU-Depth V2: 我们的方法和其他最先进方法在NYU-Depth V2上的性能比较显示在表I中。基于结果,我们得出以下结论:
在最现实的设置R ⇒ T中,与所有基线相比,RDFC-GAN在性能上有显著优势,并且比之前的RDF-GAN有适度的改进,从而获得了显著的RMSE为0.120和Rel为0.012。 我们选择了一些代表性场景,并在设置R ⇒ T中可视化了不同方法的完成结果,如图7所示。RDFC-GAN在缺失深度区域产生了更准确和有纹理的深度预测。例如,红框内的结果清楚地描绘了微妙物体(笔记本电脑和椅子)和大缺失物体(门)的轮廓和深度信息。 在设置R∗ ⇒ T中,RDFC-GAN在RMSE上优于基线,并在所有δth指标上表现最佳,Rel上第二好。此外,RDFC-GAN通过22%的相对改进在RMSE上大幅度改进了RDF-GAN,表明新提出的CycleGAN和曼哈顿约束组件的有效性。 我们在设置T ∗ ⇒ T中观察到类似的趋势,RDFC-GAN在所有五个指标中获得了四个最好的结果。就RMSE而言,无需任何迭代处理的RDFC-GAN仅低于NLSPN和GraphCSPN(但分别比它们快1.2倍和1.5倍),这是值得称赞的,因为RDFC-GAN不是为稀疏设置而设计的。
SUN RGB-D: 在设置A中的SUN RGB-D结果如表II所示。我们观察到以下情况:
与NYU-Depth V2相比,SUN RGB-D上的深度完成任务要困难得多。这可能是因为SUN RGB-D包含了更多样化的场景,并且来自各种传感器。尽管如此,RDFC-GAN在所有指标上都取得了最佳性能(例如,与第二好的方法相比,RMSE为0.214对0.232,Rel为0.040对0.049)。 当δth的阈值增加时,RDFC-GAN与最佳基线之间的性能差距增大(从δ1.25的-0.3到δ1.253的+1.2)。结果表明,基线甚至在更大的公差阈值下也未能完成某些区域的深度,而RDFC-GAN对局部异常更为鲁棒。 从图1中的可视化结果来看,RDFC-GAN为所有不同的传感器完成了缺失深度的详细纹理信息,展示了其出色的泛化能力。
点云上的比较:为了检验局部准确性并提供全面比较,我们选择了一些代表性的基线,将它们的输出深度图在NYU-Depth V2上转换为点云,并测量性能。基于表III中的定量结果和图8中的可视化结果,我们可以得出以下结论:
RDFC-GAN在前两个设置中获得了最低的Chamfer距离值和最高的平均F1分数,在另一个设置中排名第二,表明在各种实验设置中,特别是在我们解决的室内场景中,性能优越。 可视化清楚地表明,RDFC-GAN完成了缺失区域的稳定和合理的深度图,而其他方法则做出了扭曲甚至不完整的估计。结果突出了我们提出的方法在实现更准确完成结果方面的有效性。
F. 消融研究
MCN分支:a) 分支结构:我们评估了提出的MCN结构与早期模型RDF-GAN中的最佳替代品(即,局部引导模块)的性能比较,如表IV所示。仅使用预训练的法线图生成器(案例A-2),模型的表现与局部引导相似,这可能是由于它们相似的网络结构(U-Net)。微调步骤(案例A-3)增强了法线图生成器的能力,RMSE从0.147提高到0.132。使用分割网络及其相应的损失(案例A-4)进一步提高了性能。我们还包括了分割网络的特征作为法线图生成器的额外输入(案例A-5),但其性能略差。我们认为,法线图生成器只需要为不同部分识别法线,而不是利用语义特征。
RDFC-GAN分支:表VI显示了GAN分支的消融研究结果。没有GAN的模型(案例C-1)退化为双编码器-解码器结构。在这种情况下,完成的深度图趋向于模糊,结果很差。加上GAN结构(案例C-2)显著提高了性能,使用CycleGAN结构(案例C-3)进一步改进了性能(RMSE从0.129提高到0.120)。 W-AdaIN模块:如表VII所示,对于多阶段融合模块,W-AdaIN(案例D-1)优于替代品,即实例归一化(IN)(案例D-2)和AdaIN(案例D-3),差异明显。我们还观察到与RDF-GAN中类似的趋势,AdaIN略逊于原始的IN,表明直接应用自适应方法可能不适用于深度完成,我们基于注意力的W-AdaIN是必需的。 双分支结构:在图9中,我们提供了三个深度图完成输出的可视化:来自MCN分支的dl,来自RDFC-GAN分支的df,以及整个模型的dpred。MCN分支生成了一个精确的深度图,尽管缺乏鲜明的轮廓。RDFC-GAN分支生成了一个具有更多纹理细节的深度图,但也引入了一些噪声和异常值。值得注意的是,借助置信度融合头部的帮助,完整的RDFC-GAN模型产生了一个既精确又鲁棒的最终完成,充分利用了两个分支的优势。
G. 在完成的深度图上进行目标检测
Ⅴ. 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编