TPAMI 2024 | 匹配归一化:用于实际环境中6D对象姿态估计的基于学习的点云配准

文摘   2024-07-17 19:00   中国香港  

点击上方“计算机书童”,选择加"星标"或“置顶

顶刊论文解读,第一时间分享

题目:Match Normalization: Learning-Based Point Cloud Registration for 6D Object Pose Estimation in the Real World

匹配归一化:用于实际环境中6D对象姿态估计的基于学习的点云配准

作者:Z. Dang; L. Wang; Y. Guo; M. Salzmann


摘要

在这项工作中,我们解决了从点云数据中估计对象6D姿态的任务。虽然最近的基于学习的方法在合成数据集上取得了显著成功,但我们观察到它们在实际数据中失败。我们调查了这些失败的根本原因,并确定了两个主要挑战:广泛使用的基于SVD的损失函数对两点云之间旋转范围的敏感性,以及源点云和目标点云之间特征分布的差异。我们通过引入一种不使用SVD操作的直接监督损失函数来解决第一个挑战。为了应对第二个挑战,我们引入了一种新的归一化策略,称为匹配归一化。我们的两个贡献是通用的,可以应用于许多现有的基于学习的3D对象配准框架,我们通过在两个框架(DCP和IDAM)中实现它们来说明这一点。我们在真实场景TUD-L Hodan等人2018、LINEMOD Hinterstoisser等人2012和Occluded-LINEMOD Brachmann等人2014数据集上的实验证明了我们策略的好处。它们首次使基于学习的3D对象配准方法能够在实际数据上取得有意义的结果。因此,我们期望它们成为点云配准方法未来发展的关键。

关键词

  • 点云配准

  • 几何视觉

I. 引言

估计对象的6D姿态,即3D旋转和3D平移,在多个领域中有许多应用,例如机器人抓取、同步定位与地图构建(SLAM)和增强现实。在这种情况下,基于学习的方法在处理RGB(D)图像时取得了巨大进展。特别是,这些方法在真实世界图像上取得了令人印象深刻的结果。

与这条研究线平行,由于点云处理网络的发展,出现了几种基于学习的3D对象配准算法,这些算法仅从3D测量中估计6D对象姿态,例如使用LiDAR获得的测量数据。由于它们仅关注3D信息,丢弃了任何RGB外观,这些方法在以前未见过的对象上表现出优异的泛化能力。然而,与场景级别的配准方法相比,这些对象级别的基于学习的技术通常只在合成数据集上进行评估,几乎从未在真实数据上进行评估,例如TUD-L、LineMod和LineMod-Occluded数据集。

在我们对最先进的基于学习的对象级别配准框架的实验中,我们观察到它们在以下挑战中挣扎。首先,虽然合成数据集通常将源点云和目标点云之间的旋转限制在45°范围内,但真实世界的传感器可能从任何视角观察目标对象,覆盖整个旋转范围。其次,与所有对象都被归一化到共同尺度的合成数据集相比,真实世界中不同对象的大小差异很大。传感器只显示对象的未知部分,禁止对目标点云进行简单的重新缩放。在合成数据中,目标点云通常从归一化模型中采样,从而忽略了这一困难。

在这项工作中,我们将第一个挑战,即处理整个旋转范围的难度,连接到常用于训练点云配准网络的基于SVD的损失函数上。特别是,它依赖的SVD操作在训练过程中存在两个主要缺点:奇异向量切换,导致周期性损失跳跃;以及梯度爆炸,在严重情况下导致训练过程失败。这两个缺点显著影响了训练的稳定性,因为它们干扰了损失对得分图的梯度。为了解决这个问题,我们提出使用不利用SVD操作并直接作用于得分图的直接监督损失。

此外,如图1顶部所示,我们观察到上述第二个挑战,即不同对象大小,转化为网络内部层中源点云和目标点云的特征分布之间的显著差距。这是由于批量归一化引起的,它假定每个样本都遵循相同的全局统计;这一假设在真实场景数据集中很容易被违反。两个分布之间的差异越大,找到的正确内点匹配就越少,从而导致性能下降。



具体来说,两个点云之间的匹配数量和内点率取决于它们特征分布的相似性,可以通过归一化操作来调整。我们比较了实例归一化和批量归一化,并观察到虽然实例归一化在没有遮挡的情况下有效,但在目标点云只表示源的一小部分时会导致低内点率。

为了应对不同对象大小和遮挡的挑战,我们提出了一种新的归一化方法,称为匹配归一化。匹配归一化利用特征提取网络每一层中的实例级别比例参数。这个参数由源点云和目标点云共享,从而保持它们的物理大小关系。这确保了源点云和目标点云的特征分布具有相似的范围,导致它们之间的匹配数量和内点率更高,并最终提高配准准确性。

总体来说,我们的贡献有以下优点:

  1. 我们深入分析了基于SVD的损失函数的缺点,并提出了对得分图的直接监督作为替代解决方案;

  2. 提出的匹配归一化适用于许多点云配准网络架构;

  3. 两个贡献都只涉及对网络的小改动,但显著提高了其在真实对象级别姿态估计数据集上的性能;

  4. 它们首次使基于学习的点云配准方法在实际6D对象姿态估计数据集(如TUD-L、LINEMOD和Occluded-LINEMOD数据集)上取得了有意义的结果。

我们的代码公开发布,以促进可重复性和未来的研究。

III. 方法

A. 问题表述

现在介绍我们的对象级别3D配准方法。我们考虑两个点云之间的部分对整体配准问题,这两个点集是从同一对象表面采样的3D点集,。我们通常将称为源点集,表示整个对象,而称为目标点集,仅包含对象的部分视图。我们通过从网格模型中均匀采样获得源点集,并从深度传感器获取的深度图中获取目标点集,假设已知相机内参数。我们的目标是估计旋转矩阵和平移向量,使对齐。变换可以通过求解
其中表示从集合到集合返回最佳匹配的函数,是选定的内点集。给定匹配关系,可以通过SVD求解。因此,具有挑战性的任务是估计匹配函数,只需作为输入。

B. 方法概述

大多数基于学习的3D配准方法依赖于由两个模块组成的架构:特征提取模块和点匹配模块。特征提取模块将两个点集作为输入,并输出每个点的特征向量,分别为中的每个点,或从中提取的每个关键点。给定这些特征向量,通过计算每个源-目标描述符对之间的相似性形成得分图。即,元素计算为
其中是内积,。然后将此矩阵传递给点匹配模块,其目标是找到两个点集之间的正确内点匹配,同时排除异常值。
网络的参数通常通过最小化预测的旋转和平移与通过求解(1)获得的旋转和平移之间的差异进行训练。因为,给定预测的匹配关系,(1)的解可以通过SVD获得,因此可以通过反向传播通过SVD操作的梯度来实现训练,遵循中的推导。
在本节的其余部分,我们首先介绍我们的特征提取过程的稳健性方法,然后讨论我们在存在全旋转范围时用于稳定训练过程的损失函数。最后,我们提供了我们实现策略的两个模型,DCPv2和IDAM的详细信息。

C. 损失函数分析

基于SVD的损失函数: 基于SVD的损失函数是一种强大的工具,因为它在学习框架中明确编码了一个复杂几何问题的已知解决方案。它的简单性和理论动机为解释深度学习模块提供了坚实的基础。然而,虽然在前向过程中这种操作已经得到了很好的研究,但在反向传播过程中它引起的挑战却没有得到很好的理解。为了帮助理解基于SVD的损失函数,我们首先提供其一般公式的简要总结。
给定目标点集,得分图可用于找到源点集的对应点。我们将其表示为。然后我们定义的质心为
这使我们能够计算点集的交叉协方差矩阵
使用SVD分解可以估计旋转矩阵和平移向量,给定如下:
这种形式主义可以用于定义一个基于SVD的损失函数,该函数对施加监督,即
这种基于SVD的损失函数广泛用于旋转范围在内的合成对象的全对全配准。然而,即便如此,它在训练过程中可能会出现周期性跳跃,如图3所示。此外,在实际应用中,旋转范围通常更宽,例如。在这种情况下,基于SVD的损失函数通常无法收敛,如表I中的结果所证明的。在下一节中,我们将详细分析这个问题的原因并提出解决方案。
广范围旋转分析: 广范围旋转在点云配准中构成了重大挑战,并在实际应用中具有重要意义。如上所述,在这种情况下,基于SVD的损失函数无法收敛。在本节中,我们首先分析窄旋转范围内训练损失中出现的跳跃,以了解SVD损失不稳定的原因。然后,我们深入探讨点云配准中广旋转范围带来的挑战,并详细探讨当前解决方案的局限性。
对窄旋转范围内训练损失中出现的跳跃进行调查,使我们发现它们是由基于SVD的损失函数中的奇异向量切换问题引起的。当得分图中的错配对被移除或纠正时,就会出现这个问题。具体来说,纠正得分图中的错配对会修改SVD输入,从而导致奇异值的大小和顺序发生变化。这些变化影响矩阵中相应奇异向量的顺序。由于旋转矩阵组成,如(5)所示,它易受此问题的影响,最终影响训练损失。因此,在使用基于SVD的损失函数时,必须考虑到这个问题。
让我们更正式地描述这个问题。奇异向量的切换可以通过行和列改变矩阵的乘法表示出来,即
其中是一个排列矩阵。如果切换只涉及两个向量,左乘以会切换行,使对象在相应平面上反射。另一方面,右乘以会切换列,使坐标系在相同平面上反射。需要注意的是,可以是多个排序矩阵的组合,从而导致包含多个平面反射的旋转。
为了更清楚地理解,让我们深入探讨奇异向量切换的具体实例,通过在前两个向量之间编码排列。这导致
其中。左乘以会切换行,使对象在平面上反射。另一方面,右乘以会切换列,使坐标系在相同平面上反射,如图5所示。
左右乘以会导致旋转矩阵的突然变化,从而影响损失值,并在最简单的情况下导致发散。为了演示这一点,我们进行了一个玩具示例,其中我们估计两个立方体的相对位置,并将相对姿态限制为仅旋转。我们利用基于SVD的损失函数,通过更新得分图的参数来估计旋转矩阵。如图4所示,当更新得分图时,我们观察到预测旋转矩阵的突然变化,伴随着损失的相应增加。切换问题影响损失相对于参数的梯度,在已经接近局部最优的位置导致大梯度。这导致优化过程需要更长时间才能达到新的局部最优,并导致损失曲线的周期性跳跃。
在实践中,这种现象在图3,SVD损失(45°)中很明显,SVD损失在合成数据集上的窄旋转范围内训练时。优化曲线平稳部分中的反复峰值可归因于这个切换问题。随着旋转范围的扩大,源点云和目标点云之间的相对变换变得更大,这个切换问题的可能性增加。如果这种切换发生在训练过程的早期,它确实会阻止网络收敛,如图3,SVD损失(全范围)所示。因此,网络无法产生任何有意义的结果,如表I,DCP(v2)+SVD(全范围)所总结的。这些实验的更多细节可以在第IV-D1节中找到。
请注意,先前的工作已经尝试缓解SVD梯度计算过程中的数值问题。然而,尽管理论上(通过幂迭代近似)和实际操作上(通过torch.svd实现)的SVD稳定性,本文详细说明的奇异向量切换问题仍然存在。这个问题阻碍了训练期间网络的稳定性,防止其有效收敛。
在接下来的部分中,我们提出了一个替代损失函数,大大提高了训练过程中的稳定性,使其能够在广旋转范围内稳定有效地收敛。
对得分图的直接监督: 从上面的分析可以看出,SVD操作在训练过程中引起不稳定,阻止网络在广旋转范围内收敛到合理结果。在此过程中,从估计姿态和真实姿态之间的差异中得出的梯度被SVD操作误解,进而重塑为对得分图的监督。得分图表示两个点集之间的相似性。将误解的梯度应用于得分图会误导网络,导致其误解点云的几何结构。这导致对应于对象上同一结构的两个点被赋予非常不同的特征。
为了提高训练过程的稳定性,有必要纠正应用于得分图的梯度。可以考虑两种方法:第一种方法尝试固定SVD中的奇异向量位置。然而,在当前条件下,尚无有效解决方案。因此,我们转向第二种方法:对得分图进行直接监督。
对得分图进行监督的关键是确定理想的得分图配置。这里,如果存在一个点对之间的对应关系,我们将其标记为得分图中的一个;否则,我们将得分图设置为零。对应关系是基于每个点的Chamfer距离,考虑到一个阈值。一旦定义了理想的得分图,我们的目标就变为最小化其与估计得分图之间的差异。
为实现这一目标,我们有一系列可供选择的损失函数,包括MSE、L1和NLL。然而,本研究的关键步骤不仅在于选择最优的损失函数形式,而在于对得分图施加有效监督。请注意,理想的损失函数可能会随着网络架构或优化方法的任何变化而变化。在我们最初的实验中,我们观察到NLL损失优于其他损失,因此在当前框架内将其确立为我们的首选。我们因此在接下来的段落中详细阐述了这种损失函数的细节。
正式地,让为真实对应关系矩阵,其中1表示点对之间的对应关系。为了构建真实的分配矩阵,我们使用真实的变换来变换,得到。然后我们计算之间的成对欧几里得距离矩阵,通过阈值化来获得对应关系矩阵。我们用额外的行和列扩展作为异常值桶,以获得。没有任何对应关系的点被视为异常值,中的相应位置被设置为1。在反向过程中,我们使用变换矩阵的逆,,来变换目标点云,得到。然后我们按照正向过程中的相同步骤计算真实得分图。为了获得最终的真实得分图,我们对进行逻辑与运算,记为。因此,我们有
然后我们表达我们的损失函数为:
其中是估计得分图,分母对损失值进行归一化,使包含不同数量对应关系的不同训练样本对总体经验风险有相同的影响。如图3所示,NLL损失函数在训练过程中产生了平滑且快速的损失曲线收敛,无论旋转范围是窄还是扩展到全范围。我们的方法的有效性将在第IV节讨论的实验证据中进一步得到证实。

D. 稳健特征提取的归一化

归一化技术如批量归一化和实例归一化已经成为基于机器学习的3D配准方法的标准组成部分,包括那些依赖PointNet架构进行特征提取的方法。然而,尽管这些技术被广泛使用,但它们在某些场景中可能会影响其有效性。在本节中,我们调查这些限制,并表明它们可能导致次优性能。为了解决这些限制,我们提出了一种称为匹配归一化的新归一化方法。
批量归一化: 在训练过程中,批量归一化假设每个样本都遵循相同的全局统计,因此使用从整个批次计算的统计数据来归一化特征分布。然而,这一假设在真实场景数据集中很容易被违反,因为现实世界中的对象通常具有不同的大小。这会影响从对象网格模型中采样的源点云的大小。因此,数据不符合批量归一化的假设,并且在小批量内对所有样本使用相同的归一化值会导致网络提取的特征分布之间出现很大差距。图1顶部提供的分布图进一步证实了这一发现。具体来说,对于每一层,我们展示了源点云中所有点的所有特征通道的直方图,以及相应目标点云的相似直方图。我们发现源点云和目标点云特征分布之间的差异越大,使用提取的特征建立的匹配就越少,最终导致配准准确性低下。这将在表V的结果中得到证实。
实例归一化: 换句话说,源点云和目标点云之间的匹配数量和内点率取决于它们特征分布的相似性。这种相似性受网络内归一化操作的影响。为了进一步研究这一点,我们比较了实例归一化和批量归一化。实例归一化基于每个样本的自身统计数据进行归一化,使特征分布约束在相似范围内。这在没有遮挡的情况下有效,因为源点云和目标点云共享相似的物理大小。在这种情况下,实例归一化有效解决了批量归一化的缺点,导致匹配数量较多。然而,在目标点云只表示源的一小部分的遮挡情况下,实例归一化仍然产生零均值和单位方差,如图7在遮挡数据集LMO上的情况所示。这导致源点云和目标点云具有相似的特征分布,但忽略了对象之间的物理大小关系,导致低内点率,因为目标点云的特征分布被拉伸为与源点云具有相同的形状。这一发现将在表V的结果中进一步证实。
匹配归一化: 为了同时解决不同对象大小和遮挡的挑战,我们提出了一种称为匹配归一化的新归一化方法。它通过分别处理每个样本的源点云和目标点云来解决不同大小的问题。与实例归一化不同,匹配归一化使用相同的参数缩放源点云和目标点云,从而保持它们的物理大小关系。这确保了源点云和目标点云的特征分布具有相似的范围,导致更高的匹配数量和内点率,最终提高配准准确性。匹配归一化的有效性在表V的结果中得到了证实。
正式地,匹配归一化可以表示如下。对于具有输出通道的层,令为处理得到的特征。然后我们对每个点的特征进行归一化,表示为
其中,类似地也是从分别计算得出的,但比例
由相应的源点云和目标点云共享。这一比例参数是从源特征中计算的,因为源点没有被遮挡或部分观测,源点是从对象模型中采样的。
使用相同的比例参数对两个点集进行归一化的一个优点是对遮挡、部分观测和异常值的鲁棒性。实际上,如果目标点云有自己的比例参数,遮挡和部分观测,分别是目标点云中的异常测量,可能会导致目标点云被拉伸,分别挤压。相比之下,源点云是完整的,不包含异常值。因此,我们利用源点云和目标点云应几何相似的直觉,在匹配归一化过程中使用相同的比例参数。

E. 网络架构

在本节中,我们介绍了实现我们策略的两种架构。其中一种依赖于逐点特征,而另一种首先提取关键点,从而说明了我们贡献的通用性。
1)基于DCP的架构: 在DCPv2中,特征提取模块,记为,将两个点集作为输入,并输出特征矩阵,分别为,即每个3D点的一个维特征向量,分别为,分别为。然后将这两个特征矩阵传递给一个Transformer,它学习一个函数,将两个点集的信息结合起来。最终,这会产生描述符矩阵,分别为,分别为,分别为,表示为
对于我们的架构,我们将匹配归一化策略集成到特征提取器的层中,同时保持Transformer架构不变。
受先前工作的启发,我们选择使用Sinkhorn层来处理异常值。具体来说,我们通过一行和一列扩展(2)的得分矩阵,形成扩展得分矩阵。在新创建的位置处,中的值设置为
2)基于IDAM的架构: 与基于DCP的架构相比,主要区别在于该架构基于选定的关键点而不是所有输入点构建得分图。与基于DCP的架构类似,基于IDAM的架构使用特征提取模块。这个模块可以是传统的局部描述符FPFH,也可以是基于学习的方法。因此,我们将匹配归一化集成到基于学习的特征提取网络中。提取的特征然后传递给关键点选择模块,对应于第二个网络,输出显著性得分。显著性得分用于获得固定数量的关键点。我们将减少的关键点集的特征记为。这些特征与其相应的原始坐标结合使用,用于计算减少的得分图,然后通过相似矩阵卷积神经网络处理,以获得用于查找匹配的最终得分图。IDAM进一步将迭代配准循环集成到这个过程中,以细化结果,如图2所示。请参阅更多细节。

IV. 实验

A. 数据集和训练参数

我们在三个对象级别姿态估计真实场景数据集上评估我们的方法:TUD-L、LINEMOD、Occluded-LINEMOD。对于TUD-L,我们使用提供的真实场景训练数据进行训练。由于Occluded-LINEMOD只有1214张测试图像且没有明确的训练数据,我们基于LINEMOD训练数据训练我们的网络。具体来说,我们使用BOP基准提供的PBR数据集。对于测试,我们按照BOP 2019挑战说明,使用提供的测试分割进行测试。
我们在Pytorch中实现了我们的基于DCP的姿态估计网络,并从头开始训练。我们使用Adam优化器,学习率为,小批量大小为32,训练网络30,000次迭代。对于OT层,我们使用次迭代,设置。对于基于IDAM的架构,我们使用Adam优化器训练模型直到收敛,学习率为,小批量大小为32。我们使用Open3D库中的FPFH实现和我们的自定义DGCNN进行特征提取。我们将FPFH和DGCNN版本的精化迭代次数设置为3。对于两个框架,我们将的点数设置为1024和768,分别编码仅包含的可见部分。为了从深度图中获取目标点云,我们使用数据集提供的掩码。训练是在一个NVIDIA RTX8000 GPU上进行的。

B. 评价指标

为了评估,我们除了使用BOP基准使用的三个指标:可见表面差异(VSD)、最大对称表面距离(MSSD)和最大对称投影距离(MSPD),还报告了预测的和平移与真实值之间的旋转和平移误差。这些误差计算为
我们总结了在不同精度阈值下估计的相对姿态的平均精度(mAP),如。我们保持旋转误差不变。此外,我们还报告了ADD指标,该指标衡量使用预测姿态变换的3D模型点与使用真实姿态获得的点之间的平均距离。我们将阈值设置为模型直径的10%,这是6D姿态估计中常用的做法。

C. 与现有方法的比较

我们将我们的方法与传统技术和基于学习的方法进行了比较。具体来说,对于传统方法,我们使用了Open3D实现的ICP和FGR、TEASER++的官方实现以及Super4PCS作者的二进制文件。对于DCP,我们使用了默认的DCPv2训练设置。然而,由于SVD计算引起的不稳定性,我们不得不多次训练模型,最终在崩溃前找到一个合理的精度点。请注意,这个问题在中也有报道。我们还尝试训练PRNet和RPMNet,但由于类似的SVD相关崩溃未能得到合理的结果,如中所观察到的那样;具体来说,SVD总是在处理真实数据的训练开始时崩溃。对于IDAM,我们报告了使用传统FPFH特征和使用DGCNN提取的特征的结果。Ours-DCP表示我们在DCPv2架构中实现的方法,我们用NLL损失替换SVD损失,用Sinkhorn层替换softmax层,并将匹配归一化集成到DGCNN中。Ours-IDAM表示我们在IDAM架构中实现的方法,在DGCNN中引入匹配归一化。由于IDAM不使用SVD损失函数,我们保留了其原始损失。除了将在下一小节中呈现的定量结果外,我们还提供了图8中的定性结果。
1)TUD-L数据集: TUD-L数据集的所有方法的结果总结在图9中。请注意,基于FPFH特征的传统方法产生了较差的结果,因为在对象上有许多光滑区域时FPFH特征不可靠。Vanilla DCP(v2)和IDAM在处理这种真实数据时也遇到了困难。然而,这些基线通过我们的匹配归一化策略得到了显著改进,Ours-DCP和Ours-IDAM都优于Super4PCS。通过使用ICP作为后处理步骤,我们的结果可以进一步提升。
我们还使用BOP基准指标和ADD评估结果,以便与该基准中的最先进方法进行比较。这些结果总结在表II中。值得注意的是,‘Vidal-Sensors18’、‘Drost-CVPR10-3D-Edges’和‘PPF_3D_ICP’在仅依赖深度信息的BOP排行榜中脱颖而出。
请注意,这些是没有使用掩码分割目标点云的传统方法,这使得比较对我们的方法有利。虽然我们积极寻求原始作者的代码以通过引入这些掩码进行更改,但由于版权问题,代码没有提供给我们。然而,虽然这些方法没有明确利用掩码作为先验知识,但两者都采用了基于投票的额外后处理步骤。这一过程不仅有效地充当了掩码,通过减少匹配范围,还有助于滤除任何异常匹配,从而提高整体准确性。无论如何,我们的结果表明我们的贡献可以使基于学习的3D对象配准适用于真实数据,我们认为这是该领域的一个重要进展。
2)LINEMOD数据集: 与TUD-L相比,LINEMOD数据集包含对称对象和对象边界的小遮挡,这增加了数据集的难度。如图10所示,即使是Super4PCS也无法在该数据集上产生有意义的结果。
此外,不同于提供真实世界训练数据的TUD-L数据集,LINEMOD训练集仅包含合成数据。这种合成与真实数据之间的差异显著影响了性能,如表III所示。传统方法如‘PPF_3D_ICP’和‘Drost’优于我们的方法,主要是由于它们的投票方案在噪声和领域差异方面表现出鲁棒性。然而,这些方法对参数配置非常敏感。尽管基于相同的算法,但它们在TUD-L和LINEMOD数据集上的性能趋势不同。尽管如此,我们提出的两种改进—NLL损失函数和匹配归一化—始终大幅提升了基线模型的性能。这些改进在任务复杂性变化方面证明了其鲁棒性。
3)Occluded-LINEMOD数据集: Occluded-LINEMOD数据集通过增加严重遮挡进一步增加了LINEMOD的挑战,此外还存在领域差异。因此,如图11和表IV所示,所有方法的结果都恶化了。尽管如此,我们的方法仍然使DCP和IDAM能够产生有意义的姿态估计。

D. 消融研究

在本节中,我们进行了消融研究,以证明所提出的NLL损失函数和匹配归一化的有效性。
1)损失函数的影响: 为了比较我们提出的NLL损失函数与基于SVD的损失函数的有效性和鲁棒性,我们在不同数据集上进行了消融研究。首先,我们在两个不同旋转范围设置下测试了合成数据集:窄和宽。这个初步研究旨在了解损失函数在受控条件下的行为。接下来,我们将研究扩展到一个真实场景数据集,该数据集具有增加的噪声和普遍存在的对象尺度不匹配。我们的目标是评估所提出的损失函数在这些挑战下的适应性。
对于合成数据集的构建,我们采用与实验设置相同的设置,特别是使用ModelNet(Clean)。我们将窄旋转范围定义为,宽旋转范围定义为。利用DCP(v2)架构作为我们的骨干,我们使用基于SVD的损失函数和我们提出的NLL损失训练模型,直到收敛。通常,NLL损失函数在约10,000次迭代时收敛,而基于SVD的损失函数通常需要两到三倍的迭代次数。
在窄旋转范围内,我们提出的NLL损失在mAP性能上优于基于SVD的损失,无论是旋转还是平移,如表I所示。这种优越性在5°旋转mAP中特别明显,我们的NLL损失比基于SVD的损失提高了39%,突出了我们提出方法的效率。基于SVD的损失函数的缺陷主要归因于切换问题,从优化平台上的峰值可以看出,如图3所示。这些峰值扰乱了网络优化过程,特别是在接近收敛时,最终导致性能下降。
在宽旋转范围内,我们提出的NLL损失保持其优越性能,从而展示了其无论旋转范围如何的鲁棒性。相反,基于SVD的损失函数在此范围内无法收敛,图3中分歧的损失曲线突显了这一缺点。这种无法收敛主要是由于在更宽的旋转范围内切换问题的加剧,频繁的切换事件在训练初期导致网络发散。这些结果与我们在方法部分中的分析一致。
然后我们在真实场景TUD-L数据集上进行了消融研究。我们观察到与合成数据集相比,该数据集的性能显著下降,主要是因为批量归一化无法解决尺度不匹配问题。然而,我们随后的消融研究表明,实现我们提出的匹配归一化显著减轻了这一不匹配问题,大大提高了性能。这些结果在表V中详细描述。这个失败主要归因于“切换问题”,当两个奇异值几乎相等时发生,使它们容易切换位置。此外,当这些值过于接近时,计算SVD梯度需要减去两个几乎相同的奇异值,位于分母中。这种接近会导致除以零,通常导致训练过程崩溃。
2)归一化技术的影响: 在本节中,我们进行消融研究,以证明我们提出的匹配归一化的有效性。我们继续采用DCP(v2)作为我们的骨干,但将我们提出的NLL损失设为默认设置。这一决定源于我们在之前的消融研究中的观察,基于SVD的损失无法收敛,从而没有产生有意义的结果。我们评估了三种不同的归一化方法:我们提出的匹配归一化、批量归一化和实例归一化,应用于三个真实场景数据集:TUD-L、LM和LMO。
除了上一节中使用的指标外,我们还报告了网络预测的匹配数量以及这些预测匹配中的真实内点数量和比率。预测的匹配是直接从预测的得分图中提取的。我们将识别真实内点的阈值设置为0.02。此外,我们还报告了BOP基准的结果,以便与基准中的其他最先进方法进行比较。
如表V所示,我们提出的匹配归一化和实例归一化在所有数据集和指标上表现优于批量归一化。我们的方法有效处理不同的样本大小,显著增加了匹配数量和更高的内点率。我们的匹配归一化在内点率上优于实例归一化,表明考虑相对物理大小对于准确的姿态估计至关重要。我们的结果在所有旋转区间、最精确的平移区间以及所有BOP指标上均优于实例归一化,表明我们的匹配归一化产生了更精细的姿态估计。对于更粗糙的平移估计,我们的结果与实例归一化相当。
使用我们的方法获得的定性结果如图6所示。重要的是,匹配归一化(MN)不会影响训练效率,因为它没有添加新的可学习参数。

E. 推理时间

我们进行了实验,以验证我们提出的方法在推理速度方面相对于现有基于学习和传统最先进基线的效率。所有实验都在一台配备Intel(R) Core(TM) i7-7700 K CPU @ 4.20 GHz、Nvidia GTX 2080 Ti GPU和32 GB内存的桌面计算机上进行,确保对所有测试方法的公平比较。我们在表VI中总结了结果。
我们的方法显著提高了推理速度,相对于传统最先进基线具有显著优势—比‘PPF-3D-ICP’快五倍,比‘Vidal-Sensors18’快18倍。这些结果突显了基于学习的方法的好处,开辟了实时应用的新可能性。
虽然‘Ours+DCP(v2)’的速度略低于原始‘DCP(v2)+Softmax’配置,但这种小幅放缓归因于OT层。然而,引入我们的匹配归一化没有涉及任何额外的学习参数,从而保持了推理速度的效率。

V. 结论

我们确定了阻碍现有基于学习的3D对象配准方法在实际数据中工作的两个因素。一个是源点集和目标点集的特征分布之间的差距。差异越大,找到的内点匹配越少,从而导致性能下降。另一个是在使用基于SVD的损失函数时梯度计算的不稳定性,这在数据可以经历全旋转范围时使网络的收敛复杂化。为了解决第一个问题,我们提出了一种新的归一化方法,匹配归一化,它通过共享相同的比例参数鼓励两个点集具有相似的特征分布。对于第二个问题,我们用一个简单而鲁棒的NLL损失函数替换了基于SVD的损失函数,该损失函数对得分图进行直接监督。我们的两个解决方案简单、有效,可以轻松应用于许多现有的基于学习的3D配准框架。我们将它们集成到基于DCP和IDAM的架构中,并在三个真实6D对象姿态估计数据集TUD-L、LINEMOD和Occluded-LINEMOD上证明了我们方法的有效性。据我们所知,这是第一次基于学习的3D对象配准方法在实际数据上取得了有意义的结果。

VI. 未来工作

正如我们的实验所证明的,我们的基于学习的方法在速度方面相对于传统方法具有显著优势。这为需要快速响应的应用(如机器人抓取和自动驾驶)提供了新的解决路径。在未来的工作中,我们将努力整合传统算法的精度优势和基于学习的方法的速度优势,从而融合两个领域的优点。我们的目标是设计一种算法,初步利用基于学习的方法的快速性和噪声鲁棒性,在复杂场景中提供快速估计,随后通过应用传统方法的异常值拒绝策略和改进思想来改进这些估计。我们预计这种综合策略将提高实际应用中姿态估计的效率和鲁棒性。
此外,我们计划探索不仅估计相对位置变化还估计尺度变化的算法,超越相同尺度的假设。一种潜在的方法是在输入阶段重新缩放源模型,并将其与目标点云配对进行网络处理,从而将2D对应图演变为3D格式。此方法将允许同时估计相对变换和尺度。然而,一个显著的挑战在于有效管理这种方法带来的GPU内存使用量的急剧增加。因此,未来的努力需要关注平衡内存使用和算法性能的策略。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

CVPaper
这里有知识和乐趣,感悟和哲理,一起来嗨!!!
 最新文章