点击上方“计算机书童”,选择加"星标"或“置顶”
顶刊论文解读,第一时间分享
题目:Match Normalization: Learning-Based Point Cloud Registration for 6D Object Pose Estimation in the Real World顶刊论文解读,第一时间分享
匹配归一化:用于实际环境中6D对象姿态估计的基于学习的点云配准
作者:Z. Dang; L. Wang; Y. Guo; M. Salzmann
摘要
在这项工作中,我们解决了从点云数据中估计对象6D姿态的任务。虽然最近的基于学习的方法在合成数据集上取得了显著成功,但我们观察到它们在实际数据中失败。我们调查了这些失败的根本原因,并确定了两个主要挑战:广泛使用的基于SVD的损失函数对两点云之间旋转范围的敏感性,以及源点云和目标点云之间特征分布的差异。我们通过引入一种不使用SVD操作的直接监督损失函数来解决第一个挑战。为了应对第二个挑战,我们引入了一种新的归一化策略,称为匹配归一化。我们的两个贡献是通用的,可以应用于许多现有的基于学习的3D对象配准框架,我们通过在两个框架(DCP和IDAM)中实现它们来说明这一点。我们在真实场景TUD-L Hodan等人2018、LINEMOD Hinterstoisser等人2012和Occluded-LINEMOD Brachmann等人2014数据集上的实验证明了我们策略的好处。它们首次使基于学习的3D对象配准方法能够在实际数据上取得有意义的结果。因此,我们期望它们成为点云配准方法未来发展的关键。
关键词
点云配准
几何视觉
I. 引言
估计对象的6D姿态,即3D旋转和3D平移,在多个领域中有许多应用,例如机器人抓取、同步定位与地图构建(SLAM)和增强现实。在这种情况下,基于学习的方法在处理RGB(D)图像时取得了巨大进展。特别是,这些方法在真实世界图像上取得了令人印象深刻的结果。
与这条研究线平行,由于点云处理网络的发展,出现了几种基于学习的3D对象配准算法,这些算法仅从3D测量中估计6D对象姿态,例如使用LiDAR获得的测量数据。由于它们仅关注3D信息,丢弃了任何RGB外观,这些方法在以前未见过的对象上表现出优异的泛化能力。然而,与场景级别的配准方法相比,这些对象级别的基于学习的技术通常只在合成数据集上进行评估,几乎从未在真实数据上进行评估,例如TUD-L、LineMod和LineMod-Occluded数据集。
在我们对最先进的基于学习的对象级别配准框架的实验中,我们观察到它们在以下挑战中挣扎。首先,虽然合成数据集通常将源点云和目标点云之间的旋转限制在45°范围内,但真实世界的传感器可能从任何视角观察目标对象,覆盖整个旋转范围。其次,与所有对象都被归一化到共同尺度的合成数据集相比,真实世界中不同对象的大小差异很大。传感器只显示对象的未知部分,禁止对目标点云进行简单的重新缩放。在合成数据中,目标点云通常从归一化模型中采样,从而忽略了这一困难。
在这项工作中,我们将第一个挑战,即处理整个旋转范围的难度,连接到常用于训练点云配准网络的基于SVD的损失函数上。特别是,它依赖的SVD操作在训练过程中存在两个主要缺点:奇异向量切换,导致周期性损失跳跃;以及梯度爆炸,在严重情况下导致训练过程失败。这两个缺点显著影响了训练的稳定性,因为它们干扰了损失对得分图的梯度。为了解决这个问题,我们提出使用不利用SVD操作并直接作用于得分图的直接监督损失。
此外,如图1顶部所示,我们观察到上述第二个挑战,即不同对象大小,转化为网络内部层中源点云和目标点云的特征分布之间的显著差距。这是由于批量归一化引起的,它假定每个样本都遵循相同的全局统计;这一假设在真实场景数据集中很容易被违反。两个分布之间的差异越大,找到的正确内点匹配就越少,从而导致性能下降。
具体来说,两个点云之间的匹配数量和内点率取决于它们特征分布的相似性,可以通过归一化操作来调整。我们比较了实例归一化和批量归一化,并观察到虽然实例归一化在没有遮挡的情况下有效,但在目标点云只表示源的一小部分时会导致低内点率。
为了应对不同对象大小和遮挡的挑战,我们提出了一种新的归一化方法,称为匹配归一化。匹配归一化利用特征提取网络每一层中的实例级别比例参数。这个参数由源点云和目标点云共享,从而保持它们的物理大小关系。这确保了源点云和目标点云的特征分布具有相似的范围,导致它们之间的匹配数量和内点率更高,并最终提高配准准确性。
总体来说,我们的贡献有以下优点:
我们深入分析了基于SVD的损失函数的缺点,并提出了对得分图的直接监督作为替代解决方案;
提出的匹配归一化适用于许多点云配准网络架构;
两个贡献都只涉及对网络的小改动,但显著提高了其在真实对象级别姿态估计数据集上的性能;
它们首次使基于学习的点云配准方法在实际6D对象姿态估计数据集(如TUD-L、LINEMOD和Occluded-LINEMOD数据集)上取得了有意义的结果。
我们的代码公开发布,以促进可重复性和未来的研究。