作者 | NNU三维世界 编辑 | NNU三维世界
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
题目:PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration
作者:Runzhao Yao , Shaoyi Du , Wenting Cui , Canhui Tang , and Chengwu Yang
会议:European Conference on Computer Vision
(ECCV 2024,欧洲计算机视觉会议)
论文链接:https://arxiv.org/pdf/2407.10142
代码链接:https://github.com/yaorz97/PARENet
✦✦
引言
点云配准是三维计算机视觉领域的一项基础研究,通过估计刚性变换来对齐部分重叠的两个点云。它广泛应用于自动驾驶、机器人定位、三维重建等领域。基于特征的点云配准框架得到了广泛的研究,主要涉及描述子提取和鲁棒变换估计。点云配准中一个固有的矛盾是点云的位姿变化及其描述子的不变性。为了提取这样的旋转不变描述符,已经提出了大量的方法,大致可以分为补丁智能和场景智能特征提取器。
本文提出了一种新的配准网络PARE-Net,其核心是充分利用旋转等变网络在特征提取和变换估计方面的优势,实现了一种轻量级、高效、鲁棒的配准方法,如图1所示。本文提出了一种新的位置感知旋转等变网络,用于高效、轻量级和鲁棒的配准。该网络可以提供强大的模型归纳偏倚来学习旋转等变/不变特征,从而解决上述限制。为了进一步提高描述符的独特性,本文提出了一种位置感知卷积,可以更好地学习局部结构的空间信息。此外,本文还提出了一个基于特征的假设提出器。它利用对细粒度结构方向进行编码的旋转等变特征来生成可靠的模型假设。每个对应都可以产生一个假设,因此它比需要多个可靠对应的经典估计器更有效。在此基础上,提出了对比旋转损失来增强旋转等变特征对数据退化的鲁棒性。在室内和室外数据集上的大量实验表明,本文的方法在配准召回方面明显优于SOTA方法,同时轻巧且速度快。此外,在旋转数据集上的实验证明了它对旋转变化的鲁棒性。
图1:3DMatch和3DLoMatch的实验结果。本文的方法明显优于最先进的方法配准召回(RR),同时保持快速和轻量级。
本文的主要贡献有:
1、充分利用旋转等变网络在特征提取和姿态估计方面的优势,实现了一种轻量级、高效、鲁棒的点云配准方法。
2、一个位置感知旋转等变卷积,可以更好地利用空间信息,使提取判别描述符。基于特征的假设提出器可以有效地生成多个可靠的假设,并且具有相对的旋转损失,使得旋转等变特征对数据退化具有更强的鲁棒性。
3、基于特征的假设提出器可以有效地生成多个可靠的假设,并且具有相对的旋转损失,使得旋转等变特征对数据退化具有更强的鲁棒性。
✦✦
方法
给定两个部分重叠的点云 P = { pi∈R3 | i = 1,2,···,N } 和 Q = { qj∈R3| j = 1,2,···,M },文章的目标是估计一个使源点云与目标点云对齐的变换T = (R∈SO(3), T∈R3)。为了解决这个问题,本文提出了一个基于旋转等变网络f(X)的配准框架,其输出对于输入SO(3)点云X上施加变化R是等变的,即f(R◦X) = R◦f(X)。可以看到,旋转等变特征f(R◦X)耦合了点云的结构信息f(X)和旋转信息R,可以进一步解耦,分别进行特征匹配和变换估计。PARE-Net的框架如图2所示。本文建立了一个基于PARE-Conv的分层主干来提取斑块级和点级旋转不变/等变特征。通过使用旋转不变特征以粗到精的方式估计对应关系。然后,基于特征的假设提出器利用旋转等变特征生成多个可靠的假设,并选择最佳的假设作为最终输出(R∗,t∗)。
图2:本文方法的框架。给定点云P和点云Q,采用基于PARE-Net的分层主干提取斑块级和点级特征。然后,本文采用一种由粗到精的方法,利用旋转不变的特征来获得点对应。最后,基于特征的假设提出者利用匹配的旋转等变特征,编码细粒度结构方向,生成多个可靠的假设。选择最佳假设并将其细化为最终解(R *, t *)。
2
2.1 位置感知旋转等变网络
PARE-Conv,给定一个点云P = { pi∈R3| i = 1,2,···,N},所附特征映射F = { Fi∈RC×3 },则F在点pi处经核g的一般卷积定义为:
其中Ni是点pi的K最近邻集合。核心问题在于核函数g的定义。在原始的VN中,它忽略了位置信息,简单地使用一个线性层WFi,然后是一个VN非线性层和一个VN池化层来聚合局部信息,其中W是可学习的权重矩阵,属于RC'×C。相反,本文定义了一组影子核点,配备了可学习的权重矩阵{Wk |k = 1, 2, ..., K}。在图像卷积中,每个像素对应一个卷积核,核的固定空间排列使得学习图像像素的分布信息成为可能。由于点云的不规则性,建立这样的点到核的对应关系是不切实际的。本文遵循KPConv 来建立数据点和核点之间的软分配,核函数g定义为:
其中g(pij) 是点 p处的核函数,它考虑了点 pi的第 j个邻居 pj(即 pij=pj−pi)。K是影子核点的数量。γ(pij,k)是一个相关函数,用于计算点 pj 和第 k 个影子核点之间的旋转不变相关性。这个相关性分数是通过网络学习得到的,能够反映点和影子核点之间的空间关系。Wk 是与第 k 个影子核点相关联的可学习权重矩阵。softmax 函数用于将相关性分数转换为概率分布,确保所有影子核点对卷积的贡献之和为1。这个公式的关键在于,它通过学习点云中点与影子核点之间的相关性,动态地构建了卷积核。这种方法允许网络自适应地调整其对局部几何结构的感知,同时保持对旋转的不变性。通过这种方式,PARE-Conv能够更有效地捕捉点云的局部特征,这对于点云配准任务至关重要。
全卷积网络,如图3所示,本文基于PARE-Conv开发了一个分层卷积网络。原始点云P和Q被下采样三次,以产生稀疏的超点Pˆ和Qˆ,它们的分辨率是原始点云的1/23。因此,利用三个卷积块来提取多层次特征。瓶颈旋转等变特征表示为ˆFP ∈ R|ˆP|׈d×3和ˆFQ ∈ R|ˆQ|× ˆd×3,使用VN不变层来获得旋转不变特征ˆXP ∈ R|ˆP|×3 ˆd和ˆXQ ∈ R|ˆQ|×3 ˆd。对于解码器,使用两个最近邻上采样块来获取第一级下采样点P˜和Q˜的旋转等变特征˜FP ∈ R|˜P|טd×3和˜FQ ∈ R|˜Q|טd×3。另一个VN不变层被用来获取它们的旋转不变特征˜XP ∈ R|˜P|×3˜d和˜XQ ∈ R|˜Q|×3˜d。按照GeoTrans的方法,本文采用点到节点的分组策略,将点P˜分配给超点Pˆ。属于超点Pˆi的P˜子集表示为GP,与之相关的旋转等变和不变特征矩阵分别表示为˜FP 和˜XP 。对于点云Q˜,点被分组为{GQ},特征矩阵以相同的方式表示为˜FQ 和 ˜XQ 。
3
2.2 粗到精的匹配
由于本文的主干同时输出补丁级和点级特征,本文使用粗到细的匹配策略来过滤掉非重叠区域并估计更准确的对应关系。
超点匹配,基于最近邻搜索的直接匹配叠加点对重复模式和低重叠问题缺乏鲁棒性。因此,本文利用秦等人提出的Geometric Transformer模块来推断两个点云的全局上下文,该模块迭代地使用自关注和交叉关注来捕获点云内部和点云之间的特征。本文将旋转不变性特征以及附加的位置信息输入该模块,得到更多的判别特征,然后计算高斯相关矩阵,进行对偶归一化运算。通过选取top-k个可靠对应,得到叠加点对应,C= {(pxi, qyi)|(, yi)∈arg maxx,y Sx,y},其中S为相似矩阵。
点匹配,当重叠点的对应ci = (pxi, qyi)建立后,本文在GP和GQ内搜索点级对应。通过使用匹配头Wm和显著性头Ws来解开特征的相似性和显著性。
3
2.3 基于特征的假设提议
由于本文的旋转等变特征编码了局部结构的方向信息,本文从匹配的特征中推导出姿态变换。传统的估计器,如RANSAC,随机抽取多对对应并使用它们的坐标来估计转换。只有当所有的采样对应都属于内层时,才能估计出可靠的变换。这种方法效率低下,并且需要多次迭代。相比之下,本文直接利用旋转等变特征来估计点云的姿态,每对对应产生一个假设。这种方法更有效。例如,本文的方法只产生1000个假设,就获得了非常高的配准召回率。相比之下,RANSAC即使有50,000次迭代,仍然不如本文的方法。此外,使用坐标求解变换时,由于忽略了方向信息,可能会使点云的方向错误对齐,如图3所示。本文的方法可以很容易地解决这个问题,因为旋转等变特征编码了局部结构的方向。此外,一些方法使用回归量来隐式估计来自等变特征的变换。相反,本文的方法可以通过特征对齐直接求解姿态估计,这在概念上更简单,计算效率更高。
图3:由于使用坐标进行对齐的模糊性而导致的不正确对齐的示例。这个问题可以通过使用包含细粒度局部方向信息的旋转等变特征来解决。
✦✦
实验
为了评估本文的方法的性能,文章将本文的方法与最先进的方法进行了比较,并在3DMatch、3DLoMatch和KITTI Odometry上进行了广泛的实验。最后,进行了消融研究,分析了该方法的组成部分。
1
3.1 室内数据集配准
我实验结果报告于表1。与SOTA方法相比,本文的方法在3DMatch和3DLoMatch上都实现了显著的高RR,同时保持了轻量级和计算效率。PEAL是一个强大的竞争对手,它采用迭代的方式进行对齐,因为需要预先重叠,导致大量的时间开销。相比之下,本文的方法与PEAL相比实现了7倍的速度提升,同时在3DLoMatch上的RR方面也比PEAL高出1.7%。GeoTrans、RoITR和本文的方法都采用了一种从粗到精的匹配框架。尽管使用了更轻量级的特征提取器,但本文的RR明显高于他们,特别是在3DLoMatch上,本文的方法分别比他们高6.2%和6.4%。这可以归因于本文的旋转等变网络更专注于学习判别结构信息的能力。YOHO和RoReg由于使用了组特征提取器和嵌入器而非常耗时。本文的效率优势源于两个方面。首先,本文利用轻量级的场景特征提取器,它只需要一个前向过程来提取密集的旋转等变特征。其次,基于特征的假设提出器可以利用匹配的旋转等变特征同时生成多个有效假设。因此,与使用多种方法的RANSAC相比,它更有效。
表1:3DMatch和3DLoMatch的评价结果。使用RANSAC估计器的方法用大小写标记,利用5000个点建立对应关系。
2
3.2 室外数据集配准
实验结果如表2所示。在KITTI数据集上,许多方法都达到了性能饱和,而本文的方法在达到最高TR时达到了最高的精度,本文的方法也显示出w.r.t.模型大小和运行速度的优势。
表2:KITTI数据集上的评估结果。
✦✦
结论
本文提出了一种轻量级的点云配准网络—PARE-Net。本文引入位置感知旋转等变卷积来有效地学习空间信息,从而提取更多独特的描述符。本文还提出了一个高效的基于特征的假设提出器来生成可靠的模型假设。大量的实验表明,本文的方法明显优于最先进的方法,并且对旋转变化具有很强的鲁棒性。
文 | 楚舜喆 排版 | 楚舜喆
审核 | 蒋腾平
团队 | 南京师范大学地理科学学院GISA-Team
注:以上内容仅代表个人阅读与理解,详情请见原文。欢迎转载、转发本公众号发布的内容。
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。