ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

文摘 2024-11-21 07:02 上海

作者 | NNU三维世界编辑 | NNU三维世界

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

题目：PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration

作者：Runzhao Yao , Shaoyi Du , Wenting Cui , Canhui Tang , and Chengwu Yang

会议：European Conference on Computer Vision

（ECCV 2024，欧洲计算机视觉会议）

论文链接：https://arxiv.org/pdf/2407.10142

代码链接：https://github.com/yaorz97/PARENet

✦^✦

引言

点云配准是三维计算机视觉领域的一项基础研究，通过估计刚性变换来对齐部分重叠的两个点云。它广泛应用于自动驾驶、机器人定位、三维重建等领域。基于特征的点云配准框架得到了广泛的研究，主要涉及描述子提取和鲁棒变换估计。点云配准中一个固有的矛盾是点云的位姿变化及其描述子的不变性。为了提取这样的旋转不变描述符，已经提出了大量的方法，大致可以分为补丁智能和场景智能特征提取器。

本文提出了一种新的配准网络PARE-Net，其核心是充分利用旋转等变网络在特征提取和变换估计方面的优势，实现了一种轻量级、高效、鲁棒的配准方法，如图1所示。本文提出了一种新的位置感知旋转等变网络，用于高效、轻量级和鲁棒的配准。该网络可以提供强大的模型归纳偏倚来学习旋转等变/不变特征，从而解决上述限制。为了进一步提高描述符的独特性，本文提出了一种位置感知卷积，可以更好地学习局部结构的空间信息。此外，本文还提出了一个基于特征的假设提出器。它利用对细粒度结构方向进行编码的旋转等变特征来生成可靠的模型假设。每个对应都可以产生一个假设，因此它比需要多个可靠对应的经典估计器更有效。在此基础上，提出了对比旋转损失来增强旋转等变特征对数据退化的鲁棒性。在室内和室外数据集上的大量实验表明，本文的方法在配准召回方面明显优于SOTA方法，同时轻巧且速度快。此外，在旋转数据集上的实验证明了它对旋转变化的鲁棒性。

图1：3DMatch和3DLoMatch的实验结果。本文的方法明显优于最先进的方法配准召回（RR），同时保持快速和轻量级。

本文的主要贡献有:

1、充分利用旋转等变网络在特征提取和姿态估计方面的优势，实现了一种轻量级、高效、鲁棒的点云配准方法。

2、一个位置感知旋转等变卷积，可以更好地利用空间信息，使提取判别描述符。基于特征的假设提出器可以有效地生成多个可靠的假设，并且具有相对的旋转损失，使得旋转等变特征对数据退化具有更强的鲁棒性。

3、基于特征的假设提出器可以有效地生成多个可靠的假设，并且具有相对的旋转损失，使得旋转等变特征对数据退化具有更强的鲁棒性。

✦^✦

方法

给定两个部分重叠的点云 P = { p_i∈R³| i = 1,2，···，N } 和 Q = { q_j∈R³| j = 1,2，···，M }，文章的目标是估计一个使源点云与目标点云对齐的变换T = (R∈SO(3), T∈R3)。为了解决这个问题，本文提出了一个基于旋转等变网络f(X)的配准框架，其输出对于输入SO(3)点云X上施加变化R是等变的，即f(R◦X) = R◦f(X)。可以看到，旋转等变特征f（R◦X）耦合了点云的结构信息f(X)和旋转信息R，可以进一步解耦，分别进行特征匹配和变换估计。PARE-Net的框架如图2所示。本文建立了一个基于PARE-Conv的分层主干来提取斑块级和点级旋转不变/等变特征。通过使用旋转不变特征以粗到精的方式估计对应关系。然后，基于特征的假设提出器利用旋转等变特征生成多个可靠的假设，并选择最佳的假设作为最终输出（R^∗,t^∗）。

图2：本文方法的框架。给定点云P和点云Q，采用基于PARE-Net的分层主干提取斑块级和点级特征。然后，本文采用一种由粗到精的方法，利用旋转不变的特征来获得点对应。最后，基于特征的假设提出者利用匹配的旋转等变特征，编码细粒度结构方向，生成多个可靠的假设。选择最佳假设并将其细化为最终解（R *, t *）。

2.1 位置感知旋转等变网络

PARE-Conv，给定一个点云P = { p_i∈R³| i = 1,2，···，N}，所附特征映射F = { F_i∈R^C×3}，则F在点pi处经核g的一般卷积定义为：

其中Ni是点pi的K最近邻集合。核心问题在于核函数g的定义。在原始的VN中，它忽略了位置信息，简单地使用一个线性层WF_i，然后是一个VN非线性层和一个VN池化层来聚合局部信息，其中W是可学习的权重矩阵，属于R^C'×C。相反，本文定义了一组影子核点，配备了可学习的权重矩阵{W_k|k = 1, 2, ..., K}。在图像卷积中，每个像素对应一个卷积核，核的固定空间排列使得学习图像像素的分布信息成为可能。由于点云的不规则性，建立这样的点到核的对应关系是不切实际的。本文遵循KPConv 来建立数据点和核点之间的软分配，核函数g定义为：

其中g(pij) 是点 p处的核函数，它考虑了点 pi的第 j个邻居 pj（即 pij=pj−pi）。K是影子核点的数量。γ(pij,k)是一个相关函数，用于计算点 pj 和第 k 个影子核点之间的旋转不变相关性。这个相关性分数是通过网络学习得到的，能够反映点和影子核点之间的空间关系。Wk 是与第 k 个影子核点相关联的可学习权重矩阵。softmax 函数用于将相关性分数转换为概率分布，确保所有影子核点对卷积的贡献之和为1。这个公式的关键在于，它通过学习点云中点与影子核点之间的相关性，动态地构建了卷积核。这种方法允许网络自适应地调整其对局部几何结构的感知，同时保持对旋转的不变性。通过这种方式，PARE-Conv能够更有效地捕捉点云的局部特征，这对于点云配准任务至关重要。

全卷积网络，如图3所示，本文基于PARE-Conv开发了一个分层卷积网络。原始点云P和Q被下采样三次，以产生稀疏的超点Pˆ和Qˆ，它们的分辨率是原始点云的1/2³。因此，利用三个卷积块来提取多层次特征。瓶颈旋转等变特征表示为ˆF^P ∈ R^{|ˆP|×ˆd×3}和ˆF^Q ∈ R^{|ˆQ|× ˆd×3}，使用VN不变层来获得旋转不变特征ˆX^P ∈ R^{|ˆP|×3 ˆd}和ˆX^Q ∈ R^{|ˆQ|×3 ˆd}。对于解码器，使用两个最近邻上采样块来获取第一级下采样点P˜和Q˜的旋转等变特征˜F^P ∈ R^{|˜P|×˜d×3}和˜F^Q ∈ R^{|˜Q|×˜d×3}。另一个VN不变层被用来获取它们的旋转不变特征˜X^P ∈ R^|˜P|×3˜d和˜X^Q ∈ R^|˜Q|×3˜d。按照GeoTrans的方法，本文采用点到节点的分组策略，将点P˜分配给超点Pˆ。属于超点Pˆi的P˜子集表示为G^P，与之相关的旋转等变和不变特征矩阵分别表示为˜F^P 和˜X^P 。对于点云Q˜，点被分组为{G^Q}，特征矩阵以相同的方式表示为˜F^Q和 ˜X^Q。

2.2 粗到精的匹配

由于本文的主干同时输出补丁级和点级特征，本文使用粗到细的匹配策略来过滤掉非重叠区域并估计更准确的对应关系。

超点匹配，基于最近邻搜索的直接匹配叠加点对重复模式和低重叠问题缺乏鲁棒性。因此，本文利用秦等人提出的Geometric Transformer模块来推断两个点云的全局上下文，该模块迭代地使用自关注和交叉关注来捕获点云内部和点云之间的特征。本文将旋转不变性特征以及附加的位置信息输入该模块，得到更多的判别特征，然后计算高斯相关矩阵，进行对偶归一化运算。通过选取top-k个可靠对应，得到叠加点对应，C= {(p_xi, q_yi)|(, yi)∈arg max_x,y S_x,y}，其中S为相似矩阵。

点匹配，当重叠点的对应c_i = (p_xi, q_yi)建立后，本文在G^P和G^Q内搜索点级对应。通过使用匹配头Wm和显著性头Ws来解开特征的相似性和显著性。

2.3 基于特征的假设提议

由于本文的旋转等变特征编码了局部结构的方向信息，本文从匹配的特征中推导出姿态变换。传统的估计器，如RANSAC，随机抽取多对对应并使用它们的坐标来估计转换。只有当所有的采样对应都属于内层时，才能估计出可靠的变换。这种方法效率低下，并且需要多次迭代。相比之下，本文直接利用旋转等变特征来估计点云的姿态，每对对应产生一个假设。这种方法更有效。例如，本文的方法只产生1000个假设，就获得了非常高的配准召回率。相比之下，RANSAC即使有50,000次迭代，仍然不如本文的方法。此外，使用坐标求解变换时，由于忽略了方向信息，可能会使点云的方向错误对齐，如图3所示。本文的方法可以很容易地解决这个问题，因为旋转等变特征编码了局部结构的方向。此外，一些方法使用回归量来隐式估计来自等变特征的变换。相反，本文的方法可以通过特征对齐直接求解姿态估计，这在概念上更简单，计算效率更高。

图3：由于使用坐标进行对齐的模糊性而导致的不正确对齐的示例。这个问题可以通过使用包含细粒度局部方向信息的旋转等变特征来解决。

✦^✦

实验

为了评估本文的方法的性能，文章将本文的方法与最先进的方法进行了比较，并在3DMatch、3DLoMatch和KITTI Odometry上进行了广泛的实验。最后，进行了消融研究，分析了该方法的组成部分。

3.1 室内数据集配准

我实验结果报告于表1。与SOTA方法相比，本文的方法在3DMatch和3DLoMatch上都实现了显著的高RR，同时保持了轻量级和计算效率。PEAL是一个强大的竞争对手，它采用迭代的方式进行对齐，因为需要预先重叠，导致大量的时间开销。相比之下，本文的方法与PEAL相比实现了7倍的速度提升，同时在3DLoMatch上的RR方面也比PEAL高出1.7%。GeoTrans、RoITR和本文的方法都采用了一种从粗到精的匹配框架。尽管使用了更轻量级的特征提取器，但本文的RR明显高于他们，特别是在3DLoMatch上，本文的方法分别比他们高6.2%和6.4%。这可以归因于本文的旋转等变网络更专注于学习判别结构信息的能力。YOHO和RoReg由于使用了组特征提取器和嵌入器而非常耗时。本文的效率优势源于两个方面。首先，本文利用轻量级的场景特征提取器，它只需要一个前向过程来提取密集的旋转等变特征。其次，基于特征的假设提出器可以利用匹配的旋转等变特征同时生成多个有效假设。因此，与使用多种方法的RANSAC相比，它更有效。

表1：3DMatch和3DLoMatch的评价结果。使用RANSAC估计器的方法用大小写标记，利用5000个点建立对应关系。

3.2 室外数据集配准

实验结果如表2所示。在KITTI数据集上，许多方法都达到了性能饱和，而本文的方法在达到最高TR时达到了最高的精度，本文的方法也显示出w.r.t.模型大小和运行速度的优势。

表2：KITTI数据集上的评估结果。

✦^✦

结论

本文提出了一种轻量级的点云配准网络—PARE-Net。本文引入位置感知旋转等变卷积来有效地学习空间信息，从而提取更多独特的描述符。本文还提出了一个高效的基于特征的假设提出器来生成可靠的模型假设。大量的实验表明，本文的方法明显优于最先进的方法，并且对旋转变化具有很强的鲁棒性。

文 | 楚舜喆排版 | 楚舜喆

审核 | 蒋腾平

团队 | 南京师范大学地理科学学院GISA-Team

注：以上内容仅代表个人阅读与理解，详情请见原文。欢迎转载、转发本公众号发布的内容。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247517081&idx=3&sn=9ba21d96aac0cb313c45887de99f33c6

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉