NeurIPS'24开源 | 无惧遮挡!多实例点云配准新SOTA!简单而强大的3D聚焦和匹配网络

科技   2024-11-15 07:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:3D Focusing-and-Matching Network for Multi-Instance Point Cloud Registration

作者:Liyuan Zhang, Le Hui, Qi Liu, Bo Li, Yuchao Dai

机构:Northwestern Polytechnical University

原文链接:https://arxiv.org/abs/2411.07740

代码链接:https://github.com/zlynpu/3DFMNet

1. 导读

多实例点云配准旨在估计整个场景中模型点云所有实例的姿态。现有的方法都采用先获取全局对应,然后聚类的策略来获取每个实例的姿态。然而,由于场景中杂乱和被遮挡的对象,很难获得模型点云与场景中所有实例之间的精确对应。为此,我们提出了一个简单而强大的3D聚焦和匹配网络,通过学习多对点云配准来进行多实例点云配准。具体来说,我们首先提出一个三维多物体聚焦模块来定位每个物体的中心并生成物体建议。通过使用自我注意和交叉注意将模型点云与结构相似的对象相关联,我们可以通过回归对象中心来定位潜在的匹配实例。然后,我们提出了一个三维双掩模实例匹配模块来估计模型点云和每个物体之间的姿态。它执行实例掩码和重叠掩码掩码,以准确预测成对对应。在Scan2CAD和ROBI两个公共基准上的大量实验表明,我们的方法在多实例点云配准任务上取得了新的性能。

2. 引言

点云配准是计算机视觉中的一个基础过程,涉及通过估计刚体变换来对齐两个点云。在诸如机器人分拣等实际应用中,多实例配准成为一项关键需求,要求将模型的点云与场景中的多个实例进行对齐。与单点云配准相比,这项任务呈现出更高的复杂性,这主要是由于实例数量不确定、实例间遮挡等挑战。在杂乱的环境中,这些复杂性尤为突出,此时精确对齐对于机器人有效操作至关重要。因此,如何提高多实例点云配准的精度仍然是一个具有挑战性的问题。

针对多实例点云配准已有一些研究尝试。现有流程大致可分为两类:两阶段法和一阶段法。对于两阶段法,我们首先提取模型点云与场景点云之间的点对对应关系,然后通过多模型拟合来恢复每个实例的变换。尽管两阶段方法简单可行,但这些方法的成功与否很大程度上取决于对应关系的质量。此外,由于物体杂乱且存在遮挡,很难将对应关系准确聚类到单个实例中以进行后续成对配准。对于一阶段法,它直接将模型点云和场景点云作为输入,并直接输出姿态。作为一阶段法的代表工作,Yu等人提出了一种由粗到细的框架,该框架学习提取实例感知的对应关系,以在不进行多模型拟合的情况下估计变换。由于在对应关系中考虑了实例级信息,它可以获得细粒度的特征,从而提升性能。然而,对于包含多个物体的场景,获得准确的实例级对应关系非常困难,尤其是对于杂乱且存在遮挡的物体。因此,为了减轻学习模型点云与场景中多个物体之间对应关系的难度,我们首先考虑关注物体中心,然后学习物体候选区域与模型点云之间的匹配。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等

在本文中,我们提出了一种简单而强大的3D聚焦与匹配网络,用于多实例点云配准。我们的方法的核心思想是将多实例点云配准分解为多个成对点云配准。具体而言,我们提出了一个3D多物体聚焦模块来定位潜在物体中心并生成物体候选区域。为了将物体与输入的CAD模型相关联,我们使用自注意力和交叉注意力来学习结构上相似的特征,从而提高物体中心预测的准确性。基于学习到的物体中心,我们结合CAD模型的半径,通过球查询操作生成物体候选区域。之后,我们提出了一个3D双重掩码实例匹配模块,以学习CAD模型与物体候选区域之间的精确成对配准。它采用实例掩码来过滤物体候选区域中的背景点,并使用重叠掩码来改善不完整物体的成对部分配准。

3. 效果展示

多示例点云配准中我们的方法与现有方法的比较。我们的方法将多实例点云配准分解为多个成对的点云配准。

4. 主要贡献

我们的贡献主要体现在三个方面:

我们的主要贡献不在于网络架构,而在于提出了一种新的流程来解决多实例点云配准问题。现有方法(如PointCLM和MIRETR)主要学习单个CAD模型与多个物体之间的对应关系(一对多范式),而我们的方法则通过首先检测物体中心,然后学习CAD模型与每个物体候选区域之间的匹配,将一对多范式分解为多个成对点云配准(多个一对一范式)。

我们的新流程简单而强大,在Scan2CAD和ROBI数据集上均达到了新的最优水平。特别是在具有挑战性的ROBI数据集上,我们的方法在MR、MP和MF方面显著优于之前的SOTA方法MIRETR,提升约7%。

本文提出的将多实例点云配准逐步分解为多个成对配准的方法,对其他任务(如多目标跟踪和地图构建)也具有重要的启示意义。

5. 方法

整体流程如图2所示。我们的方法是一个两阶段框架,首先定位每个物体的中心,然后进行成对对应关系匹配。对于第一阶段,我们提出了一个3D多物体聚焦模块,通过学习输入模型点云与场景点云之间的相关性来检测潜在的实例中心。对于第二阶段,我们设计了一个3D双重掩码实例匹配模块,用于预测输入模型点云与每个物体中心定位区域之间的成对对应关系。最后,我们介绍了本文方法的损失函数。

6. 实验结果

由于我们的方法首先定位物体,然后执行成对对应关系匹配,因此物体定位的精确度对后续的匹配有着重要影响。在表1中,我们提供了我们方法的性能上限,标记为“3DFMNet∗”。具体而言,我们利用真实物体中心来生成物体区域,并用它来评估我们方法的性能上限。对于Scan2CAD数据集,召回率(MR)和精确度(MP)的上限分别约为97%和94%。然而,由于ROBI数据集中的物体杂乱且不完整,MR和MP的上限仅为约52%和63%。尽管如此,我们方法的性能上限仍然高于之前的方法。总之,理论上的性能上限表明,先聚焦后匹配的策略可以确保我们的方法取得出色的性能。

为了评估3D多物体聚焦模块,我们计算了检测物体中心的平均召回率(MR)、平均精确度(MP)和均方根误差(RMSE)。我们将成功检测定义为预测中心位于真实中心距离≤0.1 × rinstance(其中rinstance为实例半径)的范围内的情况。如表2所示,该模块在MR、MP和RMSE方面均取得了显著结果,证实了其在第一阶段识别物体中心的有效性。

在第二阶段,3D双重掩码实例匹配模块通过应用实例和重叠掩码学习来减少误报,从而改进检测结果。在分析Scan2CAD数据集时,我们发现最初有1.05%的物体被错误检测(25个实例),但其中22个被掩码模块成功过滤掉。这些误检测的影响很小,因为错误检测的物体产生的匹配点很少,从而防止了奇异值分解(SVD)计算相对姿态,并限制了它们对最终结果的影响。

对于未见场景的实验,我们遵循MIRETR的方法,使用ShapeNet数据集(共55个类别)来评估对新类别的泛化能力。具体而言,我们使用前30个类别的CAD模型进行训练,并在剩余的25个类别上进行测试。为了解决类别不平衡问题,我们像MIRETR一样,每个类别最多采样500个模型。每对点云包括一个随机选择的CAD模型和一个应用了4至16个随机姿态的场景模型,从而生成了8634对用于训练、900对用于验证和7683对用于测试的数据。表3显示,与MIRETR相比,我们的方法在未见场景上表现出了强大的泛化能力。

可视化结果:

7. 总结 & 未来工作

在本文中,我们提出了一种用于多实例点云配准的3D聚焦与匹配网络(3DFMNet)。具体而言,我们首先提出了一种3D多物体聚焦模块,该模块通过学习模型点云和场景点云之间的相关性来定位潜在目标在场景中的中心。然后,我们设计了一个3D双重掩码实例匹配模块,以学习模型点云和定位物体之间的成对对应关系。在两个公共基准数据集Scan2CAD和ROBI上进行的大量实验表明,我们的方法在多实例点云配准任务上达到了新的最优性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章