NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

科技 2024-11-15 07:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：3D Focusing-and-Matching Network for Multi-Instance Point Cloud Registration

作者：Liyuan Zhang, Le Hui, Qi Liu, Bo Li, Yuchao Dai

机构：Northwestern Polytechnical University

原文链接：https://arxiv.org/abs/2411.07740

代码链接：https://github.com/zlynpu/3DFMNet

1. 导读

多实例点云配准旨在估计整个场景中模型点云所有实例的姿态。现有的方法都采用先获取全局对应，然后聚类的策略来获取每个实例的姿态。然而，由于场景中杂乱和被遮挡的对象，很难获得模型点云与场景中所有实例之间的精确对应。为此，我们提出了一个简单而强大的3D聚焦和匹配网络，通过学习多对点云配准来进行多实例点云配准。具体来说，我们首先提出一个三维多物体聚焦模块来定位每个物体的中心并生成物体建议。通过使用自我注意和交叉注意将模型点云与结构相似的对象相关联，我们可以通过回归对象中心来定位潜在的匹配实例。然后，我们提出了一个三维双掩模实例匹配模块来估计模型点云和每个物体之间的姿态。它执行实例掩码和重叠掩码掩码，以准确预测成对对应。在Scan2CAD和ROBI两个公共基准上的大量实验表明，我们的方法在多实例点云配准任务上取得了新的性能。

2. 引言

点云配准是计算机视觉中的一个基础过程，涉及通过估计刚体变换来对齐两个点云。在诸如机器人分拣等实际应用中，多实例配准成为一项关键需求，要求将模型的点云与场景中的多个实例进行对齐。与单点云配准相比，这项任务呈现出更高的复杂性，这主要是由于实例数量不确定、实例间遮挡等挑战。在杂乱的环境中，这些复杂性尤为突出，此时精确对齐对于机器人有效操作至关重要。因此，如何提高多实例点云配准的精度仍然是一个具有挑战性的问题。

针对多实例点云配准已有一些研究尝试。现有流程大致可分为两类：两阶段法和一阶段法。对于两阶段法，我们首先提取模型点云与场景点云之间的点对对应关系，然后通过多模型拟合来恢复每个实例的变换。尽管两阶段方法简单可行，但这些方法的成功与否很大程度上取决于对应关系的质量。此外，由于物体杂乱且存在遮挡，很难将对应关系准确聚类到单个实例中以进行后续成对配准。对于一阶段法，它直接将模型点云和场景点云作为输入，并直接输出姿态。作为一阶段法的代表工作，Yu等人提出了一种由粗到细的框架，该框架学习提取实例感知的对应关系，以在不进行多模型拟合的情况下估计变换。由于在对应关系中考虑了实例级信息，它可以获得细粒度的特征，从而提升性能。然而，对于包含多个物体的场景，获得准确的实例级对应关系非常困难，尤其是对于杂乱且存在遮挡的物体。因此，为了减轻学习模型点云与场景中多个物体之间对应关系的难度，我们首先考虑关注物体中心，然后学习物体候选区域与模型点云之间的匹配。推荐课程：聊一聊经典三维点云方法，包括：点云拼接、聚类、表面重建、QT+VTK等。

在本文中，我们提出了一种简单而强大的3D聚焦与匹配网络，用于多实例点云配准。我们的方法的核心思想是将多实例点云配准分解为多个成对点云配准。具体而言，我们提出了一个3D多物体聚焦模块来定位潜在物体中心并生成物体候选区域。为了将物体与输入的CAD模型相关联，我们使用自注意力和交叉注意力来学习结构上相似的特征，从而提高物体中心预测的准确性。基于学习到的物体中心，我们结合CAD模型的半径，通过球查询操作生成物体候选区域。之后，我们提出了一个3D双重掩码实例匹配模块，以学习CAD模型与物体候选区域之间的精确成对配准。它采用实例掩码来过滤物体候选区域中的背景点，并使用重叠掩码来改善不完整物体的成对部分配准。

3. 效果展示

多示例点云配准中我们的方法与现有方法的比较。我们的方法将多实例点云配准分解为多个成对的点云配准。

4. 主要贡献

我们的贡献主要体现在三个方面：

我们的主要贡献不在于网络架构，而在于提出了一种新的流程来解决多实例点云配准问题。现有方法（如PointCLM和MIRETR）主要学习单个CAD模型与多个物体之间的对应关系（一对多范式），而我们的方法则通过首先检测物体中心，然后学习CAD模型与每个物体候选区域之间的匹配，将一对多范式分解为多个成对点云配准（多个一对一范式）。

我们的新流程简单而强大，在Scan2CAD和ROBI数据集上均达到了新的最优水平。特别是在具有挑战性的ROBI数据集上，我们的方法在MR、MP和MF方面显著优于之前的SOTA方法MIRETR，提升约7%。

本文提出的将多实例点云配准逐步分解为多个成对配准的方法，对其他任务（如多目标跟踪和地图构建）也具有重要的启示意义。

5. 方法

整体流程如图2所示。我们的方法是一个两阶段框架，首先定位每个物体的中心，然后进行成对对应关系匹配。对于第一阶段，我们提出了一个3D多物体聚焦模块，通过学习输入模型点云与场景点云之间的相关性来检测潜在的实例中心。对于第二阶段，我们设计了一个3D双重掩码实例匹配模块，用于预测输入模型点云与每个物体中心定位区域之间的成对对应关系。最后，我们介绍了本文方法的损失函数。

6. 实验结果

由于我们的方法首先定位物体，然后执行成对对应关系匹配，因此物体定位的精确度对后续的匹配有着重要影响。在表1中，我们提供了我们方法的性能上限，标记为“3DFMNet∗”。具体而言，我们利用真实物体中心来生成物体区域，并用它来评估我们方法的性能上限。对于Scan2CAD数据集，召回率（MR）和精确度（MP）的上限分别约为97%和94%。然而，由于ROBI数据集中的物体杂乱且不完整，MR和MP的上限仅为约52%和63%。尽管如此，我们方法的性能上限仍然高于之前的方法。总之，理论上的性能上限表明，先聚焦后匹配的策略可以确保我们的方法取得出色的性能。

为了评估3D多物体聚焦模块，我们计算了检测物体中心的平均召回率（MR）、平均精确度（MP）和均方根误差（RMSE）。我们将成功检测定义为预测中心位于真实中心距离≤0.1 × rinstance（其中rinstance为实例半径）的范围内的情况。如表2所示，该模块在MR、MP和RMSE方面均取得了显著结果，证实了其在第一阶段识别物体中心的有效性。

在第二阶段，3D双重掩码实例匹配模块通过应用实例和重叠掩码学习来减少误报，从而改进检测结果。在分析Scan2CAD数据集时，我们发现最初有1.05%的物体被错误检测（25个实例），但其中22个被掩码模块成功过滤掉。这些误检测的影响很小，因为错误检测的物体产生的匹配点很少，从而防止了奇异值分解（SVD）计算相对姿态，并限制了它们对最终结果的影响。

对于未见场景的实验，我们遵循MIRETR的方法，使用ShapeNet数据集（共55个类别）来评估对新类别的泛化能力。具体而言，我们使用前30个类别的CAD模型进行训练，并在剩余的25个类别上进行测试。为了解决类别不平衡问题，我们像MIRETR一样，每个类别最多采样500个模型。每对点云包括一个随机选择的CAD模型和一个应用了4至16个随机姿态的场景模型，从而生成了8634对用于训练、900对用于验证和7683对用于测试的数据。表3显示，与MIRETR相比，我们的方法在未见场景上表现出了强大的泛化能力。

可视化结果：

7. 总结 & 未来工作

在本文中，我们提出了一种用于多实例点云配准的3D聚焦与匹配网络（3DFMNet）。具体而言，我们首先提出了一种3D多物体聚焦模块，该模块通过学习模型点云和场景点云之间的相关性来定位潜在目标在场景中的中心。然后，我们设计了一个3D双重掩码实例匹配模块，以学习模型点云和定位物体之间的成对对应关系。在两个公共基准数据集Scan2CAD和ROBI上进行的大量实验表明，我们的方法在多实例点云配准任务上达到了新的最优性能。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710710&idx=2&sn=35cc453325e486a7c6181ffdc920e427

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉