3DV 2024 | 基于超点图聚类的可扩展三维全视分割

文摘   2024-11-10 07:00   上海  

作者 | NNU三维世界  编辑 | NNU三维世界

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

题目:

Scalable 3D Panoptic Segmentation As Superpoint Graph Clustering

作者:

Damien Robert, Hugo Raguet, Loic Landrieu

会议:

International Conference on 3D Vision 2024

链接:

https://arxiv.org/pdf/2401.06704

代码:

https://github.com/drprojects/ superpoint_transformer


概述

SuperCluster是一种高效的大规模三维点云全景分割方法,它将该任务重新定义为可扩展的图聚类问题,避免了资源密集的实例匹配步骤,通过使用局部辅助任务进行训练,显著提高了效率。该方法能够适应超点模式,进一步降低计算量,从而能够处理包含数百万个点和数千个物体的大型场景。SuperCluster在多个数据集上表现出色,包括S3DIS Area 5和ScanNetV2,分别实现了50.1 PQ和58.7 PQ的性能提升,并在KITTI-360和DALES等大规模移动测绘基准数据集上设立了新的性能记录。该模型参数量仅为209k,比最强竞争方法小30倍,训练速度也快15倍,展现了强大的计算能力和高效性。

图1 大规模全景分割结果


方法

现有的大规模3D全景分割研究较少,数据集(如S3DIS和ScanNet)在全景分割方面的标注有限,KITTI-360和DALES则尚无全景分割标注。现有方法依赖大规模网络,处理场景规模受限,且训练过程耗费资源,需要非最大抑制和实例匹配等昂贵操作。大多数方法对可检测对象数量有预设限制,增加复杂性和漏检风险。基于掩码的实例分割方法难以有效扩展到大规模场景。

作者提出了图聚类的方法SuperCluster,将全景分割任务重新表述为可扩展的图聚类问题,无需预设对象数量,适合大规模场景,使用神经网络预测图聚类参数,通过不依赖实际分割的辅助损失进行监督,避免昂贵的非最大抑制和实例匹配,操作完全基于超点,计算特征、监督和预测都在超点层级进行,极大地简化了复杂性。

图2 SuperCluster工作流程


图聚类的全视分割

将全景分割重新定义为一个图聚类问题,即基于语义标签和对象索引对3D点云 P 中的相邻点进行分组。

图构建:每个点与其邻近点连接,每个点 p∈P与其 K 近邻连接,形成图 G=(P,E)。通过这种方式,将相邻点按语义和对象特征聚类。目标是将图分割成若干簇,使得每个簇内的点在语义和对象特征上保持一致。

空间-语义正则化:

每个点p与一个语义预测 xpclass∈[0,1]C相关联,预测其所属类别的概率。通过结合每个点的空间位置 xpclass 和语义预测,确保对象预测的空间一致性。优化目标是最小化包含预测和分配标签之间的不一致以及基于图切割的正则化的能量函数。

优化问题:问题形式化为寻找一个分段常数近似 y,使得下列代价函数最小化:

其中 d(xp,yp)衡量不相似性,wp,q 为边权重,决定分割相邻点的代价。对象引导的边权重:通过神经网络预测对象一致性}ap,q,即两点属于同一对象的概率。边权重 wp,q 由该一致性得出,阻止对同一对象的点之间的切割。


局部监督

局部监督是其一个重要优势,它通过局部辅助任务来完成所有的监督学习,避免了计算开销较大的实例匹配步骤。所有的损失函数都是基于单个或两个点的简单函数计算,极大地提高了计算效率。

语义预测:为了进行语义预测,我们使用一个多层感知机(MLP)来对每个点的嵌入向量(ep)进行映射,生成类别分布 xpclass,其通过softmax函数计算:

这个类别分布通过与真实标签(cls(p))的交叉熵进行监督,计算损失:

其中,1(cls(p))表示对真实类别的one-hot编码。

物体一致性预测:为了预测两个相邻点 (p,q)之间的物体一致性 ap,q,我们使用另一个MLP ϕobject,它的输入是点对嵌入向量的对称组合,即:

其中 σ是sigmoid函数,∣⋅∣ 表示元素的绝对值。物体一致性 ap,q被视为一个二分类问题,若点 p和点 q 属于同一物体,则 ap,q=1,否则为 0。预测的物体一致性损失通过交叉熵计算:

其中 Bern(a)表示伯努利分布,参数为 a∈[0,1]

损失函数:最终,语义预测和物体一致性预测的损失函数被结合成一个总体损失:

其中 ∣ρ∣ 和 ∣ξ∣|分别是点集和边集的大小。通过这种局部监督策略,SuperCluster能够高效地进行训练,避免了全局匹配的复杂性,同时保持较高的准确性和效率。


拓展至超点

作者提出将具有相似局部几何形状和颜色的相邻点分组为超点(superpoints),并仅对超点进行嵌入和预测计算,而不是每个单独的点。通过这种方式,显著降低了计算和内存需求,从而使得方法可以一次处理更大的3D点云。

首先,作者将点云 P划分为一组互不重叠的超点 S。作者为每个超点 s关联了它的多数物体 obj(s),即超点内所有点的物体索引中出现最多的那个。形式化地,obj(s)=mode{obj(p)∣p∈s}。同样地,超点的类别预测 cls(s)也定义为超点内点类别的众数:cls(s)=mode{cls(p)∣p∈s}。

为了进行聚类,作者可以直接将点集 P 替换为超点集 S,通过连接具有相邻点的超点来定义图 G。同时,超点的坐标 xpclass 被替换为超点重心的坐标 xpclass。其他步骤保持不变。

为了计算每个超点的特征,作者使用了一个超点嵌入网络Superpoint Transformer模型,因其高效性和能够利用大范围空间上下文的能力。

在进行超点的语义预测时,来进行监督,只是将点的类别 cls(p)替换为超点的类别 cls(s)。

超点之间的物体一致性则是一个连续的值。作者通过如下公式来量化超点间的物体一致性:

其中,P∣object(s)表示点云中属于物体 o的点集,∣s∣是超点 s中点的数量。超点之间的物体一致性可以通过上述公式进行量化,并利用交叉熵来监督超点物体一致性的预测。

图3 重叠点对象协议



实验

数据集:S3DIS,ScanNet,KITTI-360,DALES

评估指标:

识别质量(RQ):评估对象识别和分类的准确性

分割质量(SQ):评估目标与预测分割间的对齐程度

全景质量(PQ):结合RQ和SQ的综合指标

语义分割性能:通过将点关联到其超点的类别来计算均值交并比(mIoU)

表1 在S3DIS Area5上表语义分割(SS)和全景分割(PS)性能


表2 在S3DIS6倍交叉验证的语义分割(SS)和全景分割(PS)性能


表3。在ScanNetv2的开放测试集上,我们报告了各种方法的语义分割(SS)和全景分割(PS)性能


表4 在KITTI-360的开放测试集上语义分割(SS)和全景分割(PS)性能


表5 在DALES测试集上语义分割(SS)和全景分割(PS)性能


SuperCluster在全景质量(PQ)和平均交并比(mIoU)等多个指标上均获得显著提升,并且模型规模仅为高性能模型的1/30,具备优异的内存效率。在S3DIS数据集的第5区域上,SuperCluster相比基准模型在PQ上提升了7.8点、mIoU上提升了3.2点,且首次使用6折交叉验证报告了全景分割结果。与现有大规模语义分割模型相比,尽管SuperCluster的语义分割性能略逊一筹,但其拥有更小的模型体积,仅1百万参数,能以更小的计算资源取得不错的分割效果。在ScanNet上,全景质量提升了25.2点,KITTI-360和DALES数据集也首次实现了全景分割的标准性能基准。


消融实验

SuperCluster在多项设计实验中评估了其方法的效率、适用性及其局限性。对于基于偏移预测的方法,虽然尝试通过调整超点位置来预测目标中心,但由于在大规模场景中的目标尺寸差异较大,预测不稳定,导致PQ分数下降1.3点。进一步实验表明,使用较小的超点分区(S/P≈15)降低了整体性能(-1.8 PQ),验证了超点策略在该方法中的核心作用。通过超点和聚类“oracle”测试,分别显示出在理想条件下,超点方法仅损失了少量精度(达93.4 PQ),而当前模型的图聚类精度上限为83.6 PQ。这表明SuperCluster的可扩展聚类设计保持了高精度,但仍有改进空间。

表6 消融实验



结论

本文提出了一种新的大规模三维全景分割方法SuperCluster,通过重新定义点云分割任务,将其转化为可扩展的图聚类问题。该方法跳过了当前全景分割方法中计算密集的步骤,能够高效地完成语义和实例分割,并实现更快的训练速度。SuperCluster通过局部监督和超点划分等创新性策略,仅依靠少量参数即可在多种数据集上(如S3DIS、ScanNet、KITTI-360和DALES)达到领先的分割性能,其性能不仅超越了许多传统模型,同时在处理效率和计算需求方面也具显著优势。

在方法细节上,SuperCluster采用局部监督的方式,通过简化点对点的监督损失和避免实例匹配操作,降低了训练负担并提高了模型的适用性。模型引入超点分区,将相邻且几何特性相似的点群划分为超点进行嵌入和预测,这一策略大幅减少了计算资源需求,从而能够处理包含数百万点的大规模场景。在实验评估中,SuperCluster表现出卓越的分割精度,并在使用理想超点和聚类的“oracle”条件下达到了高PQ分数,验证了模型在理想条件下的上限性能。

尽管在某些方面仍存在局限性,例如在低密度数据上的超点分区效果欠佳,SuperCluster为三维大规模全景分割提供了新的方向和思路。随着本方法在多个新数据集上的基准性能提升。

             图4 模型对四个数据集的全景预测

END


文 | 谢峥峥   排版 | 谢峥峥

审核 | 蒋腾平

团队 | 南师大地科院GISA-Team

“注:以上内容仅代表个人阅读与理解,详情请见原文。欢迎转载、转发本公众号发布的内容”


【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章