论文一起读 | PDF: 基于概率驱动框架的开放世界三维语义分割

文摘   科技   2024-10-24 11:00   广东  

导读

本文是VCC吕浩源同学对论文 PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation 的解读,该工作来自华中科技大学计算机学院并已被发表在计算机视觉顶级会议CVPR 2024上。 

项目主页: 
https://github.com/JinfengX/PointCloudPDF

这篇文章提出了一种概率驱动的框架(PDF),用于处理三维点云的开放世界语义分割任务,该框架通过不确定性估计、伪标签生成和增量知识蒸馏策略,使模型能够识别未知类别并逐步更新知识库,从而提升了在实际动态场景中的应用效果。

注:本文图片均来自原论文与其项目主页。



I


 引言 

近年来,三维点云的语义分割在虚拟/增强现实、机器人技术和自动驾驶等领域得到了广泛关注。传统的点云语义分割方法通常假设世界是一个封闭集,并且在训练和推理阶段中的对象类别保持一致。然而,这种假设在实际的动态场景中显然是不成立的,模型在遇到未见过的类别时容易做出错误决策。此外,传统方法还难以应对不断变化的环境,无法像人类一样持续扩展其知识库。


为了解决这些问题,本次导读论文提出了一种新的概率驱动框架(PDF),用于开放世界的三维点云语义分割任务。该框架包括两个主要模块:一个轻量级的不确定性解码器和增量知识蒸馏策略。解码器通过估计不确定性来识别未知类别,而增量知识蒸馏策略则通过生成伪标签逐步将新类别融入现有知识库。借助这种方法,模型能够像人类一样识别未知对象并逐步学习新知识,从而显著提升了在S3DIS和ScanNetv2数据集上的表现,超越了现有的最先进方法。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种新的概率驱动框架(PDF),用于开放世界的三维点云语义分割任务;

  • 设计了一个轻量级的不确定性解码器,通过估计不确定性来识别未知类别;

  • 提出了一种伪标签生成方案增量知识蒸馏策略,有效地将新类别逐步融入现有知识库。


III


 方法介绍 

PDF方法由两大关键组件构成:不确定性解码器和增量知识蒸馏策略。第一部分的目标是在训练过程中识别未知类别并生成相应的伪标签,而第二部分则致力于在不忘记已知知识的情况下,逐步将新类别融入到模型的知识库中。


不确定性解码器设计
在PDF的第一部分中,如图1(a)所示,模型通过一个轻量级的不确定性解码器来估计每个点的置信度,以识别在训练过程中未见过的未知类别。该解码器与主干网络的解码器结构类似,通过编码器特征和主干解码器隐藏层的跳跃连接,生成描述模型对分割结果置信度的不确定性输出。为了准确捕捉未知类别的特征,PDF设计了一个伪标签生成策略,将概率输出与不确定性结合起来生成伪标签。这一部分旨在增强模型对未知类别的识别能力。 
图1 (a)PDF的网络结构;(b)增量学习的知识蒸馏示意图;
(c)伪标签生成策略


伪标签生成策略
在PDF的第三部分中,如图1(c)所示,根据输入点云的概率输出,通过最大化Softmax概率方法Maximum Softmax Probability (MSP)来估计每个点的置信度来区分已知和未知类别。图中不同深度的蓝色的点代表不同置信度的点。然后根据置信度分布利用启发式未知感知算法Heuristic unknown-aware algorithm (HUA)识别出哪些区域可能包含未知类别,HUA算法首先将根据置信度排序,选择一部分置信度最低的点作为终止点,这些种子点很可能属于未知类别。这些种子点作为后续迭代过程的起点。HUA算法通过启发式搜索逐步扩大种子点集,以包含更多可能属于未知类别的点。这个过程是迭代的,每次迭代都会选择与当前种子点集最相似的一组邻近点并将其加入种子点集中。相似性可以通过几何距离和置信度来定义。当达到停止条件则停止迭代,停止条件可以表示为:
该公式表示为如果种子点集的平均置信度上升到与全体点云的平均置信度接近具体接近程度由参数λ控制,则停止迭代。一旦识别出未知区域,接下来使用三维图边界检测算法3D graph boundary detection algorithm (GBD)来进一步精确定位未知对象。GBD算法将已识别的未知区域嵌入到一个三维图结构中。在这个图中每个点都通过边与其临近点相连,边的权重为两点间的相似性,为了减少计算复杂度,GBD算法接下来会计算图的最小生成树Minumum Spanning Tree (MST),该树通过最小化所有边的总权重连接所有节点。MST的作用是保留图中最重要的连接关系,同时剔除冗余边,这样可以减少噪声并突出真正的边界。在边界检测过程中,GBD算法利用高斯混合模型Gaussian Mixed Model (GMM) 来拟合边的权重分布。

图2 边的权重分布图

图2展示了一个边权重分布图,图中曲线代表了通过高斯混合模型(GMM)拟合的边权重分布。横轴表示边权重,纵轴表示密度。图中,已知类别的节点和未知类别的节点在边权重上的分布是不同的。红色虚线表示使用3σ准则从拟合的高斯分布中得到的阈值µ1 − ϵσ1,用以区分已知类别和未知类别的节点。

伪标签生成策略
在增量知识蒸馏过程中,模型被分为教师模型和学生模型。教师模型是基于之前训练好的模型,用来提供已知类别的知识。而学生模型则是当前需要学习新类别的模型。通过将教师模型中的知识蒸馏到学生模型中,可以确保学生模型在学习新知识时不会忘记旧知识。如图一(b)所示,输入点云被同时输入到教师模型和学生模型中。教师模型生成对已知类别的概率输出,而学生模型生成对已知类别和新类别的概率输出。为了在学生模型中保留旧知识,论文中引入了一个蒸馏过程,即通过使用蒸馏温度参数T对教师模型的输出进行平滑处理,生成伪概率标签yi,并与新类别的概率标签,即one-hot编码进行结合得到增量学习的真值用来监督模型。

IV


 部分结果展示 

如图3实验结果可视化展示,可以看出相比于现有其他方法,PDF在OSS任务上可以更好地识别出新类别同时未在旧类别上出现灾难性遗忘现象。

图3 PDF与其他现有方法在S3DIS和ScanNetv2的对比

从表1可以看出,PDF方法在AUPR和AUROC指标下都有不错的表现,但在mIoU指标上却低于其他现有方法。

表1 在不同数据集上使用两种骨干网络进行OSS任务的结果


表2展示了在S3DIS数据集上进行增量学习的结果,重点评估了模型在已知类别和新类别上的表现,以及整体的mIoU。相比于其他增量学习方法,PDF方法在增量学习中很好保留了对已知类别的记忆,避免了灾难性遗忘现象。

表2 在S3DIS数据集上不同增量学习的结果


V


 总结与展望 
本工作提出的PDF方法在开放世界语义分割任务中显著提升了模型在未知类别识别和增量学习中的表现,成功解决了传统封闭集语义分割方法在动态场景下的局限性。通过引入轻量级不确定性解码器和增量知识蒸馏策略,PDF方法实现了对新类别的有效识别和学习,同时保留了对已知类别的记忆,从而增强了模型的鲁棒性和泛化性。

实验结果表明,PDF方法在S3DIS和ScanNetv2数据集上均优于现有的最先进方法,展示了其在开放世界场景中的广泛适用性。然而,该方法的性能局限于捕捉室外场景中物体的几何和概率分布,室外场景通常具有稀疏的点云数据和不完整的对象表面,这使得模型难以准确捕捉几何形状和细节。在这种情况下,PDF方法可能会误分类这些稀疏和不完整的对象,特别是当未知类别的对象在场景中出现时。在未来,如何将PDF方法迁移到室外场景以及如何提高时效性来应对现实复杂场景值得研究和探索。

VI


 思考与讨论 
Q: 为什么PDF方法在表1中mIoU表现不如其他方法好? 
A: PDF方法为了识别未知类,通过不确定性估计来提高对未知物体的识别能力。然而,这种估计可能会导致对已知类的分类信心降低,同时伪标签本身可能存在噪音,从而在一定程度上影响整体的mIoU得分。而AUPR和AUROC指标更看重对未知类别的识别能力,所以PDF方法优于其他方法。 

Q: HUA算法中种子点选择的迭代过程停止条件为什么这样设置? 
A: 停止条件设置为当种子点集的平均不确定性上升到接近全体点云的平均不确定性减去一个标准差调整量后停止,当种子点集的平均不确定性显著低于全体点云的平均不确定性时,说明这些点可能属于未知类,因此扩展过程可以继续。随着扩展的进行,种子点集可能逐渐包含一些高置信度的点,即已知类的点,这会导致种子点集的平均不确定性逐渐上升。这个条件确保扩展过程在种子点集的平均不确定性接近全体点云的平均不确定性之前停止。防止过度扩展到已知类。

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 在处理类不平衡的3D点云数据集时,如果将点数较少的类别标记为未知类与将点数较多的类别标记为未知类,PDF方法在这两种情况下的表现是否会有所不同?如果相同,为什么?如果不同,为什么?

-- End--



导 读 | 吕浩源
审 核 | 杨国庆
编 辑 | 申金、余鑫泉


参考文献

[1] Dan Hendrycks and Kevin Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. International Conference on Learning Representations (ICLR), 2017. 

[2] Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip H.S. Torr, and Vladlen Koltun. Point transformer. International Conference on Computer Vision (ICCV). 16259-16268, 2021. 

[3] Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, and Jiaya Jia. Stratified transformer for 3D point cloud segmentation. Conference on Computer Vision and Pattern Recognition (CVPR). 8500-8509, 2022. 

[4] Jun Cen, Peng Yun, Shiwei Zhang, Junhao Cai, Di Luan, Mingqian Tang, Ming Liu, and Michael Yu Wang. Openworld semantic segmentation for lidar point clouds. European Conference on Computer Vision (ECCV). 318-334, 2022. 

[5] Jianan Li and Qiulei Dong. Open-set semantic segmentation for point clouds via adversarial prototype framework. Conference on Computer Vision and Pattern Recognition (CVPR). 9425-9434, 2023. 

[6] Zhizhong Li and Derek Hoiem. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 40(12), 2935-2947, 2017.



深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章