作者 | NNU三维世界 编辑 | NNU三维世界
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
Paper
标题:
PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness
作者:
Anh-Quan Cao, Angela Dai, Raoul de Charette
会议:
CVPR 2024
论文链接:
https://arxiv.org/abs/2312.02158
代码链接:
https://github.com/astra-vision/PaSCo
概述
本文提出了全景场景补全(Panoptic Scene Completion,PSC)任务,它扩展了最近流行的语义场景补全(SSC)任务,并提供实例级信息,以产生对3D场景更丰富的理解。本文的PSC方案在稀疏多尺度补全的非空体素上使用了一种基于混合掩模的技术。鉴于SSC文献忽略了对机器人应用至关重要的不确定性,本文提出了一种有效的集成方法来估计PSC上的体素和实例不确定性。这是通过建立在多输入多输出(MIMO)策略上实现的,同时提高了性能并为很少的额外计算提供了更好的不确定性。此外,本文还引入了一种聚合置换不变掩码预测的技术。
本文的实验表明,本文的方法在三个大规模自动驾驶数据集的全景场景补全和不确定性估计方面都优于所有基线。
语义场景补全(SSC)通过从稀疏观察推断完整的场景几何和语义来解决3D场景理解问题。在SSC方面已经取得了重大进展,这已经获得了普及。尽管目前的SSC技术具有显著的性能,但它忽略了实例级信息和不确定性预测。缺乏实例级预测阻碍了它们在需要识别和跟踪单个对象的应用程序中的应用,而缺乏不确定性估计则限制了它们在实际安全关键应用程序中的部署。
为了解决这些挑战,本文提出了新的任务Panoptic Scene Completion (PSC),旨在从稀疏观测中整体预测场景的几何、语义和实例。本文提出了该任务的第一种方法,称为PaSCo,这是一种受mimo启发的集成方法,以最小的计算成本提高PSC性能和不确定性估计。它将多尺度生成稀疏网络与变压器解码器相结合,实现了以掩码为中心的实例预测策略。因此,本文引入了一种新的集成技术来组合无序的掩模集。通过广泛的评估,本文的方法在PSC中表现出卓越的性能,并为预测不确定性提供了有价值的见解。本文的贡献可以总结如下:
1、本文制定了全景场景补全(PSC)的新任务,超越语义场景补全来推理实例。
2、本文提出的方法PaSCo利用了具有多尺度稀疏生成解码器和变压器预测的稀疏CNNTransformer架构,针对广泛点云场景中的高效PSC进行了优化。
3、通过适应MIMO设置并为无序集引入新的集成策略,本文的方法提高了PSC性能并增强了不确定性意识,优于三个数据集的所有基线。
方法
本文引入了PSC任务,将不完整点云X作为输入,并产生更密集的输出Y =f(X),因为K个体素用语义类掩码每个体素。受SSC的启发,本文通过对几何、语义和实例进行联合推理,建立了更全面的理解。与语义切分的泛视切分一样,PSC是SSC的严格推广。
为了解决PSC问题,本文提出了PaSCo,它利用多尺度稀疏生成架构和以掩码为中心的架构中的代理补全。由于模型校准对于自动驾驶等现实应用至关重要,因此本文也试图估计不确定性。
这是至关重要的,因为生成任务会产生部分被遮挡的场景的幻觉。然而,不确定性在SSC文献中被忽视了。为了增强不确定性意识,本文采用了一种具有恒定计算预算的多输入多输出策略,该策略从单个输入点云的增强中输出多个PSC变化。为了推断出唯一的PSC输出,本文引入了自定义的排列不变集成。
图2.PasCo概述。本文的方法旨在预测给定不完整3D点云的PSC的多种变化,同时允许通过掩模集成进行不确定性估计。对于PSC,本文使用带有变压器解码器的稀疏3D生成U-Net。使用多个子网启用不确定性感知,每个子网在输入数据源的不同增强版本上运行。PaSCo允许第一个全景场景补全,同时提供一个鲁棒的不确定性估计方法。为了清晰起见,实例不确定性只显示“事物”类。
图3.PSC的架构。本文的架构建立在一个稀疏的生成U-Net上,加上一个变压器解码器,应用于修剪的非空体素来预测PSC。
一、全景场景补全(PSC):
多尺度几何引导:使用稀疏生成 3D U-Net 提取多尺度语义补全作为 PSC 的几何引导。输入点云经 MLP 处理和体素化后,通过轻量级编码器生成特征,再用密集 CNN 生成稠密特征并由稀疏生成解码器解码,在每个尺度用轻量级分割头提取代理 SSC。为保持稀疏性和计算效率,对特征进行裁剪,且使用语义预测进行裁剪。
语义和实例预测为掩码:采用基于掩码的 Transformer 模型预测 PSC,Transformer 以掩码提议为输入查询,利用多尺度特征预测最终查询以进行掩码预测。掩码预测仅应用于非空体素,对于每个查询嵌入,可提取语义概率和掩码分数,通过 argmax 操作得到最终掩码,同时过滤小掩码以减少误报。PSC 输出为 1:1 全景预测,其他尺度查询嵌入的预测用于多尺度监督。
二、不确定性估计:
MIMO 全景场景补全:采用子网公式估计 PSC 任务的不确定性,调整 PSC 架构以预测M个不同体素集和多尺度上下文的 PSC 输出。训练时输入不同点云,推理时为同一输入点云的增强。共享 MLP,子网有各自语义头,通过特定方式连接和处理体素化表示,使用共享 Transformer 解码器增加掩码预测多样性,最终输出为所有子网输出的组合。
掩码集成:由于每个子网推断的掩码集具有排列不变性,引入成对对齐策略进行集成。将两个掩码集通过匈牙利匹配映射,使用 “软匹配”(sigmoid 概率)计算分配成本矩阵,映射后通过平均语义概率和二进制掩码概率得到集成输出。对于多个掩码集,依次与剩余集对齐。
三、训练策略:
端到端训练 PaSCo,使用输入点云和半密集全景 / 语义标记体素对,仅在有真实标签的体素上应用损失。
损失函数包括体素查询语义损失、语义损失和掩码匹配损失,并在中间尺度的 PSC 输出上应用辅助掩码匹配损失和体素查询语义损失。
实验
本文在全景场景补全和不确定性估计上评估PaSCo,同时也报告了附属SSC指标。由于没有城市PSC数据集和基线,本文尽最大努力扩展现有的SSC数据集和基线,以进行公平评估。
数据集。为了评估PSC,本文扩展了三个大规模城市激光雷达SSC数据集:Semantic KITTI、SSCBenchKITTI360和Robo3D。
为了评估PSC,本文首先为这个新任务建立基线,然后在上述数据集上报告结果。
基线。本文将现有的SSC方法与三维全景分割相结合。本文选择了三种SSC开源方法:LMSCNet, JS3CNet,SCPNet,并添加了本文自己的性能更强的重新实现SCPNet*。对于3D全景分割,本文使用MaskPLS,非常适合密集体素化场景,也是迄今为止最好的开源3D全景分割。
所有基线都使用其报告的参数进行重新训练。
本文使用SSC方法训练四条PSC基线来预测完整的语义场景,然后使用3D全视分割方法。
指标:使用了以下指标来评估全景场景补全(PSC)和不确定性估计:1.全景质量(PQ):用于评估全景场景补全的整体质量。2.分割质量(SQ):衡量场景分割的质量。3.识别质量(RQ):评估对物体的识别效果。4.PQ †:与 PQ 类似,但在计算时去除了对 stuff 类别的 > 0.5IoU 规则,以缓解 stuff 类别的过度惩罚效应。5.平均 IoU(mIoU):辅助的语义场景补全指标,用于衡量平均交并比。6.最大软最大值概率:作为模型置信度的一种度量。7.预期校准误差(ECE):用于评估模型的校准情况,反映不确定性估计的准确性。8.负对数似然(NLL):用于评估模型的预测性能。
表1.全景场景补全。在Semantic KITTI(val)和sschbench - kitti360 (test)上,本文的方法PaSCo在几乎所有指标上都优于所有基线
图4.定性全景场景补全。本文报告了表1中所有基线的PSC输出。PaSCo具有较好的实例分离性,具有较强的实例形状和场景结构,孔洞较少。
表4.在Semantic KITTI和sschbench - kitti360验证集上不同子网数时的性能。PSC性能随着M数量的增加而提高,Semantic KITTI在M=3时达到峰值,SSCBench-KITTI360在M=2时达到峰值。
进一步增加子网也有助于不确定性估计。本文为SemanticKITTI选择M=3,为SSCBenchKITTI360选择M= 2,以平衡高PSC性能和不确定性估计。
表5.方法消融。本文去掉了方法的推理(上)和训练(下)组件,表明每个组件都有助于实现最佳性能。
结论
本文首先解决全景场景补全(PSC),其目的是补全场景几何,语义,并从稀疏的观察实例。本文引入了一种有效的集成方法,辅以一种结合无序集预测的新技术,提高了整体预测的准确性和不确定性方面的可靠性。
文 | 方仕林 排版 | 方仕林
审核 | 蒋腾平
团队 | 南京师范大学地理科学学院GISA-TEAM
注:以上内容仅代表个人阅读与理解,详情请见原文。欢迎转载、转发本公众号发布的内容。
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。