TPAMI 2024 | 使用预训练图像模型的点到像素提示法进行点云分析

文摘   2024-07-14 19:00   中国香港  

点击上方“计算机书童”,选择加"星标"或“置顶

顶刊论文解读,第一时间分享

Point-to-Pixel Prompting for Point Cloud Analysis With Pre-Trained Image Models

题目:使用预训练图像模型的点到像素提示法进行点云分析

作者:Ziyi Wang, Yongming Rao, Xumin Yu , Jie Zhou, and Jiwen Lu

源码:https://github.com/wangzy22/P2P


摘要

在当今时代,大规模数据集上预训练大型模型已在自然语言处理和2D视觉的许多下游任务中取得了巨大成功并占据主导地位,而3D视觉中的预训练仍在发展之中。本文提出了一种新的视角,通过数据空间中的点到像素提示(Point-to-Pixel Prompting)和特征空间中的像素到点蒸馏(Pixel-to-Point distillation),将2D领域的预训练知识迁移到3D领域,利用在显示相同视觉世界时图像和点云中共享的知识。遵循提示工程的原则,点到像素提示通过保留几何信息的投影和具有几何意识的着色,将点云转换为多彩图像。然后,无需结构变化或权重修改,就可以直接实现预训练的图像模型用于点云任务。通过特征空间中的投影对应关系,像素到点蒸馏进一步将预训练的图像模型视为教师模型,将预训练的2D知识蒸馏到学生点云模型中,显著提高了点云分析的推理效率和模型容量。我们通过在各种设置下的对象分类和场景分割中进行广泛的实验,证明了我们方法的优越性。在对象分类中,我们揭示了点到像素提示的重要规模化趋势,并在ScanObjectNN数据集上达到了90.3%的准确率,大幅度超越了以往的文献。在场景级语义分割中,我们的方法超越了传统的3D分析方法,并在密集预测任务中显示出竞争能力。

关键词

  • 蒸馏

  • 点云

  • prompt tuning

I. 引言

随着深度学习和计算硬件的快速发展,神经网络在模型尺寸和表示容量方面经历了爆炸性增长。如今,预训练大型模型已成为自然语言处理[2]、[12]、[55]和计算机视觉[17]、[49]、[53]中的一个重要研究课题,并且在通过微调[3]、[18]或提示调整[29]、[31]、[49]策略转移到下游任务时取得了巨大成功。微调是一种传统的调整策略,需要大量的可训练参数,而提示调整是一种最近出现的轻量级方案,将下游任务转换为与预训练任务类似的形式。然而,没有大量训练数据支持的预训练阶段,就无法获得预训练-微调流程的普遍性。例如,语言预训练的领先工作Megatron-Turing NLG[55]有5300亿参数,在包含超过3380亿个token的15个数据集上进行训练,而Vision MoE[53]有147亿参数,在包含3.05亿张图像的JFT-300 M数据集[57]上进行训练。

不幸的是,上述在大规模数据集上预训练大型模型并在下游任务上进行微调的常规做法在3D视觉中遇到了障碍。3D视觉感知因其在自动驾驶、机器人视觉和虚拟现实等许多新兴研究领域的优越性而越来越受到关注。然而,从激光雷达获得丰富的3D数据如点云既不便利也不便宜。例如,广泛使用的对象级点云数据集ShapeNet[4]仅包含50,000个合成样本。因此,如何在有限的数据下预训练基础的3D模型仍然是一个开放的问题。有一些先前的研究尝试在有限的训练数据上开发特定的点云预训练策略,如Point Contrast[70]、OcCo[61]和Point-BERT[76]。尽管它们证明了预训练-微调流程在3D领域同样有效,但可训练参数众多与训练数据有限之间的不平衡可能导致优化不足或过拟合问题。

与直接在3D数据上预训练模型的先前方法不同,我们提出通过数据空间中的提示工程和特征空间中的蒸馏技术,将2D领域的预训练知识迁移到3D领域,利用显示相同视觉世界的图像和点云中共享的知识。这样,我们解决了3D领域中的数据饥饿问题,因为2D领域的预训练策略已经有丰富的训练数据并且得到了很好的研究,而且3D任务上的提示调整不需要大量的3D训练数据。更具体地说,我们提出了一个创新的点到像素提示机制,通过保留几何信息的投影和具有几何意识的着色,将点云转换为多彩图像。图1中展示了生成的多彩图像的例子。然后,这些多彩图像被送入固定权重的预训练图像模型中以提取代表性特征,这些特征进一步被部署到下游任务特定的头部。点云到多彩图像的转换和端到端的优化流程促进了点和像素之间的双向知识流动。通过我们的几何保留投影,点云中的几何信息大部分保留在投影图像中,而预训练图像模型中的自然图像颜色信息通过几何意识着色模块和固定预训练图像模型的协作,反馈传递到无色的点云中。

此外,我们进一步提出了像素到点蒸馏,它在特征空间中将预训练的图像知识转移到点云模型中,以获得更好的推理效率和模型容量。我们观察到预训练的图像模型相对较重,执行基于多视图投影的推理不可避免地会较慢。此外,点到像素提示方法在执行更复杂的场景分割时遇到了障碍,这是由于场景级点云数据的稀疏性和投影过程中维度信息的丢失。因此,提出的像素到点蒸馏补充性地结合了点云模型的轻量级和尺寸保持优势以及预训练图像模型的强大表示能力。从技术上讲,我们追踪了来自两个领域的特征的投影对应关系,并使用新颖的跨模态掩码建模蒸馏模块进行了细粒度像素级知识蒸馏。在训练期间,预训练的图像模型充当教师,指导学生点云模型的优化过程,而在推理期间,经过良好优化的点云模型高效且出色地执行点云分析。然后,点到像素提示(P2P)和像素到点蒸馏的组合框架在本文中被称为P2P++。

我们对各种对象和场景点云分析任务进行了广泛的实验,以展示我们方法的实力和通用性。在对象分析中,我们定量揭示了使用我们的点到像素提示,扩大相同图像模型的规模将导致更高的点云分类性能,这与图像分类中的规模化趋势一致。我们在真实世界的ScanObjectNN[60]上取得了最先进的性能,大幅度超越了以往的文献。我们还在合成的ModelNet40[68]和ShapeNetPart[75]上获得了有竞争力的结果。通过我们新提出的像素到点蒸馏,我们成功地利用了预训练的图像分割模型进行场景级语义分割。在室内ScanNetV2[10]中,我们超过了经典的基线方法,而在户外SemanticKITTI[1]中,我们超越了传统的3D分析方法。总之,我们提出的P2P++框架探索了使用点到像素提示和像素到点蒸馏将图像预训练知识转移到点云领域的可行性和优势,促进了3D点云分析中的新预训练范式。

本文是我们会议论文[64]的扩展版本。我们进行了几项新的贡献:(1)我们提出了像素到点蒸馏,将预训练的图像知识在细粒度特征空间中转移到点云模型。这种设计显著提高了推理效率和模型容量。(2)我们提出了一种新颖的跨模态掩码建模模块,用于像素到点蒸馏。理论分析和消融研究表明,它有助于探索每个局部区域之间的整体关系,并增强了点云模型的推理能力。(3)我们在先前分析的数据集上取得了进展,实现了ScanObjectNN上新的SOTA。我们还进行了场景级语义分割的新实验,并展示了我们方法的实力。

III. 方法论

在本节中,我们首先介绍我们新颖的Point-to-Pixel Prompting(P2P)方法,用于对象分析。随后,我们扩展研究,探讨P2P在点云场景理解中的可行性。最后,我们引入Pixel-to-Point distillation的概念,适用于对象级和场景级点云。然后我们阐明Pixel-to-Point distillation与Point-to-Pixel Prompting的无缝集成,形成我们的P2P++框架,其特点是提高效率和增强能力。

A. 对象分析的Point-to-Pixel Prompting

我们P2P框架的总体架构如图2所示。网络架构由四个组成部分构成:1)几何编码器,用于从输入点云中提取点级几何特征;2)Point-to-Pixel Prompting模块,根据几何特征生成彩色图像;3)预训练的图像模型,利用图像领域的预训练知识;4)针对特定任务的头部,执行各种点云任务。我们将在以下部分详细介绍几何编码器、Point-to-Pixel Prompting模块和任务特定头部。至于预训练图像模型的选择,我们将在第IV-B1节中研究基于卷积和基于注意力的架构。



通过提出的可以端到端优化的架构,我们能够从两个角度利用2D预训练知识进行点云分析。在前向过程中,点云被投影到图像中,几何信息得到保留,生成的图像可以被预训练的图像模型识别和处理。在反向优化中,预训练图像模型的固定权重作为锚点,指导可学习的着色模块学习额外的颜色知识,为无色点云提供指导,无需显式手动干预,仅在下游任务的总体目标函数的间接监督下进行。因此,生成的彩色图像预计会模仿2D图像中的模式,并在下游任务中对预训练的图像模型是可区分的。

  1. 点云特征编码:3D点云相对于2D图像最显著的优势之一是点云包含更多的空间和几何信息,这些信息在平面图像中被压缩甚至丢失。因此,我们首先提取点云的几何特征以获得更好的空间理解,实现轻量级的DGCNN [62]来提取每个点的局部特征。

给定一个输入点云 包含N个点,我们首先找到每个点的k近邻 。然后对于每个局部区域,我们实现一个小的神经网络 来编码中心点 和局部邻点 之间的相对位置关系。然后我们可以获取几何特征 维度为C:
其中 的坐标, 表示在额外的k维中连接所有 对, 表示在所有局部邻点 上进行最大池化以压缩k维。
  1. Point-to-Pixel Prompting模块:遵循第II-A节中介绍的prompt调整机制的原则,我们提出Point-to-Pixel Prompting以使点云分析适应图像表示学习,其中图像模型最初是预训练的。如图2所示,我们首先引入几何保留投影,将3D点云变换为2D图像,根据投影对应关系重新排列3D几何特征。然后我们提出一个几何感知着色模块来给投影图像着色,将预训练的图像模型中的2D颜色知识转移到无色点云,并获取更可区分的图像,以便被预训练的图像模型更好地识别。
几何保留投影:一旦获得输入点云P的几何特征 ,我们进一步将它们重新排列为图像样式布局 以准备生成彩色图像I,其中H, W是目标图像的高和宽。我们精心设计了一个几何保留投影以避免在将3D点云投射到2D图像时丢失信息。
第一步是找到点坐标X 和图像像素坐标Y 之间的空间对应关系。由于在投影过程中会发生维度减少,我们在训练期间随机选择一个投影视图以构建具有平面图像组件的立体空间。等价地,我们通过旋转矩阵R 旋转输入点云以获得旋转后的3D坐标 。旋转矩阵R是通过两步构建的:首先绕轴 旋转角度θ,然后绕轴 旋转角度φ,其中θ 和φ 是训练期间的随机旋转角度,在推理期间是固定选定的角度。然后我们只省略最终维度 并将前两个维度均匀地分割成2D网格:,其中0 ≤ i < N表示点索引,d = 0, 1表示坐标维度,gd表示维度d的网格大小。
第二步是根据X和Y之间的坐标对应关系,将每个点的几何特征F重新排列为每个像素的 。如果有多个点 落在同一个像素(h, w)上,这是一种常见情况,我们将这些点的特征全部加起来产生像素级特征:。求和操作带来两个与我们的几何保留设计相关的优势。一方面,我们考虑一个像素中的所有点,而不是通常的做法,即根据深度和遮挡关系只保留最前面的点。通过这种方式,我们能够在一个图像中表示和优化所有点,并生成包含半透明对象的图像,这些对象具有更丰富的几何信息,如图1所示。另一方面,我们执行求和操作而不是取平均值,当一个像素中有更多的点时,会产生更大的特征值。这种设计在投影过程中保持了点云的空间密度信息,这在图像表示中是缺乏的,并且在保留几何知识中至关重要。
总之,我们提出的几何保留投影能够产生包含丰富空间知识的几何感知图像特征图 。注意,我们只在训练期间使用一个投影视图,并且没有显式地为多视图特征融合设计任何聚合函数。因此,我们遵循单视图投影流程,这比多视图对应物更有效。
几何感知着色:尽管3D点云包含比2D图像更丰富的几何知识,但彩色图片拥有比无色点云更多的纹理和颜色信息,这也在视觉理解中起着决定性作用。冻结的图像模型在大量图像上预训练,学习感知视觉世界不仅基于对象的形状和轮廓,而且严重依赖于区分性颜色和纹理。因此,只包含几何知识而缺乏颜色信息的图像特征图 对于预训练的图像模型来说不是最适合理解和处理的。为了更好地利用冻结的图像模型中的预训练2D知识,我们提出为每个像素预测颜色,明确鼓励网络通过端到端优化将预训练图像模型中的颜色知识迁移到
更具体地说,我们设计了一个轻量级的2D神经网络 来预测每个像素(h, w)的RGB颜色 。我们在 中实现了几个3×3卷积,用于图像平滑,因为最初投影的图像特征 由于原始点云的稀疏性而相对不连续。

3) 下游任务的优化:以ViT作为预训练图像模型为例

以ViT作为预训练的图像模型为例,我们的P2P框架可以针对不同的下游任务设计不同的任务特定头部和优化策略,以下部分将介绍几种情况。
对于对象分类,我们遵循图像Transformer模型中的通用协议,利用类标记 作为分类器CLS的输入,该分类器仅由一个线性层实现:
。我们使用交叉熵损失作为优化目标。
对于部分分割,我们将标记特征 重新排列成图像布局,并将它们上采样到H×W。然后我们基于SemanticFPN [27]或UPerNet [69]设计一个轻量级的2D分割头部SEG,预测每个像素的分割logits:$$p_{h,w} = \text{softmax}(\text{SEG}(\bar{f}{h,w}))
L{\text{seg}} = -\sum_{h,w} \sum_{k} y_{h,w,k} \log p_{h,w,k}$$。多热2D标签 的值根据投影对应关系分配,满足 。在2D域中的监督加速了训练过程,而没有太多的信息损失,因为我们保留了一个像素中所有点的特征,优化目标相应地基于它们的类别分布。在推理过程中,我们选择多个投影视图,并将2D每个像素的分割结果重新投影回3D点,融合多视图预测。因此,每个点的分割是由最明显的预测决定的,这些预测来自最可区分的投影视图。

B. 场景分析的点到像素提示

与对象级点云相比,场景级点云具有更大的规模、更高的稀疏度和更复杂的交叉对象交互。因此,将点到像素提示(Point-to-Pixel Prompting)直接应用于如语义分割这样的3D场景理解任务并非易事。在本节中,我们探讨了利用预训练的图像分割模型通过点到像素提示进行3D场景分析的可能性。我们对对象分析版本进行了几项修改,以适应更大规模和更复杂关系的分析。首先,在III-B1节中,我们介绍了两种不同的场景级点云的初步投影技术,对应于III-A2节中讨论的几何保留投影部分。随后,在III-B2节中,我们详细阐述了为适应更复杂的场景级分析而对我们提出的P2P模型的每个组件所做的调整。这一详细的阐述与III-A节的更广泛背景保持一致。
  1. 场景级投影初步:室内透视投影。以经典的ScanNetV2 [10]数据集为例,室内点云场景通常展示家具布局,并被墙壁环绕。在这种情况下,投影摄像机放置在场景内部,只能捕获房间的一个角落。因此,整个场景由多个摄像机扫描组成,我们利用透视投影来替代III-A2节中讨论的普通投影。给定整个3D场景 与摄像机矩阵 ,3D到2D空间的透视投影可以表示为:
其中 是一个量化操作符,将小数四舍五入到最近的整数, 分别是3D坐标和投影的2D坐标。摄像机矩阵 是相机内参矩阵和外参矩阵的乘积。预定义的投影像素范围()将产生一个布尔掩码矩阵 ,其元素指示每个点是否包含在摄像机视图中。值得注意的是,在透视投影过程中,多个点仍可能落在同一个像素中,正如我们在III-A2节中所讨论的。然而,鉴于场景数据更复杂,语义分割需要每个点的精确度,我们不采用对象分析中的模糊求和操作。相反,我们根据投影方向上的深度对这些堆叠的点进行排序,并在另一个布尔掩码矩阵 中仅记录最前面的表面点,其中 是位于摄像机视图中的点的数量。
室外范围投影:像SemanticKITTI [1]中的室外点云场景通常由单个旋转的LiDAR传感器收集,并以范围图像方式表示。遵循RangeNet++ [42],我们执行范围视图投影,将3D点 变换为2D像素
= Q \cdot_H
其中 是一个量化操作符,将小数四舍五入到最近的整数, 是所需范围视图图像的高度和宽度, 是传感器的垂直视场, 定义了每个点的范围。这种全360°视场投影使我们能够将整个点云场景包含在一个图像中,这比仅包含场景一角的透视投影更全面。
  1. 场景级点到像素提示学习:几何编码器。鉴于场景级点云与对象相比具有更大的规模和更高的稀疏度,我们实现了基于体素的几何编码器,该编码器利用稀疏卷积进行高效的局部抽象。对于室内场景,我们根据III-B1节中的 仅裁剪相机视图内的角落。对于室外场景,我们将整个场景作为几何编码器的输入。
点到像素提示:由于室内和室外场景的数据安排不同,我们选择适合不同情况下的投影方法来替代点到像素提示中的普通投影。对于由多个摄像机扫描组成的室内场景,我们实现了III-B1节中介绍的透视投影。对于由单个旋转LiDAR收集的室外场景,我们实现了III-B1节中的范围投影。几何感知着色模块保持不变。
预训练图像模型:在对象分析中,我们只考虑基础的预训练图像模型,从头开始训练任务特定头部。然而,从实验中我们观察到,分割头部与主干一样繁重,并且也编码了大量对语义分割至关重要的详细知识。因此,对于场景级语义分析,我们利用了在大规模图像分割数据集上进行了全面训练和微调的整体图像分割模型。我们只留下最终的全连接层进行分类,以适应不同的类别分布。
训练和推理方案:按照部分分割中的设置,在训练期间,模型以端到端的方式在2D域中进行优化,由根据几何约束从原始3D标签投影得到的伪2D标签进行监督。在推理过程中,预测的2D分割logits通过逆投影对应关系回投影到3D点以获得最终的每个点的预测。然而,我们在室内和室外场景分析中都获得了不满意的结果,与最佳点云模型相比落后了很大差距。从经验上,我们假设投影和回投影过程中的维度信息丢失是主要原因。一些点可能从未被包含在投影像素中,图像分析中的遮挡问题是一个不可避免的障碍。

C. 像素到点蒸馏:适用于任何点云

尽管我们的点到像素提示成功地利用了预训练的图像模型进行点云对象分析,但在将其推广到更广泛的应用时,仍然存在一些效率和容量方面的障碍。鉴于预训练的图像模型通常比点云模型更重,推理成本相对较高,更不用说重复多视图投票的成本了。此外,在场景级别条件下,投影过程中维度信息丢失的问题变得更加严重,因为点云场景比对象更复杂和稀疏。
为了解决前述问题,我们进一步提出了像素到点蒸馏技术,以提高推理效率并增强模型处理3D场景分析的能力。我们将结合点到像素提示和像素到点蒸馏的新架构称为P2P++,如图3(a)所示。整体流程由两个训练阶段组成:(1) 使用点到像素提示调整预训练图像模型,其模块由虚线箭头连接。输入的点云被转换为多彩图像,并在2D领域执行监督提示调整。详细的训练方案已在第III-A和III-B节中讨论。(2) 通过像素到点蒸馏将预训练的2D知识蒸馏到点云模型中。第一阶段中的P2P投影器和预训练图像模型被保持冻结状态,作为教师模型,而新引入的点云模型则作为从头开始优化的学生模型。我们提出了像素级蒸馏器模块以执行跨模态知识蒸馏,利用具有高表示能力的2D特征指导3D特征的优化。
因此,通过提出的P2P++框架,我们能够在强大但笨重的预训练图像模型的指导下,训练一个强大且轻量的点云模型。在本小节中,我们首先解释如何从两个模态的编码器中明确对齐细粒度的中间级特征。然后,我们引入了一个像素级蒸馏器模块,以执行像素到点的知识蒸馏。最后,我们为不同的数据集和不同任务提出了特定任务的优化策略。

1) 中间级特征对齐:层级语义对齐

给定输入点云,第一阶段训练的P2P投影器产生多彩投影图像。点云编码器和预训练图像编码器分别以作为输入,并逐渐在更深层次产生具有更大接受场和更强表示能力的更高级特征。因此,我们可以获取两个编码器之间的层级特征对应关系。例如,在层都编码了详细的局部信息,而在层都表示了抽象的全局知识。
因此,使用预训练图像编码器中的图像特征从层来指导点云特征在相应层的优化是合理的。

像素级空间对齐

给定点云特征及其对应的图像特征,我们可以根据几何投影关系进一步确定它们的像素级空间对应关系。按照点到像素提示模块中的投影规则,我们将投影到2D领域,并获取,它与具有相同的空间分辨率。

2) 像素级对比蒸馏器

我们为像素到点蒸馏设计了一个像素级对比蒸馏器,在中间特征空间形成了从预训练图像模型到点云模型的信息流。为了进一步提高推理能力和加强点特征的局部交互,我们提出了一种跨模态掩码建模技术。

跨模态掩码建模

具体来说,我们首先随机掩码部分投影点云特征的标记,并用掩码标记填充掩码位置。然后,掩码特征被赋予位置嵌入并输入到自注意力层。自注意力推理将根据未掩码的标记预测掩码标记,隐式地增强高层语义的表示能力和点云特征的鲁棒性。

对比蒸馏

最后,通过对比学习,推理出的点云特征的分布被拉近到其对齐的图像特征的分布。为了执行细粒度的像素级蒸馏,我们将每个点特征视为一个独立样本,仅将其对应的图像像素特征作为正样本,其他作为负样本。然后在层的蒸馏损失定义为:
其中表示之间的余弦相似度,是温度参数。

3) 特定任务的优化

结合蒸馏损失,点云模型和像素级蒸馏器的参数的整体训练目标可以表述为:
其中是特定任务的监督学习损失,是蒸馏损失的权重。
在推理期间,省略P2P分支和像素级蒸馏器,只使用点云模型进行高效的验证和测试。

IV. 实验

在本节中,我们首先简要介绍所使用的数据集和具体的实验配置。随后,我们对提出的P2P和P2P++框架进行全面评估,关注它们在对象级和场景级分析中的性能表现,同时进行严格的消融研究,仔细检查架构设计选择的影响。

A. 数据集和实验设置

数据集。我们在ModelNet40 [68]和ScanObjectNN [60]数据集上进行对象分类实验,同时使用ShapeNetPart [60]进行对象级部分分割。我们还在室内ScanNetV2 [10]和室外SemanticKITTI [1]数据集上进行场景级语义分割实验。ModelNet40是用于对象分类的最流行的3D合成数据集,包含来自40个类别的12,311个CAD模型。我们遵循常见的协议,将9,843个对象用于训练,保留2,468个对象用于验证。ScanObjectNN是一个更具挑战性的点云对象数据集,从真实世界扫描中采样,包含背景和遮挡。它包含来自15个类别的2,902个样本,我们对受干扰的(PB-T50-RS)变体进行实验。ShapeNetPart从合成的ShapeNet数据集中采样,并为每个对象注释了部分级标签。它由来自16个形状类别的16,881个对象组成,其部分被划分为50个类别。ScanNetV2是使用最广泛的室内场景数据集之一。它由超过1500个室内场景的扫描组成,由20个语义类别注释。我们遵循官方分割,训练使用1201个训练扫描,在312个验证扫描上进行测试。SemanticKITTI提供来自20个类别的室外里程计场景的语义注释,包含22个序列。我们遵循官方分割,训练使用00-10序列(除了08序列,该序列保留用于验证)。
实现细节。我们使用PyTorch [44]实现我们提出的P2P架构,并使用AdamW [39]优化器,学习率为5e−4,权重衰减为5e−2,并配有余弦退火学习率调度器[38]。我们优化了几何编码器、Point-to-Pixel Prompting模块、特定任务头部和预训练图像模型中的归一化层的参数,冻结了其余预训练权重。模型训练了300个周期,批量大小为64。在训练期间,旋转角度θ在[−π, π]中随机选择,φ在[−0.4π, −0.2π]中随机选择,以保持图像中的物体直立。在推理过程中,我们均匀选择θ的10个值和φ的4个值,以产生40个视图进行多数投票。对于我们的P2P++框架,学习率设置为2e−3,模型训练了250个周期,批量大小为32。蒸馏损失权重ωd设置为0.5以实现多任务平衡。不同中间层li的掩码比率,其中i ∈ [1, 4],递增设置为0.1, 0.2, 0.3, 0.4。更多关于场景分割设置的详细信息可以在补充材料中找到。

B. 对象级点云分析

1)对象分类:主要结果。我们使用不同规模的不同类型的图像模型实现我们的P2P框架,从基于卷积的ResNet [19]和ConvNeXt [37]到基于注意力的Vision Transformer [13]和Swin Transformer [34]。这些图像模型在ImageNet-1k [11]上进行了有监督的分类预训练。我们报告了原始图像模型的图像分类性能,Point-to-Pixel Prompting后可训练参数的数量,以及在ModelNet40数据集和ScanObjectNN数据集上的分类精度,如表I所示。在表I e中,我们还额外绘制了每个图像模型的精度曲线。水平轴显示了图像数据集上的分类精度,而垂直轴显示了在Point-to-Pixel Prompting下迁移预训练图像模型后的点云数据集上的精度。
基于定量比较和精度曲线分析,显然增加图像模型的规模可以获得在点云分析领域中改进的分类性能,这与图像分类中的观察结果一致。因此,我们的P2P提示方法有效地保留了在2D预训练中观察到的宝贵的规模增长趋势,并且通过利用在2D领域取得的显著进展,有潜力通过利用丰富的训练数据、多样化的预训练策略和强大的基础架构来增强3D领域任务。
与先前方法的比较。在ModelNet40和ScanobjectNN上的先前方法比较显示在表II中。对于基线比较,我们选择了[16], [40], [47], [48], [50], [59], [62]这些专注于开发3D架构并不涉及任何预训练策略的方法。我们还选择了3D领域中的一些传统预训练工作[43], [61], [76]。对于我们的P2P框架,我们展示了两个版本:(1)使用ResNet-101作为图像模型的基本版本,(2)使用在ImageNet-22k [11]数据集上预训练的HorNet-L [51]作为图像模型的高级版本,另外用多层感知器(MLP)替换了线性头部作为分类器。对于我们的P2P++扩展,我们使用PointMLP [40]作为学生模型,并选择P2P最佳版本(HorNetL-22k-mlp)作为教师模型。
结果得出了关于P2P框架有效性的三个重要结论。首先,P2P超越了传统的3D预训练方法,表明利用2D领域的预训练知识在解决3D识别挑战方面具有优势,超过了直接在3D数据集上进行预训练的有效性,这些数据集的特点是数据有限。其次,即使与需要显著更多可训练参数的架构相比,我们也取得了具有竞争力的性能,甚至在ScanObjectNN数据集上取得了最先进的结果。这突出了我们的P2P框架充分利用来自图像领域的预训练知识的能力,为点云分析领域开辟了新的途径。最后,我们的P2P框架在真实世界的ScanObjectNN数据集上的性能优于合成的ModelNet数据集。这种差异可能归因于ScanObjectNN数据集的数据分布与预训练的ImageNet数据集更为相似,两者都包含自然世界中物体的视觉表示。这一成就突出了我们的模型在现实世界应用中的潜力。
通过比较P2P++和PointMLP在ScanObjectNN数据集上的结果,我们可以确定地确认新的Pixel-to-Point蒸馏方法全面利用了点云模型的潜力。这表现为整体准确率显著提高了4.9%。因此,显然预训练的图像模型在3D领域内充当了高度互补的资源,P2P框架作为一个有效的教师网络,增强了点云模型训练的有效性。此外,P2P++在整体准确率方面比P2P提高了1.0%,同时在ScanObjectNN数据集上建立了新的最先进的性能基准。这一成就特别值得注意,因为与P2P相比,P2P++具有显著降低的延迟和计算成本。这些增强突显了P2P++作为一个更有效、更强大、更优越的框架的地位,使其能够更广泛地应用于不同领域。值得注意的是,RepSurf-U [50]在合成ModelNet40数据集上的性能超过了P2P++,同时可训练参数也更少。这种优势源于RepSurf明确提出了表面表示,以有效地描述非常局部的结构,特别适合于分类具有细粒度局部差异的合成点云样本。然而,当面对来自ScanObjectNN数据集的嘈杂真实样本时,这种优势就减弱了,在某些情况下,局部结构可能变得模糊甚至不存在。因此,我们提出的模型P2P和P2P++,它们优先考虑整体结构区分,在ScanObjectNN上的性能显著领先于RepSurf-U。
可视化分析。我们在图1(a)和(b)中展示了来自对象级点云的投影彩色图像的可视化表示。上行显示了来自合成ModelNet40数据集和真实世界ScanObjectNN数据集的点云样本选择,下行提供了由Point-to-Pixel Prompting模块生成的彩色图像的插图。从可视化中观察到,我们精心设计的几何保留投影方法有效地保留了大部分空间信息。这导致产生了描绘半透明物体的图像,从而减轻了遮挡问题,如图第二行第五列中的椅子腿所示。此外,物体的渲染颜色是合理的,甚至在一定程度上暗示了部分级别的区分。这增强了投影图像与自然图像之间的相似性,使它们更容易被预训练的图像模型处理。
2)P2P消融研究:为了调查P2P的架构设计和训练策略,我们在ModelNet40分类上进行了广泛的消融研究。除非另有通知,我们使用在ImageNet-1k数据集上预训练的基础版本Vision Transformer (ViT-B-1 k)作为我们的图像模型。我们的消融设置的插图可以在图4中找到。

P2P提示与其他调整方法的优势。我们进行了广泛的消融研究,以证明我们提出的P2P提示优于传统的微调和其他提示方法,如表III a所示。作为一个基线(模型A),我们直接将分类头附加到几何编码器上,没有预训练的图像模型。然后我们逐步插入预训练的ViT块来处理来自几何编码器的点标记,并讨论了不同的微调策略,包括固定所有ViT权重(模型B1)、微调归一化层(模型B2)和微调所有ViT权重(模型B3)。我们还实现了视觉提示调整(VPT) [25]到模型B中,有浅层(模型C1)和深层(模型C2)变体。
通过比较表III a中模型A与其他模型的性能,我们可以辨别利用预训练的2D知识对3D分类任务的影响。值得注意的是,传统的微调或以前使用的提示机制VPT,都没有完全利用预训练图像知识的潜力。相反,我们提出的Point-to-Pixel提示机制成为将2D预训练知识有效转移到3D领域的最佳方法,同时在可训练参数的投资上保持了最小化。
Point-to-Pixel提示设计。在确认Point-to-Pixel提示是最合适调整机制后,我们详细讨论了P2P模块的设计选择。在我们的Point-to-Pixel提示中,我们提出产生彩色图像以适应预训练的图像ViT。在第III-A2节中,我们已经讨论了获得彩色图像的动机和优势。在这里,我们通过表III b中的消融研究进一步证明了这一说法。模型D处理第III-A2节中的每像素特征以直接生成图像标记,这些是ViT块的输入。在这个变体中,我们绕过了显式的图像生成过程,并直接采用了特征图上的可训练的patch嵌入层。模型E仅根据点云的几何投影生成二进制黑白图像,没有像P2P那样预测像素颜色。
根据结果,模型D在可训练参数的数量上有显著增加,这主要归因于具有16内核大小的可训练patch嵌入投影卷积层。然而,尽管模型D的参数数量增加,但其分类结果仍不如P2P框架。另一方面,模型E虽然需要更少的可训练参数,但在性能上仍明显不足。因此,显然使用彩色图像作为提示机制是促进图像和点云领域间知识转移的最有效手段,充分利用了冻结的ViT模型中的预训练图像知识。
调整策略的影响。在确定了我们的P2P框架的架构后,我们调查了最佳的调整策略,调整了预训练图像模型的调整范围:(1) 模型F:从头开始训练图像模型,不加载预训练权重。(2) 模型G:调整所有ViT参数。(3) P2P:仅调整归一化参数。(4) 模型H:仅调整偏置参数。(5) 模型I:固定所有ViT参数,不进行任何调整。
表III c中提出的发现表明,调整归一化参数是最合适的选择,它减轻了在模型G中观察到的在广泛调整期间从2D领域丢失信息的风险。归一化参数的微调还促进了模型适应点云数据的数据分布,这是模型H和I变体未能实现的。此外,表III c中模型F与其他模型之间的定量比较强调了2D领域预训练知识在P2P框架中的关键作用。鉴于3D领域数据的可用性有限,这对于从头开始有效优化大规模ViT模型来说是不够的,尤其是考虑到所涉及的大量可训练参数。
不同预训练策略的影响。在表III d中,我们展示了不同图像模型预训练策略的影响。对于有监督预训练,我们在ImageNet-1k和ImageNet-22k数据集上加载预训练权重。对于无监督预训练,我们选择了四种最具代表性的方法:CLIP [49], DINO [3], MoCo [5]和MAE [17]。我们在IN Acc.列中报告了每种预训练策略在ImageNet-1k数据集上的线性探测和微调结果,分别用†和‡表示。注意,我们实现了CoOp [78]来报告CLIP预训练模型的零样本分类精度(用∗表示)。
基于我们的实验结果,一个明显的结论是:与无监督预训练模型相比,有监督预训练的图像模型在迁移到点云分析时表现出更好的性能。这种现象可以归因于2D预训练中训练目标与3D分类任务的一致性。通过有监督预训练优化的权重更适合转移到点云分类任务。然而,某些无监督方法,特别是那些表现出强大可转移性的,如DINO,也达到了有竞争力的性能水平。在仔细研究各种无监督预训练方法时,可以发现在2D分类的线性探测中表现更好的方法在3D分类的背景下也取得了更好的结果。这一观察强调了预训练图像模型在过渡到2D和3D下游任务时可转移性的一致性。
P2P++消融研究:为了调查P2P++的架构设计,我们在ScanObjectNN分类上进行了广泛的消融研究。除非另有通知,我们选择P2P with HorNet-L-22 k作为预训练图像模型作为教师模型。蒸馏模型选择。为了证明我们的P2P++在各种点云模型上的泛化能力,我们选择了三种最具特色的模型作为学生模型:(A)基于图的DGCNN [62],(B)基于集合抽象的PointNeXt [48],和(C)基于MLP的PointMLP [40]。在审查表IV a中的基线比较后,可以明显看出P2P++一致地提高了各种点云模型的性能。此外,为了证明P2P作为教师模型优于点云模型,我们引入了模型C2,它利用了固定权重的有效训练PointNeXt-S模型作为教师模型。通过精心设计的点对点蒸馏,教师模型PointNeXt-S确实在学生模型PointMLP中提高了性能,尽管仍然没有达到P2P作为教师模型时的结果。因此,这些观察结果共同强调了来自2D领域的预训练知识在P2P++成功中的关键作用。
蒸馏器架构设计。在第III-C2节中,我们介绍了一种像素级蒸馏技术,通过跨模态掩码建模方法进行了增强。在表IV b中,我们进行了一系列消融研究,仔细检查了该框架内架构选择的情况。首先,我们确立了对象分类中中间层和最终层全局蒸馏的不可或缺性,这一点通过模型D1、D2和F的性能得到了验证。然而,我们发现中间层蒸馏对性能的影响比最终层更为显著。接着,我们深入研究了逐像素蒸馏是否是一种更有效的设计。在模型E中,我们在两种模态的中间级特征上实施了全局最大池化,然后进行了全局表示蒸馏。模型E和F之间的定量比较证实了逐像素语义对齐更有效地保留了细粒度空间信息,从而带来了更好的性能。最后,我们通过引入跨模态掩码建模增强了普通的对比蒸馏。遗憾的是,这种增强在对象分类任务中并没有带来显著的改进。然而,我们将在第IV-C4节中展示它在场景级语义分割的背景下的有效性。
4)部分分割:在ShapeNetPart数据集上的部分分割的定量结果在表V中呈现。在我们的实验中,我们使用ConvNeXt-B [37]作为图像模型,SemanticFPN [27]作为2D分割头部进行基线比较。此外,我们通过采用ConvNeXt-L作为图像模型,并使用更复杂的UPerNet [69]作为2D分割头部,从而提高了分割结果。我们的P2P框架可以比传统基于点的方法获得更好的性能。在P2P++框架的情况下,我们使用PointMLP作为学生模型,并选择ConvNeXt-L主干与UPerNet头部(记为CN-L-UPer变体)构建P2P作为教师模型。这种配置使PointMLP的实例mIoU显著提高了0.7,并且与基线P2P模型相比,在推理效率上有大幅度提升。

C. 场景级点云分析

1) 室内场景语义分割

我们实现了经典的MinkowskiNet作为室内场景语义分割的基线,并逐步引入P2P和P2P++。我们使用ViT-Adapter-L作为预训练的图像分割模型。从表VI中的实验结果可以看出,P2P在很大程度上落后于基线MinkowskiNet。这主要是因为场景点云的稀疏性以及在投影过程中维度信息的丢失。此外,每个视图只能覆盖整个场景的一小部分,这增加了最终多视图推理的难度,导致难以忍受的延迟。
然而,当结合像素到点蒸馏时,P2P++成功地利用了学生模型的潜力,并带来了0.9 mIoU的增长。此外,我们使用替代的主干模型,如SpconvUNet和PointTransformerV2,实现P2P++,并一致地观察到与基线模型相比性能的提升。这些定量结果表明P2P是一个合格的教师模型,且来自2D领域的预训练知识可以有效地协助点云学生模型的优化过程。此外,新提出的像素到点蒸馏进一步增强了我们原始P2P框架在更复杂场景级密集预测上的推理效率和容量。
在表VI中,我们还比较了P2P++与传统的预训练方法如PointContrast和CSC。为了澄清我们的比较中使用的设置,我们表示当conv1-kernel-size设置为5时PointContrast的复制结果为[K5],与MinkUNet基线配置一致。同时,[K3]表示在PointContrast和CSC论文中引入的修改设置,即conv1-kernel-size设置为3。鉴于CSC在[K3]设置下的性能不如PointContrast,我们推测CSC在[K5]设置下的性能可能低于72.7,因为修改是与CSC的技术提案正交的conv1-kernel-size。因此,在公平的比较框架下,我们保持了与基线MinkUNet一致的[K5]设置,我们的P2P++一贯优于像PointContrast和CSC这样的经典基于对比的预训练方法,进一步证明了P2P++的有效性。值得一提的是,P2P++与另一种跨模态基于对比的预训练方法P4Contrast不同,P4Contrast仅需要点云输入,并且仅依赖于点云特征进行下游任务推理。与此相反,P4Contrast需要点-像素配对数据和多模态特征融合。

2)室内场景上P2P++设计上的消融

为了研究室内场景上的P2P++设计,我们对ScanNetV2验证数据集进行了广泛的消融研究,结果如表VII所示。
消融模型选择:为了调查我们提出的P2P++是否可以推广到像表I中的对象分析一样,用于场景级密集预测任务的Conv-based和Transformer-based图像模型,我们在ScanNetV2数据集上进行了消融研究,将预训练图像模型的主干替换为ResNet-101和ViTL,同时保持分割头部为UPerNet。实验结果,如表VII a所示,证明P2P++与各种图像主干结合使用时,一致性地优于基线。这些数值性能为P2P++推广到Conv-based和Transformer-based 2D主干提供了有力的证据。
ScanNetV2的额外颜色信息:ScanNetV2数据集与其他本文讨论的数据集的一个关键区别在于,ScanNetV2的点云样本中包含了额外的颜色信息。然而,值得注意的是,RGB统计信息并不普遍适用于点云数据。这种限制的原因是,用于点云扫描的主要传感器LiDAR只能提供每个点的XYZ坐标。在ScanNetV2中,颜色信息是通过RGB-D帧的多视图融合得到的。我们提出的P2P++框架专门设计用于处理原始点云数据,而不依赖于颜色信息,使其更加通用和适应真实世界的场景。因此,对于ScanNetV2数据集,我们在表VII b中进行了额外的消融研究,仅使用XYZ坐标作为输入点云特征的模型C和D。定量结果清楚地表明,P2P++可以在这种情况下增强基线方法,甚至在有额外RGB输入的情况下研究可比的性能。这些发现与我们在对象分析和户外语义分割中获得的结果一致,其中输入点云也缺少颜色信息。
为了与基线方法和先前文献进行公平比较,我们还展示了使用RGB颜色作为输入点云特征时的结果,如表VII b中的第一行和模型B所示。此外,我们用非参数投影模块替换了P2P图像渲染模块,以说明P2P在我们P2P++框架中初始阶段训练的必要性。模型A的分割性能超过了普通基线,证实了所提出的图像模型蒸馏的有效性。然而,模型A的性能不如模型B,这意味着我们生成的P2P图像比投影图像更有效地被预训练图像模型解释。这归因于P2P图像的颜色信息是通过端到端优化学习的,由预训练图像模型指导。此外,值得一提的是,投影图像包含无关紧要的纹理细节,这些细节对于语义分割可能是无用的,甚至可能误导。与此相反,我们的P2P图像提供了更清晰的类别说明,没有这些多余的纹理细节。

3) 户外场景语义分割:

对于P2P(点到像素)流程,我们利用传统的基于体素的Cylinder3D作为几何编码器,并使用ViT-Adapter-L作为预训练的图像分割模型。从表IX a中的结果比较可以看出,P2P在使用预训练图像模型时产生了令人失望的结果,这与我们在室内场景分析中观察到的一致。
对于P2P++框架,我们遵循当前最先进方法2DPASS的做法,使用参数更少的修改版SPVCNN作为点云模型,并利用第一阶段训练的P2P作为教师模型。在SemanticKITTI验证集和测试基准上的实验结果和与先前文献的比较展示在表VIII中。通过结合像素到点蒸馏,P2P++不仅超越了基线网络的性能,还达到了竞争性的结果。它显著优于完全依赖原始点云数据作为输入源的传统3D方法,如Cylinder3D和RPVNet。值得注意的是,目前最先进方法2DPASS依赖于从SemanticKITTI数据集中获取的附加2D图像,这些图像富含语义注释。这种数据获取过程相当繁琐且不便。相比之下,P2P++仅操作原始点云数据,在实际应用中提供了更大的灵活性和适应性,因为它消除了收集具有语义注释的附加图像数据的需求。

4)室外场景中P2P++设计上的消融

为了研究室外场景中P2P++中跨模态掩模蒸馏的体系结构设计,我们对语义KITTI验证数据集进行了广泛的消融研究,结果如表9所示。
架构设计:在表IX a中,我们深入探讨了蒸馏模块中掩码建模的架构设计及其影响。将模型A的结果与基线(简化版的SPVCNN)进行比较,我们发现通过普通像素级蒸馏利用预训练的图像知识增强了点云模型的能力。从P2P到模型A的性能提升进一步证实了我们新引入的像素到点蒸馏技术的有效性。此外,当在蒸馏模块中加入掩码建模时,P2P++达到了最高的分割mIoU,从而证实了我们提出的跨模态掩码蒸馏在增强点云模型推理能力方面的有效性。
掩码比例:鉴于点云编码器和图像编码器中都有四个层,我们进行了一系列消融研究,旨在确定不同层中最优的掩码比例配置,如表IX b所示。我们的实证分析包括检查掩码比例分布,包括在模型系列B和C中均匀分布和递增分布的配置。此外,模型系列D探讨了所有层是否都对掩码蒸馏不可或缺。基于实验结果,显然参与所有层的掩码蒸馏过程证明是最有效的方法。此外,层次递增的掩码比例分布产生了最有利的结果。这一观察可能源于深层倾向于生成具有更强语义内容和更大接受场的特征。因此,这些深层更好地通过自注意力机制推断掩码邻居标记。相反,浅层主要关注局部、细粒度的细节,可能难以通过自注意力推理有效地预测掩码特征。

5) 可视化分析

室内和室外场景投影图像的可视化展示在图1(c)和(d)中。通过范围投影获得的SemanticKITTI投影图像覆盖了整个场景,而通过透视投影获得的ScanNetV2投影图像只覆盖了场景的一个角落。投影图像的颜色完全由我们的点到像素提示模块预测,没有对现实世界颜色的显式监督。通过端到端优化,在预训练图像分割模型的冻结权重指导下隐式地学习了投影图像的颜色。然而,ScanNetV2的透视投影为不同的家具产生了合理且可区分的颜色,而SemanticKITTI的范围投影产生了逼真的图像。例如,树木被涂成深绿色,而道路被涂成灰色。建筑物呈现一致的砖红色,而汽车则呈现出典型的蓝色外观。这些逼真的可视化表明我们的点到像素提示充分利用了预训练权重中现实世界的颜色和纹理知识。

V. 结论

在本文中,我们提出了点到像素提示(Point-to-Pixel Prompting)和像素到点蒸馏(Pixel-to-Point distillation)方法,利用预训练的图像模型进行点云分析。在数据空间,点到像素提示将点云转换为几何感知的彩色图像,这些图像可以被预训练的图像模型处理。在特征空间,像素到点蒸馏使用预训练的图像模型作为教师模型,指导点云学生模型的优化过程。点和像素之间的双向信息流构建了2D和3D领域之间的桥梁,使得点云分析能够享受到2D视觉领域的繁荣发展。我们在对象级ScanObjectNN分类上取得了最先进的性能,并在场景级分割任务上取得了有竞争力的结果。对象分类和场景分割的大量实验结果展示了我们P2P++框架的优越性和通用性,详尽的消融研究彻底讨论了架构设计选择。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

CVPaper
这里有知识和乐趣,感悟和哲理,一起来嗨!!!
 最新文章