本工作主要贡献如下:
本文研究了预训练图像模型在三维点云分析中的潜力,并揭示了通过最小化微调参数可直接利用二维先验知识,并且可以超越直接在三维数据上训练的模型;
本文提出了一种新颖的框架--APF,该框架通过微调二维预训练模型,使其直接应用于三维点云分析,为三维点云处理领域提供了新的研究视角和技术途径。
Adapt PointFormer方法主要由对齐图像和点云特征和微调图像模型两部分组成,第一部分先将点云嵌入成token块再利用Z-order曲线来对齐点云token块和二维图像先验知识,第二部分提出PointFromer的微调方法,利用小部分参数即可获得大幅的性能提升。
对于第一部分,首先利用Point Embedding将点云编码为无序的token块,再利用Z-order曲线对这些token块进行排序,从而将其转换成有序的序列。这一过程确保了点云数据在输入到预训练模型之前具有良好的结构性和顺序性。对于第二部分,我们将排序后的有序token块输入至二维预训练模型中,并通过提出的Point Former模块微调该二维模型。Point Former使得二维图像的先验知识能够有效地集成到以编码的三维token块中,从而提升了模型在处理三维数据时编码特征的能力。这些经过处理的token块被输送到下游任务的处理器中,可以完成各类三维点云分析任务,如分类、分割、提取等。
本研究中可训练的参数主要集中在两个关键模块:Point Embedding模块主要由轻量级的PointNet构成,实质上是一系列简单的多层感知器,其作用是将点云数据的维度转换至预训练的二维模型可以接收的格式。这一转换过程不仅保留了点云的几何特征,还确保了数据与二维模型的兼容性。Point Former模块则由降维矩阵、激活函数和升维矩阵组成,其结构如图2所示。这种结构能够减少需要训练的参数的数量,提高训练效率。该模块能够将二维先验校准到特定三维任务中,增强了特征的表示能力,使其更加多样化,有助于利用预训练模型中的二维先验,从而更好地捕捉点云数据中的复杂特征。APF整体框架如图3所示:
我们首先展示莫顿曲线,通过莫顿算法,我们将无序的点云块转换为有序的点云块,我们将原本无序的点云块转换为了有序的点云块。这一步骤对于对齐点云和图像特征至关重要,这个操作确保了点云数据在空间上的连续性和顺序性,从而使得二维预训练模型能够更好地理解和处理这些数据,从而对齐点云和图像的特征。由图4可见,经过莫顿排序后,原本无序的点云块被重新排列,形成了一个(机头)到中(机身)到下(尾翼)的有序结构。
我们利用t-SNE对模型提取的三维点云特征进行了可视化,结果如图5所示,为我们提供了对特征分布和模型性能的直观理解。可以观察到,即使在未经训练的RPN中,相同类别的点云特征能够较为紧密地聚集在一起,而不同类别的特征则能够清晰地分开。这一现象表明,仅根据二维先验,APF也能够有效地提取句具有区分度的特征。
为了量化展示APF的有效性,我们展示了在三维点云分析领域常用的基准测试集上的实验结果。为了全面评估所提出方法的有效性和可扩展性,我们将该方法与传统的基于MLP方法和流行的基于Transformer的方法进行了比较。表1和表2分别展示了在物体分类任务上的实验结果,表3为部件分割任务上的结果:
为了深入分析APF方法中各个模块的贡献和有效性,我们进行了消融实验,其结果如表4所示:
-- End--
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). 4171-4186, 2019.
[2] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly. An image is worth 16x16 words: Transformers for image recognition at scale. International Conference on Learning Representations (ICLR). 2021.
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS). 5998-6008, 2017.
[4] Alec Radford, Jong Wook Kim, Christine Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark. Learning transferable visual models from natural language supervision. International Conference on Learning Representations (ICLR). 2021.
[5] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Sijia Wang, Lu Wang, Weizhu Chen. Lora: Low-rank adaptation of large language models. International Conference on Learning Representations (ICLR). 2022.
[6] Shoufa Chen, Chongjian Ge, Zhan Tong, Jianmin Wang, Yibing Song, Jian Yang Wang, Ping Luo. Adaptformer: Adapting vision transformers for scalable visual recognition. Advances in Neural Information Processing Systems (NeurIPS). 16664-16678, 2022.