论文一起读 | PartSLIP: 通过预训练的视觉语言模型对三维点云进行小样本部件分割

文摘   科技   2024-08-09 16:45   广东  

导读

本文是VCC陈永昊同学对论文 PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models 的解读,该工作由加利福尼亚大学和高通人工智能实验室合作完成,并已被发表在计算机视觉顶级会议CVPR 2023上。 

项目主页: 
https://colin97.github.io/PartSLIP_page/ 

该工作提出了一种新的3D物体部件分割方法,利用预训练的视觉-语言模型GLIP来解决传统监督学习需要大量标注数据的问题。该方法通过点云渲染连接二维和三维空间,并将GLIP获得的二维分割信息转移到三维点云上,同时利用小样本提示微调技术多视角视觉特征融合技术进一步提升算法性能。

注:本文图片均来自原论文与其项目主页。



I


 引言 
虽然传统的监督学习方法在3D部件分割领域取得了重大进展[1, 2],但这些方法在面对未知类别的3D物体时往往显得力不从心。与图像数据集相比,包含3D部件标注的数据集规模较小,例如PartNet数据集[3]仅包含24个物体类别,远不能覆盖现实世界中物体类别的多样性。收集足够的标注数据来覆盖所有物体类别是一项极具挑战性的任务,这导致传统的监督学习模型在泛化能力上存在局限。

近年来,视觉-语言多模态大模型获得了研究者的广泛关注。这些模型通过在大量的图像-文本对上进行预训练,学习了丰富的视觉概念和知识,并且这些知识能够通过自然语言进行引用。得益于出色的零样本推理能力,这些模型已经被广泛应用于各种2D视觉和语言任务。在本工作中,作者探索了使用预训练的视觉-语言大模型GLIP[4],通过零样本和小样本学习的方式实现3D物体部件分割的问题。与现有技术相比,该工作显著提高了3D物体部件分割任务的泛化性和灵活性。

II


 技术贡献 

本工作主要贡献如下:

  • 介绍了一种新的3D物体部件分割方法,该方法利用预训练的视觉-语言模型,在零样本和小样本学习任务上实现了出色的性能;

  • 提出了一个3D投票和分组模块,有效地将多视角的2D包围盒转化为3D语义和实例分割;

  • 利用小样本提示微调和多视图特征聚合来提高GLIP的检测性能;

  • 提出了一个针对小样本和文本驱动的3D物体部件分割任务的基准数据集PartNetE


III


 方法介绍 
PartSLIP以3D点云和文本提示作为输入,并以零样本或小样本的方式生成3D语义和实例分割。PartSLIP利用了视觉-语言大模型GLIP的2D视觉定位能力,具体步骤为:1) 为了将3D输入与2D GLIP模型连接起来,把输入点云渲染为多视角的2D图像,然后将其与包含部件名称的文本提示一起输入到GLIP模型中;2) GLIP模型检测每个2D视图中的物体部件,以2D包围盒的形式输出检测结果;3) 利用3D投票和分组模块,融合多视角的2D包围盒,为输入点云生成3D语义和实例分割。

图1 PartSLIP结构图


投票和分组模块
把2D包围盒转换回3D语义和实例分割并不是一件简单的事情,论文提出了一个新的3D投票和分组模块,以融合多视角的2D包围盒,并为输入点云生成3D语义和实例分割。首先,采用文献[5]的方法,对输入点云进行聚类并生成超点。由于每个生成的超点中的点展现出相似的几何形态与外观特征,我们推断这些点属于同一物体部件的实例。然后,对于每一对超点和部件类别,我们计算一个分数  以衡量第i个超级点被部件类别j的任何包围盒覆盖的比例:
  
其中,  表示第i个超级点,  是Iverson括号,  表示点p在视图k中是否可见,  是视图k中j类别的预测包围盒列表,  表示点p在视图k中的投影是否在包围盒b内。依据这个分数,每个超点最终被分配一个部件类别标签。

为了将超点分组为物体部件实例,我们首先将每个超点视为一个单独的实例,然后考虑是否将每对超点合并,两个超点合并的标准包括:具有相同的语义标签、在三维空间中相邻、对于每个2D包围盒来说同时被包括在内或排除在外。最终,我们可以得到3D物体部件的实例分割结果。

小样本微调
由于自然语言具有灵活性,同一个物体部件可能会通过多种不同的方式命名,这使得预训练的GLIP模型可能无法完全通过文本提示理解我们对部件的定义。论文中提到的一个有效的解决方案是使用带有部件分割的3D形状进行小样本提示微调:在固定预训练的GLIP模型的参数的同时,学习每个部件名称的语言嵌入的偏移特征向量。此外,论文还提出了一个多视角视觉特征聚合模块,以融合多个2D视图信息,这样GLIP模型可以更好理解输入3D形状的全局信息。

图2 原始GLIP和额外的模块


如图2所示,带锁的蓝色框表示GLIP原始的网络结构模块,在微调的时候冻结其参数。为了引入可以微调的参数,learnable offset feat.模块为语言特征预测一个残差偏移量,这样网络就多了一个可学习的模块。此外,multi-view feat. fusion模块为图像特征计算多视角融合的权重以融合多视角的特征信息。也就是说,输入到vision-language fusion模块的是加上偏移量的语言特征和加权求和的图像特征。通过引入这两个额外的模块,经过小样本微调,模型的性能将得到显著提升。

多视角视觉特征聚合
为了提升GLIP模型对非常规视角语义检测的准确度,并充分利用已知的三维先验,论文提出了一个无需训练的多视图视觉特征聚合模块,该模块可以插入到原始GLIP网络中,而无需更改任何现有的网络权重。具体来说,特征聚合模块接收由GLIP为每个2D视图生成的特征图  作为输入,融合并生成相同形状的融合特征图  以替换原始特征图并输入到GLIP模型的其余层。

图3 多视角2D渲染和特征映射


如图3所示,对于每个特征图  的每个单元  在其他每个特征图  中找到对应的单元格  并使用加权平均值作为该单元的融合特征:
  
具体单元格的对应方式及权重  的计算方式请读者参考论文原文。


IV


 部分结果展示 
语义分割
表1展示出PartSLIP在语义分割任务中具有优异的零样本性能,尤其是在一些常见物体类别上(比如瓶子、椅子和桌子)。尽管在某些类别上表现不佳(例如,水壶的嘴),在使用8个样本的3D数据进行提示微调后,性能显著提升,并超过了所有小样本设置的基线方法,甚至是45×8+28k设置的基线方法。对于45×8+28k设置,基线方法使用额外的28k个形状覆盖17个类别进行训练。对于覆盖的类别,这是一个完全监督的设置,但PartSLIP的8个样本版本也可以达到接近的性能。此外,PartSLIP在非覆盖类别上的表现也大大超越了其他基线方法,显示出在少量样本学习方面的潜力和优势。图4展示的是语义分割可视化实例。

表1 语义分割结果

图4 语义分割可视化实例


实例分割
表2展示了实例分割的结果,可以观察到与语义分割相似的现象。PartSLIP在零样本设置中达到了18.0%的mAP50,在8样本设置中达到了44.8%的mAP50,这超过了45×8和45×8+28k设置中所有基线方法的表现。请在图5中查看实例分割可视化实例。

表2 实例分割结果

图5 实例分割可视化实例


V


 总结与展望 
PartSLIP是一种新的3D物体部件分割方法,利用预训练的视觉-语言模型GLIP来解决传统监督学习需要大量标注数据的问题。该方法通过点云渲染连接二维和三维空间,并将GLIP获得的二维分割信息转移到三维点云上。此外,PartSLIP还结合了小样本提示微调和多视角视觉特征融合技术,显著提升了性能。该工作也面临一些局限性:PartSLIP无法处理物体的内部点,而且由于点云渲染和GLIP模型的多次推理需要较长的运行时间。因此,在未来使用PartSLIP从2D视觉模型中提炼知识并训练3D基础模型是一个有价值的课题,可以使推理过程更加高效。

VI


 思考与讨论 
Q: 为什么不使用CLIP视觉语言模型? 
A: CLIP模型主要关注图像分类任务,不能直接生成区域级输出。而且CLIP模型使用图像级监督进行预训练,关于物体部分的监督信号较少,无法判断一个物体是否具有细粒度的部分。相比之下,GLIP模型在2D检测和定位任务上进行预训练,对细粒度物体部分更为敏感。因此,GLIP模型更适合于3D物体部件分割任务。 

Q: PartSLIP适用于真实扫描数据集吗? 
A: 论文中也有提到使用配备LiDAR传感器的iPhone 12 Pro Max捕捉视频,并将融合的点云作为输入进行实验。由下图可以看到在真实扫描数据中PartSLIP相比于基线方法展示出更好的结果。
图6 扫描数据集语义分割实例

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: GLIP视觉-语言大模型只能获取物体部件的2D包围盒,导致3D部件分割的结果不够精准。能否利用GLIPv2、SAM等预训练的2D分割大模型来改进PartSLIP,以提高3D物体部件分割的准确度呢?

-- End--



导 读 | 陈永昊
审 核 | 胡瑞珍
编 辑 | 申


参考文献

[1] Guocheng Qian, Yuchen Li, Houwen Peng, Jinjie Mai, Hasan Abed AI Kader Hammoud, Mouhamed Elhoseiny, Bernard Ghanem. PointNeXt: Revisiting PointNet++ with improved training and scaling strategies. Advances in Neural Information Processing Systems (NeurIPS). 23192-23204, 2022. 

[2] Li Yi, Wang Zhao, He Wang, Minhyuk Sung, Leonidas Guibas. GSPN: Generative shape proposal network for 3D instance segmentation in point cloud. Conference on Computer Vision and Pattern Recognition (CVPR). 3947-3956, 2019. 

[3] Kaichun Mo, Shilin Zhu, Angle X. Chang, Li Yi, Subarna Tripathi, Leonidas J. Guibas, Hao Su. PartNet: A large-scale benchmark for fine-grained and hierarchical part-level 3D object understanding. Conference on Computer Vision and Pattern Recognition (CVPR). 909-918, 2019. 

[4] Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao. Grounded language-image pre-training. Conference on Computer Vision and Pattern Recognition (CVPR). 10965-10975, 2022. 

[5] Loic Landrieu, Martin Simonovsky. Large-scale point cloud semantic segmentation with superpoint graphs. Conference on Computer Vision and Pattern Recognition (CVPR). 4558-4567, 2018.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章