导读 本文是VCC陈永昊同学对论文 PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models 的解读,该工作由加利福尼亚大学和高通人工智能实验室合作完成,并已被发表在计算机视觉顶级会议CVPR 2023上。 项目主页: https://colin97.github.io/PartSLIP_page/ 该工作提出了一种新的3D物体部件分割方法,利用预训练的视觉-语言模型GLIP来解决传统监督学习需要大量标注数据的问题。该方法通过点云渲染连接二维和三维空间,并将GLIP获得的二维分割信息转移到三维点云上,同时利用小样本提示微调技术和多视角视觉特征融合技术进一步提升算法性能。 注:本文图片均来自原论文与其项目主页。
I 引言 虽然传统的监督学习方法在3D部件分割领域取得了重大进展[1, 2],但这些方法在面对未知类别的3D物体时往往显得力不从心。与图像数据集相比,包含3D部件标注的数据集规模较小,例如PartNet数据集[3]仅包含24个物体类别,远不能覆盖现实世界中物体类别的多样性。收集足够的标注数据来覆盖所有物体类别是一项极具挑战性的任务,这导致传统的监督学习模型在泛化能力上存在局限。 近年来,视觉-语言多模态大模型获得了研究者的广泛关注。这些模型通过在大量的图像-文本对上进行预训练,学习了丰富的视觉概念和知识,并且这些知识能够通过自然语言进行引用。得益于出色的零样本推理能力,这些模型已经被广泛应用于各种2D视觉和语言任务。在本工作中,作者探索了使用预训练的视觉-语言大模型GLIP[4],通过零样本和小样本学习的方式实现3D物体部件分割的问题。与现有技术相比,该工作显著提高了3D物体部件分割任务的泛化性和灵活性。 II 技术贡献
IV 部分结果展示 语义分割 表1展示出PartSLIP在语义分割任务中具有优异的零样本性能,尤其是在一些常见物体类别上(比如瓶子、椅子和桌子)。尽管在某些类别上表现不佳(例如,水壶的嘴),在使用8个样本的3D数据进行提示微调后,性能显著提升,并超过了所有小样本设置的基线方法,甚至是45×8+28k设置的基线方法。对于45×8+28k设置,基线方法使用额外的28k个形状覆盖17个类别进行训练。对于覆盖的类别,这是一个完全监督的设置,但PartSLIP的8个样本版本也可以达到接近的性能。此外,PartSLIP在非覆盖类别上的表现也大大超越了其他基线方法,显示出在少量样本学习方面的潜力和优势。图4展示的是语义分割可视化实例。
V 总结与展望 PartSLIP是一种新的3D物体部件分割方法,利用预训练的视觉-语言模型GLIP来解决传统监督学习需要大量标注数据的问题。该方法通过点云渲染连接二维和三维空间,并将GLIP获得的二维分割信息转移到三维点云上。此外,PartSLIP还结合了小样本提示微调和多视角视觉特征融合技术,显著提升了性能。该工作也面临一些局限性:PartSLIP无法处理物体的内部点,而且由于点云渲染和GLIP模型的多次推理需要较长的运行时间。因此,在未来使用PartSLIP从2D视觉模型中提炼知识并训练3D基础模型是一个有价值的课题,可以使推理过程更加高效。 VI 思考与讨论 Q: 为什么不使用CLIP视觉语言模型? A: CLIP模型主要关注图像分类任务,不能直接生成区域级输出。而且CLIP模型使用图像级监督进行预训练,关于物体部分的监督信号较少,无法判断一个物体是否具有细粒度的部分。相比之下,GLIP模型在2D检测和定位任务上进行预训练,对细粒度物体部分更为敏感。因此,GLIP模型更适合于3D物体部件分割任务。 Q: PartSLIP适用于真实扫描数据集吗? A: 论文中也有提到使用配备LiDAR传感器的iPhone 12 Pro Max捕捉视频,并将融合的点云作为输入进行实验。由下图可以看到在真实扫描数据中PartSLIP相比于基线方法展示出更好的结果。 图6 扫描数据集语义分割实例 以下是开放性问题,欢迎读者朋友留言讨论: Q: GLIP视觉-语言大模型只能获取物体部件的2D包围盒,导致3D部件分割的结果不够精准。能否利用GLIPv2、SAM等预训练的2D分割大模型来改进PartSLIP,以提高3D物体部件分割的准确度呢?
-- End--
导 读 | 陈永昊审 核 | 胡瑞珍编 辑 | 申金 参考文献
[1] Guocheng Qian, Yuchen Li, Houwen Peng, Jinjie Mai, Hasan Abed AI Kader Hammoud, Mouhamed Elhoseiny, Bernard Ghanem. PointNeXt: Revisiting PointNet++ with improved training and scaling strategies. Advances in Neural Information Processing Systems (NeurIPS). 23192-23204, 2022.
[2] Li Yi, Wang Zhao, He Wang, Minhyuk Sung, Leonidas Guibas. GSPN: Generative shape proposal network for 3D instance segmentation in point cloud. Conference on Computer Vision and Pattern Recognition (CVPR). 3947-3956, 2019.
[3] Kaichun Mo, Shilin Zhu, Angle X. Chang, Li Yi, Subarna Tripathi, Leonidas J. Guibas, Hao Su. PartNet: A large-scale benchmark for fine-grained and hierarchical part-level 3D object understanding. Conference on Computer Vision and Pattern Recognition (CVPR). 909-918, 2019.
[4] Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, Kai-Wei Chang, Jianfeng Gao. Grounded language-image pre-training. Conference on Computer Vision and Pattern Recognition (CVPR). 10965-10975, 2022.
[5] Loic Landrieu, Martin Simonovsky. Large-scale point cloud semantic segmentation with superpoint graphs. Conference on Computer Vision and Pattern Recognition (CVPR). 4558-4567, 2018.
深圳大学可视计算研究中心Visual Computing Research Center----------------------------------https://vcc.tech