NeurlPS'24开源 | Point-PRC:全新通用点云分析框架!

科技   2024-11-17 00:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Point-PRC: A Prompt Learning Based Regulation Framework for Generalizable Point Cloud Analysis

作者:Hongyu Sun, Qiuhong Ke, Yongcai Wang, Wang Chen, Kang Yang, Deying Li, Jianfei Cai

机构:Renmin University of China、Monash University

原文链接:https://arxiv.org/abs/2410.20406

代码链接:https://github.com/auniquesun/Point-PRC

1. 导读

基于流行的即时学习,研究大型三维模型的三维领域泛化能力。最近的工作表明,三维点云识别的性能可以显著提高参数有效的提示调整。然而,我们观察到下游任务的改善是以3D领域泛化能力的严重下降为代价的。为了解决这一挑战,我们提出了一个全面的监管框架,允许可学习的提示与大型3D模型中良好学习的一般知识积极交互,以保持良好的泛化能力。具体而言,所提出的框架通过最大化任务特定的预测和任务不可知的知识之间的相互一致性,对即时学习轨迹施加了多个显式约束。我们将监管框架设计为即插即用模块,嵌入到现有的代表性大型3D模型中。令人惊讶的是,我们的方法不仅实现了不断增加的泛化能力,而且在各种3DDG基准上显著提高了特定任务的3D识别性能。考虑到目前对3DDG研究和评价的不足,我们还创建了三个新的基准,即基于新基准、跨数据集基准和少镜头概化基准,以丰富该领域并启发未来的研究。

2. 引言

三维点云数据在诸多工业和民用领域得到了广泛应用,如自动驾驶、机器人技术、地理空间测绘和娱乐游戏。从这些点云数据中识别三维物体是这些应用的基本需求。相关研究课题已被探索了很长时间,其发展历程可概括为三个阶段。

早期,PointNet系列通过使用深度学习技术直接处理原始点云数据,掀起了一股浪潮。后续方法在PointNet和PointNet++的基础上,在局部信息聚合、优化技术、几何先验、模型架构等方面进行了改进。尽管取得了显著进展,但这些工作往往针对下游基准测试设计特定的架构,而很少关注模型的泛化能力,导致在实际部署时,尤其是在未见领域和受损数据的情况下,表现令人失望。另一方面,由于三维视觉概念的狭窄和标记数据的昂贵,在每个基准测试上训练点云识别模型并不总是可行的。

上述因素促使人们研究深度点云模型的领域泛化路径,以便它们能够学习鲁棒且可迁移的表示。相关研究已在图像识别领域广泛展开,但据我们所知,关于三维中的领域适应和领域泛化,仅少数方法进行了探讨。几年前,PointDAN首次通过对齐源域和目标域中三维对象的多尺度特征,研究了点云分类模型的领域适应。MetaSets提出在一组变换后的点集上进行元学习,以获得可泛化的表示,以处理从模拟到现实的几何形状变化。PDG将三维对象分解为共享部分空间以减少领域差距,并开发了一种用于三维点云分类的部分级领域泛化模型。

然而,上述方法均基于小型模型(例如,具有120万参数的PointNet)和小型数据集(例如,具有9843个训练样本的ModelNet),与流行的大型三维基础模型相比,其整体可迁移性仍受到抑制。这些大型三维基础模型已在大量三维数据上进行了预训练,并展现出了有前景的零样本学习能力。近期工作站在大型三维基础模型的肩膀上,通过参数高效的适应(如提示学习、适配器及其组合)来推动下游三维任务的边界。它们在Transformer块的输入中插入可学习的提示或在其内部插入适配器,以使基础模型适应特定的三维任务。然而,针对下游基准测试优化新引入的小型模块容易过拟合,从而干扰内部表示并损害基础模型的固有泛化能力。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等

在本文中,我们基于大型三维基础模型,通过轻量级提示学习开发了我们的方法,并提出了一个包含三个正则化约束的综合框架,以使学习轨迹能够与大型三维模型中的已学知识积极交互,同时实现更好的任务特定性能和任务无关泛化。具体而言,我们提出了相互一致约束来规范可学习的提示,使其与预训练基础模型产生一致的特征分布和预测。然后,我们利用来自大型语言模型(LLMs)或手动模板的灵活且多样的文本描述来反映不同类别点云的属性,并增强泛化能力。最后,我们开发了一种加权模型集成策略,以平滑且可预测地更新可学习的提示,避免在拟合下游数据集时出现巨大且意外的跳跃。近期的一些工作也探索了点云分析的参数高效调整,它们专注于下游任务的性能,而未考虑模型的泛化能力。据我们所知,我们的工作首次尝试施加明确的正则化约束,并基于大型三维模型改进了三维领域泛化。

此外,我们认为现有的三维领域泛化评估基准,如PointDA和Sim-to-Real,可能不足以全面评估常见的泛化能力。这些基准仅包含了约10个点云对象类别。它们强调源域和目标域之间共享类别之间的泛化,而没有考虑向未见新类别、受损数据等的迁移,而这些在真实场景中很常见。在本文中,我们创建了三个新的基准来丰富三维领域泛化的评估,包括基础到新类别的泛化、跨数据集泛化和少样本泛化。我们进行了全面的实验和分析,以检验所提出的正则化约束框架,消融不同组件的有效性,并从我们新引入的3DDG评估基准中获得一些新的见解。结果表明,所提出的方法不仅增强了任务特定的三维点云识别能力,还显著提高了任务无关的泛化能力。

3. 效果展示

轻量级提示调整可以显著提高代表性大型三维模型在已见类别上的识别准确率,同时阻碍了对未见新类别的泛化,其性能始终落后于这些模型的相应零样本预测。

我们的研究动机:在保持良好大型3D模型泛化能力的同时,提升下游3D任务的性能。实验在ShapeNetCoreV2数据集上进行。ULIP-2在该数据集上可以达到71.22%的零样本识别准确率。近期基于ULIP-2的工作引入了轻量级提示调优(PT)来进一步提升目标任务的性能(准确率75.80%)。然而,我们观察到,这些改进是以3D领域泛化能力严重下降为代价的(例如,在新类别上的准确率为57.07%,远低于71.22%),并因此开发了一个系统性的正则化约束(RC)框架来解决这一挑战。

4. 主要贡献

简而言之,本文的贡献有三方面。首先,据我们所知,我们首次将3DDG问题置于大型多模态三维模型面前,并提出了一种基于轻量级提示调整的有效正则化框架,该框架不仅增强了下游三维任务性能,还显著提升了领域泛化能力。其次,我们将正则化框架实现为即插即用模块,可无缝集成到现有的大型多模态三维模型中。在代表性大型三维模型上获得了一致的改进,表明所提出的正则化框架具有通用性和模型无关性。第三,我们精心设计了三个新的基准来丰富三维领域泛化的评估。我们的基准为3DDG引入了新的评估维度,这些维度在现实中至关重要但在现有基准中缺失,包括基础到新类别、跨数据集和少样本泛化。这些新的更具挑战性的基准将推动三维领域泛化的未来研究。

5. 方法

我们首先回顾了现有大型三维模型的轻量级提示学习。然后,基于即插即用提示调整策略,提出了一个综合正则化框架,以促进大型三维模型的泛化能力。最后,我们介绍了所设计方法的实施细节。我们的方法整体流程如图2所示。

受语言表达灵活性和多功能性的启发,我们提出利用多样化的文本描述来指导轻量级提示调整(prompt tuning),以生成可迁移的特征。具体而言,我们通过提示大型语言模型(LLMs)或使用手动模板,为每个点云对象类别获取多个文本描述。然后,我们通过池化操作,将每个单一类别的所有描述文本特征进行聚合,这将整合由强大大型模型提取的丰富语义信息,防止点云类别偏向于某些特定描述,并最终增强模型的迁移能力。在使用LLMs描述点云时,我们设计了三种提示类型,包括问答、标题生成和使用关键词造句,如图3所示。对于给LLMs的每个指令,我们获取Nt = 10个回复。

6. 实验结果

P-CLIP和ULIP系列的泛化能力损失。我们观察到,在不使用我们提出的正则化约束的情况下,P-CLIP、P-CLIP2、ULIP和ULIP-2在基类和新类别识别准确率之间存在显著差距。例如,P-CLIP2在ModelNet40的基类上达到了93.98%的准确率,但在新类别的整个测试集上绝对准确率下降了48.77%,甚至低于冻结P-CLIP2的零样本准确率(64.22%)。五个数据集上的结果均显示出原始模型泛化能力的损失。

我们的框架提升了泛化能力。如表1所示,得益于与大型3D模型中的通用知识的积极沟通和对齐,所提出的由三个正则化约束组成的框架在不同模型和数据集上显著提升了未见类别的识别准确率。例如,ULIP的调和平均准确率在五个数据集上的平均提升达到了10.65%的绝对百分点。

我们的框架提升了特定的3D任务性能。令人惊讶的是,在增强与任务无关的泛化能力的同时,正则化约束并未阻碍特定任务的性能,ULIP+RC和ULIP-2+RC在五个数据集上的基类准确率分别平均提高了4.87%和5.27%。

域外(OOD)泛化通过从现有域中学习来展示模型对其他未见域的迁移能力。为了在此基准上进行评估,我们为ULIP和ULIP-2实现了轻量级提示学习,然后在其上施加提出的正则化约束。同时,为了比较,我们还以相同设置对P-CLIP]和P-CLIP2进行了提示学习。结果如表2所示。通过为ULIP和ULIP-2配备所设计的框架,我们在五个目标域中的每一个上都获得了持续的正向收益。随着ULIP能力的提升,这些平均收益也随之扩大,例如,ULIP-2的收益为+6.20%,而ULIP的收益为+1.79%。同时,我们注意到,在Omni3D数据集上的表现相当有限,且此处的方法似乎效果不佳,尤其是P-CLIP系列和ULIP(准确率低于10%)。该数据集包含大量真实的3D对象词汇(216个类别),并表现出长尾属性。当将仅从狭窄的3D对象概念集(ShapeNetV2中的55个类别)学习的模型迁移到Omni3D时,它们会遭遇新的3D概念,因此表现不佳。

由于几何形状复杂、传感器不准确和处理不精确,点云中经常出现数据损坏。我们研究了所提出框架在ModelNet-C上的泛化能力,该数据集包括常见的损坏情况,如丢失部分或添加全局离群值。比较方法与OOD泛化中的方法相同,结果如表3所示。我们的方法不仅提高了干净数据上的识别准确率(ULIP提升+1.44%,ULIP-2提升+1.40%),还增强了代表性大型3D模型对坍塌数据的鲁棒性。通过对7种损坏类型进行平均,我们获得了ULIP和ULIP-2分别+1.51%和+4.78%的收益。

7. 总结 & 未来工作

本文首次尝试通过全面的正则化框架来解决大型3D模型在适应下游3D任务时出现的损坏泛化问题。该框架通过最大化任务特定预测与通用知识之间的相互一致性,使可学习的提示能够积极与大型3D模型进行交互。不同大型3D模型上均获得了持续的泛化收益,这表明了所提出框架的模型无关属性。我们还通过开发新的、更具挑战性的评估基准,为3D域泛化(3DDG)的研究做出了贡献,这将推动进一步的调查研究。然而,本工作侧重于点云识别,我们计划在未来的工作中讨论分割和检测任务。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉知识星球

3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、扩散模型、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

计算机视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章