港中文、上海AI Lab与浙大重磅推出PointLLM:大语言模型再升级,强势赋能点云理解!-ECCV 2024

文摘   2024-10-23 08:00   英国  

点击上方蓝字关注我们


PointLLM: Empowering Large Language Models to Understand Point Clouds

作者列表:

Runsen Xu,  Xiaolong Wang,  Tai Wang,  Yilun Chen,  Jiangmiao Pang, Dahua Lin

作者单位:

香港中文大学, 上海AI Lab, 浙江大学

论文链接:

https://arxiv.org/pdf/2308.16911

代码链接:

https://github.com/OpenRobotLab/PointLLM

简介

大语言模型 (LLM) 在NLP领域尚未完全涵盖 3D 理解领域。本文介绍了 PointLLM,使LLM能够理解点云并提供超越 2D 数据的新途径。 PointLLM 通过人类指令理解彩色对象点云,并生成上下文适当的响应,说明其对点云和常识的掌握。 具体来说,它利用具有强大 LLM 的点云编码器来有效融合几何、外观和语言信息。为了克服点-文本指令跟随数据的稀缺性,文中开发了一个自动数据生成管道,收集了超过 730K 个样本和 660K 个不同对象的大规模数据集,这有助于采用 MLLM 中流行的两阶段训练策略发展。此外,通过提出两个新基准来解决缺乏适当基准和当前评估指标的局限性:生成 3D 对象分类和 3D 对象描述。在各种训练策略证明了PointLLM显著超越了 2D 和 3D 基线。

研究动机

虽然现有的将 LLM 与 2D 图像集成的努力 也提供了 3D 理解,但它们面临着深度模糊、遮挡和视点依赖性等困难。相比之下,点云作为一种高效且通用的 3D 表示形式,提供直接的几何和外观信息。尽管有这些好处,点云与LLM的集成仍未得到充分探索。

图 1: PointLLM,一种能够理解物体彩色点云的多模态大语言模型。它感知对象类型、几何形状和外观,而不用担心模糊的深度、遮挡或视点依赖性。

最近,使用投影层将预训练的编码器与 LLM 连接起来,并采用对齐和指令调整的两阶段训练,已被证明对于跨不同领域开发 MLLM 是有效的 。我们提出一个问题:这个已建立的框架能否成功适应点云领域? 在这项工作中,我们通过引入 PointLLM(图 1)来肯定地回答这个问题,这是我们为使 LLM 能够理解点云而做出的初步努力,重点是 3D 对象。

要解决的第一个困难是缺乏训练数据,遵循数据集的点文本指令对于教学模型解释点云和遵循用户命令至关重要。虽然手动编译成本高昂且劳动强度大,但我们使用 GPT-4 设计了一个自动数据收集管道,从 Objaverse 的 标题生成各种指令。这产生了一个大规模数据集,其中包含不同对象的 660K 简要描述和 70K 复杂指令,从而使模型能够针对该领域进行两阶段训练。

使用适当的任务和指标评估模型性能提出了另一个挑战。我们的目标是评估 MLLM 中的点云理解,但由于 MLLM 的生成性质,现有的基于判别性的 3D 感知基准无法达到此目的

论文贡献

  • 提出了一种能够理解物体彩色点云的多模态大语言模型PointLLM。

  • 开发了一个自动数据生成管道,收集了超过 730K 个样本和 660K 个不同对象的大规模数据集。

  • 引入了两个新基准:生成 3D 对象分类和 3D 对象描述,基于这样的假设:LLM对点云的理解反映在他们识别对象类别的能力以及描述的准确性和细节上,描述了他们感知到的信息。

  • 评估了各种训练方案,并观察到最佳数量的投影层可以有效地增强特征聚类、对齐点和文本特征。说明:采用最大池化来聚合点token可以减少 token 数量并大大提高训练速度。

PointLLM方法

方法部分分为三部分:

(1)自动生成点文本指令跟随数据的策略。

(2)PointLLM 的架构,将对象点云和用户指令作为输入并输出响应。

(3)损失函数和两阶段训练策略。

点-文本指令跟随数据

开发端到端多模态 LLM 面临的艰巨挑战是获取大规模多模态指令跟踪数据,这对于表示学习、调整潜在空间以及调整模型以遵循人类意图至关重要。然而,此类数据的手动标记成本过高且劳动密集型。为了克服这个问题,在 GPT-4 的帮助下,提出了一种利用大规模点云字幕数据集 Cap3D 的自动数据生成技术。生成的数据集遵循模板后的统一指令,如表 1 所示。由简要描述指令和复杂指令组成,分别有助于潜在空间对齐和指令调整。

模型架构

图 2:PointLLM 概述。

如图 2 所示,PointLLM 是一个生成模型,旨在完成包含点云和文本的多模态句子。该模型由三个主要组件组成:预训练的点云编码器 、投影 和预训练的大语言模型 (LLM) 主干 $。

点云编码器 将点云 作为输入,其中 n 是点的数量,d 是每个点的特征维度。编码器的输出是点特征序列 ,其中 m 是点特征的数量,c 是特征维度。投影仪 是一个 MLP,它将点特征 X 映射到点标记 ,其中 c' 是点标记的维度,与文本标记。

LLM 主干 是一个仅解码器的 Transformer,它接受由文本和点标记组成的标记序列。这种混合的token序列表示为 ,其中 k 是令牌总数。利用自注意力机制,LLM 主干能够理解不同类型令牌之间的上下文关系,使其能够基于文本和点云输入生成响应。形式上,LLM 主干 的输出是一系列预测标记 。第 i 个标记 的预测以所有先前标记为条件,, 数学上表示为

每个 都通过最后一个线性层,然后进行 softmax 操作,将隐藏状态映射到词汇表上的概率分布。该附加层表示为 ,其中 V 是词汇表的大小。第 i 个标记的最终预测是词汇表中概率最高的单词:

训练策略

损失函数。通过最小化每个位置的文本标记的负对数似然来训练 PointLLM。损失函数仅根据构成模型响应的文本标记进行计算,包括句末标记 。将标记从人类指令中排除,确保模型专注于学习生成准确且连贯的响应。这种训练方法的端到端性质使 PointLLM 能够有效地集成点云和文本模式。

两阶段训练。训练过程包括两个阶段,每个阶段侧重于模型的不同方面。在第一阶段,称为特征对齐阶段,冻结点云编码器和 LLM 的参数,并仅训练 MLP 投影仪。在此阶段,训练过程使用简短描述指令,旨在有效地将点特征与文本标记空间对齐。此阶段还包括对两个新添加的特殊标记<p_start>和<p_end>的标记嵌入的调整。

在第二阶段,称为指令调整阶段,冻结点云编码器,同时联合训练投影和LLM。第二阶段使用复杂指令,帮助模型构建理解和响应包括点云数据在内的复杂指令的能力。

实验结果

实验结果证明,在 ModelNet40 和 Objaverse 数据集上,针对各种提示类型,PointLLM 均优于 2D 和 3D MLLM。与 2D 模型相比,PointLLM 提供直接的点云参与,展示了对单视图图像的增强的 3D 对象理解。该方法利用来自彩色点云的丰富 3D 几何和外观数据,有效地解决了遮挡和视点变化等挑战。与其他 3D 模型相比,PointLLM 在不同的提示中显示出更一致的分类准确性,强调了其提示的稳健性。 PointLLM 利用预先训练的点编码器和 LLM 主干,有效地转换点。

文中分析了人类评估数据,将提出的模型与基线和人类注释进行比较。根据 13B 变体的正确性得分计算的获胜率如图 3 所示。PointLLM 表现出显着的性能,在超过一半的测试样本中优于同行,包括针对人类注释(55% 对 35%)。这强调了 PointLLM 有效捕获和传达 3D 对象细节的能力,暗示了它在 3D 对象的可扩展、类人字幕方面的潜力。

致谢作者,转载请注明出处,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️  

   喜欢的话,请别忘记点赞👍➕关注哦 



推荐阅读


ECCV 2024|多模态学习不鲁棒?表示解耦打造稳健多模态学习新纪元

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

学术最前沿!2024最新深度多模态数据融合综述来袭!

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章