PointLLM：使大型语言模型能够理解点云

文摘科技 2024-11-12 11:05 中国香港

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

写在前面的话:

随着大语言模型范式的兴起，现在传统的方向在大语言模型的加持下将会给大家带来不一样的视角，今天让我们一起来看一下PointLLM, 使用大语言模型理解点云！

大型语言模型 ( LLMs ) 的前所未有的进步对自然语言处理产生了深远的影响，但尚未完全涵盖 3D 理解领域。本文介绍了 PointLLM，这是填补这一空白的初步努力，使LLMs能够理解点云并提供超越 2D 数据的新途径。PointLLM 通过人类指令理解彩色对象点云，并生成上下文适当的响应，说明其对点云和常识的掌握。具体来说，它利用具有强大LLM点云编码器来有效融合几何、外观和语言信息。为了克服点文本指令跟随数据的稀缺性，我们开发了一个自动数据生成管道，收集了超过 730K 个样本和 660K 个不同对象的大规模数据集，这有助于采用 MLLM 中流行的两阶段训练策略发展。此外，我们通过提出两个新颖的基准来解决缺乏适当基准和当前评估指标的局限性：生成 3D 对象分类和 3D 对象描述，这两个基准得到了来自人类和 GPT 分析的新的综合评估指标的支持。通过探索各种训练策略，我们开发了 PointLLM，显着超越了 2D 和 3D 基线，在人类评估的对象描述任务中取得了显着的成就，在超过 50% 的样本中超越了人类注释者。代码、数据集和基准可在https://github.com/OpenRobotLab/PointLLM获取。

在我们的研究中，我们评估了各种训练方案，并观察到最佳数量的投影层可以有效地增强特征聚类、对齐点和文本特征。我们还发现，采用最大池化来聚合点令牌可以减少令牌数量并大大提高训练速度，尽管性能会受到轻微影响。对数据变异性的进一步分析表明，模型性能在大约 600K 样本用于对齐和多样化指令数据时达到峰值，显着增强了微调，强调了数据量和多样性的价值。这些见解促成了 PointLLM 的发展，它明显超越了 2D 和 3D 基线，在超过 50% 的对象字幕样本中得分令人印象深刻地高于人类注释者。

相关工作：

多模态大语言模型。多模态大语言模型（MLLM）旨在理解和解释超出单纯基于文本的数据的广泛信息[ 56 ] ，包括但不限于图像[ 23、31、14、61、51 ] 、音频[ 22 ] 、运动[ 25 ]等。广义上，模型可以分为两类。第一类包括采用大型语言模型与单独的、特定于模态的模型或 API 进行交互的模型[ 52,46,16,22,38 ] 。这种方法避免了模型训练的需要，但严重依赖于现有模型或 API 的可用性和功能。第二类涉及采用端到端训练策略的模型。这一类别中有两个突出的范例。第一个涉及从头开始训练模型，类似于纯文本LLMs ，使用大规模多模态语料库和数据集[ 23 , 39 ] 。第二个范式建立在预训练的LLMs和单峰编码器的基础上。 [ 10、28、1、2、59、11、31、14、61、27、8、44、60 ] 。该策略通常涉及两个阶段的过程：将单峰编码器与LLM的特征空间对齐，然后进行基于指令的微调。在我们的工作中，我们坚持对齐和调整策略来构建能够理解 3D 对象点云的 MLLM。

用语言理解对象点云。受到 CLIP [ 41 ]等连接视觉和文本模态的模型的启发，3D 对象领域也出现了类似的进步[ 58 , 62 , 24 , 50 , 32 , 54 , 55 , 19 ] 。PointCLIP [ 58 ] 、PointCLIPv2 [ 62 ]和 CLIP2Point [ 24 ]利用点云的深度图像投影通过 2D CLIP 模型进行 3D 识别。其他的，例如 ULIP [ 54 ] 、JM3D [ 50 ] 、OpenShape [ 32 ]和 CG3D [ 19 ] ，使用点云、图像和文本的三元组训练点云编码器以与 CLIP 表示对齐。ULIP-2 [ 55 ]和 OpenShape [ 32 ]通过采用图像字幕模型进行自动数据生成来扩展这一点，从而增强训练三元组的可扩展性。Cap3D [ 33 ]和UniG3D [ 45 ]采用类似的方法来生成点文本数据集。在我们的工作中，我们利用 Objaverse 上的 Cap3D 字幕在训练 PointLLM 时自动生成指令数据。最近推出的 3D- LLM [ 21 ]还试图通过将LLMs渲染为多视图图像，使用 CLIP [ 41 ]和 SAM [ 26 ]等 2D 基础模型进行特征提取，以及 2D MLLM 等来理解 3D。BLIP [ 28 ]用于输出生成。同时，Point-Bind LLM [ 15 ]将点云特征与 ImageBind [ 13 ]对齐，并使用 Imagebind- LLM [ 17 ]等 2D MLLM 进行生成。虽然简单，但由于其检索性质，它面临着幻觉等挑战。与众不同的是，PointLLM通过端到端训练直接将点云与LLM对齐，避免了复杂的数据预处理，并实现了准确、开放和自由形式的交互。

方法:

开发端到端多模态LLM面临的艰巨挑战是获取大规模多模态指令跟踪数据，这对于表示学习、调整潜在空间以及调整模型以遵循人类意图至关重要[ 1 、 29、8、31、61 ] 。然而，手动标记此类数据成本高昂且劳动密集型。为了克服这个问题，我们遵循[ 31 ]并在GPT-4 [ 35 ]的帮助下提出了一种利用大规模点云字幕数据集Cap3D [ 33 ]的自动数据生成技术。生成的数据集遵循模板后的统一指令，如表 1 所示。如图1所示，由简要描述指令和复杂指令组成，分别有助于潜在空间对齐和指令调整。

出于对数据质量的关注，我们从 Cap3D 人工注释的分割中选择了 15K 个标题用于数据生成，每个标题包含五个以上的单词。在过滤了不正确的 GPT-4 输出后，我们收集了 70K 条复杂指令，其中包括 15K 条详细描述、40K 条单轮对话和 15K 条多轮对话。指令列表、GPT-4提示、数据示例和分布分析可以在补充材料中找到。

模型架构

如图2所示，我们的PointLLM是一个生成模型，旨在完成包含点云和文本的多模态句子。该模型由三个主要组件组成：预训练的点云编码器 fp⁢e 、投影仪 fp⁢r⁢o⁢j ，以及预训练的大语言模型（ LLM ）主干 fl⁢l⁢m 。

点云编码器 fp⁢e 将点云作为输入 P∈ℝn×d ，在哪里 n 是点数并且 d 是每个点的特征维度。编码器的输出是一系列点特征 X=(x1,x2,…,xm)∈ℝm×c ，在哪里 m 是点特征的数量， c 是特征维度。投影仪 fp⁢r⁢o⁢j 是映射点特征的MLP X 指向代币 Y=(y1,y2,…,ym)∈ℝm×c′ ，在哪里 c′ 是点标记的维度，与文本标记相同。

LLM骨干 fl⁢l⁢m 是一个仅解码器的 Transformers [ 49 ] ，它接受由文本和点标记组成的标记序列。这种混合的标记序列表示为 Z=(z1,z2,…,zk)∈ℝk×c′ ，在哪里 k 是代币总数。利用自注意力机制， LLM主干能够理解不同类型令牌之间的上下文关系，使其能够基于文本和点云输入生成响应。形式上， LLM主干的输出 fl⁢l⁢m 是预测标记的序列 Z^=(z^1,z^2,…,z^k)∈ℝk×c′ 。的预测 i -th 令牌， z^i ，以所有先前的标记为条件， Z<i=(z1,…,zi−1) ，数学上表示为

z^i=fl⁢l⁢m⁢(Z<i).

每个 z^i 通过最后一个线性层，然后进行 softmax 操作，将隐藏状态映射到词汇表上的概率分布。该附加层表示为 fv⁢o⁢c⁢a⁢b:ℝc′→ℝV ，在哪里 V 是词汇量的大小。最终预测 z~i 为 i -th token 是词汇表中概率最高的单词：

z~i=arg⁡maxw∈vocab⁡fv⁢o⁢c⁢a⁢b⁢(z^i)⁢[w].

结束语:

当大语言模型范式来袭的时候，我们是否已经幸运的抓住了这波浪潮，并且能够在这波浪潮下有所成就！

自动驾驶之星和生成式AI与具身智能知识星球，新人优惠券来袭，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

http://mp.weixin.qq.com/s?__biz=MzkzMjY1MDI0OQ==&mid=2247487251&idx=1&sn=6a19f020dcd373ff6db95d954f537b81

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

某合资主机厂研发中心裁员

为何机器人难以打通「任督二脉」？

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

PointLLM：使大型语言模型能够理解点云

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

小鹏AI日的「9点必读」：机器人比车难做10000倍

端到端量产论文精选！

智驾公司中层leader的生存之道

智能座舱：能不能把今天的内卷，变成明天的诗和远方？

介绍一种transformer稀疏神经网络的硬件加速器算法

特朗普上台对中国汽车行业的影响：自动驾驶与芯片行业的双重挑战

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

华为李大锋：数字钥匙的安全与体验-华为数字钥匙方案介绍|2024车身电子技术论坛（11月14日，上海）

这些年我们一起追过的自动驾驶端到端范式！

"35岁程序员"在自动驾驶赛道的悲哀：职业发展的困境与挑战

具身智能的前景如何？是否适合读博？

自动驾驶的明日之星：世界模型带来的革新与挑战

自动驾驶赛道的挑战与机遇：裁员与业务缩减背后的故事

快手 Kuaishou AI 全景解析

小鹏「端到端」及「纯视觉」的法宝，终于一次说清了

【自动驾驶之星社区】上海线下大模型活动圆满落幕 —— 探索自动驾驶的新边界

1024，致敬那些改变世界的代码诗人

Open3DTrack 面向开放词汇的3D多目标跟踪 !

自动驾驶之星社区一周经典内容整理！

「AI 汽车大战」的三个真相

我们回来啦！自动驾驶之星社区大模型线下活动（10月26号上海）报名开始啦！

传小马智行即将公开申请IPO，赴美上市迈出关键一步

自然资源部审图中心副主任：智能驾驶测绘的安全隐患

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

工作的意义是什么？

首个以人类行为端对端自动驾驶系统HE-DRIVE：基于扩散模型实现OpenScene轨迹规划最新SOTA

魔视智能获新一轮融资，或为IPO做准备

开源SOTA项目Voxel-SLAM：完整、精确且多功能的激光雷达-惯性SLAM系统

如何快速将特斯拉3D感知移植到擎天柱？有可能只需要HeightFormer

高阶智驾平权时代，BEV+Transformer架构或成必杀技？

视频生成和具身智能强强联合！谷歌&卡内基梅隆&斯坦福发布Gen2Act：泛化超棒！

自动驾驶之星社区大模型线下活动报名开始啦！（10月26号上海）我们回来啦！

自动驾驶之星社区一周经典内容整理！

Tesla We Robot发布会总结

全面了解端到端自动驾驶的研发现状、挑战与策略应对（二）

自动驾驶量产经验整理！

百度汽车云3.0 ，为端到端自动驾驶量产落地提速

大模型入门笔记整理记录

地平线通过港交所上市聆讯，即将IPO

全面带你了解端到端大模型的底层逻辑（一）

大模型中LLM训练技巧(干货满满！！)- SFT

【论文日报合集】英伟达开源MaskLLM剪枝技术，显著降低LLM推理成本

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

PointLLM：使大型语言模型能够理解点云

相关工作：

模型架构