NeurIPS 2024 | 浙大提出Chat-Scene，赋予3D大模型精准的物体指代与定位能力

科技 2024-10-31 21:08 北京

背景介绍

多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。

近来，随着多模态大语言模型在 3D 领域的迅速发展，3D 大语言模型展现了其在场景理解和交互方面的巨大潜力。然而，现有 3D 大模型在复杂场景中视觉定位能力仍有较大提升空间，尤其是在多物体、多层次场景的理解与应用方面。

为此，我们推出了 Chat-Scene 模型，这一模型通过引入独特的物体标识符机制，提升了 3D 场景中的多物体引用和定位的效率和精确性，旨在为复杂 3D 场景的理解和互动提供一种创新方案。

论文标题：

Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers

论文地址：

https://arxiv.org/abs/2312.08168

项目代码：

https://github.com/ZzZZCHS/Chat-Scene

方法

2.1 核心设计：物体标识符赋能3D场景交互

Chat-Scene 模型的核心特色在于引入了物体标识符（Object Identifiers），为每个物体分配独特的标识符，从而在复杂场景中实现物体的精准指代和定位。我们希望通过这一设计，能够有效减少现有模型因描述模糊而引发的理解障碍。

如图 1 所示，在之前的大语言模型中，往往依赖冗长的文字描述来指代或定位物体，例如 “the chair at the southwest corner of the rightmost table”。而通过 Chat-Scene 的物体标识符，模型可以直接使用如 “<OBJ013>” 这样的简单标识符在对话中指示目标物体，从而提升用户与模型间的交互效率。

此外，这种机制还使得我们可以将多种 3D 任务转化为统一的问答形式，以便模型可以进行更高效的多任务训练。

▲ 图1 在对话中使用物体标识符的例子

2.2 物体级的多模态嵌入表示

Chat-Scene 在场景表示方面的设计也引入了新的思路。由于现有的 3D 场景语言数据较为稀缺，我们通过大规模预训练的物体级嵌入表示，来尽量减少对大量场景语言数据的依赖。我们的模型通过多模态物体级嵌入，结合了 3D 和 2D 视觉模型的语义信息，以提升对场景的理解深度和广度。

具体而言，Chat-Scene 模型首先利用预训练的 3D 检测器将场景分解为若干物体，并为每个物体生成一个独特的标识符。然后，模型通过 3D 和 2D 编码器分别从 3D 点云和多视角图像中提取物体特征。

我们通过线性投影层将这些特征映射到语言模型的嵌入空间，从而形成一系列物体级嵌入以表示整个 3D 场景。我们希望这种设计在减少数据需求的同时，能够显著提升模型在多种 3D 任务中的性能。

▲ 图2 模型整体架构

2.3 统一问答框架和单阶段联合训练

为了进一步简化多模态任务的训练，我们将所有 3D 场景理解任务转化为统一的问答框架。不论是 3D 场景问答、视觉定位，还是密集描述任务，我们的模型都可以通过这一问答框架进行训练与推理。

通过这一统一格式，模型在不依赖任务专用模块的情况下实现了多任务联合训练，从而提升了训练效率，也让模型能够在不同任务间共享知识。每种任务的问答示例如图 3 所示。

当前大多数 3D MLLMs 通常采用两阶段训练方法，即特征对齐训练与特定任务微调。为了进一步优化训练效率，我们选择了联合训练策略，在训练中同步优化投影层和语言模型的参数，避免了额外的对齐阶段。这种策略不仅简化了训练流程，还显著降低了训练开销，同时在不同任务中展示了优异的场景理解表现。

▲ 图3 多种下游任务的问答示例

实验结果

3.1 在多个数据集上的效果验证

▲ 表1 在多个下游数据集上的性能对比

如表 1 所示，我们在ScanRefer、Multi3DRefer、Scan2Cap、ScanQA 和 SQA3D 等数据集上测试了模型的性能，实验结果显示模型在这些任务中的表现得到了显著提升：

ScanRefer 数据集：在单物体视觉定位任务上，Chat-Scene 的准确率（Acc@0.5）提升了 3.7%，展现了其在精确物体定位方面的潜力。
Multi3DRefer 数据集：在多物体视觉定位任务上，我们的模型将 F1@0.5 分数提高了 14.0%，表明 Chat-Scene 在复杂场景下的多物体定位能力值得期待。
Scan2Cap 数据集：在密集描述任务中，Chat-Scene 的 CIDEr@0.5 得分提高了 8.7%，表现出其在物体引用和描述上的优势。
ScanQA 和 SQA3D 数据集：即便是在不涉及物体引用的问答任务中，Chat-Scene 依旧展现了出色的场景理解和推理能力。

能够在如此多样化的任务上取得显著提升，我们认为这得益于 Chat-Scene 的多模态物体级嵌入表示和物体标识符引用机制，从而让模型在较少的场景语言数据下也能保持较好的泛化能力。

3.2 物体标识符的消融实验

Chat-Scene 采用了可学习的物体标识符，使模型能够精确引用和定位特定物体。实验中，我们将不同标识符类型进行了对比，包括：

普通文本标识符：使用常规文本描述物体编号（如 “Obj001”），该方法占用较多 token（每个物体标识符需要 6 个 token），导致训练成本增加且效果较差。
固定高斯嵌入：采用固定的随机高斯嵌入作为标识符，与学习型标识符相比，效果略低且缺乏灵活性。
可学习的标识符：通过引入可学习的标识符 token，显著减少了 token 数量（降低至 3 个 token），大幅提高了模型的内存利用率和训练速度，同时获得更优的性能。

如表 2 实验结果显示，可学习标识符的方式在 ScanRefer、Multi3DRefer、Scan2Cap 等数据集上的表现优于其他标识符类型，特别是在准确性和内存使用效率上具有明显优势。

▲ 表2 物体标识符的消融结果

3.4 多模态物体级别嵌入的消融实验

如表3所示，在多模态物体级别嵌入方面，我们分别测试了以下几种设置，以评估不同特征融合方法的影响：

单模态嵌入：仅使用 3D 特征或 2D 特征来表示物体。在实验中，2D 特征比 3D 特征表现更好，表明 2D 视觉信息在物体语义表达中占据更重要的作用。这可能与 2D 编码器经过大量数据预训练有关，从而具备更强的语义捕捉能力。
单视角与多视角嵌入：相比仅使用单视角图像，使用多视角图像嵌入显著提升了模型的效果。多视角能够为物体嵌入提供更丰富的视觉信息，从而提升模型的定位和描述能力。
特征融合方式：我们测试了“融合 token” 和“独立 token” 两种多模态特征融合方法。实验表明，“独立 token” 方法效果最佳，通过为每个物体分配独立的 3D 和 2D 嵌入 token，模型在 ScanRefer 和 Multi3DRefer 等多任务上均达到了最优效果，而“融合 token” 虽然减少了 token 数量，但效果略有下降。

这些实验结果表明，在保持较低 token 成本的前提下，使用多视角的独立 token 可以最大化 3D 和 2D 特征的互补性，进一步提升模型的性能。

▲ 表3 多模态物体级别嵌入的消融实验

总结与展望

Chat-Scene 模型在 3D 场景理解方面展示了卓越的表现，通过创新性地引入物体标识符和多模态物体级别嵌入表示，显著提升了对多物体场景的引用和定位精度。

实验结果显示，该模型在多个 3D 场景理解任务上都取得了优异的性能，并在视觉问答、密集描述、视觉定位等任务中展现了多任务泛化的潜力。然而，当前方法也有一些重要的限制，值得在未来工作中进一步探索和改进。

4.1 基础模型的依赖性

Chat-Scene 主要依赖于多个预训练的基础模型，如 2D/3D 检测器和编码器。尽管这些模型在实验中提供了良好的支持，但它们在部分场景中仍存在识别错误。因此，未来的研究方向之一是将这些基础模型整合进端到端的训练过程中，以便对特定任务进行优化。

此外，随着基础模型的改进，Chat-Scene 的性能也将得到进一步提升。

4.2 训练数据的稀缺性

相比 2D 视觉-语言模型受益于数百万对图像-文本数据，3D-语言领域仍然面临着数据稀缺的挑战。当前 3D 数据集的规模有限，这限制了模型在空间关系理解和广泛场景适应性上的表现。

为了弥补这一不足，未来的工作可以专注于扩大 3D 场景语言数据的规模，特别是更广泛的空间关系数据，从而更好地支持模型的训练与泛化。

4.3 结构元素的理解

在一些任务中，Chat-Scene 表现出对场景中结构元素（如墙壁、地板和天花板）理解的不足。这在某些视觉定位任务中尤其明显，例如，当模型被要求识别“靠墙”的椅子时，可能会出现错误选择。

这种不足可能在很大程度上是因为这些结构元素通常不被当作独立物体进行标注和处理。因此，未来工作可以尝试将这些结构元素纳入到训练数据中，以增强模型对整个 3D 场景的整体理解能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉