为什么让大模型理解「内外远近」更重要？

科技 2025-02-03 09:30 浙江

本文来自往期 PRO会员通讯精选解读，文末关注「机器之心PRO会员」，查看更多专题解读。

来自纽约大学、耶鲁大学、斯坦福大学的李飞飞、谢赛宁等研究者发布了一项工作，探究了多模态大语言模型（MLLM）是否具备具备视觉空间智能（visual-spatial intelligence）。

研究发现，MLLMs 在空间推理方面的能力与人类相比有显著差距，而空间推理对人类智能至关重要。此外，谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究，探究从不同角度和方法来增强模型的空间推理能力。

01. 各家大厂抢占布局「空间推理」，模型理解「内外远近」空间概念为何如此重要？

空间推理是什么？为什么各家大厂都在布局空间推理方向？

02. 从 2D 到 3D 真实物理环境，模型完成空间推理需要具备哪些能力？难点在哪？

李飞飞的「空间推理」新工作有哪些突破？实现空间推理需要具备哪些能力？有哪些难点？

03. 谷歌、微软等在空间推理方面有哪些关键技术进展？研究方向上有何差异？

不同大厂、创企在空间推理方面的技术研究方向有什么异同？空间推理可能对哪些领域的实际应用产生重要影响？...

01 各家大厂抢占布局「空间推理」，模型理解「内外远近」空间概念为何如此重要？

1、在纽大、耶鲁等机构的这项新工作中，研究者通过探究 MLLMs 在语言和视觉方面如何进行空间思考，发现空间推理能力是 MLLMs 性能提升的主要瓶颈。

2、空间推理是指理解和推理物体之间的空间关系、它们的运动和相互作用的能力，要求模型能够识别物体间的关系，并通过距离和方向进行推理。

3、不同于 LLM 等仅关注处理结构化的数据和遵循预定义的规则，模型在现实的物理世界中的应用，如环境导航、地图理解和物体操控等，需要具备更为复杂、细致的 3D 空间推理能力。空间推理在增强现实、机器人等领域的重要性不言而喻。

4、空间推理是实现空间智能的核心关键部分。目前，模型在空间推理方面仍然面临种种挑战，要求模型需要具备对空间信息的真正理解，现有的模型仍难以区分简单的空间概念，例如「内」和「外」以及「近」和「远」以及更复杂的关系。

5、近期，业内关于空间智能、空间推理方面的探索、进展颇多。如李飞飞的创业公司「World Lab」发布了其首个项目「使用单图生成 3D 世界」；谷歌计划将其 Gemini 2.0 多模态模型所具备的空间推理能力应用于机器人领域，机器人公司 Apptronik 达成合作开发在复杂环境中工作的 AI 人形机器人等。

① 同时，谷歌、微软等大厂、AI 创企也在推进关于空间推理的技术研究，探究从不同角度和方法来增强 VLMs 和 LLMs 的空间推理能力，包括直接的 3D 数据整合、从多视图图像中重建场景等，在技术路线上各有差异。

表：部分公司近期在空间推理领域的技术进展（不完全统计）

02 从 2D 到 3D 真实物理环境，模型完成空间推理需要具备哪些能力？难点在哪？

在纽大、耶鲁等机构的新工作中，研究者将视觉空间智能所需能力分为视觉感知、语言智能、时间处理和空间推理四类，进一步将空间推理细分成关系推理、自我中心-环境中心转换两方面能力。

1、在纽大、耶鲁等机构的新工作中，研究者通过构建名为「VSI-Bench」的视频基础视觉空间智能基准测试，来评估研究多模态大型语言模型（MLLMs）在理解和记忆空间信息方面的能力。

① 研究发现，尽管 MLLMs 在视觉空间智能方面展现出一定的竞争力，但与人类相比仍有显著差距，特别是在空间推理方面；

② 研究发现，传统的语言推理技术并不能提升 MLLMs 在空间任务上的表现，而生成认知地图则有助于提高模型在空间距离问题上的回答能力。

2、在该工作中，研究者提出了视觉空间智能的能力框架，并详细描述了空间推理所需的能力 ......

关注👇🏻「机器之心PRO会员」，前往「收件箱」订阅，查看完整解读内容

更多往期专题解读内容，关注「机器之心PRO会员」服务号，点击菜单栏「收件箱」查看。

机器之心

专业的人工智能媒体和产业服务平台

不到24小时，开源版Deep Research疯狂来袭！一月少花1400

Go语言开发AI智能体有多丝滑？字节重磅开源Eino框架，内含保姆级教程

No More Next-Token Prediction?