【主题】Spatial Memory and Intelligence in LLMs
【时间】2025年1月17日14:00-17:30
【地点】电子工程馆7层咖啡厅
非城市科学与计算研究中心人员请扫码填写个人信息报名后于研讨会现场签到入场。
城市科学与计算研究中心第48次技术研讨会将于1月17日下午14:00举办
本次技术研讨会的主题是“Spatial Memory and Intelligence in LLMs”。空间智能一词在近一年被广为人知,核心讨论大多集中在面向具身智能的视觉空间智能研究上。但在更大的空间尺度下,空间智能有着更加广阔的含义和应用,比如小到城市场景下的导航规划,大到地球尺度下的遥感探查等。那么在大模型的浪潮下,这些不同尺度的空间智能彼此之间有什么差异和联系呢?进一步,作为空间智能的基础,空间记忆又在其中扮演什么样的角色呢?本次技术研讨会试图回答这些问题。具体而言,从人的空间认知机制出发,我们尝试探索了空间认知机制理解及其在大语言模型(LLM)中的潜在应用和关联,随后从自我参照和客观环境两个视角出发,我们从室内、城市和地球等不同空间尺度对基于LLM的空间记忆和空间智能方向的新近工作进行了系统梳理和总结,以期为不同领域的空间记忆和空间智能交叉研究带来有益的启发。
Part.1 / 大模型的空间能力机制理解
我们首先关注大模型空间能力的机制理解,从人的空间认知机制出发,分析神经科学与认知科学中的空间认知能力测量方法,并探讨其在大语言模型中的应用。具体而言,认知地图与空间图式的形成过程中,海马体扮演了关键角色,一些研究工作将其与大模型的Transformer架构进行类比,通过测量大模型对认知地图的表征能力,评估其在空间任务中的表现。进一步地,结合神经科学方面的研究方法,从大模型自身的结构入手,分析内部神经元的激活模式与空间能力的关系,借助探针等方法观测和解释这些激活模式,以揭示大模型如何存储与处理空间信息。通过这些分析,希望能对大模型的空间机制做出合理解释。
图1 空间图式的神经认知框架
参考文献
[1] Farzanfar, D., Spiers, H. J., Moscovitch, M., & Rosenbaum, R. S. (2023). From cognitive maps to spatial schemas. Nature Reviews Neuroscience, 24(2), 63-79.
[2] Whittington, J. C., Warren, J., & Behrens, T. E. (2021). Relating transformers to models and neural representations of the hippocampal formation. arXiv preprint arXiv:2112.04035.
[3] Gurnee, W., & Tegmark, M. (2023). Language models represent space and time. arXiv preprint arXiv:2310.02207.
[4] Olah, C., Cammarata, N., Schubert, L., Goh, G., Petrov, M., & Carter, S. (2020). Zoom in: An introduction to circuits. Distill, 5(3), e00024-001.
Part.2 / 客观环境视角下的大模型空间记忆与推理
空间可以被视为一种客观存在的实体,通过对其进行表述,可以记录各类空间信息与知识,并实现智能推理。以尺度为划分依据,我们将空间分为以城市为界的两类:城市内部尺度和超出城市尺度的空间。城市内部的场景相对一致,而城市外部的客观环境差异较大,不同学科(如地理、地质、气候、海洋等)在利用大语言模型时的方法也存在显著差异。具体而言,在城市内部区域的特征分析中,兴趣点(POI)、路网和街景等构成了复杂的空间关系网络。这些信息通过大模型的语言和视觉能力共同建模,基于多模态方法整合时空特征,提升图像理解、知识图谱等能力。在此基础上,利用以大模型为核心的技术,可以贯通多种模态,为移动生成、路径导航、位置推理和城市规划等任务提供智能推理支持。对于超出城市范围的空间问题,则主要以学科视角和具体任务解决为核心。在记忆地理知识的基础上,可以通过优化提示词、对齐空间表征以及设计层次化任务流程等方式,将LLM应用扩展到海洋预测、地质勘探等新兴领域。
图2 从大语言模型中直接提取地理空间知识
参考文献
[1] Manvi, R., Khanna, S., Mai, G., Burke, M., Lobell, D. B., & Ermon, S. (2023). GeoLLM: Extracting Geospatial Knowledge from Large Language Models. In The Twelfth International Conference on Learning Representations.
[2] Ning, Y., & Liu, H. (2024). UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction. In The Thirty-Eighth Annual Conference on Neural Information Processing Systems. Retrieved from https://openreview.net/forum?id=Nycj81Z692.
[3] Li, Z., Xu, R., Hu, J., Peng, Z., Lu, X., Guo, C., & Yang, B. (2024). Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models. Proceedings of the 33rd ACM International Conference on Information and Knowledge Management, 3892–3896. Presented at the Boise, ID, USA. doi:10.1145/3627673.3679973.
[4] Yan, Y., & Lee, J. (2024). GeoReasoner: Reasoning On Geospatially Grounded Context For Natural Language Understanding. Proceedings of the 33rd ACM International Conference on Information and Knowledge Management, 4163–4167. Presented at the Boise, ID, USA. doi:10.1145/3627673.3679934.
Part.3 / 自我参照(具身智能)视角下的空间智能
在自我参照视角下,具身智能的空间理解记忆与空间推理智能主要涵盖以下几个关键方面。首先,作为连接客观环境和认知表征的关键桥梁,LLM的抽象空间推理涉及物理空间的可操作心理模型构建,是高层次空间认知的基础。其次,LLM的空间感知与空间理解能力可以通过对语义信息的解析逐步形成对周围环境的空间记忆。进一步地,在LLM动作控制与空间交互方面,重点涉及动作与空间交互的双向映射,即“动作→文本”的空间理解与 “文本→动作”的空间推理。最后,在认知地图与动态导航方面,认知地图的构建是空间记忆结构化和持久化的关键,可以进一步支持复杂任务的空间推理和动态导航。
图3 自我参照下的空间理解记忆与空间推理智能
参考文献
[1] Maier, Peter Herbert. "Spatial geometry and spatial ability–How to make solid geometry solid." Selected papers from the Annual Conference of Didactics of Mathematics. Osnabrueck, Germany: Gesellschaft für Didaktik der Mathematik (GDM), 1996.
[2] Zheng, Duo, Shijia Huang, and Liwei Wang. "Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding." arXiv preprint arXiv:2412.00493 (2024).
[3] Fu, Rao, et al. "Scene-llm: Extending language model for 3d visual understanding and reasoning." arXiv preprint arXiv:2403.11401 (2024).
[4] Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." Conference on Robot Learning. PMLR, 2023.
[5] Zhong, Linqing, et al. "TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation." arXiv preprint arXiv:2411.16425 (2024).