Spatial Embodied Intelligence
【主题】Spatial Embodied Intelligence
【时间】2024年11月29日14:00-18:00
【地点】电子工程馆7层咖啡厅
非城市科学与计算研究中心人员请扫码填写个人信息报名后于研讨会现场签到入场
城市科学与计算研究中心第46次技术研讨会将于11月29日周五14:00举办,
空间智能(Spatial Intelligence)是指通过感知、交互和操作物理空间来实现智能体对环境的理解与决策的能力。该领域的研究灵感来源于人类的空间能力,即人类如何通过身体与周围空间的互动来感知、推理和行动。早在二十世纪初,美国心理学家Howard Gardner首次提出“空间智能”这一概念,其含义是一个人准确感受视觉空间并将所见形象表现出来的能力。这种能力不仅表现在交通路线记忆等方面,还包括个体如何在三维空间中进行思考与推理,并重现内外部的影像。
空间智能作为人类具身能力的一个典型分支,是具身机器智能研究的重要议题。斯坦福大学李飞飞教授的创业团队即聚焦于这一研究方向,他们认为空间智能是AI解决认知推理难题的核心所在,智能体要具备像人类一样的视觉推理与决策能力,必须能够在三维环境中进行高级的感知与推理。可以说空间智能是实现AGI的关键步骤之一,它不仅仅是AGI的一个子集,更是通向AGI的桥梁。
空间具身智能的研究主要涉及通过对多种模态数据的处理实现对周围环境的感知与理解,包括图像、视频、点云、音频等。近年来多模态大模型(MLLM)的发展大幅提升了AI模型的多模态理解能力,这也成为空间具身智能的重要组成部分和研究基础。本次研讨会将从大模型的空间认知能力理解出发,介绍空间认知能力的评测方法及类脑启发的空间认知增强机理。随后介绍空间具身智能大模型构建、训练、微调技术,详细解读面向图像、视频、点云、音频等模态的空间理解大模型前沿工作,以及开发面向3D场景空间理解的多模态大模型所需的数据预处理与数据增强方法。进一步探讨大模型空间具身智能体在感知问答、具身导航搜索和多智能体协作等典型场景中的应用。最后梳理已有空间具身智能工作依托的平台与数据集,并展望未来空间具身智能研究的发展方向。
Part.1 / 大模型的空间认知能力理解
空间感知是指人类在空间中对物体的位置和运动进行知觉、理解和表征的过程。而对大型语言模型(LLM)来说,其空间感知能力是指LLM理解物体之间以及物体与场景区域之间空间关系的能力。具体来说,物体识别与形状感知、深度感知、空间位置、运动感知这四大基础能力组成了LLM的空间感知能力,使得LLM能够执行导航、搜索等具身任务。LLM的空间感知能力使它们在视觉、文本、三维场景等多种模态之间建立联系,以理解物体的相对位置、描述空间场景以及执行与空间相关的任务。当前,许多工作都致力于通过特殊的设计或者数据和任务引导LLM增强其空间认知能力。与此同时,近年来,类脑模型的研究为我们提供了新的思路——人类大脑在处理空间信息上的高效性和灵活性,能为LLM提供新的启示。类脑机制的引入,尤其是空间感知能力的模仿,有望大幅提升LLM在理解和处理空间信息上的表现。因此,在这一部分,我们将关注LLM空间感知能力的评测与基于类脑机制的LLM空间感知能力提升,通过梳理回顾近期的重要研究工作,重点介绍:(1)可用于构建增强LLM空间感知能力的高质量立体数据集;(2)用于评测LLM空间感知能力的Benchmark;(3)类脑机理增强LLM空间认知能力的相关工作与潜在方向。
图1 LLM空间感知能力
图2 LLM模仿人脑“心像”提高空间认知应用示意图
参考文献
[1] Palmer, Stephen E. Vision science: Photons to phenomenology. MIT press, 1999.
[2] Duan, Jiafei, et al. "A survey of embodied ai: From simulators to research tasks." IEEE Transactions 2022
[3] Xuan, Li, et al. "A Benchmark Dataset for Evaluating Spatial Perception in Multimodal Large Models." Proceedings of the First International Workshop on IoT Datasets for Multi-modal Large Model. 2024.
[4] Qi, Zekun, et al. "Shapellm: Universal 3d object understanding for embodied interaction." European Conference on Computer Vision. Springer, Cham, 2025.
[5] Ranasinghe, Kanchana, et al. "Learning to localize objects improves spatial reasoning in visual-llms." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[6] Madaan, Aman, et al. "Self-refine: Iterative refinement with self-feedback." Advances in Neural Information Processing Systems 36 (2024).
[7] Wu, Wenshan, et al. "Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models." The Thirty-eighth Annual Conference on Neural Information Processing Systems. 2024.
[8] Zhu, Jian, Hanli Wang, and Miaojing Shi. "Multi-modal large language model enhanced pseudo 3d perception framework for visual commonsense reasoning." IEEE Transactions on Circuits and Systems for Video Technology (2024).
Part.2 / 空间具身智能大模型构建、训练、微调
该部分内容将从数据构造和不同模态下的空间具身大模型开发两方面展开,重点介绍面向图像、视频、点云、音频等模态的具备强大空间理解能力的大模型前沿工作,以及面向3D场景的数据表示方法、用3D场景数据训练多模态大模型的数据预处理与数据增强方法。
首先从面向传统二维图像的空间理解能力相关研究引入,介绍通用与具身场景下的MLLM视觉空间理解能力增强方法。第二部分是基于视频数据的空间理解,将介绍MLLM在通用和具身视频场景中的空间理解能力以及相应的评测数据集。第三部分将二维视觉空间的理解能力拓展至三维空间,重点介绍面向3D场景的数据表示方法、用3D场景数据训练MLLM的数据预处理与数据增强方法。作为3D空间表征的典型代表,点云数据对于赋能空间具身大模型感知空间环境和决策推理能力至关重要,第四部分将介绍增强MLLM对于3D点云理解能力相关研究,及其如何赋能具身智能体在真实世界中的自主行为。最后一部分将介绍视觉感知与其他模态(如音频,触觉)感知联合的空间具身大模型研究,探讨实现全模态感知的类人具身智能发展方向。
图3 具备空间理解能力的具身多模态大模型示例(来源:MultiPLY [CVPR 2024])
参考文献
[1] Chen, Sijin, et al. “LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning”. CVPR, 2024.
[2] Xu, Runsen, et al. “Pointllm: Empowering large language models to understand point clouds”. ECCV, 2024.
[3] Zhou, Junsheng, et al. “Uni3d: Exploring unified 3d representation at scale”. ICLR 2024.
[4] Huang, Jiangyong, et al. “An Embodied Generalist Agent in 3D World”. ICML 2024.
[5] Hong, Yining, et al. “3D-LLM Injecting the 3D World into Large Language”. NeurIPS 2023.
[6] Hong, Yining, et al. “Multiply: A multisensory object-centric embodied large language model in 3d world.” CVPR, 2024.
Part.3 / 大模型空间具身智能体研究与应用
大模型空间具身智能体在不同层次、尺度和领域的任务中取得了显著进展,典型应用包括但不限于具身感知问答、具身导航搜索以及多智能体协作等,其中具身感知问答使智能体能够通过感知环境并回答有关环境、物体和情境的问题;具身导航搜索则涉及智能体如何在复杂空间中自主探索、导航并完成给定任务,如目标搜索和路径规划;而多智能体协作指多个智能体在开放空间中协同合作、完成复杂任务。
总体而言,大模型智能体具备类人的空间感知能力、自然语言理解能力和推理决策能力,能够理解任务目标、获取环境信息,并与其他智能体协同完成任务,使得它们在开放空间中的研究潜力巨大,特别是在自动驾驶、无人机集群、机器人协作等领域。随着技术的不断进步,未来的研究将更加关注提升这些智能体在动态和复杂环境中的表现,解决计算和协作效率等问题,以推动智能体技术在实际应用中的落地。
图4 具身导航搜索应用示意图
参考文献
[1] Islam, Md Mofijul, et al. "Eqa-mx: Embodied question answering using multimodal expression." The Twelfth International Conference on Learning Representations. 2023.
[2] Duan, Jiafei, et al. "A survey of embodied ai: From simulators to research tasks." IEEE Transactions on Emerging Topics in Computational Intelligence 6.2 (2022): 230-244.
[3] Zhou, Gengze, Yicong Hong, and Qi Wu. "Navgpt: Explicit reasoning in vision-and-language navigation with large language models." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 7. 2024.
[4] Chen, Ruiqing, et al. "An LLM-driven framework for multiple-vehicle dispatching and navigation in smart city landscapes." 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024. [5] Azuma D, Miyanishi T, Kurita S, et al. Scanqa: 3d question answering for spatial scene understanding[C]//CVPR. 2022: 19129-19139.
[5] Mandi, Zhao, Shreeya Jain, and Shuran Song. "Roco: Dialectic multi-robot collaboration with large language models." 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024.
Part.4 / 空间具身智能平台、数据集
在该部分的介绍中,我们主要讨论已有空间具身智能工作所基于的平台与数据集。现有的平台和数据集可以划分为两类,一类是基于各类3D引擎实现的模拟仿真环节,一类是基于如卫星影像、3D点云、街景等真实数据构建的测试环境。在众多平台和数据集的工作中,我们将介绍其中支持的智能体种类、智能体感知数据种类、智能体控制方式、以及平台和数据集所支持的空间具身智能研究任务。总的来说,现有的工作同质化程度高,亟需探讨未来空间具身智能平台与数据集的发展方向。
图5 基于真实3D点云数据的平台与数据集
参考文献
[1] Liu S, Zhang H, Qi Y, et al. Aerialvln: Vision-and-language navigation for uavs[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 15384-15394.
[2] Gao C, Zhao B, Zhang W, et al. EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment[J]. arXiv preprint arXiv:2410.09604, 2024.
[3] Chen H, Suhr A, Misra D, et al. Touchdown: Natural language navigation and spatial reasoning in visual street environments[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 12538-12547.
[4] Fan Y, Chen W, Jiang T, et al. Aerial Vision-and-Dialog Navigation[J]. Findings of the Association for Computational Linguistics: ACL 2023, 2023.