Agent and Embodied AI
【主题】技术研讨会 Agent and Embodied AI
【时间】2024年6月21日14:00-17:30
非城市科学与计算研究中心人员请扫码填写个人信息报名,于研讨会现场签到入场。活动地点参见问卷填写后结束页面。
城市科学与计算研究中心第42次技术研讨会将于6月21日周五下午14:00举办,
本次技术研讨会的主题是“Agent and Embodied AI”。具身智能被称为人工智能的北极星问题,也被认为是通往通用人工智能的一条有效路径。所谓具身智能,是可以在环境中学习、演化、提升的智能体,能够以第一视角的形式与环境深度交互,形成类人的智能推理、决策能力。近年来,以GPT为代表的大模型涌现出惊人的智能水平,为具身智能体的构建奠定基础,支撑多类实际应用。
本次研讨会将首先介绍大模型具身智能体的研究背景,介绍相关的平台、模拟器、数据、评测集;接着介绍在大模型具身智能体在具体任务的研究进展,最后介绍具身大模型与通用具身智能体,以及综合应用。
Part.1 /
大模型具身智能体的平台、模拟器、数据、评测集
在这部分中,我们关注已有具身智能工作基于的平台、模拟环境、使用的数据集以及评测方式。已有模拟平台的构建方法包括基于传统物理引擎的方法、基于专用模拟平台与游戏平台的方法,以及最新兴起的生成式AI方法。接着根据模拟场景,对现有的具身智能工作做了分类整理,归纳典型任务、广泛使用的数据集和针对任务的评测方式。总体而言,模拟环境主要可以分为室内环境、室外环境、开放世界环境等。在这些环境中,已有工作针对性设计了评测方式。本部分主要对环境、任务、评测方式做概览,引出下一部分对具体任务中方法设计的介绍。
图 1.用于机械臂学习的模拟平台
参考文献
[1] Shridhar M, Yuan X, Côté M A, et al. Alfworld: Aligning text and embodied environments for interactive learning[J]. arXiv preprint arXiv:2010.03768, 2020.
[2] Tan W, Ding Z, Zhang W, et al. Towards general computer control: A multimodal agent for red dead redemption ii as a case study[J]. arXiv preprint arXiv:2403.03186, 2024.
[3] Wang G, Xie Y, Jiang Y, et al. Voyager: An open-ended embodied agent with large language models[J]. arXiv preprint arXiv:2305.16291, 2023.
[4] Wang Y, Xian Z, Chen F, et al. Robogen: Towards unleashing infinite data for automated robot learning via generative simulation[J]. arXiv preprint arXiv:2311.01455, 2023.
Part.2 /
大模型智能体在不同具身智能任务上的最新进展
大模型智能体在 不同层次、尺度、领域的具身任务上取得了显著进展,典型任务包括:视觉感知、检测与定位,机器操作与操纵,视觉语言导航与搜索,任务规划分解与分配,多智能体与人机协作,具身问答与交互等。整体而言,大模型智能体具有类人的自然语言解析能力、先验知识和推理总结能力,能够理解任务目标,获取环境信息,并与其他算法协同完成任务,尤其是在复杂开放场景中,大模型智能体表现出的泛化能力能够处理新场景、新任务,具有自适应能力。进一步地,大模型智能体的交互能力对于人机场景及多智能体场景的具身智能带来了新的范式。
图 2.RT-2机器人具身控制模型
参考文献
[1] Nair, S., Rajeswaran, A., Kumar, V., Finn, C., & Gupta, A. (2022). R3m: A universal visual representation for robot manipulation. arXiv preprint arXiv:2203.12601.
[2] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances, arXiv, 2022
[3] Zhou, Gengze, Yicong Hong, and Qi Wu. "Navgpt: Explicit reasoning in vision-and-language navigation with large language models." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 7. 2024.
[4] Zhu, Xizhou, et al. "Ghost in the minecraft: Generally capable agents for open-world enviroments via large language models with text-based knowledge and memory." arXiv preprint arXiv:2305.17144 (2023).
[5] Azuma D, Miyanishi T, Kurita S, et al. Scanqa: 3d question answering for spatial scene understanding[C]//CVPR. 2022: 19129-19139.
Part.3 /
通用具身智能体与具身大模型
通用具身智能体可以在物理或虚拟环境中进行感知、学习、推理并自主完成行动,通常能够处理多种复杂任务,具备多模态信息处理、跨域跨任务的快速适应以及基于提示的少样本或零样本泛化能力。在这一部分,我们将深入讨论通用具身智能体在多场景下的通用能力,包括开放环境、室内场景和室外场景;并详细介绍通用具身大模型的两种范式——端到端范式和组合范式,前者LLMs作为决策者和执行者,后者LLMs作为决策者,技能库作为执行者;最后讨论通用具身智能体如何在现实生活中进行部署应用,例如 NVIDIA使用Omniverse、Metropolis、Isaac 和 cuOpt打造的AI Gym,可以使让机器人在复杂的工业领域中进行训练并接受评估。
图 3.具备一定通用具身能力的PaLM-E
参考文献
[1] Huang, J., Yong, S., Ma, X., Linghu, X., Li, P., Wang, Y., ... & Huang, S. (2023). An embodied generalist agent in 3d world. arXiv preprint arXiv:2311.12871.
[2] Cai, Shaofei, et al. "Groot: Learning to follow instructions by watching gameplay videos." arXiv preprint arXiv:2310.08235(2023).
[3] Schumann, Raphael, et al. "Velma: Verbalization embodiment of llm agents for vision and language navigation in street view." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 17. 2024.
[4] Mu, Yao, et al. "Embodiedgpt: Vision-language pre-training via embodied chain of thought." Advances in Neural Information Processing Systems 36 (2024).
[5] Brohan, Anthony, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." arXiv preprint arXiv:2307.15818 (2023).