World Model
【主题】World Model
【时间】2024年9月27日14:00-17:30
【地点】电子工程馆7层咖啡厅
非城市科学与计算研究中心人员请扫码填写个人信息报名后于研讨会现场签到入场
城市科学与计算研究中心第44次技术研讨会将于9月27日周五下午14:00举办。
世界模型最近成为学术界和工业界的热门话题,涉及多个领域,包括人工智能、心理学、计算机视觉、机器人技术、认知科学等。各个领域对世界模型的理解和应用方式各有不同,但都在推动这一概念的深入研究。那么,究竟什么是世界模型?本次workshop旨在组织同学们对这一概念进行深入梳理、清晰界定和分类讨论。
我们认为,现有的世界模型研究可以分为两类主流形式:1)理解外部世界现象的内在表征模型;2)模拟外部世界运行的仿真模型。
在本次研讨会中,我们将首先关注第一部分的研究,尤其是对外部世界机制的建模。早期的研究主要集中在强化学习中的环境学习(model-based RL),其核心在于如何高效利用有限的数据建立准确的表征。随着大语言模型的发展,它们所蕴含的丰富世界知识为这一问题的解决提供了新的思路,包括世界运行规律等客观知识以及人类心理状态等主观知识。
第二部分的研究在Sora出现后引起广泛关注,强调“所见即世界”的理念。视频生成领域对真实模拟外部世界变化的研究历史悠久,我们将整理该领域近期的研究进展。然而,单靠视频无法全面描述世界,因此我们还将关注真实可交互的具身环境生成研究。
世界模型在实际应用中具有广泛的潜力,以自动驾驶为例,我们将根据上述两类方法进行详细介绍。最后,我们安排了头脑风暴环节,结合实验室的研究方向,就面向城市的世界模型等方向展开探讨。
Part.1-1 / 强化学习中的世界模型:从模型到世界
在传统的决策算法,例如强化学习中,对于客观环境的构建至关重要,对于环境的学习理解并如何针对性构建model-based RL算法是早期世界模型相关研究的组成。随着大语言模型的不断发展,大语言模型中本身所具有的常识及客观知识信息能够为环境理解提供大量辅助的先验知识,从而帮助构建具体决策任务中的世界模型,进一步提升决策质量。该部分我们关注决策任务中世界模型构建的变迁过程,通过梳理回顾近期的重要研究工作,重点介绍:(1)传统model-based RL语境下世界模型的相关构建及分析方法(2)基于LLM如何辅助决策任务中的环境理解,构建针对性的交互任务世界模型。
图1 强化学习语境下世界模型概念示意图
参考文献
[1] Long, Y., Li, X., Cai, W., and Dong, H. 2024. Discuss before moving: Visual language navigation via multi-expert discussions. In Proceedings of the 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 17380–17387.
[2] Wang, T., Du, S. S., Torralba, A., Isola, P., Zhang, A., and Tian, Y. 2023. Denoised MDPs: Learning World Models Better Than the World Itself. arXiv preprint arXiv:2206.15477.
Part.1-2 / 世界知识的内在表示
目前的研究表明(大)模型可以学习到丰富世界知识的内在表示,包括世界运行规律等物理世界知识与人类心理状态等社会世界知识。物理世界知识的内在表示形式可以用认知地图(Cognitive Map)来概括,即模型可以依据历史的观测(如视觉图像)序列与当前的动作预测未来的观测(如视觉图像)。社会世界知识的内在表示可以用心智理论(Theory of Mind)来概括,即模型可以依据上下文准确推测人物的内心活动。基于这种内嵌的主观世界知识,大模型可以更好地完成多智能体博弈等复杂任务(如掼蛋)。
图 2.认知地图自动构建
参考文献
[1] Gornet, James, and Matt Thomson. "Automated construction of cognitive maps with visual predictive coding." Nature Machine Intelligence (2024): 1-14.
[2] Strachan, James WA, et al. "Testing theory of mind in large language models and humans." Nature Human Behaviour(2024): 1-11.
[3] Yim, Yauwai, et al. "Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information." arXiv preprint arXiv:2408.02559 (2024).
Part.2-1 / 视频世界模型
Sora的爆火带来了世界模型的一大波革新。视频世界模型通过建模视频中的时空关系,能够捕捉场景的动态变化,从而为我们提供更为丰富和准确的信息。在这些模型中,多模态学习起到了关键作用。它不仅仅依赖于单一模态的数据,如图像或声音,而是综合利用来自不同传感器的数据。这种方法能够更全面地理解视频内容,提取出更深层次的信息。例如,模型可以同时分析视频中的视觉元素和伴随的音频信号,以更好地理解场景的上下文。这种深度理解使得视频世界模型在处理复杂任务时具备了更强的能力。视频世界模型的应用前景广泛。在自动驾驶领域,模型能够实时分析交通状况,识别行人、车辆和其他潜在障碍物,从而提升驾驶决策的安全性和准确性。在虚拟现实中,视频世界模型能够生成更加逼真的场景,使用户沉浸在高度互动的环境中,增强其体验。在人机交互方面,通过理解视频内容,模型能够实现更自然的交互方式,使机器更好地理解用户的意图与情感。
图 3.Sora生成的视频
参考文献
[1] https://openai.com/index/sora/.
[2] Yang, Deshun, et al. "WorldGPT: a Sora-inspired video AI agent as Rich world models from text and image inputs." arXiv preprint arXiv:2403.07944 (2024).
[3] Xiang, Jiannan, et al. "Pandora: Towards General World Model with Natural Language Actions and Video States." arXiv preprint arXiv:2406.09455 (2024).
Part.2-2 / 可交互的具身环境生成
真实世界环境与虚拟环境的一个重要界限在于是否具有可交互性,生成可交互的具身环境对于发展具身智能、模拟真实世界规律具有重要意义,此类世界模拟器(具身环境生成器)也逐渐成为新的世界模型研究热点。早期的具身环境多由人工构建且聚焦于室内场景,此类场景要素相对单一,空间范围较为局限,导致具身智能能力提升存在瓶颈。当前具身环境发展主要有两大趋势,一是逐渐由室内场景转移至开放场景(如城市空间),二是结合生成式AI的方法进行可控的具身环境生成,使得构建的场景更加丰富多样,并且其呈现形式也更为灵活,除了传统意义上的3D模型搭建的环境之外,还有以视频形式呈现的可交互动态环境,为更加真实的世界模拟提供了新思路。
图 4.GRUtopia城市通用具身智能
参考文献
[1] Wang, Hanqing, et al. "GRUtopia: Dream General Robots in a City at Scale." arXiv preprint arXiv:2407.10943 (2024).
[2] Wu, Wayne, et al. "MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces." arXiv preprint arXiv:2407.08725 (2024).
[3] Deng, Boyang, et al. "Streetscapes: Large-scale consistent street view generation using autoregressive video diffusion." ACM SIGGRAPH 2024 Conference Papers. 2024.
Part.3 / 应用
从“表征外部世界的内在机制”来看,世界模型通过对驾驶环境感知数据的理解以及对场景未来发展趋势的预测帮助自动驾驶车辆做出更好的动作规划与行为决策。传统范式中环境感知模型与行为预测模型往往独立设计并单独训练验证,缺乏通用的场景理解与未来预测的能力;多模态大模型的出现与发展为解决这些困难提供了可能性,新的范式下,大模型能够提供以自然语言为基础的通用驾驶场景理解/预测能力,为更加完善的自动驾驶行为决策奠定基础。
图 5.自动驾驶任务中对真实世界的内部建模
参考文献
[1] Bai X, Hu Z, Zhu X, et al. Transfusion: Robust lidar-camera fusion for 3d object detection with transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 1090-1099.
[2] Shi S, Jiang L, Dai D, et al. Motion transformer with global intention localization and local movement refinement[J]. Advances in Neural Information Processing Systems, 2022, 35: 6531-6543.
[3] Tian R, Li B, Weng X, et al. Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving[J]. arXiv preprint arXiv:2407.00959, 2024.
从“模拟外部世界的真实运行”来看,传统驾驶场景的仿真在真实性、可控性和生成效率上面临挑战,而世界模型则提供了潜在的解决方案。传统仿真的真实程度受限于特定的图形引擎,而且对场景的构建需要基于大量繁琐的基础场景元素配置,需要多个独立模块协作,生成效率低下。相比之下,基于世界模型的仿真从海量真实数据中学习物理规律,根据用户的自然语言提示词轻松修改场景,端到端地高效生成逼真的驾驶场景仿真。
图 6基于世界模型进行自动驾驶相关模拟的优势
参考文献
[1] https://openai.com/index/sora/.
[2] Yang, Deshun, et al. "WorldGPT: a Sora-inspired video AI agent as Rich world models from text and image inputs." arXiv preprint arXiv:2403.07944 (2024).
[3] Xiang, Jiannan, et al. "Pandora: Towards General World Model with Natural Language Actions and Video States." arXiv preprint arXiv:2406.09455 (2024).