Multi-modal Large Language Model
【主题】技术研讨会
Multi-modal Large Language Model
【时间】2024年4月29日14:00-17:30
【地点】电子系7层咖啡厅
城市科学与计算研究中心第40次技术研讨会将于4月29日周一下午14:00举办。
本次技术研讨会的主题是“Multi-modal Large Language Model”,随着大语言模型的飞速发展,面向图文和视频的多模态大语言模型在过去一年成为学术界和工业界的研究焦点,取得丰硕的研究成果。另一方面,城市科学中天然存在着时间序列、空间数据、街景遥感等多模态数据,应用先进的多模态大语言模型解决城市中的问题成为自然的选择和极具前景的发展方向。发挥多模态大语言模型的能力解决城市中的重要问题成为极具前景的发展方向。
本次workshop将首先介绍多模态大语言模型概况,然后介绍通用多模态大语言模型的构建方法和城市领域多模态大模型的构建方法,最后介绍多模态自然语言大模型在城市场景中的应用。
Part.1 / 通用多模态大模型构建
多模态大模型(MLLM)是一类以大语言模型(LLM)为核心,同时具备对各种模态(文本、图像、音频等)数据的理解与生成能力的模型,目前在各类多模态任务上都展现了突出性能。该部分我们关注面向通用多模态数据的大模型构建,通过梳理回顾近期的重要研究工作,重点介绍:(1)通用多模态对齐数据的采集和构造方法,从利用现有数据资源和生成对齐数据两个角度出发,重点探讨如何利用现有的大型模型来助力对齐数据的构建(2)多模态对齐训练方法,主要包含对比式对齐训练和转换式对齐训练两类方法(3)多模态大模型的评测基准:主要包含感知任务(数量、颜色感知,OCR等)、认知任务(数值计算、文本翻译等)以及专业领域推理任务等。
图 1.通用多模态大模型架构简单示意图
参考文献
[1] Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. arXiv preprint arXiv:2306.13549, 2023.
[2] Song S, Li X, Li S. How to bridge the gap between modalities: A comprehensive survey on multimodal large language model[J]. arXiv preprint arXiv:2311.07594, 2023.
Part.2 / 城市多模态大模型
城市大模型是城市科学研究的新一代人工智能方法技术,它可以提高决策效率,优化资源配置,提升治理能力,促进可持续发展,有效应对复杂挑战。在这一部分,我们将深入探讨时间序列大模型、时空大模型、地理大模型以及遥感街景大模型等多模态大模型的最新进展。将时间序列、时空、地理和遥感街景等多模态大模型结合起来,进一步构建一个全面、立体的多模态城市大模型,不仅能够提供更丰富的信息,还能够揭示不同城市系统之间的相互作用。例如,结合时间序列和遥感街景数据,可以更准确地评估城市规划对环境的影响;结合时空和地理数据,可以优化城市的交通网络设计。
图 2.支撑城市多模态大语言模型的各模态数据
参考文献
[1] Jin, Ming, et al. "Time-llm: Time series forecasting by reprogramming large language models." arXiv preprint arXiv:2310.01728 (2023).
[2] Li, Zhonghang, et al. "UrbanGPT: Spatio-Temporal Large Language Models." arXiv preprint arXiv:2403.00813 (2024).
[3] Deng, Cheng, et al. "K2: A foundation language model for geoscience knowledge understanding and utilization." Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024.
[4] Hao, Xixuan, et al. "UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction." arXiv preprint arXiv:2403.16831 (2024).
Part.3 / 多模态大模型的城市应用
多模态大模型可以处理不同模态的城市数据,包括城市街景图片、音频视频、文本、传感器数据以及地理网格数据等,通过对这些海量多模态数据进行综合分析,模型能够有效地洞察城市动态、理解城市运行机理、挖掘城市特征,从而提升城市治理效率。通过对已有工作的总结,多模态大模型在城市中的应用主要包括以下四个方面。1)城市数据预测:通过整合城市数据,如交通流量和气象条件,有效预测时序变化和城市居民行为。2)城市感知理解:能够自动识别城市中的各种实体(如建筑物、车辆),生成城市的社会经济指标(如经济活动、环境质量),帮助政策制定者更好地理解城市运行状态。3)城市环境模拟:可以模拟复杂的城市场景和居民行为,帮助城市规划者评估各种规划方案。4)城市决策:支持城市环境的复杂优化控制决策,如交通信号灯、自动驾驶车辆等,通过具身智能实现与城市环境的高效交互,提升模型决策能力。
图 3.多模态大模型在城市中的应用
参考文献
[1] Schoenegger, Philipp, et al. "Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Match Human Crowd Accuracy." arxiv preprint arxiv:2402.19379 (2024).
[2] Zhang, Wei, et al. "Earthgpt: A universal multi-modal large language model for multi-sensor image comprehension in remote sensing domain." arxiv preprint arxiv:2401.16822 (2024).
[3] Shao, Chenyang, et al. "Beyond Imitation: Generating Human Mobility from Context-aware Reasoning with Large Language Models." arxiv preprint arxiv:2402.09836 (2024).
[4] Wang, Jiawei, et al. "Large Language Models as Urban Residents: An LLM Agent Framework for Personal Mobility Generation." arxiv preprint arxiv:2402.14744 (2024).
[5] Fan, Haolin, et al. "Embodied intelligence in manufacturing: leveraging large language models for autonomous industrial robotics." Journal of Intelligent Manufacturing (2024): 1-17.