活动预告 |【第40次技术研讨会】Multi-modal Large Language Model

文摘其他 2024-04-29 08:15 北京

Multi-modal Large Language Model

【主题】技术研讨会

Multi-modal Large Language Model

【时间】2024年4月29日14:00-17:30

【地点】电子系7层咖啡厅

城市科学与计算研究中心第40次技术研讨会将于4月29日周一下午14:00举办。

本次技术研讨会的主题是“Multi-modal Large Language Model”，随着大语言模型的飞速发展，面向图文和视频的多模态大语言模型在过去一年成为学术界和工业界的研究焦点，取得丰硕的研究成果。另一方面，城市科学中天然存在着时间序列、空间数据、街景遥感等多模态数据，应用先进的多模态大语言模型解决城市中的问题成为自然的选择和极具前景的发展方向。发挥多模态大语言模型的能力解决城市中的重要问题成为极具前景的发展方向。

本次workshop将首先介绍多模态大语言模型概况，然后介绍通用多模态大语言模型的构建方法和城市领域多模态大模型的构建方法，最后介绍多模态自然语言大模型在城市场景中的应用。

Part.1 / 通用多模态大模型构建

多模态大模型（MLLM）是一类以大语言模型（LLM）为核心，同时具备对各种模态（文本、图像、音频等）数据的理解与生成能力的模型，目前在各类多模态任务上都展现了突出性能。该部分我们关注面向通用多模态数据的大模型构建，通过梳理回顾近期的重要研究工作，重点介绍：（1）通用多模态对齐数据的采集和构造方法，从利用现有数据资源和生成对齐数据两个角度出发，重点探讨如何利用现有的大型模型来助力对齐数据的构建（2）多模态对齐训练方法，主要包含对比式对齐训练和转换式对齐训练两类方法（3）多模态大模型的评测基准：主要包含感知任务（数量、颜色感知，OCR等）、认知任务（数值计算、文本翻译等）以及专业领域推理任务等。

图 1.通用多模态大模型架构简单示意图

参考文献

[1] Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. arXiv preprint arXiv:2306.13549, 2023.

[2] Song S, Li X, Li S. How to bridge the gap between modalities: A comprehensive survey on multimodal large language model[J]. arXiv preprint arXiv:2311.07594, 2023.

Part.2 / 城市多模态大模型

城市大模型是城市科学研究的新一代人工智能方法技术，它可以提高决策效率，优化资源配置，提升治理能力，促进可持续发展，有效应对复杂挑战。在这一部分，我们将深入探讨时间序列大模型、时空大模型、地理大模型以及遥感街景大模型等多模态大模型的最新进展。将时间序列、时空、地理和遥感街景等多模态大模型结合起来，进一步构建一个全面、立体的多模态城市大模型，不仅能够提供更丰富的信息，还能够揭示不同城市系统之间的相互作用。例如，结合时间序列和遥感街景数据，可以更准确地评估城市规划对环境的影响；结合时空和地理数据，可以优化城市的交通网络设计。

图 2.支撑城市多模态大语言模型的各模态数据

参考文献

[1] Jin, Ming, et al. "Time-llm: Time series forecasting by reprogramming large language models." arXiv preprint arXiv:2310.01728 (2023).

[2] Li, Zhonghang, et al. "UrbanGPT: Spatio-Temporal Large Language Models." arXiv preprint arXiv:2403.00813 (2024).

[3] Deng, Cheng, et al. "K2: A foundation language model for geoscience knowledge understanding and utilization." Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024.

[4] Hao, Xixuan, et al. "UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction." arXiv preprint arXiv:2403.16831 (2024).

Part.3 / 多模态大模型的城市应用

多模态大模型可以处理不同模态的城市数据，包括城市街景图片、音频视频、文本、传感器数据以及地理网格数据等，通过对这些海量多模态数据进行综合分析，模型能够有效地洞察城市动态、理解城市运行机理、挖掘城市特征，从而提升城市治理效率。通过对已有工作的总结，多模态大模型在城市中的应用主要包括以下四个方面。1）城市数据预测：通过整合城市数据，如交通流量和气象条件，有效预测时序变化和城市居民行为。2）城市感知理解：能够自动识别城市中的各种实体（如建筑物、车辆），生成城市的社会经济指标（如经济活动、环境质量），帮助政策制定者更好地理解城市运行状态。3）城市环境模拟：可以模拟复杂的城市场景和居民行为，帮助城市规划者评估各种规划方案。4）城市决策：支持城市环境的复杂优化控制决策，如交通信号灯、自动驾驶车辆等，通过具身智能实现与城市环境的高效交互，提升模型决策能力。

图 3.多模态大模型在城市中的应用

参考文献

[1] Schoenegger, Philipp, et al. "Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Match Human Crowd Accuracy." arxiv preprint arxiv:2402.19379 (2024).

[2] Zhang, Wei, et al. "Earthgpt: A universal multi-modal large language model for multi-sensor image comprehension in remote sensing domain." arxiv preprint arxiv:2401.16822 (2024).

[3] Shao, Chenyang, et al. "Beyond Imitation: Generating Human Mobility from Context-aware Reasoning with Large Language Models." arxiv preprint arxiv:2402.09836 (2024).

[4] Wang, Jiawei, et al. "Large Language Models as Urban Residents: An LLM Agent Framework for Personal Mobility Generation." arxiv preprint arxiv:2402.14744 (2024).

[5] Fan, Haolin, et al. "Embodied intelligence in manufacturing: leveraging large language models for autonomous industrial robotics." Journal of Intelligent Manufacturing (2024): 1-17.

数据科学与智能实验室

本公众号为清华大学电子系数据科学与智能实验室的公众账号，主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯，敬请关注。

论文解读 |【WWW 2024】Health CLIP：利用卫星和街景图像中的健康特征预测抑郁率

论文解读 |【WWW 2024】基于模态纠偏提升多模态推荐公平性

会议总结 | 第47次技术研讨会 Physic-informed AI for Complex Systems 成功召开

活动预告 |【第47次技术研讨会】Physics-informed AI for Complex Systems

论文解读 |【ICWSM 2024】基于多角色合作大模型智能体的立场检测

论文解读 |【NeurIPS 2024】基于混合语言模型的科学文本引用预测

活动预告 |【第46次技术研讨会】Spatial Embodied Intelligence

论文解读 |【IJCAI 2024】从像素看发展：基于卫星图像的欠发达区域路网识别与社会经济关联性分析

论文解读｜【Nature Communications】复杂网络韧性的深度学习预测方法

论文解读 |【IJCAI 2024】脆弱度地图VulnerabilityMap：刻画美国城市弱势群体脆弱度的开放框架

收集20+时空数据集，超1.3亿样本点，清华研究团队基于生成式AI，提出3种城市复杂系统建模方法

城市科学与计算研究中心近期活动速览来啦!

【会议回顾】CNCC | 第三届“AI+复杂系统”技术论坛：赋能科学应用

玩转「智能体魔方」！清华推出AgentSquare模块化搜索框架，开启AI智能体高速进化时代

论文解读 |【IJCAI 2024】基于卫星图像识别的城中村识别与监测

活动预告 |【第45次技术研讨会】Reinforced LLM Reasoning

论文解读 |【SIGIR 2024】建模用户疲倦的序列推荐

论文解读 |【KDD 2024】UniST：基于提示学习的通用城市时空预测模型

论文解读 |【KDD 2024】基于重整化群的复杂网络长时动力学预测

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

论文解读 |【KDD 2024】基于拓扑与动力学生成式数据增强的复杂网络系统韧性预测

AI能否让复杂系统变简单｜CNCC第三届“AI+复杂系统”技术论坛

论文解读 |【KDD 2024】基于预训练语言模型“群体-个体”微调端测适配的用户意图预测

城市科学与计算研究中心九月活动速览来啦！

【会议回顾】研究中心多项研究成果在KDD 2024发表

活动预告 |【第44次技术研讨会】World Model

清华城市科学与计算研究中心招募AI方向科研实习生

论文解读 | 【KDD2024】CDGON: 一种用于灾后城市人口流动性恢复预测的物理启发神经常微分方程

论文解读 |【KDD 2024】OpenDiff：基于公开数据与扩散模型的移动网络流量生成

论文解读 | 【ACL 2024】EconAgent : LLM智能体驱动的宏观经济模拟

选课通知｜清华-美团联合课程《大数据技术的应用与实践》课程号：80231143

喜迎新学期，欢聚新起点——城市科学与计算研究中心八月活动速览来啦！

论文解读 |【KDD 2024】ReStruct: LLM驱动的异质图元结构发现

精彩回顾 | 第二届国际城市科学大会在清华大学成功举办

ADL153《时空数据智能》开启报名

活动预告 | 第二届城市科学大会注册通知

活动预告 |【第43次技术研讨会】LLM for Interdisciplinary Research

活动预告 |【第42次技术研讨会】Agent and Embodied AI

前沿导读 | 大模型通用推理

活动预告 |【第41次技术研讨会】AI for Urbanization and Sustainable Development

WWW 2024 Tutorial 报告: 基于大模型智能体的社会模拟仿真

活动预告 |【第40次技术研讨会】Multi-modal Large Language Model

论文解读 |【ICLR 2024】基于扩散模型参数生成的时空少样本学习

仅需 5% 训练样本达到最优性能，清华大学研究团队发布条件去噪扩散模型 SPDiff，实现长程人流移动模拟

活动预告 |【第39次技术研讨会】LLM for Computational Social Science

论文解读 |【SIGSPATIAL 2023】融合多尺度人类移动动力学增强传染病空间传播预测

论文解读 |【SIGSPATIAL 2023】基于知识增强扩散模型的城市人流量生成

城市科学与计算研究中心十二月活动速览来了~

论文解读 |【SIGSPATIAL 2023】通过街景卫星图像识别建成环境疾病传播风险

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉