活动预告 |【第38次技术研讨会】Urban Data Generation

文摘   其他   2023-12-21 23:28   北京  

Urban Data Generation: 

Foundation, Frontier and Applications

【主题】Urban Data Generation: Foundation, Frontier and  Applications

【时间】2023年12月22日14:00-17:30

【地点】电子系7层咖啡厅

城市科学与计算研究中心第38次技术研讨会将于12月22日周四下午14:00举办。


本次技术研讨会的主题是“Urban Data Generation”,首先将介绍城市数据生成技术的产生背景及动机,接着将对相关数据生成方法的基础概念和技术细节做出回顾,之后将讨论城市数据生成技术的前沿,包括融合知识的数据生成、可控生成、生成质量评估、基于LLM的数据生成等方面,最后介绍城市个体行为活动、群体流、基础设施网络、移动蜂窝网络等典型场景的数据生成应用案例。


Part.1 / 研究背景和驱动因素

第一部分对城市数据生成的研究背景和驱动因素进行介绍。基于文献调研与资料整理,本部分将介绍以下内容:城市数据的概念界定与分类;城市科学研究在数据获取方面的现有困境与难点;驱动城市数据生成的重要因素和生成式人工智能为城市数据生成带来的机遇与挑战。最后,我们将对城市数据生成与传统内容生成领域(如图像、文本和语音等)进行对比,梳理城市数据生成的主要特点与核心需求,为城市数据生成相关技术的介绍提供宏观视角。

参考文献

[1] 汪光焘, 李芬, 刘翔. 城市科学研究的新机遇. 中国科学院院刊, 2023, 38(7): 978-990.


[2] Wang, Fei, Di Yao, Yong Li, Tao Sun, and Zhao Zhang. "AI-enhanced spatial-temporal data-mining technology: New chance for next-generation urban computing." The Innovation 4, no. 2 (2023).

Part.2 / 基础技术

第二部分对当前数据生成的基础技术进行介绍,本部分会从:基于统计模型的数据生成、基于机制的数据生成以及基于深度生成模型的数据生成三方面进行介绍,重点介绍每一种生成方法下的基本思想、优缺点和研究进展。在基于统计模型中主要介绍马尔可夫过程及其变种模型,通过概率转移方程计算获得数据。在基于机制的数据生成中介绍了图生成与规则生成方法,通过引入真实世界的拓扑关联与客观规律,提升特定场景下数据的真实性。在基于深度生成模型的数据生成中介绍了当前主流的生成模型,能够通过数据知识联合驱动的方式捕捉数据之间的时空关联特征,提升生成数据的泛化性与保真度。


Part.3 / 城市数据生成方法的前沿主题

第三部分我们将深入探讨城市数据生成方法的前沿主题,涵盖四个关键技术领域。首先,"知识引导的数据生成"着重于如何运用专业领域知识来指导并优化数据生成流程。其次,我们将关注"可控的条件数据生成",这部分主要研究在保障数据质量的前提下,如何有效地控制数据生成过程,以达成特定目标或满足特定需求。第三,"生成质量评估"主要介绍现行的评估生成数据质量的重要手段,帮助我们更好地理解和判断生成数据的有效性和精确性。最后,我们将探索"大型语言模型(LLM)在城市数据生成中的应用",这是一个新兴领域,利用大型语言模型Agent来实现行为模拟,并利用语料库中的常识知识来辅助模拟和生成城市数据。这四个领域为我们理解和应用数据生成提供了全新的视角和工具。

参考文献

[1] Von Rueden, Laura, et al. "Informed machine learning–a taxonomy and survey of integrating prior knowledge into learning systems." IEEE Transactions on Knowledge and Data Engineering 35.1 (2021): 614-633.


[2] Wang, Shiyu, et al. "Controllable data generation by deep learning: A review." arXiv preprint arXiv:2207.09542 (2022).


[3] Chen Gao, Xiaochong Lan, Nian Li, Yuan Yuan, Jingtao Ding, Zhilun Zhou, Fengli Xu, Yong Li. "Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives". https://arxiv.org/abs/2312.11970.

Part.4 / 城市数据生成的领域应用

第四部分介绍城市数据生成的领域应用,根据城市“物理-网络-社会”三元空间的定义,我们具体讨论以下六个领域:个体行为活动数据生成、群体流数据(出行、用电量、用水量等)生成、基础设施网络数据(路网、水网、电网)生成、线上推荐系统和社交网络数据生成、移动蜂窝网络数据生成。具体应用中根据实际情况对生成数据的条件控制维度、规律约束、生成速度等特性的需求侧重有所不同,涌现出一系列领域适配的数据生成方法。

参考文献

[1] Rong Can, Jingtao Ding, and Yong Li. "An Interdisciplinary Survey on Origin-destination Flows Modeling: Theory and Techniques." arXiv preprint arXiv:2306.10048 (2023).


[2] Yan Huan, and Yong Li. "A Survey of Generative AI for Intelligent Transportation Systems." arXiv preprint arXiv:2312.08248 (2023).


[3] Yuan Yuan, Huandong Wang, Jingtao Ding, Depeng Jin, and Yong Li. "Learning to Simulate Daily Activities via Modeling Dynamic Human Needs." In WWW 2023, pp. 906-916. 2023.


[4] Qingyue Long, Huandong Wang, Tong Li, Lisi Huang, Kun Wang, Qiong Wu, Guangyu Li, Yanping Liang, Li Yu, and Yong Li. "Practical synthetic human trajectories generation based on variational point processes." In KDD, pp. 4561-4571. 2023.

数据科学与智能实验室
本公众号为清华大学电子系数据科学与智能实验室的公众账号,主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯,敬请关注。
 最新文章