2024年就要结束了,对今年在时空数据挖掘领域的工作进行了一次回顾,旨在总结今年时空领域的主要进展。总体而言,和23年总结一样,2024年的时空数据挖掘不仅在传统任务上继续取得进展,而且还涌现出了一些新的研究方向新的数据和更多新的可能。
注:作为一个初学者,对于这个领域的理解还不够深入,我的观点可能显得有些浅薄和幼稚。尽管如此,我还是愿意分享在我学习过程中发现的一些有趣的文章和见解。我非常欢迎各位宝贵意见和指导,也请大家不吝批评,帮助我更好地成长和进步。(个人感觉今年写的没有去年的好,感觉读的论文少了,请大家尽情拍砖)
以下是我对2024年时空数据挖掘领域的一些观察和总结,供大家参考。
点击文末阅读原文跳转笔者知乎链接(跳转论文链接更方便)。
去年也写了一篇,但是当时没有做公众号,只发在了某乎,感谢“时序人”转发,感兴趣的朋友也可以读一下。
NO1WDS,公众号:时序人盘点2023年值得关注的时空数据挖掘工作
1. 新研究方向
新的研究方向我分类两类:新问题和新发现
1.1 新问题
时空基础模型(foundation model)
基础模型定义:通过大量原始数据的基础上进行无监督训练而成的神经网络模型,可适应各种任务。
去年开始,时间序列领域爆发了大量的基础模型,今年时空领域也不甘示弱,也涌现了很多的基础模型。
这里时空基础模型我分为两类:统计量基础模型(时空序列的预测,插补,异常检测等)和轨迹基础模型。
统计量基础模型
这里分享几篇代表性工作:
最早占坑的时空基础模型——UrbanGPT
2024[KDD]UrbanGPT: Spatio-Temporal Large Language Models (ADS Track)
链接:https://dl.acm.org/doi/abs/10.1145/3637528.3671578
TL; DR: 本文提出了UrbanGPT,一种结合时空依赖编码器和指令微调范式的时空大语言模型,旨在解决数据稀缺情况下的时空预测问题。
纯时空模型的逆袭——UniST
2024[KDD]UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction
链接:https://dl.acm.org/doi/abs/10.1145/3637528.3671662
论文精读 |2024[KDD]UniST: One-for-all城市时空预测模型,预训练+提示统一多种时空场景
TL; DR:本文提出了UniST,一个基于提示的通用模型,通过灵活处理多样化时空数据、有效的生成预训练和时空知识引导的提示,实现了在多个城市和领域中的卓越泛化能力和城市时空预测性能。
紧接着李勇老师团队又提出了基于diffusion transformer的城市基础模型UrbanDiT
链接:https://arxiv.org/abs/2411.12164
TL; DR:引入了开放世界城市时空学习的基础模型UrbanDiT,它集成了多种数据类型并解决多项任务(预测,插补,外推(extrapolation)等)。
轨迹基础模型
第一个轨迹基础模型——TrajCogn
2024[arXiv]TrajCogn: Leveraging LLMs for Cognizing Movement Patterns and Travel Purposes from Trajectories
链接:https://arxiv.org/abs/2405.12459
TL; DR:结合PLM(预训练语言模型)的优势提取轨迹的特征,提出了一种新颖的轨迹表示学习方法TrajCogn,在多个轨迹下游任务上均取得SOTA结果(行程时间估计,目的地预测,轨迹相似度搜索)
紧接着又有几篇轨迹基础模型力作,做一些简单的介绍。
世界轨迹基础大模型——UniTraj
2024[arXiv]UniTraj: Learning a Universal Trajectory Foundation Model from Billion-Scale Worldwide Traces
链接:https://arxiv.org/abs/2411.03859
TL; DR:整理了首个全球大规模轨迹数据集 WorldTrace,基于该数据集训练了世界轨迹基础大模型UniTraj。(轨迹恢复,预测,分类和生成任务)
统一轨迹数据和交通状态数据的基础模型——BIGCity
2024[arXiv]BIGCity: A Universal Spatiotemporal Model for Unified Trajectory and Traffic State Data Analysis
链接:https://arxiv.org/abs/2412.00953
TL; DR:提出了BIGCity模型,通过统一的时空数据表示和多任务学习框架,能够处理和分析包括轨迹数据和交通状态数据在内的多样化异构任务。
轨迹:轨迹预测,行程时间估计,轨迹分类,相似轨迹搜索,轨迹恢复,
交通状态:一步预测,多步预测,插补
无观测的时空预测
2024[EDBT]Spatial-temporal Forecasting for Regions without Observations
链接:https://arxiv.org/abs/2401.10518
TL; DR: 提出了一个名为STSM(spatial-temporal forecasting model with a selective masking strategy,)的模型,在没有历史观测数据的区域实现准确的时空预测。
如下图所示,相比克里格(Kriging)任务以及插补(imputation)任务,其更强调在完全没有历史数据的地方进行预测(类似冷启动)。也不同于零样本和迁移学习,从图上看,无观测区域与有观测区域有一定的空间关联性和邻近性。
1.2 新发现
长时预测和时空预测的正本清源——BasicTS
2024[TKDE]Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis
链接:https://ieeexplore.ieee.org/abstract/document/10726722
arXiv:https://arxiv.org/abs/2310.06119
「万字长文」长序列预测 & 时空预测,你是否被这些问题困扰过?一文带你探索多元时间序列预测的研究进展!
TL; DR:系统梳理了多元时间序列预测的发展脉络,讨论了目前领域内的争议,通过公平且全面的评测,剖析了多元时间序列预测取得的 进展。同时,文章也深入探讨了该领域面临的挑战、核心瓶颈,以及未来可能的研究方向。
本文也对许多开放问题进行了讨论(具体内容可参考原文和解读):
时间维度:分布漂移或许才是核心的挑战 空间维度:所谓的“依赖“或许是数据的不可区分性
2. 技术类创新
今年最火的两个新技术应该是上半年的mamba和下半年的KAN了(至于这俩技术到底咋样,就是仁者见仁智者见智了)。Mamba有几篇时空的工作产出,KAN目前还没有看到相关时空的论文,时序有一些论文。
同时,在CV领域比较成熟的持续学习(or连续学习,增量学习)技术逐渐在时空数据领域开始受到人们的关注。
2.1 Mamba
时空预测的Mamba
2024[arXiv]STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model
链接:https://arxiv.org/abs/2403.12418
AI论文速读 | 【Mamba×时空预测】STG-Mamba:通过选择性状态空间模型进行时空图学习
TL; DR:本文提出的STG-Mamba是一种新型的时空图学习方法,它通过选择状态空间模型和卡尔曼滤波图神经网络,有效提高了STG数据学习的准确性和计算效率。(注:这是arXiv第一版写的TL; DR可能和最新版的文章会有一些不同)
时空轨迹的Mamba
2024[arXiv]PTrajM: Efficient and Semantic-rich Trajectory Learning with Pretrained Trajectory-Mamba
链接:https://arxiv.org/abs/2408.04916
TL; DR:提出了PTrajM解决了提取运动行为和出行目的的挑战。引入了Trajectory-Mamba模型用于连续运动建模,并通过出行目的感知的预训练过程高效提取轨迹目的,在多个真实数据集上相较于现有方法展现了优越的性能。
2.2 持续学习(Continual Learning)
时空数据通常具有动态性,随着时间和空间的变化,数据分布会发生偏移。传统的静态模型难以适应这些变化,无法有效捕捉到时空分布的动态特性。因此,持续学习通过不断学习新的知识和适应数据的变化,能够确保模型在面对时空变化时仍然保持高效和准确的预测能力。
注:持续学习(增量学习)之前也有一些时空数据的工作,从去年到今年感觉关注度逐渐变高。
2024[ICDE]A Unified Replay-based Continuous Learning Framework for Spatio-Temporal Prediction on Streaming Data
链接:https://arxiv.org/abs/2408.04916
DI DaSE ECNU: ICDE2024 | 基于重放持续学习框架的时空预测
TL; DR:为了应对时空数据流预测中的灾难性遗忘问题,提出了一个统一的基于回放的持续学习框架URCL。该框架通过时空混合机制融合历史样本与新数据,避免遗忘。同时,集成了时空自编码器和时空简单Siamese(STSimSiam)网络,通过互信息最大化确保预测准确性,结合五种数据增强方法提升性能。
(Oral) 2024[NeurIPS]Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework
链接:https://arxiv.org/abs/2410.10524
PaperWeekly:NeurIPS 2024 | 摆脱任务孤立:中科大提出任务级别时空持续学习新框架
TL; DR:CMuST是一种持续多任务时空学习框架,旨在提升城市智能,解决城市数据动态、多源和不平衡的问题。它提出了新颖的多维时空交互网络(MSTI),用于改进任务泛化和适应性,同时引入滚动适应训练方案(RoAda)实现持续的任务学习。
3. 综述
2024时空领域的综述也是层出不穷,这里分享几篇。
轨迹管理和挖掘的综述
2024[arXiv]Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond
链接:https://arxiv.org/abs/2403.14151
AI论文速读 | 【综述】用于轨迹数据管理和挖掘的深度学习:综述与展望
TL; DR:这篇论文提供了深度学习在轨迹数据管理和挖掘领域的全面回顾,探讨了其在预处理、存储、分析、可视化(管理)以及预测、推荐、分类(挖掘)等任务中的应用,并提出了未来的研究方向和挑战。
多模态(跨域数据)+城市计算综述
2024[IF]Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook
IF:information fusion
arXiv链接:https://arxiv.org/abs/2402.19348
SicenceDirect:https://www.sciencedirect.com/science/article/pii/S1566253524003841
AI论文速读 | 【综述】城市计算中跨域数据融合的深度学习:分类、进展和展望
TL; DR:提供了一个全面的综述,专注于城市计算领域中跨域数据融合的最新进展,特别是深度学习方法的应用。
特定技术+城市计算任务的综述
还有一些针对特定技术应用的综述(持续学习,生成模型,扩散模型,自监督学习)这里也做一下介绍
持续学习+智慧城市综述
2024[arXiv]Continual Learning for Smart City: A Survey
链接:https://arxiv.org/abs/2404.00983
TL; DR:本综述全面回顾了在智能城市发展中广泛应用的持续学习方法。内容包括三部分:1) 方法论,分类介绍了基本的持续学习方法及其与图学习、时空学习、多模态学习和联邦学习等其他学习范式的结合;2) 应用,涵盖了交通、环境、公共卫生、安全、网络等领域的持续学习应用及相关数据集;3) 持续学习的挑战,讨论了当前问题和挑战,并展望了未来的研究方向。
生成技术+时空数据挖掘
2024[arXiv]A Survey of Generative Techniques for Spatial-Temporal Data Mining
链接:https://arxiv.org/abs/2405.09592
TL; DR:本文全面调研了生成技术在时空数据挖掘中的应用,提出了一个新的分类法,并介绍了一个标准化框架,以促进该领域的研究和应用。
扩散模型+时间序列&时空数据
2024[arXiv]A survey on diffusion models for time series and spatio-temporal data
链接:https://arxiv.org/abs/2404.18886
【综述】扩散模型在时间序列和时空数据中的理论、进展、应用与展望
TL; DR:本综述全面回顾了扩散模型在时间序列和时空数据中的应用,按照模型类型、任务类型、数据模态和应用领域进行分类。内容涵盖无条件和有条件模型,分别用于预测和生成任务,如预测、异常检测、分类和数据插补。
自监督+GeoAI
链接:https://arxiv.org/abs/2408.12133
TL; DR:本文综述了自监督学习(SSL)技术在地理空间人工智能(GeoAI)中的应用,特别是在三种主要的地理空间矢量数据类型(点、线条和多边形)上的发展。文章系统地分类了SSL技术,包括预测方法和对比方法,并讨论了它们如何增强下游任务的泛化能力。
4. 数据集
今年数据集感觉没有太多,找到一篇多模态时空数据集的论文,感觉还不错,在这里分享一下
横跨地球的多模态时空数据集——Terra
2024[NeurIPS]Terra: A Multimodal Spatio-Temporal Dataset Spanning the Earth
链接:https://openreview.net/forum?id=I0zpivK0A0#discussion
Huggingface:https://huggingface.co/datasets/onedean/Terra
Code:https://github.com/CityMind-Lab/NeurIPS24-Terra
TL; DR:本文介绍了一个名为Terra的多模态时空数据集,涵盖过去45年全球6,480,000个网格区域的每小时时序数据,并整合了地理图像和解释性文本等空间补充信息。
5. 行业亮点
应用数据科学KDD时间检验奖——U-Air
2024KDD的应用数据科学时间检验奖颁给了微软亚洲研究院于2013年KDD发表的论文《U-air: When urban air quality inference meets big data》,目前这篇论文谷歌学术引用1129次
TL; DR:本文提出了一种基于协同训练框架的半监督学习方法,用于推断城市空气质量的实时精细信息。该方法结合了空间分类器(基于人工神经网络)和时间分类器(基于线性链条件随机场),分别通过空间和时间特征建模空气质量的空间关联和时间依赖性。
Nature子刊上时空预测
今年Nature communication上有一篇谷歌发表的基于贝叶斯神经场的时空概率预测文章,主要做的是气象时空预测。(做气象时空感觉上限很高啊,能发Nature,Science,参考去年华为盘古大模型的独立Nature)
2024[NC]Scalable spatiotemporal prediction with Bayesian neural fields
链接:https://www.nature.com/articles/s41467-024-51477-5
Code:https://github.com/google/bayesnf
TL; DR:本文介绍了贝叶斯神经场(BAYESNF),一种通用统计模型,能够推断丰富的时空概率分布,用于预测、插值和变差函数等数据分析任务。BAYESNF结合了深度神经网络架构和层次贝叶斯推理,以实现高容量函数估计和稳健的预测不确定性量化。
新晋IEEE Fellow——袁晶@微软
袁晶博士是城市计算研究早期的开拓者和研究者,做了很多有影响力的时空工作工作,例如T-Drive等。今年入选了IEEE Fellow,入选理由是:轨迹数据挖掘和社会计算的贡献
另外,2022年KDD的应用数据科学时间检验奖颁给了2012年KDD微软亚洲研究院发表的《Discovering regions of different functions in a city using human mobility and POIs》(谷歌引用:1420),袁晶博士是第一作者。
6. 对2025的展望
最后,对未来一年的时空数据研究做一个趋势分析和展望,属于胡乱说胡乱猜,期待被打脸,大家看个乐呵,也请尽情拍砖。分为以下三个方面来说。
基础模型会持续跟进
未来几年中一定会出现大量结合时空的基础模型,不一定是语言模型,可能会基于不同架构,Transformer,MoE,Diffusion,DiT,还有Mamba和KAN,甚至说不定也有纯MLP的基础模型。基础模型未来注重的研究可能会有几个方向:
更加多样化的任务,参考时序基础模型的发展趋势,未来时空模型应该会期望一个模型可以解决多个任务。类似上述的UrbanDiT。(个人感觉轨迹表示学习,做多个轨迹下游任务就有这个趋势了。) 拼效率的模型,基础模型参数量大,推理开销大,不少人估计审稿被质疑效率了,后续可能会有更多类似模型压缩,推理优化等手段,提高模型推理效率。 多模态基础模型:多模态大模型很火,在时空这也不例外。图片(遥感卫星等数据)模态以及其他模态数据的融合是趋势。(当然这个最难的地方应该在数据,目前能做这个方向的很多都是闭源的。)
新研究问题
我也不知道具体会有什么新的研究问题,现在排列组合各种模型组合做的差不多了,总有人能找到新的切入点,可以有新的东西可以继续挖掘。(大家有好的idea带带我)。
评测和benchmark促进打榜研究的规范
在今年的NeurIPS时序预测workshop上,Christoph Bergmeir教授发表了一场引人深思的演讲,题目为“Fundamental limitations of foundational forecasting models: The need for multimodality and rigorous evaluation”,探讨了时序预测领域中一些普遍存在的挑战。他指出了若干模型(如Informer、Autoformer、PatchTST和TimeLLM等)在评估过程中可能涉及的一些比较方法上的问题,这些问题可能导致某些模型看似达到SOTA。然而,这并不意味着这些模型本身存在缺陷或不可靠;实际上,它们已经在多个实际应用中证明了自己的价值,并为该领域提供了宝贵的见解和技术积累。
回放地址:https://cbergmeir.com/talks/neurips2024/
因此,公平全面的评测能促进这个领域更加规范化,例如时序的TFB(VLDB 24),以及BasicTS(TKDE 24)等等。
尾声
2024年也做了一些全新的尝试,第一次尝试做这个公众号,这一年以来,没想到获得了这么多同行老师和同学的关注。再次感谢大家一路以来的陪伴和支持!愿在新的一年里与各位相互学习,共同进步!
最后,本文分享的观点和相关文章仅代表笔者个人的初步思考,难免带有主观色彩和个人局限。希望读者能以轻松的心态阅读,并欢迎提出宝贵的意见和建议。(尽情拍砖)。
预祝大家新年快乐,身体健康,科研顺利!
2024就要结束了,2025会是一个新世界吧。
以上~
如果觉得有帮助还请分享,在看,点赞