港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

科技 2024-09-14 08:30 中国

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（240+篇专栏笔记，已有230+同学加入学习）

在城市规划和交通管理领域中，准确的交通预测被视为至关重要的一部分。它不仅有助于资源的合理分配，还能显著改善市民的出行体验。现有的端到端时空预测模型技术得到了快速发展，但是它们往往依靠大量高质量标签来生成准确的预测，在跨空间和跨任务等零样本场景下表现不佳。

本研究提出了一种新型基础模型 OpenCity，它融合了最新的 Transformer 架构与图神经网络技术，以实现在各种城市环境中的精确预测。在多项测试特别是零样本任务中，OpenCity 展现了其出色的预测性能和优秀的扩展性，为未来交通预测开辟了新的路径。

【论文标题】

OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction

【论文链接】

http://arxiv.org/abs/2408.10269

【论文代码】

https://github.com/HKUDS/OpenCity

【实验室主页】

https://sites.google.com/view/chaoh/home

现有挑战

C1.空间异质性：当前交通预测模型的主要限制在于其空间泛化能力较弱。不同地理位置的时空规律往往存在较大差距，现有模型依靠大量高质量标签学习区域特定化模型，导致其难以泛化到其他区域。

C2.时间异质性：现有模型能够较好地应对短期预测和时间跨度较小的预测任务，但在处理长期预测和时间跨度大的场景往往表现欠佳。这主要是由于模型难以适应城市环境中随时间变化的复杂交通模式，这一局限性影响了城市规划者和交通管理部门制定长远策略的能力。

基于上述问题，我们提出 OpenCity 模型，它可以有效进行通用时空建模以实现卓越的零样本预测性能。此外，我们还发现 OpenCity 具备对新场景的快速适应能力以及良好的可扩展性。

▲ 图1：左图为不同交通数据集的数据分布变化。右图为OpenCity在零样本下与基线在全样本下的性能对比，即使在这种情境下，OpenCity的表现仍能取得领先。

模型方法

用于分布偏移泛化的时空嵌入

▲ 图2: OpenCity 整体架构

（1）上下文标准化

为了有效处理不同区域交通指标尺度不一致以及分布不一致的问题，我们采用了实例归一化方法 IN(·) 进行数据标准化，形式化如下：

（2）Patch 操作

在长期预测任务涉及处理增长的时间步信息，带来显存和计算开销。为了缓解这个问题，我们使用Patch操作对数据在时间维度上进行切分。在经过Patch操作后，输入数据由变为。采用基于 Patch 的方法显著降低了计算和内存需求，从而提高了模型在长期交通预测中的效率和可扩展性。随后我们通过线性变换和采用位置编码来构建最终的时空嵌入表示，此嵌入将作为后续模型组件的输入，如下所示：

时空上下文编码

为了掌握交通数据中固有的复杂时空模式，模型融合了时间和空间的上下文线索。通过明确模拟这两个关键维度的相互作用，OpenCity 能够更深入地了解影响交通模式的多种因素。这种综合方法让所提出的框架能够在不同的时间段和地理区域中提供更精确的预测。

为了让 OpenCity 能够更深入地理解不同时间段和不同地理区域下的时空模式，我们在编码过程中融入了时空上下文信息，包括：

（1）时间上下文编码

我们利用时间特征，包括一天中的时间和一周中的某一天，来促使模型更有效地捕捉交通数据中的特定时间模式。随后，我们利用线性层生成与这些时间上下文相关的特定时间嵌入，如下所示：

（2）空间上下文编码

鉴于不同地区因其独特的地理特性而展现出不同的交通模式（如交通枢纽区域流量较大），我们为了捕捉这些区域的特性，在交通网络中加入了空间上下文。具体地，我们计算标准化的拉普拉斯矩阵结合特征值分解来生成区域嵌入，这里我们选择 k 个最小的非平凡特征向量作为区域嵌入，以编码交通网络的结构信息。这些嵌入通过线性层以得到最终的空间编码嵌入。

时空依赖建模

（1）时间依赖建模

OpenCity 采用新设计的 TimeShift Transformer 架构以有效编码时间依赖性。我们从两个角度提取时间依赖：a. 周期性交通模式：识别交通网络中的周期性、重复出现的模式。通过对这些周期性变化进行编码，模型能够更精确地理解交通网络中的规律性。b. 动态交通模式：用于捕捉到随时间演变的复杂非线性动态和趋势。

周期性交通转换建模

我们利用时间嵌入和空间嵌入来捕捉交通数据的周期性模式，并旨在分析历史交通模式与未来状况之间的相关性。时间嵌入被分为两部分进行更新：，代表历史时间信息；，代表未来时间信息。

在我们的模型框架中，我们特别模拟了历史与未来的时间模式，以更有效地掌握并应用交通时间序列中的周期性特征。这种机制通过构建一个时间转移的多头注意力机制来实现，其中未来的时空嵌入作为查询（Query），历史的时空嵌入作为键（Key），以及历史的时空数据作为值（Value）。

动态交通模式学习

此模块的目标是学习不同时间段之间的动态依赖性。例如，一起突发的交通事故可能导致交通速度和流量突然下降。为此，我们引入了一种类似于周期性交通模式转换的改良注意力机制。与之不同的是，这里的查询（Q）、键（K）和值（V）使用的是前一步骤的归一化输出（M）作为输入。这种改进使得模型能够专注于学习时间段间的动态依赖，而不仅仅是周期性模式。因此，生成的时间表示能有效地捕捉这些动态的时空关系。

（2）空间依赖建模

空间依赖性是时空建模的关键一步，因为交通网络展现出显著的空间相关性，即一个区域的交通状况通常会受到其邻近区域状态的影响。为了有效建模这种空间关联，我们引入了图卷积网络：

其中，为归一化的邻接矩阵，用于调节原始信息的保留程度，而为dropout操作，起到减少过拟合的作用。为了优化后续计算，我们将前馈传播神经网络替换为 SwiGLU 。

上式中，表示第层的时空编码网络输出，表示 Swish 激活函数，为可训练的权重。通过层叠这种时空编码网络，所提出的模型能够识别出复杂的时空依赖性，并有效地学习交通网络中的复杂交互作用。

实验效果

零样本 vs 全样本

我们全面评估了 OpenCity 在零样本条件下的性能，包含跨区域、跨城市和跨类型三种不同场景，并与基线的全样本性能进行了对比，详细结果见表1。

（1）卓越的零样本预测性能

OpenCity 在零样本学习任务中展示了卓越的性能，即使没有进行微调，也在多数情况下超越了基准模型。这证明了该模型在理解复杂的大规模交通数据的时空模式和提取对下游任务有益的通用知识方面的稳定性和效率。在多个数据集的评估中，OpenCity 经常名列前茅，即使不是第一，其性能差距也限制在平均绝对误差（MAE）的8%以内。这种出色的零样本预测能力突出了 OpenCity 在处理多种交通数据集时的广泛适用性和强大适应性，而无需大量再训练。其主要优势在于能够迅速适应新的应用环境，显著降低了传统监督学习方法所需的时间和资源，极大地便利了实际部署。

（2）卓越的跨任务泛化能力

我们对 OpenCity 在四个不同的交通数据类别上的进行评估：交通流量（CAD3、CAD5）、交通速度（PEMS07M、TrafficSH）、出租车需求（CHI-TAXI）和自行车轨迹（NYC-BIKE）。虽然各种基线在特定的数据类别上表现良好，但没有基线能够在所有类别中持续地提供最佳表现。相较之下，OpenCity 在所有测试的类别中均展现了其高质量的结果，证明了它的卓越稳健性和多功能性。此外，为进一步探索 OpenCity 框架的通用性，我们特别对其在跨类别（如NYC-BIKE）的零样本泛化能力进行了测试。测试结果显示，OpenCity 在多个评估指标上都保持了出色的表现，进一步证明了其广泛的适用性和对多种数据类型的高度适应性。

▲ 表1：零样本 vs. 全样本性能比较

有监督预测性能

我们同样进行了有监督学习的评估。我们比较了 OpenCity 在“one-for-all” 配置下的表现与基线在单个数据集上的端到端训练和测试的结果，如表2。结果显示 OpenCity 在大多数评价指标上优于其他模型的表现。此外，我们发现大多数基线模型在 CAD-X 数据集上表现不佳，这可能是由于这些模型过度拟合了既有的时空模式，导致难以处理长期的交通模式依赖。相比之下，OpenCity 架构通过有效地从预训练阶段提取并运用通用的周期性与动态时空表征，成功克服了由于时间和地理分布偏差而引起的预测性能问题。

▲ 表2：有监督性能评估

模型快速适应能力探索

本节评估了 OpenCity 在新交通数据集上的快速适应能力，采用了“高效微调”策略，即仅更新模型的预测部分（最后一个线性层），限制训练周期至三个以内。如表 3 所示，尽管 OpenCity 在某些指标上的零样本性能可能不及基线的全样本性能，这可能由交通模式和数据采样变化引起。然而，经高效微调后，OpenCity 性能显著提升，超越了所有对比模型。特别地，OpenCity 的训练时间仅为基线模型的 2% 至 32%，这种快速适应能力突显了其作为交通预测基础模型的潜力，能迅速适应新的时空数据类别。

▲ 表3：OpenCity 快速适应性评测

消融实验

（1）动态交通建模的效用。-DTP。移除动态交通建模模块后，模型性能降低，证明该模块能有效分析近期交通模式，适应交通条件的突变，并据此调整预测。

（2）周期性交通转移建模的影响。 -PTTM。去掉周期性编码后，选择将时间和空间上下文直接融入时空嵌入，结果显示性能下降，强调了周期性交通转移建模的重要性。该方法通过模拟交通流在历史与未来时间点的转移，捕捉控制时空模式变化的基本规律。

（3）空间依赖性建模的影响。-SDM。移除空间编码模块后，分析显示学习空间关系能显著提升时空预测能力。模型通过整合相关区域的交通信息，有效捕捉动态交通流模式，为零样本交通预测提供重要辅助信号。

（4）时空上下文编码的影响。-STC。移除时空上下文信息编码后，性能显著下降。时间上下文信息助力模型识别并学习特定时期的交通模式，区域嵌入则提供关键区域特性，这些因素共同为理解城市间动态时空模式提供宝贵洞察。

▲ 图3：OpenCity 消融实验

模型可扩展性研究

本节研究了 OpenCity 在数据量和模型参数两个维度上的可扩展性，如图4所示。其中参数分为三种规模：OpenCity-mini（2M）、OpenCity-base（5M）及 OpenCity-plus（26M）。在数据上，对于 OpenCity-plus 模型，我们分别使用了 10%、50% 和 100% 的预训练数据来测试增加数据量的效益。结果表明，随着参数数量和数据量的增加，OpenCity 的零样本泛化能力逐步提升。这表明 OpenCity 能有效地从大规模数据集中学习到有价值的信息，并且通过增加参数数量来增强其学习能力。所展示的这种可扩展性潜力支持了 OpenCity 成为通用交通应用的基础模型的前景。

▲ 图4：模型可扩展性实验

与大规模时空预测模型的比较

本节对 OpenCity 和其他大型时空预训练模型进行了比较，包括以零样本泛化能力著称的 UniST 和 UrbanGPT。实验使用了三个模型预训练阶段未见的 CHI-TAXI 数据集。表4结果显示 OpenCity 在其他大规模时空模型中表现出显著的性能优势。与 UrbanGPT 相比，OpenCity 和 UniST 在效率上也有明显提升，这可能由于 UrbanGPT 依赖于大型语言模型以问答格式进行预测，降低了其处理大数据量的效率。OpenCity 在性能和效率上的表现突显了其在交通领域作为基准测试的强大潜力。

▲ 表4：与大规模时空预测模型的比较实验

总结

本研究提出了新型可扩展时空基座模型 OpenCity，用于交通预测。该模型基于 Transformer 的编码器架构，针对性地捕捉交通数据的动态时空依赖性，并在丰富的交通数据上进行预训练。OpenCity 在多种交通预测场景中展示了优异的零样本预测能力，其性能可与全样本环境下的先进模型媲美。此外，OpenCity 展现了较高的计算效率和良好的的扩展性，为开发广泛适用于不同城市和交通网络的交通预测解决方案提供了坚实的基础。

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

240+篇专栏笔记，已有230+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

往期推荐阅读

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

时间序列预测中如何构建层级化的 Transformer 架构？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

ICML 2024 | BayOTIDE：针对多变量不规则时间序列的高效插补算法

ICML 2024 | 时序异常检测应该如何设计有效的模型？

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

KDD 2024 | UniST：清华推出首个通用城市时空预测模型，代码数据均已公开

综述 | 一文看懂生成式时序表示与时序大模型

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247501240&idx=1&sn=78f359dd6f377ac5fdddd3de8a35fa77

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架