点击名片
关注并星标
#TSer#
【论文标题】
现有挑战
C1.空间异质性 :当前交通预测模型的主要限制在于其空间泛化能力较弱。不同地理位置的时空规律往往存在较大差距,现有模型依靠大量高质量标签学习区域特定化模型,导致其难以泛化到其他区域。
C2.时间异质性 :现有模型能够较好地应对短期预测和时间跨度较小的预测任务,但在处理长期预测和时间跨度大的场景往往表现欠佳。这主要是由于模型难以适应城市环境中随时间变化的复杂交通模式,这一局限性影响了城市规划者和交通管理部门制定长远策略的能力。
基于上述问题,我们提出 OpenCity 模型,它可以有效进行通用时空建模以实现卓越的零样本预测性能。此外,我们还发现 OpenCity 具备对新场景的快速适应能力以及良好的可扩展性。
模型方法
01
用于分布偏移泛化的时空嵌入
02
时空上下文编码
03
时空依赖建模
(1)时间依赖建模
OpenCity 采用新设计的 TimeShift Transformer 架构以有效编码时间依赖性。我们从两个角度提取时间依赖:a. 周期性交通模式:识别交通网络中的周期性、重复出现的模式。通过对这些周期性变化进行编码,模型能够更精确地理解交通网络中的规律性。b. 动态交通模式:用于捕捉到随时间演变的复杂非线性动态和趋势。
周期性交通转换建模
我们利用时间嵌入 和空间嵌入 来捕捉交通数据的周期性模式,并旨在分析历史交通模式与未来状况之间的相关性。时间嵌入被分为两部分进行更新:,代表历史时间信息;,代表未来时间信息。
在我们的模型框架中,我们特别模拟了历史与未来的时间模式,以更有效地掌握并应用交通时间序列中的周期性特征。这种机制通过构建一个时间转移的多头注意力机制来实现,其中未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据作为值(Value)。
动态交通模式学习
此模块的目标是学习不同时间段之间的动态依赖性。例如,一起突发的交通事故可能导致交通速度和流量突然下降。为此,我们引入了一种类似于周期性交通模式转换的改良注意力机制。与之不同的是,这里的查询(Q)、键(K)和值(V)使用的是前一步骤的归一化输出(M)作为输入。这种改进使得模型能够专注于学习时间段间的动态依赖,而不仅仅是周期性模式。因此,生成的时间表示 能有效地捕捉这些动态的时空关系。
空间依赖性是时空建模的关键一步,因为交通网络展现出显著的空间相关性,即一个区域的交通状况通常会受到其邻近区域状态的影响。为了有效建模这种空间关联,我们引入了图卷积网络:
其中, 为归一化的邻接矩阵, 用于调节原始信息的保留程度,而 为dropout操作,起到减少过拟合的作用。为了优化后续计算,我们将前馈传播神经网络替换为 SwiGLU 。
上式中, 表示第 层的时空编码网络输出, 表示 Swish 激活函数, 为可训练的权重。通过层叠这种时空编码网络,所提出的模型能够识别出复杂的时空依赖性,并有效地学习交通网络中的复杂交互作用。
实验效果
01
零样本 vs 全样本
我们全面评估了 OpenCity 在零样本条件下的性能,包含跨区域、跨城市和跨类型三种不同场景,并与基线的全样本性能进行了对比,详细结果见表1。
(1)卓越的零样本预测性能
OpenCity 在零样本学习任务中展示了卓越的性能,即使没有进行微调,也在多数情况下超越了基准模型。这证明了该模型在理解复杂的大规模交通数据的时空模式和提取对下游任务有益的通用知识方面的稳定性和效率。在多个数据集的评估中,OpenCity 经常名列前茅,即使不是第一,其性能差距也限制在平均绝对误差(MAE)的8%以内。这种出色的零样本预测能力突出了 OpenCity 在处理多种交通数据集时的广泛适用性和强大适应性,而无需大量再训练。其主要优势在于能够迅速适应新的应用环境,显著降低了传统监督学习方法所需的时间和资源,极大地便利了实际部署。
(2)卓越的跨任务泛化能力
我们对 OpenCity 在四个不同的交通数据类别上的进行评估:交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租车需求(CHI-TAXI)和自行车轨迹(NYC-BIKE)。虽然各种基线在特定的数据类别上表现良好,但没有基线能够在所有类别中持续地提供最佳表现。相较之下,OpenCity 在所有测试的类别中均展现了其高质量的结果,证明了它的卓越稳健性和多功能性。此外,为进一步探索 OpenCity 框架的通用性,我们特别对其在跨类别(如NYC-BIKE)的零样本泛化能力进行了测试。测试结果显示,OpenCity 在多个评估指标上都保持了出色的表现,进一步证明了其广泛的适用性和对多种数据类型的高度适应性。
▲ 表1:零样本 vs. 全样本性能比较
02
有监督预测性能
03
模型快速适应能力探索
▲ 表3:OpenCity 快速适应性评测
04
消融实验
(1)动态交通建模的效用。-DTP。移除动态交通建模模块后,模型性能降低,证明该模块能有效分析近期交通模式,适应交通条件的突变,并据此调整预测。
(2)周期性交通转移建模的影响。 -PTTM。去掉周期性编码后,选择将时间和空间上下文直接融入时空嵌入,结果显示性能下降,强调了周期性交通转移建模的重要性。该方法通过模拟交通流在历史与未来时间点的转移,捕捉控制时空模式变化的基本规律。
(3)空间依赖性建模的影响。-SDM。移除空间编码模块后,分析显示学习空间关系能显著提升时空预测能力。模型通过整合相关区域的交通信息,有效捕捉动态交通流模式,为零样本交通预测提供重要辅助信号。
(4)时空上下文编码的影响。-STC。移除时空上下文信息编码后,性能显著下降。时间上下文信息助力模型识别并学习特定时期的交通模式,区域嵌入则提供关键区域特性,这些因素共同为理解城市间动态时空模式提供宝贵洞察。
▲ 图3:OpenCity 消融实验
05
模型可扩展性研究
本节研究了 OpenCity 在数据量和模型参数两个维度上的可扩展性,如图4所示。其中参数分为三种规模:OpenCity-mini(2M)、OpenCity-base(5M)及 OpenCity-plus(26M)。在数据上,对于 OpenCity-plus 模型,我们分别使用了 10%、50% 和 100% 的预训练数据来测试增加数据量的效益。结果表明,随着参数数量和数据量的增加,OpenCity 的零样本泛化能力逐步提升。这表明 OpenCity 能有效地从大规模数据集中学习到有价值的信息,并且通过增加参数数量来增强其学习能力。所展示的这种可扩展性潜力支持了 OpenCity 成为通用交通应用的基础模型的前景。
06
与大规模时空预测模型的比较
本节对 OpenCity 和其他大型时空预训练模型进行了比较,包括以零样本泛化能力著称的 UniST 和 UrbanGPT。实验使用了三个模型预训练阶段未见的 CHI-TAXI 数据集。表4结果显示 OpenCity 在其他大规模时空模型中表现出显著的性能优势。与 UrbanGPT 相比,OpenCity 和 UniST 在效率上也有明显提升,这可能由于 UrbanGPT 依赖于大型语言模型以问答格式进行预测,降低了其处理大数据量的效率。OpenCity 在性能和效率上的表现突显了其在交通领域作为基准测试的强大潜力。
总结
本研究提出了新型可扩展时空基座模型 OpenCity,用于交通预测。该模型基于 Transformer 的编码器架构,针对性地捕捉交通数据的动态时空依赖性,并在丰富的交通数据上进行预训练。OpenCity 在多种交通预测场景中展示了优异的零样本预测能力,其性能可与全样本环境下的先进模型媲美。此外,OpenCity 展现了较高的计算效率和良好的的扩展性,为开发广泛适用于不同城市和交通网络的交通预测解决方案提供了坚实的基础。
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
240+篇专栏笔记,已有230+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
觉得不错,那就点个在看和赞吧