交通 | 基于自适应多图卷积和注意力机制的多模式交通系统短时客流预测模型

科技 2024-09-28 20:01 德国

导读

本论文于2024年发表于交通领域知名期刊《Transportation Research Part C: Emerging Technologies》上。该论文旨在研究多模式交通系统短时客流预测问题，提出一种新颖的基于多任务学习的模型，该模型能够自适应地学习多模式交通系统中的复杂时空关系，获得多种交通模式之间的交互机制，从而实现精准的多模式交通系统短时客流协同预测。以北京市的多模式交通系统（地铁、公交和出租车）的数据进行大量的实验研究，深入研究多模式交通系统中的时空信息交互机制，结果验证了模型的性能和有效性。

关键词 —

多模式交通系统；短期客流预测；多任务学习；Transformer；深度学习

作者 / Yongjie Yang, Jinlei Zhang, Lixing Yang, Ziyou Gao

标题 / Network-wide short-term inflow prediction of the multi-traffic modes system: An adaptive multi-graph convolution and attention mechanism based multitask-learning model

文献来源 / Transportation Research Part C: Emerging Technologies, 2024, 158: 104428.

摘要

网络范围内的短时客流预测对于高效管理城市交通系统至关重要。当前，各种交通方式相互关联，形成了一个复杂的多模式交通系统。然而，广泛的研究主要集中在单一的交通模式上，忽略了不同交通模式之间的相关性。多模式交通的短时客流预测面临一些挑战：(1)不同交通模式之间的交互机制难以学习，且少有研究探讨这一机制；(2) 由于不同交通模式的空间单元（车站或区域）不同，不同交通模式的数据的数据通常是异质的；(3) 提取多模式交通系统的复杂、动态特征具有挑战性，大多数现有方法应用静态的时空相关性，而不同交通模式之间的真实相关性可能被忽略。为了解决这些挑战，本文提出了一种基于多任务学习的模型，称为MultiMode-former (M2-former)，采用编码器-解码器结构，用于多模式交通系统在网络范围内短时客流预测。具体而言，编码器旨在学习和捕捉多模式交通系统的复杂和动态时空相关性，解码器旨在提取目标交通模式的特征并在多交通模式之间共享知识。本文基于中国北京市的真实多交通模式系统数据进行了广泛的实验，结果证明了模型的优越性。此外，还探讨了多交通模式之间的空间和时间信息交互机制，为多交通模式系统的管理和理解提供了一种可靠的方法。

预备知识

本文旨在利用多模式交通系统历史进站客流数据预测多模式交通系统中每种交通方式的未来进站客流。在搭建模型之前，首先需要理解一些相关概念的定义以及多模式交通系统短时客流预测的问题定义。进一步，为了更好地理解本文提出的模型，本节简要回顾了ProbSparse自注意力机制和多图卷积（MGC）。

ProbSparse注意力机制

为更好的理解本文所构建的模型，本节简要介绍基于单一交通模式短时客流预测的ProbSparse自注意力机制。给定三个与客流相关的参数：查询矩阵 Q、键矩阵 K 和值矩阵 V。对于特定的模式 i，假设节点数量为，历史时间步的长度为 L。上述三个参数分别表示为、和。ProbSparse自注意力机制公式如下：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{\overline{Q}K^T}{\sqrt{L}}\right) V, \quad\text{(4)}

其中，softmax(·)是激活函数，用于缩放点积。是一个经过处理的查询矩阵，只包含在稀疏度测量下的前 u 个查询，并且 u 由采样因子 c 控制，该因子根据公式计算。基于ProbSparse自注意力机制，多头ProbSparse自注意力机制公式如下：

\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_{n_p}) W^O,\quad\text{(5)}

其中，为表示头数量的超参数，* 表示卷积操作。、和是第 i 个头的可学习权重，为可学习权重。本文设定，其中是超参数。由于ProbSparse自注意力机制仅考虑前 u 个查询，输出特征图具有 V 的冗余组合，因此为避免上述情况，设置了处理层。假设多头ProbSparse自注意力机制的输出为 H，公式如下：

\mathcal{D}(H) = \text{MaxPool}(\text{ELU}(\text{Conv1D}(H))),\quad\text{(6)}

其中，Conv1D(·)表示是在时间维度上执行的1维卷积层，ELU(·)为激活函数，MaxPool(·)表示最大池化操作。

多模式交通系统的多图卷积（MGC）

图神经网络（GNN）在处理图结构数据方面具有强大的能力，已广泛应用于交通预测任务中。作为GNN的典型模型，图卷积网络（GCN）近年来发展迅速。多图卷积(MGC)应用了多个图来表征交通网络中的节点。MGC可以聚合多种空间特征，而不是获得特定的空间特征，其公式表述如下：

G(X^P;A^u)=\sum_u\widehat{A}^uX^PW^u.\quad\text{(7)}

然而，在多模式交通系统中，存在一些问题。首先，随着交通模式数量的增加，参数数量会增加，可能导致训练困难。此外，根据定义3，互空间相关矩阵的维度通常是异质的，导致特征聚合的困难。为解决上述问题，本文设计了更适合多模式交通系统的MGC网络。具体而言，给定一个由 M（M > 1）种交通模式组成的多模式交通系统 T 和目标交通模式 P。根据定义4，将

和

分别表示为距离相关矩阵和功能相关矩阵。进一步定义为目标交通模式 P 的MGC，公式如下：

\begin{eqnarray*} &&G_p(X^P;A^f,A^d)=\sum_{u=\{d,f\}}(A_{em}^{u,c}X^PW^{u,c}+A_{em}^{u,s}X^PW^{u,s}),\\ &&\text{where}\quad A_{em}^{u,c}=\sum_{i=1,i \neq P}^M \text{softmax}([A_{pi}^u][A_{pi}^u]^T)\quad\text{and}\quad A_{em}^{u,s}=\text{softmax}([A_{p}^u][A_{p}^u]^T),\quad\text{(8)} \end{eqnarray*}

其中，u 表示矩阵的类型。和分别表示互相关和自相关矩阵。和是两个可学习参数，分别表示互相关矩阵和自相关矩阵的权重。根据公式，相关矩阵首先进行自嵌入，然后求和以获得嵌入矩阵。softmax(·)用于规范化自嵌入矩阵。

模型框架

本文提出基于自适应多图卷积和注意力机制的多模式交通系统短时客流预测模型(M2-former)。该模型由多个具有编码器-解码器结构的分支组成。每个分支专为特定的交通模式设计。特别地，对于特定的交通模式，编码器用于学习和捕捉多模式交通之间的显性和隐性时空相关性。解码器进一步提取目标交通模式的各个区域（或车站）的客流特征并生成未来客流。M2-former 由 E 层编码器和 D 层解码器组成。任务特定层用于获取每种交通模式的未来客流。此处简要介绍模型的数据处理过程，以交通模式 P 为例：

编码器的输入是历史客流数据和交通模式 P 的多关系图和，其中表示交通模式 P 的节点数，L 表示历史时间步。历史客流数据也记作。
和多关系图被输入到 E 个相同的编码器层中，以提取多交通模式之间的时空相关性。每个编码器层由两部分组成，即 MTR-A 和 MSR-MGC。具体来说，在第 l 层编码器中，MTR-A 的输入是第 (l-1) 层编码器的输出和第 (l-1) 层中所有交通模式的输出，记作，其中。MSR-MGC 的输入是第 (l-1) 层编码器的输出和多关系图和。MTR-A 和 MSR-MGC 的输出被输入融合层，以生成第 l 层编码器的输出。
解码器的输入包括三个部分：历史客流数据、多关系图和、以及第 (i-1) 层解码器的输出，记作。最后一层编码器的输出也记作。解码器利用 STR-A 和 SSR-MGC 来充分提取交通模式 P 的时空特征。经过 D 个相同的解码器层处理后，最后一层解码器的输出 (X_{P,D}^{de} ∈ R^{S_P×L}) 被输入任务特定层，以生成交通模式 P 的所有区域（或车站）的未来客流。

编码器：学习多模式交通系统中的复杂相关性

编码器主要由两部分组成：

多时态关系注意力机制（MTR-A），旨在提取多交通模式之间的时间相关性，由多交通模式ProbSparse注意机制（MTM-）和基于注意力的聚合块（AAB）组成。
多空间关系自适应MGC（MSR-MGC），用于获取多交通模式之间的显性和隐性空间相关性。

最后，使用融合层将这两部分的输出进行融合。

1. 多时态关系注意力机制（MTR-A）

如上图所示 MTR-A 由两部分组成：多模式ProbSparse注意力机制和基于注意力机制的聚合模块。

多模式ProbSparse注意力机制（MTM-）

该机制旨在计算多交通模式对目标交通模式的影响系数，并获取时间相关性。具体而言，对于由多交通模式系统 T ，该系统包含M 种交通模式和目标交通模式 P。假设历史时间步为 L，多模式交通的历史客流表示为

，其中，表示交通模式 k 中的节点数量（例如区域、车站）。目标交通模式的历史客流表示为。

在第 l 层编码器中，对于模式 P，MTM-的输入为和，其中表示第 (l-1) 层编码器中模式 P 的输出，表示第 (l-1) 层编码器中所有交通模式的输出。特别地，在第一层编码器中，编码器层的输入是目标模式 P 和多模式交通的历史客流，即和。输出是包含多模式交通的自时间和互时间相关性图的特征图。

为获得特征图，将视为键-值集合，表示为和。多模式交通的客流被视为查询矩阵集合，其中。基于上述表述，模式 P 的多交通模式ProbSparse 注意力机制公式如下：

\begin{eqnarray*} &&H_P=\text{MTM-}\mathcal{A}(Q,K,V)=Concat(mode_1,...,mode_M) \ast W^o,\\ &&\text{where}\quad mode_i=W_k^T [ \mathcal{D}(\text{Multihead}A(Q_k,K,V))]+b, \quad\text{(9)} \end{eqnarray*}

其中和是可学习参数。由于多交通模式的数据结构不同，我们使用参数统一模式 k 的时间自相关和互相关的维度。此外，所有交通模式共享相同的多头ProbSparse自注意力层。

此外，上述矩阵形式的注意力机制可以进行改写，能够更好的理解该注意力机制。在该注意力机制中的关键是查询和键的乘积，即

。将定义为模式 k 对目标交通模式的影响系数矩阵，该矩阵决定了所学习的特征。的元素公式如下：

[A_{co}^{(k,P)}]_{(i,j)} = \sum_{n=1}^L[q_k]_{in} [k]_{nj}\quad\text{(10)}

其中和分别是和的元素。

基于注意力机制的聚合模块（AAB）

该模块的框架如上图所示，给定一个包含多模式交通系统系统的特征图，该模块依次经过两个独立的注意力块处理，即交通模式级注意力块和节点级注意力块，生成两个注意力矩阵和。每个学习到的注意力矩阵与相应的输入进行哈达玛积，从而实现特征细化。细化特征后，处理过的特征图沿交通模式级轴求和，并与残差连接的值相加，以获得目标交通模式在第 l 层编码器中的输出。基于注意力的聚合块公式如下：

H_P'=A^{TL} \odot H_p,\\ H_P'' = A^{NL} \odot H_P', \\ H_{P,l}^{MTR} = \sum_{i=1}^M[H_P'']_i + H_P,\quad\text{(11)}

其中，表示哈达玛积。进一步，描述了和的详细计算过程如下。具体而言，交通模式级注意力块关注每种交通模式的影响，该模块通过最大池化、平均池化和节点级特征提取操作(NLE)对特征进行提取，数学表达式如下：

A^{TL}=\sigma (((a_{max}^{TL}+a_{avg}^{TL}+a_{NLE}^{TL})W_{in})W_{re}),\quad\text{(12)}

其中，，。r 是一个预先设定的参数。NLE沿时间轴和节点轴顺序处理每种交通模式的特征图。进一步，通过拼接整合不同交通模式的处理结果，以获得节点级的代表值。具体而言，对于交通模式 k，NLE首先沿时间轴处理特征图，以获得节点的表示值：

[N_P^k]_j = \sum_{i=1}^L[H_p^k]_i[W_T]_{i,j},\quad\text(13)

其中，为所有交通模式共享的可学习参数。进一步，NLE对沿着节点轴处理，得到最终表示:

[E_P^k]=\sum_{i=1}^{S_P} [N_P^k]_i [W_N]_i \quad\text{(14)}

其中，。最后，将所有的表示通过拼接得到最终的表示:

a_{NLE}^{TL}=\text{Concat}(E_P^1,...,E_P^M).\quad\text{(15)}

节点级注意力块关注每个节点的影响，与节点级注意力块相辅相成。该模块主要通过一个滤波器大小为7×7的二维卷积层处理，计算方式如下：

A^{NL}=\sigma(\text{Conv2D}^{7×7}([a_{max}^{NL};a_{avg}^{TL}])).\quad\text{(16)}

2. 多空间关系自适应MGC（MSR-MGC）

不同于公式 (8) 中的原始MGC，MSR-MGC 使用自适应空间交叉相关矩阵替换互相关矩阵。具体而言，每种交通模式引入了自适应隐性相关节点以表示隐藏的空间特征。基于，定义交通模式 i 对交通模式 j 的自适应空间互相关矩阵如下：

A_{\text{adp}}^{u,c} = \text{softmax}(\text{ReLU}([E_{i}^{\text{adp}}][E_{j}^{\text{adp}}]^T+A_{ij}^{u,c}\quad\text{(17)}

其中，，，c 为超参数。在第 l 层编码器中，给定输入、空间相关矩阵集和，和自适应隐性相关节点集

。MSR-MGC的公式如下：

\begin{eqnarray*} &&H_{P,l}^{MSR}&=\sum_{u=\{d,f\}}(A_{\text{adp}}^{u,c}X_{P,l-1}^{en}W_{P,l}^{u,c}+A_{\text{adp}}^{u,s}X_{P,l-1}^{en}W_{P,l}^{u,s}),\\ &&\text{where}\quad &A_{\text{adp}}^{u,c}=\sum_{i=1,i \neq P}^ M \text{softmax}([A_{Pi}^u]_{adp}[A_{Pi}^u]_{adp}^T),\\ &&&A_{\text{adp}}^{u,s}= \text{softmax}([A_{P}^u]_{adp}[A_{P}^u]_{adp}^T).\quad\text{(18)} \end{eqnarray*}

最终，在第 l 层编码器中，对于交通模式 P ，上述处理结果通过求和汇总，得到编码器的输出：

X_{P,l}^{en}=H_{P,l}^{MSR}+H_{P,l}^{MTR}.\quad\text{(19)}

此外，由于多交通模式之间存在各种相关性，随着交通模式数量的增加，网络中的权重数量将大大增加。因此，本文在目标函数中为第 l 层编码器添加了正则化项，以避免权重数量的急剧增加，其中为预设参数，其值小于1。

p_1^l=\sum_{k=1}^M\sum_{u=\{d,f\}}(\varepsilon\|W_{k,l}^{u,s}\|_2^2+\|W_{k,l}^{u,c}\|_2^2),\quad\text{(20)}

解码器：知识共享和目标交通模式特征提取

解码器的设计理念与编码器类似。然而，与编码器不同的是，解码器只考虑目标交通模式）的特征，并解码编码器最后一层的输出以生成目标交通模式的未来客流。解码器的结构与Transformer中的解码器相似，但增加了一个 MGC层。具体而言，每层解码器包含两个部分：

自时间关系注意力机制（STR-A）：旨在提取目标交通模式的自时间相关性，由两个注意机制堆叠而成，即因果ProbSparse注意机制和卷积多头注意机制。
自空间关系标准MGC（SSR-MGC）：用于提取自空间相关性并在不同交通模式之间共享知识。

1. 自时间关系注意力机制（STR-A）

STR-A 的结构类似于标准解码器。然而，与标准解码器不同，STR-A 由一个因果ProbSparse注意力机制和一个卷积多头注意力机制堆叠而成，而不是两个相同的多头注意层。

因果Probsparse注意力机制(CPS-A)

CPS-A 利用一维因果卷积层来处理目标交通模式的历史客流。此外，本文使用膨胀卷积操作使得感受野可以呈指数增长。具体而言，给定历史客流、带有宽度为 K 的卷积核的滤波函数以及历史时间步，膨胀卷积函数可以表示如下：

\text{F}(X^P \ast_Df)(L)=\sum_{k=1}^{K-1}f(k)X_{L-D\cdot k}^P,\quad\text{(21)}

其中，表示具有膨胀参数的膨胀卷积操作，代表过去的方向。本文将膨胀参数设置为，其中 i 表示第 i 层解码器。在第 i 层解码器中，输出为

。进一步，被视为查询矩阵、键矩阵和值矩阵，并依次输入到多头ProbSparse自注意力机制中，以获得进一步处理的目标交通模式相关的隐藏状态。

卷积多头注意力机制

卷积多头注意力机制与原始的Transformer相似，将Transformer中多头注意力机制计算查询矩阵、键矩阵和值矩阵的全连接层替换为二维卷积层。在第层解码器中，给定 CPS-A 的输出和第层解码器的输出。被视为查询矩阵，而被视为键矩阵和值矩阵。卷积多头注意力机制的公式如下：

\begin{eqnarray*} &&\text{Conv A}(Q,K,V)=\text{Concat}(Convhead_1,..,Convhead_{n_c}) \ast W^O,\\ &&\text{where}\quad Convhead_i=A(Q\ast f_i^Q,K\ast f_i^K,V\ast f_i^V),\quad\text{(22)} \end{eqnarray*}

其中，

A(\cdot)=\text{softmax}(QK^T/\sqrt{L})V

表示标准的注意力机制，为卷积多头注意力机制中注意头的个数。

2. 自空间关系标准MGC（SSR-MGC）

由于解码器的结构，不同交通模式之间没有任何显式连接，这阻碍了不同交通模式之间的知识共享。因此，文章提出了 SSR-MGC，该模块能够构建多交通模式之间的隐式连接。不同于公式 (8) 中的原始MGC，SSR-MGC 仅考虑自相关图并修改了可学习参数。具体来说，在第 i 层解码器中，将作为目标交通模式 P 在 SSR-MGC 中的可学习参数。对于目标交通模式，第 i 层解码器中的 SSR-MGC 公式如下：

\begin{eqnarray*} &&H_{P,i}^{SSR}=\sum_{u=\{d,f\}}(A_{\text{adp}}^{u,s}X_{(t-L)→t}^{P}W_{P,l}^{u,s}),\\ &&\text{where}\quad A_{\text{adp}}^{u,s}= \text{softmax}([A_{P}^u][A_{P}^u]^T).\quad\text{(23)} \end{eqnarray*}

为构建多交通模式之间的隐式连接，本文收集解码器中所有分支中的可学习参数，并将作为所有交通模式在 SSR-MGC 中的参数张量集，其中。本文假设每层中的参数张量与其他层独立，并且服从张量正态分布。进一步，计算张量先验和MAP估计。通过将张量先验整合到MAP中并取负对数，第 i 层解码器中 SSR-MGC 的正则化项公式如下：

p_2^i=\text{vec}(W_i^SN)^T(\Sigma_i^I\bigotimes \Sigma_i^O \bigotimes \Sigma_i^t)^(-1)-\sum_{j∈\{I,O,T\}}\frac{D_i}{D_i^j}\ln(|\Sigma_i^j|),\quad\text{(24)}

其中且表示索引对应的维度，即。是均值张量。表示克罗内克积。、和分别表示输入协方差矩阵、输出协方差矩阵和交通模式协方差矩阵。具体计算细节见附录。

最后，在第 i 层解码器中，SSR-MGC 的输出与 STR-A 的输出相加，以生成输出。最后一层解码器的输出被输入到交通模式 P 的任务特定层中，以生成目标交通模式的未来客流。对于每种交通模式，本文将任务特定层设置为全连接层。

X_{P,i}^{de}=H_{(P,i)}^{\text{SSR}}+H_{(P,i)}^{\text{STR}},\quad\text{(25)}\\ \widehat{y}_p=F_P(X_{P,D}^{de}).\quad\text{(26)}

此外，本文选择MSE为损失函数。因此，M2-former的损失函数如下：

\text{min}_{W,b}\sum_{k=1}^M(\widehat{y}_k-y_k)^2+\alpha\sum_{l=1}^Ep_1^l+\beta\sum_{i=1}^Dp_2^i.\quad\text{(27)}

数值实验

本文选择均方误差（MSE）作为损失函数，选择均方根误差（RMSE）、平均绝对误差（MAE）以及加权平均绝对百分比误差（WMAPE）作为评价指标，衡量模型预测效果。本文在中国北京市的多交通模式数据集上评估了M2-former和12种基线模型。此外，本文还分析了超参数的影响，并深入探讨了 M2-former 关键组件的重要性。

具体模型参数以及训练超参数等感兴趣读者可以查看原文。

数据集

本文选择地铁、出租车和公交车代表多模式交通系统。实验基于2016年2月29日至4月1日（约一个月）期间北京市的真实大规模数据进行。由于这些交通模式的服务时间不同，我们选择从早上5:00到晚上11:00的进站客流数据，这也是地铁的服务时间。时间粒度设定为30分钟，因此一天有36个时间步。下文将简要介绍每种交通方式对应的数据集处理方法。

出租车交通流量数据集

本文使用了TaxiBJ数据集。如上图左图所示，TaxiBJ 的原始数据将北京市的部分区域划分为32×32的网格单元。网格的颜色表示流入量，颜色越深，流入量越高。如上图右图所示，本文将 4×4 的网格单元定义为一个区域，因此共有64个区域。本文提取每个区域的流入数据以表示出租车流入数据集。此外，由于出租车的特性，没有固定的站点。在每个区域，本文将中心设置为出租车站点。

公交车流入数据集

如上图左图所示，基于出租车的区域，本文获得了1269个公交站点（黄色点）。本文收集这些站点的AFC数据，并处理这些数据以提取每个站点的流入数据。由于公交站点数量过多且每个站点的流入量波动较大，本文将同一区域内的公交站点的流入量相加，并利用该结果表示每个区域的公交流入量。因此，公交车和出租车的流入数据结构是同质的。此外，为了合理表示每个区域内的公交站点，本文借鉴了物理学中的重心概念，生成了一个虚拟公交站点。如上图右图所示（黄色点），给定一个包含 S 个公交站点的区域，本文假设平均每日流入量越大，它在该区域内越具有代表性。因此，坐标为(i, j)的区域中虚拟公交站点的位置公式如下：

\text{lng}_{virtual}=\frac{\sum_{i=1}^S\overline{\rho}_i\text{lng}_i}{\sum_{i=1}^S\overline{\rho}_i},\quad\text{(28)}

\text{lat}_{virtual}=\frac{\sum_{i=1}^S\overline{\rho}_i\text{lat}_i}{\sum_{i=1}^S\overline{\rho}_i},\quad\text{(29)}

其中，和分别代表虚拟公交站点的经度和纬度，和分别代表公交站点 i 的经度和纬度，表示公交站点 i 的平均每日流入量。

地铁流入数据集

如上图所示（红点），部分区域内没有地铁站，导致这些区域内的多交通模式不完整。因此，本文单独选择TaxiBJ区域内的所有地铁站（红点）来表示地铁流入数据集。共有174个地铁站（右图），目标是预测每个站点的未来客流量。与出租车和公交车的流入数据相比，地铁的数据结构不同。如上图所示，本文选择了两个包含相关地铁和公交站的区域（用紫色框标出）进行说明。具体来说，区域 (a) 包含所有交通模式。区域 (b) 代表不包含任何地铁站的区域，因此我们选择最近的地铁站（用紫色圆圈标出）进行说明。

如上图所示，选定数据的时间段为周一至周五。总体而言，不同区域内不同交通模式的流入量和模式差异显著。具体而言，流量大小方面，区域 (a) 的三种交通模式之间存在细微差异。然而，在区域 (b) 中则完全不同。在区域 (b) 中，地铁和出租车主导了该区域的流入量，而公交车的流入量显著较低。客流规律方面，区域 (a) 的地铁和公交车的流入都显示出明显的双峰，而出租车也显示出类似双峰的模式。对于区域 (b)，三种交通模式都显示出单峰模式，然而，不同交通模式的峰值时间不同。出租车和公交车的峰值时间发生在白天，而地铁的峰值时间则在晚上。综上所述，多交通模式的特征是多样的。

实验结果

与基线模型比较

下表比较了STAFN与其他基准模型在南宁地铁客流数据集上的预测效果。从表中可以看出，深度学习的预测效果显著优于数理统计模型ARIMA，其原因是ARIMA无法捕捉客流间动态的复杂的非线性关系。另外，基础的深度学习模型BPNN、CNN以及LSTM等只能捕捉客流中有限的时间或空间依赖性，因此预测效果仅仅优于ARIMA。复合深度学习模型ST-GCN、GCN-CNN、GWN、DCRNN、ST-ResNet以及ConvLSTM等考虑了客流的时空依赖性，因此取得较好的预测效果。然而，这些模型针对的都是常规场景下的客流预测，并不适用与节假日期间的客流预测，因此预测效果并不能取得令人满意的结果。注意力模型Transformer在10分钟粒度下取得了第二好的预测效果，这是由于注意力机制可以有效捕捉序列数据的时间依赖性。然而，由于Transformer忽略了客流的空间依赖性，因此在部分情况下预测效果并不是那么令人满意。因此，本文特意提出一个深度学习模型STAFN用于克服上述缺陷。该模型提出了多图注意力网络和卷积注意力层以充分考虑客流在假期期间复杂的时空依赖性，同时加入额外的假期相关社交媒体数据，研究假期对客流波动的影响，因此在不同的时间粒度下均取得了最优的预测效果。

站点级预测效果

上表总结了基线模型和M2-former在选定数据集上的性能，其中前三列分别总结了地铁、出租车和公交车的性能，最后一列总结了多交通模式系统的性能。总体而言，M2-former在多交通模式系统中表现最佳。所提出的模型可以联合考虑多种交通模式，并能够捕捉多交通模式之间的复杂时空相关性。与STGCN相比，多交通模式的预测性能提高了3.43%、2.21%和2.23%（分别为RMSE、MAE和WMAPE）。

此外，每种交通模式的性能方面，（1）对于地铁，M2-former优于ST-ResNet，其RMSE、MAE和WMAPE分别为61.52、36.74和6.29%。（2）对于出租车MTGNN和M2-former相近。M2-former以160.50、113.20和6.33%的RMSE、MAE和WMAPE排名第二。然而，MIX-MGC在地铁和公交车上表现不佳。原因可能是该模型更适合于网约车需求预测，而地铁和公交车的流入模式与出租车不同。（3）对于公交车，与STGCN相比，M2-former改进分别为3.92%、4.29%和4.04%（分别为RMSE、MAE和WMAPE）。总体而言，所提出的模型能够考虑特定交通模式的特征，同时捕捉多交通模式之间的交叉相关性。

进一步，为了更直观的体现M2-former的预测性能，本文提取区域(a)和(b)的实际值和预测值。如下图所示，预测值（红线）可以精确捕捉每种交通模式的主要趋势。具体而言，在区域(a)中，所有交通模式的预测值与实际值非常吻合。在区域(b)中，地铁的进站客流非常稳定，M2-former能够很好地预测未来的流入量。出租车和公交车的流入量在非高峰时段表现出显著的波动和不规则模式，这可能归因于乘客出行目的的变化。例如，在高峰时段，人们主要利用多种交通模式通勤。然而，在非高峰时段，出行目的各不相同。对于出租车和公交车，M2-former可以完美预测规律部分，即高峰和低谷流量及其发生时间，同时也能捕捉不规律部分的主要趋势，例如非高峰时段的流入量。

消融实验

为了进一步证明每个组件的有效性并量化其贡献，本文修改了所提出的模型并进行了消融分析。M2-former的组件可以分为基于注意力的组件和基于图的组件。因此，本节基于这两类组件进行了消融分析。首先，对于基于注意力的组件，本节实现了四个简化模型。以下列出了这些模型的详细信息：

MTM-A：MTR-A中的多模式ProbSparse注意力机制能够提取不同交通模式对目标交通模式的相关性。该模型直接利用目标交通模式的历史流入量生成编码器中的自相关特征图。
AAB：为了探索注意力聚合块的用处，该模型通过简单地将不同交通模式的特征图相加，而不是使用权重来平衡不同特征图中不同节点的重要性。
CPS-A：为了探索因果ProbSparse自注意力机制的有效性，该模型移除了因果ProbSparse注意机制的模型。
Conv-A：该模型用完全注意力取代了卷积多头注意机制，以了解卷积操作是否影响模型性能。

上表的第3-6列总结了每个模型的性能。就MTM-A而言，该模型仅考虑目标交通模式的自相关性，与所提出的模型相比，所有交通模式的性能都差得多。这一结果表明，与仅考虑自相关相比，联合考虑多种交通模式之间的多重相关性尤为重要。就AAB而言，该模型简单地将多交通模式的特征图相加，导致了较差的性能，特别是对于出租车。主要原因在于加法操作默认所有特征具有相同的重要性，从而在某些区域导致特征冗余。所提出的基于注意力的聚合块能够平衡所有特征，从而解决潜在问题。此外，就CPS-A和Conv-A而言，这两个组件都是Informer原始结构的修改版本。结果表明，因果和2D卷积操作更适合用于多交通模式系统的流入预测。

进一步地，本节探索了基于图的组件。以下列出了两个简化模型：

MSR-MGC：本节移除了MSR-MGC，因此编码器仅包含MTR-A。MSR-MGC的有效性将在下文中进一步讨论。
SSR-MGC：本节移除了SSR-MGC，因此解码器利用STR-A生成多模式交通系统的未来流入量。

上表的第7-8列总结了模型性能。具体而言，没有基于图的模型的性能远不如M2-former，这表明额外的基于图的组件有助于提高预测精度。此外，没有MSR-MGC的模型的性能远不如没有SSR-MGC的模型，表明捕捉多交通模式之间的多重空间交叉相关性至关重要。此外，没有基于图的组件的模型与没有基于注意力的组件的模型相比表现较差，证明在同时使用这两种方法时，基于图的方法在预测多交通模式的流入量时起到了更关键的作用。

单模式预测与多模式预测

为进一步探索协同考虑多交通模式的优势，本节修改了M2-former，并分别构建了针对地铁、出租车和公交车的单模式版本。具体而言，M2-former包含多个针对多模式交通系统的分支，且每个分支都是相互连接的。单模式版本的模型仅针对特定的交通模式，仅使用相应的分支而没有与其他分支的连接。上表总结了预测性能。所有单模式版本模型的结果汇总在第三列。结果表明，M2-former在每种交通模式中都优于所有单一模式版本模型。此外，就整个多交通模式系统而言，与单独预测每种交通模式相比，多交通模式系统的联合预测表现更好并且有显著的改进。

为直观地展示联合预测和单独预测之间的差异，本节绘制了单模式模型和多模式模型的预测结果。如下图所示，红色实线表示M2-former的预测值，蓝色虚线表示单一模式版本的预测值。

基于MTR-A分析多模式交通系统时间信息交互机制

MTR-A旨在提取多交通模式之间的时间相关性。本节通过可视化MTM-A中的时间互相关性来探索多交通模式系统的时间信息交互机制。为证明时间相关性的有效性，本节用经典多头注意力取代多头ProbSparse自注意力机制，并构建MTM-CA。与M2-former不同，MTM-CA直接利用查询矩阵Q来获取时间相关性。如上表所示，M2-former 在所有交通模式中均优于 MTM-CA。

进一步，本节将地铁设为目标交通模式，并可视化地铁-出租车和地铁-公交车的时间交叉相关性。由于每个时间步对应一组时间互相关性，本节仅选择一个特定时间步进行分析。时间互相关性的热力图如下图所示，其中所有值都映射到区间 [0, 1]。每个区域的位置与TaxiBJ相同。本节用 (i, j) 表示第 i 列第 j 行的区域。在热力图中，区域的颜色越深，目标交通模式和选定交通模式之间的时间交叉相关性越强。对于地铁-出租车而言，M2-former和MTM-CA中时间相关性的整体分布非常相似，唯一的区别是时间依赖性的强度。对于地铁-公交车而言，这些模型中的时间相关性分布则完全不同。具体而言，区域 (1, 2) 和 (2, 2) 对地铁的影响完全不同。M2-former 和 MTM-CA 的不同结果和性能表明，精确提取时间相关性的重要性。总体而言，通过提取的时间相关性，模型能够通过为不同的网格单元或站点分配不同的权重来利用和筛选信息，从而实现多交通模式之间的时间信息交互。

基于MSR-MGC分析多模式交通系统空间信息交互机制

在M2-former种，不同交通模式之间的空间信息交互机制是基于空间相关矩阵实现的。MSR-MGC利用自适应空间交叉互矩阵捕捉多交通模式之间的复杂空间相关性。为探索空间信息交互机制及所提方法的有效性，本节构建了几个模型并可视化了不同的空间交叉相关矩阵。

具体而言，本节构建了五个简化模型并设置了相同的参数。具体来说，“No Adapt”表示不使用自适应空间互相关矩阵的模型，而是使用静态空间互相关矩阵，“Adapt”表示使用自适应空间互相关矩阵的模型。此外，(D) 和 (F) 表示仅考虑距离相关性或功能相关性的模型，(DF) 表示同时考虑距离和功能相关性的模型。结果如上表所示，M2-former优于所有简化模型。具体而言，对于自适应空间交叉相关矩阵，“Adapt” 模型在多交通模式系统的客流预测中优于 “No Adapt” 模型。这个结果表明了自适应空间交叉相关矩阵的有效性。对于不同的空间相关性，在所有 “No Adapt” 模型中，“No Adapt (DF)” 的性能最差，而 “No Adapt (D)” 的性能最好。这些结果表明，在多模式交通系统中，协同考虑静态的距离和功能相关性可能会导致性能下降。M2-former取得最佳性能，表明自适应空间互相关矩阵能够优化静态空间特征，有效地融合能够更准确地提取关系。

进一步，为了直观展示空间互相关矩阵的细节，本节绘制了不同互相关矩阵的热力图，如下图所示。矩阵中的所有值都映射到区间[0, 1]。根据前文定义4，对于两个特定的交通模式，交叉相关矩阵存在对应关系，例如地铁到出租车的距离交叉相关矩阵是出租车到地铁的转置。因此，我们仅讨论地铁到出租车、地铁到公交车和公交车到出租车的交叉相关性。

对于功能互相关性，在静态矩阵中，地铁和公交车之间的相互关系比地铁和出租车之间的相互关系更强，在自适应矩阵中也可以得出相同的结论。这表明自适应矩阵能够调整和优化功能相关性。对于距离互相关性，两区域之间的距离越远，空间相关性越弱。根据图示，静态矩阵是稀疏的，只能提取局部空间特征，而全局空间特征则缺失。然而，自适应矩阵进一步探索远程区域的交叉相关性，捕捉全局空间特征。总体而言，自适应空间交叉相关矩阵以先验知识为基础，进一步优化和调整，从而实现空间信息交互机制。

采用不同的出租车数据聚合方式

作为一种经典的无站点交通模式，划分方法越精细，预测结果能够为管理者提供的信息就越多。然而，不同的出租车数据聚合策略可能会影响模型的预测结果，也可能会给模型带来挑战。为验证M2-former的泛化能力，本节改变了出租车数据集的数据聚合策略，而地铁和公交的数据聚合策略与之前相同。具体而言，本节直接使用了原始出租车数据集，将北京的部分区域划分为32×32的网格单元。本节提取每个区域的流入数据来代表新的出租车流入数据集。此外，本节将每个区域的中心设为出租车的虚拟代表。地铁和公交的数据集保持不变。总体而言，数据集中有174个地铁站、64个公交站和1024个出租车区域。

基于该数据集，本节评估了所有基线模型和M2-former的性能。值得一提的是，除M2-former和MIX-MGC外，所有基线模型都是为单一交通模式设计的。因此，对于这些模型，地铁和公交的结果与表1相同。此外，所有模型运行了 10 次，结果是评估指标的平均值。所有模型的评估指标都添加了标准差，以验证模型的稳定性。结果总结在表 6 中。

对于多模式交通系统而言，得益于所提出的架构，M2-former 在所有模型中表现最佳，表明了所提出模型的泛化能力。进一步，对于每种交通模式而言。(1) 对于地铁，STGCN 表现最佳，且性能略优于 M2-former。(2) 对于出租车和公交车，M2-former 在所有模型中表现最佳。M2-former 的表现表明了所提出模型的稳定性和鲁棒性。

总结

本文主要关注多模式交通系统在网络范围内短期客流预测，提出了一种新颖的模型 M2-former，以协同考虑多种交通模式。本文的结论总结如下：

M2-former与单模式预测模型的比较表明，协同考虑多种交通模式可以提高所有交通模式的预测性能。
所提出的MSR-MGC和MTR-A能够自适应地提取多交通模式之间的空间和时间信息交互机制。这些组件可以为不同的交通模式分配权重并过滤时空信息，从而实现信息交互机制并提高预测性能。
大量实验证明 M2-former的优越性。根据基线模型的比较，与最佳基线模型相比，所提出模型在所有交通模式中的改进分别为3.92%、4.29%和4.04%（RMSE、MAE 和 WMAPE）。

尽管如此，本文仍存在几个局限性。首先，多交通模式系统中的交通模式数量有限。由于获取多种交通模式流入数据的难度，本文中只考虑了三种交通模式，而现实世界的多交通模式系统包含更多的交通模式。此外，缺乏多交通模式系统的外部信息。许多研究考虑了外部信息，如天气条件、降水量、温度、乘客出行行为的差异等。然而，由于数据获取的困难，本文没有考虑多交通模式系统的外部信息。在未来的工作中，将考虑更多的交通模式，以形成一个相对完整的多交通模式系统，并包括外部信息，以探索多交通模式与外部信息之间的相关性。此外，将尝试找到一种解决方案，从可解释性的角度量化和评估相互依赖性，并提高模型的可解释性。

END

注意：本文为交通与优化（OR_Transportation）公众号团队原创发布，如需转载请在文章开头标明文章来源【交通与优化】（ID:OR_Transportation）与作者信息，并且不得修改文章标题和内容。

编辑：张婧慧

微信公众号后台回复

加群：加入全球华人OR|AI|DS社区硕博微信学术群

资料：免费获得大量运筹学相关学习资料

人才库：加入运筹精英人才库，获得独家职位推荐

电子书：免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书，持续更新中ing...

加入我们：加入「运筹OR帷幄」，参与内容创作平台运营

知识星球：加入「运筹OR帷幄」数据算法社区，免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动，与数百位签约大V进行在线交流

文章须知

文章作者：交通与优化

责任编辑：江镕行

微信编辑：疑疑

文章转载自『交通与优化』公众号，原文链接：论文拾萃 | 基于自适应多图卷积和注意力机制的多模式交通系统短时客流预测模型

关注我们

http://mp.weixin.qq.com/s?__biz=Mzk0ODMwMjMwMA==&mid=2247680099&idx=2&sn=1ec30181615c7bfd3532d63ce2f7086a

运筹OR帷幄

致力于成为全球最大的运筹学中文线上社区