ARIMA 模型在城市轨道交通短期客流预测中的应用研究

城市轨道交通站点的客流监控与短期精准预测对实现高效列车调度、防范安全隐患、降低运营成本具有关键作用。文章通过优化ARIMA 模型参数对不同时间粒度下天津地铁某站点周一到周五的 AFC 客流数据进行预测，预测结果表明 ARIMA 方法能够准确预测城市轨道交通站点的短期客流。减小客流数据时间粒度能够获得更多的客流数据细节信息，有利于提升预测的精准度。研究发现即便在客流数据能够通过平稳性检验的情况下，对客流数据进行差分处理依然能够明显提升 ARIMA 模型的预测精度。

研究背景 ? ?

城市轨道交通运营企业需要高效科学地应对早晚通勤高峰、极端天气以及突发状况导致的短时大客流情况。通过调整城市轨道交通列车开行班次、启动安全响应预案等方式疏解站点客流拥堵从而消除安全隐患。然而，城市轨道交通站点的客流变化具有较大随机性，并受到站点地理位置、建筑体量、周边公共交通状况、天气原因、突发事件强度等众多条件的影响。因此，高效精准地预测交通站点的短期客流变化仍具有一定的挑战性。

城市轨道交通短期客流虽有较强的随机性，但也存在明显的周期性特征。例如，平日进出站客流的峰值一般出现在早晚高峰时段。工作与办公目的地的城市轨道交通站点在上午 8 点和下午 17 点分别形成出站和进站高峰，而居民区附近站点的规律与之相反。因此，采用适当的算法可以实现对短期客流的准确预测。依据数据加工方式，短期客流预测方法可分为线性预测和非线性预测两类。线性预测包括卡尔曼滤波模型、自回归移动平均模型（ARIMA）；非线性预测包括灰色模型、支持向量机（SVM）以及各类深度学习算法，如反向传播神经网络（BP）、卷积神经网络（CNN）、图神经网络（GNN）、长短时记忆网络（LSTM）等。作为短期客流预测的主流技术之一，ARIMA 模型在历史数据充分的条件下能够实现高精度客流预测。由于城市轨道交通站点的自动售检票系统（AFC）数据及时充分并有视频监控设备形成辅助客流监控数据，ARIMA 模型的预测准确性能够得到保证。

在已有的研究中，采用 ARIMA 模型进行的城市轨道交通客流预测的时间粒度多在 1 h 到 1 天水平。若要实现更为精准的列车班次动态调整，客流预测的时间粒度应当精细到 1 h 以内。本文以天津地铁某站点的进出站客流数据为基础，采用 ARIMA 模型分别预测了5 min、10 min、30 min 和 60 min 的进出站客流量，讨论了低时间粒度下 ARIMA 模型用于短期客流预测的可行性。

ARIMA 模型的原理 ? ?

与预测算法

ARIMA模型预测是基于时序数据序列之间的自相关性，从近似随机的时序数据序列中归纳数据的依时性特征与结构的分析手段。ARIMA 是自回归模型（Auto Regressive process，AR）、算法移动平均模型（Moving Average process，MA）和差分算法共同构成的组合模型。

AR模型采用每个时间节点之前的历史数据对节点数据进行线性展开，进而生成时序数据之间的自回归表示。因此，当前时刻 t 的数据 Y t 可以表示为先前 p 个历史数据的线性组合：

式（1）中， α _i 为自相关系数，为历史数据的线性组合与当前时刻数据的误差，ν为常数项。

MA模型主要用于减小时序数据中随机波动部分造成的误差，将当前时刻 t 的数据 Y t 表达为自回归过程中产生的误差累积：

式（2）中， φ _i 为偏差值增加权重后的系数； q 为当前数据 Y t 被展开为自回归过程产生误差的 q 阶线性组合；κ为常数。

AR模型要求时序数据具有平稳性。在时序数据非平稳的情况下，需要对数据进行多次差分计算。采用参数 d 表示当时序数据转变为平稳序列后需要的差分次数。

将 AR 模型与 MA 模型结合即得到 ARIMA（ p，d，q ）三参数模型的表达式：

式（3）中， Y t 为时序数据 Y t 的 d 阶差分序列；μ 为常数。

采用 ARIMA 模型进行城市轨道交通站点短期预测的流程如图 1 所示。具体预测步骤如下：

（1）对一定时间粒度的客流数据进行初步加工得到等时间间隔的时间序列；

（2）对时序数据循环进行平稳性检验和差分计算直到数据满足平稳性要求；

（3）对时序数据或差分时序数据进行白噪声检验，并计算自相关函数和偏自相关函数判断拖尾特征；

（4）对 p，d，q 参数进行估计并进行残差分析；

（5）运行 ARIMA 模型进行短期客流预测。

数据分析与预测结果

本文采用我国天津市某轨道交通站点周一到周五连续 5 天的 AFC 进站客流数据作为 ARIMA 模型参数训练数据集，以下一周连续 5 天的进站客流数据进行模型数据检验。为研究不同时间粒度下 ARIMA 模型在客流预测中的有效性，本文收集了每天05 : 50—23 : 30 地铁开行区间 AFC 数据，并选取 5 min、10 min、30 min 和60 min 4 个不同的时间粒度分别进行 ARIMA 模型拟合。在这 4 个时间粒度下，进站用于 ARIMA 模型训练的客流数据量分别为 1 050、525、175 和 85 个。图 2 为不同时间粒度下的进站客流随时间变化曲线，由图可知每天的 AFC 进站客流数据随时间呈现出明显的三峰形态，这对应于平日地铁进站的早晚上下班高峰和乘客午间休息及用餐活动。

在确定 ARIMA 模型参数之前，需要对数据集进行平稳性检验和白噪声检验，从而确定数据集满足稳定性要求并符合白噪声原理。分别对 4 种不同时间粒度下的客流数据及其 1 阶差分进行单位根检验，亦即拓展Dickey-Fuller 检验（ADF），检验结果如表 1 所示，表中 t 为数据检验统计量， p 为相应的显著性值。由表可知，不同时间粒度下的未差分客流数据的 p 值已经接近于 0，而且 t 均值小于 1% 拒绝原假设的统计值，说明 4 种不同时间粒度下的客流数据在未经差分的情况下已经是平稳序列，实际上可以采用 ARMA 模型进行预测。表 1中同时列出了客流数据在 1 阶差分后的 p 值和 t 值。可以看到，经过 1 次差分运算后，数据的平稳性进一步提高。虽然未差分的客流数据已经满足平稳性要求，但是在后续的预测工作中可以看到，经过 1 阶差分后的客流数据训练集能够获得更高的预测精度，说明进一步提高时序数据平稳性对 ARIMA 模型预测依然有效。

利用自相关图（ACF）和偏自相关图（PACF）也可以得到一致的结论。图 3 和图 4 分别为 5 min 时间粒度下客流数据以及 1 阶差分序列的 ACF 与 PACF 图。由图可知，未经差分处理的客流数据在 ACF 图中表现出拖尾特征，而 PACF 图则为 3 阶截尾。经过 1 次差分后，ACF 和 PACF 图均呈现 2 阶截尾特征，说明差分处理进一步提高了时序客流数据的平稳性。此外，本文比较了时间粒度为 10 min、30 min 和 60 min 的自相关图和偏自相关图，也可以得到 1 阶差分客流数据的平稳性优于原始客流数据的结论。在对不同时间粒度下的客流数据进行平稳性检验的基础上，对不同时间粒度的客流数据进行白噪声检验。时间粒度为 5 min、10 min、30 min和 60 min 的客流数据 p 值均远小于 0.05，说明时序数据不是白噪声，即客流数据非纯随机序列，具备可供提取的内在相关性信息。

采用贝叶斯信息准则（BIC）对不同时间粒度下客流数据的 ARIMA 模型参数（ p，d，q ）进行优化。以5 min 时间粒度的客流数据为例，1 阶差分客流数据得到的优化结果为 ARIMA（1，1，7），其中 AR 模型和MA 模型的优化参数如表 2 所示。利用优化参数可以得到 1 阶差分客流数据的预测方程：

为了检验差分客流数据的全部信息均得到有效提取，对 ARIMA（1，1，7）模型进行残差检验，可证实残差的白噪声特性。通过 LB 检验（时间序列分析中检验序列自相关性的一种方法）可知，残差序列的 p 值为0.866，大于 0.05，说明残差序列为白噪声。图 5a、图5b 为残差的自相关与偏自相关图。由图可知，二者均为明显的 1 阶结尾。通过分位数 - 分位数图（Q - Q 分布图，图 5c）可知，ARIMA（1，1，7）模型的残差具备正态分布特征。这说明采用 ARIMA（1，1，7）能够提取客流数据的时序相关信息，从而实现有效客流预测。

对于 10 min、30 min 和 60 min 时间粒度的客流数据，重复上述基于贝叶斯信息准则的模型参数优化方法，获得的模型参数分别为 ARIMA（6，1，0）、ARIMA（1，1，3）和 ARIMA（1，1，2）。三者残差序列的 p 值分别为 0.941、0.649 和0.333，均大于 0.05。虽然如此， p 值随着时间粒度的加大呈降低趋势，残差序列的白噪声特性在下降，这说明在大时间粒度下客流数据量的减少带来了客流数据信息量的降低。

采用 1 阶差分客流数据获得 ARIMA 模型参数预测下一周 5 个工作日的客流数据。预测结果和 AFC 客流数据分别以红线和蓝线绘制于图 6。由图可知，5 min、10 min 和 30 min 时间粒度的预测结果能够与 AFC 客流数据很好地吻合，而 60 min 的客流数据吻合程度稍差。为了对预测结果进行量化，计算了预测值与真实客流数据的标准差（MSE）和绝对误差（MAE），并将结果列于表 3。由表可知，MSE 和 MAE 的结果均表明对短时间粒度客流数据的预测明显优于长时间粒度数据，这是由于短时间粒度客流数据的取值点更多，因而包含了更多的数据相关性信息。此外，使用了未差分处理的客流数据进行 ARIMA 模型参数优化，其预测结果同时列于表 3。如前所述，未差分客流数据同样能够通过平稳性检验和白噪声检验。尽管如此，表 3 的 MSE 和 MAE 结果说明采用差分数据进行 ARIMA 预测结果明显优于基于未差分数据的预测结果，说明采用差分客流数据进行ARIMA 参数优化更为合理。

结论

本文采用天津地铁某站点周一到周五的 AFC 客流数据对 ARIMA 模型进行参数优化，实现了时间粒度分别为 5 min、10 min、30 min 和 60 min 的客流数据预测。研究表明 AFC 客流数据及其 1 阶差分时间序列均可以通过平稳性检验和白噪声检验。预测结果表明以 1 阶差分时间序列优化得到的 ARIMA 模型参数其预测结果优于基于未差分客流数据进行的 ARIMA 预测，说明提升数据平稳性有利于数据自相关信息的提取。此外，基于短时间粒度数据的预测结果显著优于大时间粒度下的ARIMA 预测，说明客流数据的细节信息对实现 ARIMA精准预测具有关键影响。