交通状态可预测性量化方法

李文根 杨涵晨 刘天颖 关佶红

引用本文:
Citation:

交通状态可预测性量化方法

    通讯作者: 李文根, lwengen@tongji.edu.cn
  • 中图分类号: TP18

Quantification for the predictability of Traffic Status

    Corresponding author: LI Wen-gen, lwengen@tongji.edu.cn ;
  • CLC number: TP18

  • 摘要: 针对现有城市交通状态的可预测性缺乏有效量化分析方法这一问题,提出了基于熵的交通状态可预测性量化方法. 首先,从静态可预测性出发,通过计算交通状态序列的熵得到对应的量化规律性,利用二元熵函数将该规律性转化为可预测性;然后,考虑到交通状态的可预测性会随着时间动态变化,通过瞬时熵实现了对特定时刻可预测性的量化计算;最后,分析了4类代表性交通状态预测模型的性能与交通状态可预测性之间的关联关系. 实验表明,所提出的方法能够从静态和动态两个方面有效量化交通状态的可预测性,并揭示了不同类型的交通状态预测模型对可预测性依赖关系的差异,为交通状态预测模型的选择和设计提供了依据.
  • 图 1  数据采集范围和网格区域划分

    Figure 1.  The range for data collection and its grid partitions.

    图 2  每周单位小时平均交通拥堵系数分布

    Figure 2.  Average traffic congestion factor by hour of the day and day of the week.

    图 3  区域数量在交通状态静态可预测性上的累计分布

    Figure 3.  The cumulative distribution of regions in terms of static predictability of traffic status

    图 4  区域数量在交通状态动态可预测性上的累计分布

    Figure 4.  The cumulative distribution of regions in terms of dynamic predictability of traffic status

    图 5  选定区域交通状态的动态可预测性

    Figure 5.  The dynamic predictability of traffic status in one selected region.

    图 6  各区域早上6点(a图)和9点(b图)的动态可预测性,颜色越深可预测性越大

    Figure 6.  Dynamic predictability for all regions at 6am (left) and 9am (right), respectively, and the deeper color corresponds to higher predictability.

    图 7  预测模型的绝对误差 E1随可预测性的变化

    Figure 7.  MAE E1 vs. predictability on four prediction models.

    图 8  预测模型的对称平均绝对百分比误差 E2误差随可预测性的变化

    Figure 8.  sMAPE E2 vs. predictability on four prediction models.

    表 1  交通状态预测特征

    Table 1.  Extracted features for traffic status prediction.

    特征类别特征
    交通状态特征过去3个时刻的交通状态
    交通网络特征区域内12种道路各自的总长度
    POI特征区域内POI的数量
    下载: 导出CSV
  • [1] Nagy A M, Simon V. Survey on traffic prediction in smart cities[J]. Pervasive and Mobile Computing, 2018, 50(1): 148-163.
    [2] 王永恒, 高慧, 陈炫伶. 采用变结构动态贝叶斯网络的交通流量预测[J]. 计算机科学与探索, 2017, 11(4): 528-538. DOI:  10.3778/j.issn.1673-9418.1608043. Wang Y H, Gao H, Chen X L. Traffic prediction method using structure varying dynamic bayesian networks[J]. Journal of Frontiers of Computer Science and Technology, 2017, 11(4): 528-538.
    [3] Ko E, Ahn J, Kim Y. 3D Markov process for traffic flow prediction in real-time[J]. Sensors, 2016, 16(2): 1-19. DOI:  10.1109/JSEN.2015.2493738.
    [4] Xu D W, Wang Y D, Jia L M, et al. Real-time road traffic state prediction based on ARIMA and Kalman filter[J]. Frontiers of Information Technology & Electronic Engineering, 2017, 18(2): 287-302.
    [5] Okawa M, Kim H, Toda H. Online traffic flow prediction using convolved bilinear poisson regression[C]//18th IEEE International Conference on Mobile Data Management, South Korea, 2017: 134-143.
    [6] Feng X X, Ling X Y, Zheng H F, et al. Adaptive multi-kernel SVM with spatial-temporal correlation for short-term traffic flow prediction[J]. IEEE Transactions Intelligent Transportation Systems, 2019, 20(6): 2 001-2 013. DOI:  10.1109/TITS.2018.2854913.
    [7] 沈夏炯, 张俊涛, 韩道军. 基于梯度提升回归树的短时交通流预测模型[J]. 计算机科学, 2018, 45(6): 222-227. DOI:  10.11896/j.issn.1002-137X.2018.06.040. Shen X J, Zhang J T, Han D J. Short-term traffic flow prediction model based on gradient boosting regression Tree[J]. Computer Science, 2018, 45(6): 222-227.
    [8] Liu Y X, Wu H. Prediction of road traffic congestion based on random forest[C]//IEEE 10th International Symposium on Computational Intelligence and Design, Hangzhou, China, 2017: 361-364.
    [9] Mackenzie J, Roddick J F, Zito R. An evaluation of HTM and LSTM for short-term arterial traffic flow prediction[J]. IEEE Transactions Intelligent Transportation Systems, 2019, 20(5): 1 847-1 857. DOI:  10.1109/TITS.2018.2843349.
    [10] Zhang J B, Zheng Y, Qi D K. Deep spatio-temporal residual networks for citywide crowd flows prediction[C]//Proceedings of the 35th AAAI Conference on Artificial Intelligence, San Francisco, California, USA, 2017: 1 655-1 661.
    [11] Zhou F, Yang Q, Zhong T, et al. Variational graph neural networks for road traffic prediction in intelligent transportation systems[J]. IEEE Transactions on Industrial Informatics, 2021, 17(4): 2 802-2 812. DOI:  10.1109/TII.2020.3009280.
    [12] Guo K, Hu Y L, Qian S, et al. Optimized graph convolution recurrent neural network for traffic prediction[J]. IEEE Transactions Intelligent Transportation Systems, 2021, 22(2): 1 138-1 149. DOI:  10.1109/TITS.2019.2963722.
    [13] 冯宁, 郭晟楠, 宋超, 等. 面向交通流量预测的多组件时空图卷积网络[J]. 软件学报, 2019, 30(3): 759-769. Feng N, Guo S N, Song C, et al. Multi-component spatial-temporal graph convolution networks for traffic flow forecasting[J]. Journal of Software, 2019, 30(3): 759-769.
    [14] Zhang Y X, Wang S Z, Chen B, et al. TrafficGAN: network-scale deep traffic prediction with generative adversarial nets[J]. IEEE Transactions Intelligent Transportation Systems, 2021, 22(1): 219-230. DOI:  10.1109/TITS.2019.2955794.
    [15] Song C M, Qu Z H, Blumm N, et al. Limits of predictability in human mobility[J]. Science, 2010, 327: 1 018-1 021. DOI:  10.1126/science.1177170.
    [16] Smith G, Wieser R, Goulding J, et al. A refined limit on the predictability of human mobility[C]//IEEE International Conference on Pervasive Computing and Communications, Budapest, Hungary, 2014: 88-94.
    [17] Zhao K, Khryashchev D, Freire J, et al. Predicting taxi demand at high spatial resolution: approaching the limit of predictability[C]//IEEE International Conference on Big Data, Washington DC, USA, 2016: 833–842.
    [18] Kontoyiannis I, Algoet P H, Suhov Y M, et al. Nonparametric entropy estimation for stationary processes and random fields, with applications to English text[J]. IEEE Transactions Information Theory, 1998, 44(3): 1 319-1 327. DOI:  10.1109/18.669425.
    [19] Mclnerney J, Stein S, Rogers A, et al. Exploring periods of low predictability in daily life mobility[C]//Mobile Data Challenge by Nokia Workshop in Conjunction with International Conference on Pervasive Computing, Newcastle, UK, 2012: 1-6.
    [20] Matias L M, Game J, Ferreira M, et al. Predicting taxi-passenger demand using streaming data[J]. IEEE Transaction Intelligent Transportation Systems, 2013, 14(3): 1 393-1 402. DOI:  10.1109/TITS.2013.2262376.
    [21] Lv M Q, Hong Z X, Chen L, et al. Temporal multi-graph convolutional network for traffic flow prediction[J]. IEEE Transactions Intelligent Transportation Systems, 2021, 22(6): 3337- 3348. DOI:  10.1109/TITS.2020.2983763.
    [22] Wand F C, Xu J J, Liu C F, et al. MTGCN: A multitask deep learning model for traffic flow prediction[C]//International Conference on Database Systems for Advanced Applications, Jeju, South Korea, 2020: 435-451
    [23] Yuan H T, Li G L, Bao Z F, et al. An effective joint prediction model for travel demands and traffic flows[C]//IEEE International Conference on Data Engineering, Chania, Greece, 2021: 348-359
  • [1] 蒲斌李浩卢晨阳王治辉刘华 . 基于神经网络的海量GPS数据交通流量预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170292
    [2] 严小冬宋燕吴战平田鹏举 . 基于GEV干旱指数的贵州春旱时空变化及预测模型探析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150565
    [3] 段焰青杨涛孔祥勇汤丹瑜李青青 . 样品粒度和光谱分辨率对烟草烟碱NIR预测模型的影响. 云南大学学报(自然科学版),
    [4] 刘洋龙华赵继东杜庆治 . 基于GABP技术的PCA弥苴河水质预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160125
    [5] 钱民唐克生 . 基于定性动态概率网络的交通状态预测及改进. 云南大学学报(自然科学版),
    [6] 张自立刘惟一 . 基于动态贝叶斯网的状态预测. 云南大学学报(自然科学版),
    [7] 施令飞何晓宇沈坚KiprotichPaul魏显虎张宗科邱凤婷 . 基于SLEUTH模型的内罗毕城市扩张预测分析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190632
    [8] 程春玉孟捷 . 旅客到达昆明机场交通方式选择影响因素分析. 云南大学学报(自然科学版),
    [9] 曹良坤王昆山周灿东张 熹岳 燕杨艳华 . 基于Web的交通违法处理系统研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.2014a13
    [10] 梁璐莎陈斯养 . 中立型双时滞Logistic模型分支分析及人口预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20140428
    [11] 和永军姚庆华缪应锋孙雪赵娜 . 基于大数据的云南省智慧城市交通建设研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.2016d
    [12] 张祖林刘光富 . 昆明市主城区道路交通控制与管理改进方案研究. 云南大学学报(自然科学版),
    [13] 张春华和菊孙永玉李昆 . 基于Maxent模型的原种红椿适生区变迁预测及在引种区划上的应用. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170013
    [14] 周爱红尹超袁颖 . 基于主成分分析和支持向量机的砂土渗透系数预测模型*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150781
    [15] 韩格岳昆刘惟一 . 一种基于博弈论的交通系统最优调度策略学习方法. 云南大学学报(自然科学版),
    [16] 刘飞虎郭鸿彦邓纲顿昊阳李飞杨明 . 大麻茎皮出麻率早期非破坏性预测技术研究. 云南大学学报(自然科学版),
    [17] 陈建华余锦华施心陵 . 基于Context量化的Context模型. 云南大学学报(自然科学版),
    [18] 赵海军贺春林蒲斌 . OFDM系统中基于状态空间模型的ICI抑制均衡算法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160375
    [19] 崔燕妮惠明申东娅赵翠芹 . LMSC的六状态Markov模型的平均BER的理论分析与仿真. 云南大学学报(自然科学版),
    [20] 程祥磊鲍慈光彭莉 . 人工神经网络预测离子色谱分离条件. 云南大学学报(自然科学版),
  • 加载中
图(8)表(1)
计量
  • 文章访问数:  161
  • HTML全文浏览量:  159
  • PDF下载量:  4
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-04-10
  • 录用日期:  2021-07-24
  • 网络出版日期:  2021-09-28

交通状态可预测性量化方法

    通讯作者: 李文根, lwengen@tongji.edu.cn
  • 同济大学 电子与信息工程学院,上海 201804

摘要: 针对现有城市交通状态的可预测性缺乏有效量化分析方法这一问题,提出了基于熵的交通状态可预测性量化方法. 首先,从静态可预测性出发,通过计算交通状态序列的熵得到对应的量化规律性,利用二元熵函数将该规律性转化为可预测性;然后,考虑到交通状态的可预测性会随着时间动态变化,通过瞬时熵实现了对特定时刻可预测性的量化计算;最后,分析了4类代表性交通状态预测模型的性能与交通状态可预测性之间的关联关系. 实验表明,所提出的方法能够从静态和动态两个方面有效量化交通状态的可预测性,并揭示了不同类型的交通状态预测模型对可预测性依赖关系的差异,为交通状态预测模型的选择和设计提供了依据.

English Abstract

  • 交通问题是现代城市治理的一个重点、难点问题. 在众多交通问题中,挖掘交通运行规律,准确预测城市交通状态,进而预见性地优化交通控制,对于发展智能交通具有重要意义. 得益于数据采集技术和移动通讯技术的快速发展,城市能够获取大量与交通相关的数据,包括车辆移动轨迹数据、实时车流统计数据、道路交通状况数据、交通事故数据. 这些数据中蕴含着城市交通运行的基本模式和规律. 基于这些数据,交通运输领域和计算机科学领域的专家和学者提出了大量的交通状态预测模型和算法,实现了对交通流量、交通速度和交通拥堵的准确预测.

    现有交通状态预测模型多种多样[1],如概率统计模型[2-3]、时间序列模型[4-5]、传统机器学习模型[6-8]和深度学习模型[9-14].

    概率模型[2-3]主要通过统计历史数据中不同交通状态出现的频率来预测未来的交通状态,主要使用Markov模型及其变体实现.

    时间序列模型[4-5]主要利用交通状态序列的时间依赖性实现,包括短期依赖、周期性和趋势性. 主要模型包括ARIMA模型[4]和泊松(Poisson)模型[5].

    影响交通状态的因素很多,如交通网络结构、兴趣点(Points of Interest, POI)分布、天气和大型活动. 传统机器学习模型[6-8]通过提取这些因素的特征训练模型进行交通状态预测,如支持向量机(Support Vector Machine, SVM)、梯度提升回归树(Gradient Boosting Regression Tree, GBRT)、随机森林(Random Forest, RF).

    近年来,各类深度学习模型[9-14]也广泛用于交通状态预测,通过提取深层次的时空特征,实现了较好的交通状态预测效果. 早期的深度预测模型有LSTM模型[9]和时空残差网络[10]. 目前,图神经网络[11-13, 21]、生成对抗网络[14]和多任务学习[22-23]是交通状态预测研究的主流.

    虽然上述交通状态预测模型各有所长,但它们具有一个共同特点,即构建于交通状态具有较高可预测性的基础之上. 换句话而言,只有当交通状态本身具有较高可预测性时,现有预测模型才能实现较好的预测性能.

    然而,交通状态可预测性的高低是定性描述,一个本质问题仍然有待回答:城市不同区域的交通状态具有多大的可预测性,即最好的预测模型能实现的最高预测准确度是多少?由于缺乏对这个问题的回答,现有交通状态预测模型只能假设预测对象具有高可预测性,却无法建立模型和交通状态可预测性的联系,将二者结合起来. 这大大增加了现有交通状态预测模型使用场景的不确定性,也降低了其可用性. 为有效回答上述本质问题,本文提出了基于熵的交通状态可预测性量化方法,从静态可预测性和动态可预测性两个角度来量化给定区域交通状态的整体可预测性和在特定时刻的可预测性. 此外,分析了多种类型的交通状态预测模型的预测性能与交通状态可预测性之间的关联关系,为预测模型的设计和使用提供了参考依据.

    本文的研究实现了对城市交通状态可预测性的量化分析,可以从一个新的视角来认识整个城市交通的运行状况. 同时,通过利用预测模型与交通状态可预测性之间的关系,可以融合多类交通状态预测模型,实现自适应的交通状态预测,有效提高预测的准确度.

    • 首先,本文将整个城市空间划分为较小的空间区域 ${R_1},{R_2},\cdots,{R_m}$,划分方式可以是网格划分、行政区域划分或者泰森多边形划分.

      定义 1 (交通状态序列)每个区域 ${R_i} ( i = $$ 1,2, \cdots ,m)$ 的交通状态为时间序列 ${S_i} = ({x_1}, {x_2},\cdots, $$ {x_n})$,其中 ${x_j}$$(j = 1, 2,\cdots,n)$ 表示 ${R_i}$${t_j}$ 时刻的交通状态,可以是交通流量、交通速度或者是交通拥堵系数.

      定义 2 (交通状态可预测性量化)给定一个交通状态序列 ${S_i}$,交通状态可预测性量化旨在以数值形式对 ${S_i}$ 的可预测性进行计算和表示,给出预测模型能够达到的最高预测准确度.

      通过对交通状态可预测性进行量化,能够解决不同区域交通状态可预测性的可比性问题,可以更直观深入地了解特定区域交通状态的动态特性.

    • 为更好地描述相关技术和方法,首先简要介绍使用的数据集. 本文将使用通过高德地图采集得到的上海交通状态数据集. 图1(a)展示了数据采集空间范围[121.330°E~121.338°E, 31.086°N~31.094°N],涵盖了上海中心区域. 我们将该区域划分为32 × 32=1024个网格区域,每个网格区域的宽度约800 m. 由于部分非交通区域没有交通状态信息,去掉这些区域后得到908个区域,如图1(b)所示.

      图  1  数据采集范围和网格区域划分

      Figure 1.  The range for data collection and its grid partitions.

      数据集涵盖了从2020年11月1日到2020年12月15日,共45 d的交通状态信息. 每天从早6点到晚10点,每20 min采样一次所有区域的交通拥堵系数. 单日约4.3万条记录,总计约200万条记录. 交通拥堵系数取值区间为[0, 1],通过交通流量、交通速度等信息综合计算得到,取值越大表示交通越拥堵.

      图2展示了每周单位小时平均交通拥堵系数. 从图中可以看出,周一到周五的早晚高峰比较明显,早高峰从7点到9点,8点最严重;晚高峰集中在5点和6点. 周六和周日两天无明显高峰,不过周六中午的交通较每周其他时间更为拥堵.

      图  2  每周单位小时平均交通拥堵系数分布

      Figure 2.  Average traffic congestion factor by hour of the day and day of the week.

    • 交通状态可预测性量化需要回答两个问题:(1)给定区域的交通状态具有多大可预测性?(2)给定区域的交通状态在某个时刻具有多大可预测性?为了有效回答这两个问题,将分别提出静态可预测性量化方法和动态可预测性量化方法.

    • 静态可预测性量化方法旨在对给定区域的交通状态序列进行整体评估,计算其可预测性.

      交通状态序列的可预测性本质上刻画了交通状态的规律性,而交通状态的规律性主要通过其时间依赖性体现. 熵[15-17]是衡量序列时间依赖性的一种有效方法. 因此,我们首先通过计算交通状态序列的熵来量化其规律性.

      给定交通状态序列 ${S_i} = ({x_1},{x_2},\cdots,{x_n})$,其熵值 ${E_i}$ 的计算公式如下:

      $ {E_i} = - \sum\limits_{s \in {S_i}} {p(s){{\log }_2}p(s)}, $

      其中, $s$${S_i}$ 的任意子序列,$p(s)$ 表示 $s$ 出现在 $ {S_i} $ 中的概率.

      公式(1)的计算复杂度非常高,为 $O({2^{|{S_i}|}})$,其中 $|{S_i}|$ 为序列 ${S_i}$ 的长度. 当 $|{S_i}|$ 较大时,需要进行大量计算. 为了有效降低计算量,利用Lempel-Ziv (LZ)方法[18]${E_i}$ 进行有效估计,即

      $ {\hat E_i} = {\left(\frac{1}{{|{S_i}|}}\sum\limits_{k = 1}^{|{S_i}|} {{\text{|}}{s_k}{\text{|}}} \right)^{ - 1}}\ln |{S_i}|, $

      其中, $ {s_k} $ 表示 ${S_i}$ 中从第 $k$ 条记录开始且未在前 $k{\text{ - }}1$ 条记录中出现过的最短子序列. 文献[18]研究表明,LZ方法得到的估计熵 ${\hat E_i}$ 与真实熵 ${E_i}$ 非常接近.

      例1. 给定区域 ${R_i}$ 的交通拥堵系数序列 ${S_i}{\text{ = (0}}{\text{.3, 0}}{\text{.5, 0}}{\text{.5, 0}}{\text{.3, 0}}{\text{.2)}}$,则 $ {s_1} = (0.3) $ 表示从第1条记录0.3开始的最短子序列;${s_2} = (0.5)$ 表示从第2条记录0.5开始且未在之前子序列中出现的最短子序列;${s_3} = (0.5,0.3)$ 表示从第3条记录0.5开始且未在子序列 $(0.3,0.5)$ 中出现的最短子序列. 类似地,可以计算得到 ${s_4} = (0.3,0.2)$${s_5} = (0.2)$. 因此,

      $ \begin{split} {{\hat E}_i} &= {\left(\frac{1}{{|{S_i}|}} \times ({\text{|}}{s_1}{\text{|}} + {\text{|}}{s_2}{\text{|}} + {\text{|}}{s_3}{\text{|}} + {\text{|}}{s_4}{\text{|}} + {\text{|}}{s_5}{\text{|}})\right)^{ - 1}}\ln |{S_i}| \\ &=\left(\frac{1}{5} \times {\text{(1 + 1 + 2 + 2 + 1)}}\right)^{ - 1}\ln 5 \\ &= 1.149\;6 , \end{split} $

      其中, $|{S_i}| = 5$.

      ${\hat E_i}$ 量化了交通状态序列 ${S_i}$ 的静态规律性. 通过解下列等式[15]可以将熵 ${\hat E_i}$ 转化为模型的最大静态可预测性 ${\Pi ^{\max }}$

      $ \begin{split} {{\hat E}_i} &= - {\Pi ^{\max }}{\log _2}({\Pi ^{\max }}) - (1 - {\Pi ^{\max }}) \cdot \\ &{\log _2}(1 - {\Pi ^{\max }}){\text{ + }}(1 - {\Pi ^{\max }}){\log _2}({\Gamma _i} - 1), \\ \end{split} $

      其中, ${\Gamma _i}$ 表示 $ {S_i} $ 中不同取值的个数. 由于交通拥堵系数是连续值,为降低计算复杂度,将交通拥堵系数分为4个区间[0, 0.25), [0.25, 0.5), [0.5, 0.75), [0.75, 1.0)来计算熵,并分别用0, 1, 2, 3表示. 例如,${S_i}{\text{ = (0}}{\text{.3, 0}}{\text{.5, 0}}{\text{.5, 0}}{\text{.3, 0}}{\text{.2)}}$ 转化为 ${S_i}{\text{ = (1, 2, 2, 1, 0)}}$. 因此,计算熵的交通状态有4个不同取值,${\Gamma _i}$ 的最大取值为4. 特别地,当 $ {S_i} $ 所有取值相同时,${\Gamma _i}{\text{ = }}1$.

      图3展示了908个区域的静态可预测性分布. 从图3中可以看出,所有区域的可预测性均比较高,超过了0.9. 这表明,理论上采用最优的交通状态预测模型,可以实现高准确度的交通状态预测.

      图  3  区域数量在交通状态静态可预测性上的累计分布

      Figure 3.  The cumulative distribution of regions in terms of static predictability of traffic status

    • 给定区域 ${R_i}$,其交通状态可预测性会随时间动态变化. 例如,可能上午6点可预测性高,9点可预测性较低. 因此,有必要分析量化交通状态在特定时刻的可预测性. 针对该问题,提出了交通状态动态可预测性量化方法.

      给定交通状态序列 ${S_i} = ({x_1},{x_2},\cdots,{x_n})$,首先通过瞬时熵[19]${E_i}(t)$ 量化其动态规律性. 瞬时熵 ${E_i}(t)$ 计算 ${S_i}$ 在时刻 $t$ 的规律性,其计算公式如下:

      $ {E_i}(t) = \frac{{{{\log }_2}(t)}}{{{\Lambda _t}}}, $

      其中, ${\Lambda _t}$ 是指以第 $t$ 条记录 ${x_t}$ 结尾,且未在子序列 $({x_1},{x_2},\cdots,{x_{t - {\Lambda _t}}})$ 中出现过的最短子序列的长度.

      例2 给定交通状态序列 ${S_i}=(0.3, 0.5, 0.5, $$ 0.3, 0.2)$,有 ${E_i}(t = 3) = \dfrac{{{{\log }_2}3}}{2} = 0.792\;5$,其中 ${\Lambda _t}$=2是因为以第3条记录0.5结束且满足要求的最短子序列为 $(0.5,0.5)$,长度为2.

      与静态可预测性类似,动态可预测性 ${\Pi ^{\max }}(t)$ 可以通过求解下列等式得到:

      $ \begin{split} {{\hat E}_i}(t) =& - {\Pi ^{\max }}(t){\log _2}({\Pi ^{\max }}(t)) - (1 - {\Pi ^{\max }}(t)) \cdot \\ &{\log _2}(1 - {\Pi ^{\max }}(t)){\text{ + }}(1 - {\Pi ^{\max }}(t)){\log _2}({\Gamma _i} - 1). \\ \end{split} $

      图4展示了所有区域全部时刻的动态可预测性分布. 从图4中可以看出,大部分时刻的可预测性高于0.9,可以实现较准确的预测. 不过,存在少部分时刻的可预测性较低,说明部分区域在某些时刻的交通状态比较难预测.

      图  4  区域数量在交通状态动态可预测性上的累计分布

      Figure 4.  The cumulative distribution of regions in terms of dynamic predictability of traffic status

      图5给出了一个区域两周内(12月2日—12月15日)交通状态的动态可预测性. 从图中可看出,该区域交通状态可预测性随时间动态变化,大部分时间能达到0.9以上,部分时刻可预测性偏低,低于0.875.

      图  5  选定区域交通状态的动态可预测性

      Figure 5.  The dynamic predictability of traffic status in one selected region.

      图6可视化了各个区域在上午6点和9点的可预测性. 从图6中可以看出,两个时刻的可预测性存在明显差异,9点时大量区域的可预测性低于6点.

      图  6  各区域早上6点(a图)和9点(b图)的动态可预测性,颜色越深可预测性越大

      Figure 6.  Dynamic predictability for all regions at 6am (left) and 9am (right), respectively, and the deeper color corresponds to higher predictability.

    • 进一步分析不同交通状态预测模型的性能与交通状态可预测性之间的关联关系,从而明确模型适用范围,为模型的设计和选择提供依据.

    • 本文以下列4种有代表性的交通状态预测模型为例分析其与交通状态可预测性的关联关系,其他交通状态预测模型可采用相同的方式进行分析.

    • Markov模型是一种经典的概率模型,通过统计历史数据获取预测目标出现的概率. 特别地,对于交通状态预测,Markov模型假设未来交通状态依赖于之前时刻的交通状态. 如果只依赖于前一时间点的交通状态,则称为一阶Markov模型. 一般地,$\alpha $ 阶Markov模型依赖于前 $\alpha $ 个时刻的交通状态,即:

      $ P({X_{t + 1}}|{X_{t - \alpha + 1}},{X_{t - \alpha + 2}},\cdots,{X_t}). $

      实际应用中很难获取上述分布,因此通过统计历史交通状态数据,生成一个概率转移矩阵,以概率最大的交通状态作为预测结果.

    • 时变泊松模型(Time-varying Poisson Model)[20]广泛用于预测特定时刻的状态取值. 对于交通状态来说,在时刻 $t$ 出现交通状态 $x$ 的概率为:

      $ P(x,\lambda (t)) = \frac{{({e^{ - \lambda (t)}})({\lambda ^x}(t))}}{{x!}}, $

      其中 ,$\lambda (t)$ 为泊松分布参数,它随时间动态变化,用于描述分布周期性. 在该分布中,当 $x = \lambda (t)$ 时概率最大. 给定交通状态序列 ${S_i}$$\lambda (t)$ 的计算方式:

      $ \lambda (t) = \frac{{{x_t} + {x_{2t}} + \cdots + {x_{\gamma t}}}}{\gamma }, $

      其中, $\gamma $ 表示历史交通状态周期数,一般以一周7天为周期. 该公式计算历史 $\gamma $ 个相同时刻交通状态平均值. 一般当前时刻的交通状态与时间距离近的交通状态记录相关性更大. 因此,引入带权时变泊松模型(Weighted Time-varying Poisson Model, WTP),赋予距离近的记录更大的权重,即:

      $ \lambda (t) = \frac{{\beta \cdot {x_t} + {\beta ^2} \cdot {x_{2t}} + \cdots + {\beta ^\gamma } \cdot {x_{\gamma t}}}}{{\beta + {\beta ^2} + \cdots + {\beta ^\gamma }}}, $

      其中,$\beta \in (0,1)$.

    • 随机森林回归模型 (Random Forest Regression Model, RFR)是一种使用非常普遍的集成模型,集成了多个决策树模型,每个模型在样本子集或特征子集上进行训练,可有效解决过拟合问题. 假设有 $g$ 个决策树模型,则最终预测结果为:

      $ f(x) = \frac{1}{g}\sum\limits_{i = 1}^g {{f_i}(x)}, $

      其中, ${f_i}(x)$ 为第 $i$ 个模型的预测结果. 随机森林模型需要提取历史数据中的特征用于训练模型. 表1列出了提取的主要特征.

      特征类别特征
      交通状态特征过去3个时刻的交通状态
      交通网络特征区域内12种道路各自的总长度
      POI特征区域内POI的数量

      表 1  交通状态预测特征

      Table 1.  Extracted features for traffic status prediction.

    • 基于深度模型的交通状态预测模型很多,这里以简单的LSTM模型为例分析深度模型与可预测性的关联关系. 交通状态具有长期的(Long Term)周期性和短期的(Short Term)时间依赖性,LSTM模型可以较好地考虑这两种特性,因此对时间序列预测具有较好的性能.

    • 所有预测模型的超参数都通过实验设置为最优取值. 本文采用绝对误差 (Mean Absolute Error, MAE) E1和对称平均绝对百分比误差(symmetric Mean Absolute Percentage Error, sMAPE) E2评估预测模型的性能. 其计算公式如下:

      $ {E_1} = \frac{1}{n}\sum\limits_{i = 1}^n {|{y_i} - {{\hat y}_i}|}, $

      $ {E_2} = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{|{y_i} - {{\hat y}_i}|}}{{({y_i} + {{\hat y}_i})/2 + 1}}}, $

      其中, ${y_i}$ 是真实值,${\hat y_i}$ 是预测值,$n$ 是预测的样本数量. 对称平均绝对百分比误差E2中分母部分加1以防止 ${y_i}$${\hat y_i}$ 同时为0时出现除数为0的情况.

      图7展示了预测模型的绝对误差E1随着交通状态可预测性增加的变化. 从图中可以看出,当交通状态可预测性较低时,LSTM模型和RFR模型的预测效果远好于Markov模型和WTP模型. 这是因为LSTM模型和RFR模型能够通过提取深层次特征或利用更多外部特征来克服预测性低带来的预测困难. 当可预测性较高时,4种模型的性能差距缩小. 这时,选择Markov模型和WTP模型可以实现较高预测准确度的同时大幅降低特征提取和模型训练的开销.

      图  7  预测模型的绝对误差 E1随可预测性的变化

      Figure 7.  MAE E1 vs. predictability on four prediction models.

      图8展示了预测模型的对称平均绝对百分比误差E2随着可预测性增加的变化. 具有与绝对误差E1相似的结果.

      图  8  预测模型的对称平均绝对百分比误差 E2误差随可预测性的变化

      Figure 8.  sMAPE E2 vs. predictability on four prediction models.

    • 本文提出了对交通状态静态和动态可预测性进行量化的方法,并分析对比了多类交通状态预测模型与量化可预测性的关联关系. 研究结果表明,不同交通状态预测模型的预测性能与交通状态可预测性之间的关联关系存在差异,有必要针对具有特定可预测性的预测问题选择合适的预测模型. 在未来工作中,将研究不同时间粒度和空间粒度下的交通状态可预测性,并分析发掘交通状态可预测性的时空关联性和因果关系.

参考文献 (23)

目录

    /

    返回文章
    返回