文献信息汇总
题目:Learning to Control and Coordinate Mixed Traffic Through Robot Vehicles at Complex and Unsignalized Intersections
链接:https://arxiv.org/abs/2301.05294
项目主页:https://sites.google.com/view/mixedtrafficcontrol/
作者:Dawei Wang(王大维), Weizi Li(李玮孜),Lei Zhu(朱磊), Jia Pan(潘佳)
作者单位:香港大学,田纳西大学诺克斯维尔分校,北卡罗来纳大学夏洛特分校,香港大学
发表时间:2024年9月
期刊:International Journal of Robotics Research (IJRR)
关键词:混合交通控制,多智能体强化学习,智慧交通系统,未来交通
研究背景
交叉路口是现代大都市中不可或缺的道路基础设施。然而,受交通事故或交通协调机制失效(如红绿灯故障)的影响,交叉路口也可能成为交通流的瓶颈。任何交叉路口的阻塞都会打乱所有方向的交通,导致严重交通拥堵,甚至全市范围的交通堵塞。而且,相比于其他道路,交叉路口更容易发生交通事故,在美国有超过45%的事故发生在交叉路口。如今,交通拥堵已经成为全球问题,每年造成的经济损失超过1000亿美元。
借助自动驾驶车辆(Autonomous Vehicle)的能力,一些以提高交叉路口交通效率为目标的新兴路口控制和协调机制出现。这些方法中所描绘的由人类驾驶车辆(Human Vehicles, HVs)和机器驾驶车辆(Robot Vehicles,RVs)组成的混合交通模式,在我们的生活中已经逐步成为现实。尽管在过去十年间出现了一众混合交通控制的方法,绝大部分论文仍然基于简单路网的仿真场景(如图1所示)。如何通过机器驾驶车辆控制真实世界复杂路口交通流,迄今为止仍然是一个未被解决的难题。
图1:本文方法与其他混合交通控制方法的场景复杂度对比。本文中所用的应用场景远远复杂于其他相关工作。
本文提出了一种在真实世界复杂交叉路口控制和协调混合交通流的多智能体强化学习方法。搭载本方法的RVs将透过自车传感器收集信息并与通信范围内的其他RVs进行通信,构建路口范围各个方向的交通流量信息并独立做出决策。我们设计了全面的实验来评估我们方法的有效性、稳健性、泛化性和适应性。实验结果表明,我们的方法可以通过仅有5%的RVs来防止在每小时700辆车的真实世界交通需求下形成拥堵。相比之下,没有RVs时,当交通需求达到每小时200辆车时,就会形成拥堵。此外,当RV渗透率超过60%时,我们的方法开始在所有车辆的平均等待时间上超越了交通灯控制的效率。我们的方法对交通灯失效事件、自动驾驶软件失效被接管和V2V通信错误等极端场景也具有很强的鲁棒性。
视频1: 本文研究的交叉路口场景示例。视频中共使用三种不同的方法控制:无交通灯控制,交通灯控制和本文所提出的方法进行控制。透过本文提出的方法控制路口可以有效的避免拥堵发生,提高交通效率。
方法描述
图2:本文方法流程图。a)交叉路口交通流将按照行进方向进行分类聚合,并生成路口交通流特征向量。b)决策模型将根据特征向量独立做出STOP/GO的决策。
图3:沿着W-L方向的占用图。道路被分割为10段,每一个都被标记为空闲(绿点)或占用(红点)。
交叉路口交通聚合建模
一个标准的四向交叉路口包括四个行驶方向:东行(E)、西行(W)、北行(N)和南行(S);以及三种转向:左转(L)、右转(R)和直行(C)。例如,我们使用E-L和E-C来表示分别向左转和直行的东行交通。如图2所示,路口交通流被聚合为八组交通流。此设计保留了满足不同国家交通规则的灵活性,包括左舵国家,依据交通规则改变需要控制的交通流聚合方法。
基于分布式强化学习的
混合交通控制方法
我们将混合交通控制问题转化为部分可观察马尔可夫决策过程(POMDP)并使用rainbow DQN算法来求解。
动作空间:A={Stop,Go},表示每一时刻RV是否进入路口或停在路口外等待。
观测空间
策略模型的输入一共可分为三个部分:路口区域外交通流情况(队列长度l,平均等待时间w),路口内交通流情况(占用图m,如图3所示)和自车距离停止线的距离d
奖励函数
分为两个部分:本地奖励和冲突惩罚。
本地奖励如下所示:当前动作为Stop时,奖励为当前方向平均等待时间的相反数;当动作为Go时,奖励为当前方向的平均等待时间。
同时,当RV做出的决策和当前路口内其他车流产生冲突时,获得冲突惩罚-1.
实验结果
实验环境配置:
我们使用美国科罗拉多泉市( Colorado Springs, CO, USA)提供的每个交叉路口的计数数据重建交通情况以创建高保真仿真环境用于训练和测试。交通数据记录了在交叉口某个特定方向行驶的车辆数量,通过路内传感器收集。我们总共有六个路口的数据,并分别将这些交叉口标记为I、II、III、IV、V和VI。I—IV用来训练强化学习策略。
本文的方法与四种方法进行测试和比较:
1. 无交通灯控制方法(NoTL):所有车将自由进入路口区域。
2. 交通灯控制方法(TL):所有车辆将遵守交通灯控制信号。
3. Yan and Wu:最新的RL控制交通路口策略,场景内全部车辆均为RV。
4. Yang:最新基于非机器学习方法的CAV路口控制策略,场景内全部车辆均为CAV。
交通控制性能对比:
下表显示了在路口I,II,III,IV中平均等待时间的主要结果。我们测试了从20%到100%的自动驾驶车辆渗透率(RV rate),每次实验持续1000步(模拟中的1000秒)并重复100次。
从结果可以看出,本文提出的方法有效且显著的提高了路口的通行效率。只有20%的RVs,我们的方法就可以超越路口II的交通灯控制方法。在其他交叉口,我们的方法可以用60%的RVs超越交通信号控制。相比较于没有交通灯的情况,本文方法可以实现平均等待时间减少高达89%。
鲁棒性测试:
为了更清晰的展示本文方法在不同极端场景下的有效性和鲁棒性,我们设计了两组实验,分别是红绿灯失效实验(图4和图5)和自动驾驶软件失效接管实验(图6和图7)。
图4:交通灯失效实验:我们模拟了在路口口I、II、III和IV(从左到右)的停电事件(交通信号灯关闭)。如果没有任何RV参与控制交通,交叉路口将很快形成交通堵塞,导致所有车辆的平均等待时间迅速增加。相反,如果交通流中有50%是RV,则不会出现交通堵塞,所有车辆的等待时间保持在低位且稳定。
图5:在交叉路口I的交通灯失效事故中,有RV和没有RV的交通状况比较。事故发生在第5分钟。在没有RV的交通中,拥堵情况在15分钟内迅速形成。相反,用50%的RV控制的交通并未导致拥堵。
图6:软件失效实验模拟部分RV在运行过程中失效并由驾驶员接管,从而导致RV比例下降。我们的方法在RV比例快速降低的时候也能确保交通稳定且不发生严重拥堵。从左到右的子图分别对应路口口I、II、III和IV。NoTL显示出平均等待时间的指数增长,这表明路口完全堵塞。
图7:为了更好的展示平均等待时间的变化趋势,本图展示了平均等待时间的斜率。从结果可以看出当应用本文方法后,斜率趋于平稳,而NoTL则维持接近1的高斜率,表明我们的方法可以有效地缓解拥堵的发生。
泛化性能测试:
为了评估我们方法的泛化性,我们在图8中显示的两个未见过的真实交叉路口上进行测试,其中一个是三路交叉口。我们直接将我们的策略应用到这些场景上。结果如图8所示,我们的方法无需额外优化即可在未见过的场景上运行并获得很好的效果。
视频2:泛化性测试:本文方法在两种未见过拓布结构场景的测试。
图8:泛化性测试结果。当RV比率高于60%时,由我们的方法控制的交通流效率将高于交通灯控制的效果。
真实世界部署模拟实验:
我们的算法可以在任何具备自动驾驶软件和V2V能力的车辆中部署和运行。然而,在真实世界中进行混合交通控制的成本高昂。因此我们在仿真环境中模拟真实世界的部署。由于V2V的不可靠性和感知系统的局限,交通信息聚合的结果可能与真值存在偏差,我们模拟了不同的通信环境来测试本文方法在多跳通信、高丢包率环境中(如图9/10所示)的表现。(结果如图11所示)
图9:两种不同的通信环境和协议。左:长距离通信协议(LTE, WiMax),每辆RV都可以独立和其他RV建立通信连接。右:短距离通信协议(蓝牙),RV的通信距离不足以覆盖整个路口范围,需要进行多跳通信,在实验所用的路口场景中最多需要三次转跳完成通信。
图10:在长距离通信协议和PER(数据包错误率)水平下,交通估计的相对误差。随着数据包错误率的增加,总体交通估计的误差不断增加。
图11:我们在模拟的V2V通信实验中对我们的方法进行了评估,实验中60%的车辆为自动驾驶车辆。结果表明,我们的方法可以有效地解决由多跳通信和低质量连接引起的通信不确定性。
不同交通流量实验:
我们进一步分析了交通需求和拥堵的关系。结果如下图所示:
图12:左:实线代表没有交通灯和自动驾驶车辆。当交通流量超过200 v/h时,拥堵开始形成。虚线表示交通中部署了5%的自动驾驶车辆,在700v/h的交通压力情况下并未产生拥堵。
右:对比不同RV比例对交通性能的影响。当交通中存在最少5%的RV时,可以有效防止拥堵情况发生。
结论
我们提出了一种用于实际世界无信号交叉口的混合交通控制的强化学习方法。与现有方法相比,我们的方法解决了最复杂的混合交通交叉口场景,包括不同的交叉口容量、拓扑结构和波动的交通需求。我们提供了一个使用真实交通数据重构的高保真交通模拟,用于强化训练和测试。我们进行了各种实验来展示我们方法的有效性、稳定性、泛化性和适应性。我们的方法可以作为在大规模和复杂场景下通过无模型强化学习进行混合交通控制的灵感,为下一代交通控制策略铺平道路。
参考文献:
[1] Yan Z and Wu C (2021) Reinforcement learning for mixed autonomy intersections. In: IEEE International Intelligent Transportation Systems Conference. pp. 2089–2094
[2] Yang H and Oguchi K (2020) Intelligent vehicle control at signal-free intersection under mixed connected environment. IET Intelligent Transport Systems 14(2): 82–90.
[3] Yan S, Welschehold T, Büscher D and Burgard W (2021) Courteous behavior of automated vehicles at unsignalized intersections via reinforcement learning. IEEE Robotics and Automation Letters 7(1): 191–198.
[4] Wu C, Bayen AM and Mehta A (2018) Stabilizing traffic with autonomous vehicles. In: IEEE international conference on robotics and automation (ICRA). IEEE, pp. 6012–6018
[5] Wu C, Kreidieh AR, Parvate K, Vinitsky E and Bayen AM (2022) Flow: A modular learning framework for mixed autonomy traffic. IEEE Transactions on Robotics 38(2): 1270–1286.
[6] Cai P, Lee Y, Luo Y and Hsu D (2020) Summit: A simulator for urban driving in massive mixed traffic. In: IEEE International Conference on Robotics and Automation (ICRA). pp. 4023– 4029.
[7] Behrisch M, Bieker L, Erdmann J and Krajzewicz D (2011) Sumo–simulation of urban mobility: an overview. In: Proceedings of International Conference on Advances in System Simulation. ThinkMind, pp. 63–68.
[8] Cui J, Macke W, Yedidsion H, Goyal A, Urieli D and Stone P (2021) Scalable multiagent driving policies for reducing traffic congestion. In: Proceedings of the 20th International Conference on Autonomous Agents and Multiagent Systems (AAMAS). pp. 386 – 394.
[9] Hessel M, Modayil J, Van Hasselt H, Schaul T, Ostrovski G, Dabney
W, Horgan D, Piot B, Azar M and Silver D (2018) Rainbow: Combining improvements in deep reinforcement learning. In: Proceedings of the AAAI conference on artificial intelligence, volume 32. pp. 3215–3222.
[10] Lu J, Hossain S, Sheng W and Bai H (2023) Cooperative driving in mixed traffic of manned and unmanned vehicles based on human driving behavior understanding. In: IEEE International Conference on Robotics and Automation (ICRA). IEEE, pp. 3532–3538.
排版 | Yes同学
审核 | 张一豪
诚邀加盟
TRZ青年讲堂是交通邦创办的系列专栏,旨在深化读者对交通行业前沿技术的认知,激发在读学生、高校青年教师和行业人士交流合作的动力。
欢迎有意向成为演讲嘉宾的全球英才联系我们!
联系方式
交通邦小助手
(微信号:jiaotongbang)
”
欢迎投稿&合作 Welcome
创立宗旨:交通邦旨在构建泛交通领域最大的交流分享平台,促进产学研融合,最小化信息不对称。欢迎各位学生/教授/专家/企业在学术成果、招生计划、书籍推介、内推岗位、比赛冠名、会议合作等与交通邦合作!
联系方式:添加交通邦小助手微信(jiaotongbang),备注“姓名-学校-合作内容”。
TRAFFIC ZONE
往期作品集
详见公众号主页下方菜单栏
官方微博
@交通邦小助手
小红书搜索
@交通邦
官方哔哩哔哩
@交通邦
抖音搜索
@交通邦
长按关注
微信公众号
长按关注
微信视频号