电子说
随着智能网联汽车、5G通信和智能交通系统的发展,有望在保证通行安全,提升通行能力的情况下实现道路交叉口无信号灯控制。
研究背景
自动交叉口管理系统(Autonomous Intersection Management systems,AIMs)能够实现无交通信号下对网联智能汽车(CAV)进行控制,保障安全有效的交通流。但目前的AIM算法主要基于控制算法,不具备适应或不断学习新情况的能力。如:
(1)基于固定时间的交通灯控制算法(Fix Time,FT)
(2)基于排队理论的智能交通灯控制算法(iREDVD )
(3)近期提出的AIMs。
本文要解决的问题
让AIMs系统具有对真实且复杂的交通场景(不断变化的十字交叉口流量密度,双向6车道,直行,左转,右转三个行驶方向,100m内)进行自主学习和主动协同控制CAV的能力,且保证不发生碰撞事故。
解决的方案:先进AIM方法(本文定义为adv.RAIM)。基于端到端多主体深度强化学习(MADRL)(LSTM)+通过自我游戏进行基于课程的学习
方案的效果:通行时间,等待时间,和时间损失的减少,附带的让经济性和排放性能都得到改善。
传统的AIMs
主要包括两个模块:冲突模块和优先级模块 1、冲突模块:负责确定两辆车在接近或穿过交叉口时是否会发生冲突。四种冲突识别方法:i)基于交叉口的,ii)基于网格的,iii)基于冲突点的,iv)基于车辆自由选择的。 2、优先级模块:在遇到冲突时,对车辆状态(例如速度、加速度、路线等)采取行动并管理车辆的通行权来解决冲突。通行权的分配有以下五个方法:i)基于到达交叉口的顺序,先到先得(FCFS);ii)根据车辆/交叉口状态分配优先级,如快速优先服务(FFS)(到达交叉口最快的车辆获得最高优先级)或长队优先(LQF)(进入队列最长的车辆具有最高优先级);iii)使用一些启发式方法,如动态规划(DP)或线性混合整数规划(MILP)(通过一系列方程和条件用于求解,实时性和复杂适应性差);iv)通过拍卖,对出价最高的车辆给予更高的优先权(不行,平等问题);v)通过人工智能机制,如遗传算法或强化学习。
注意:在车辆流量较低的情况下,FCFS提供了更好的性能,但当交通流量较高(>800辆/小时)时,红绿灯控制提供了更好性能。此外,当交通不对称、突发或有主干道和街道连接时,FCFS的性能比红绿灯控制差。
本文提出的方案:adv.RAIM(状态/冲突编码器+运动规划器)
1、状态/冲突编码器(使用LSTM).输入为车辆状态(位置,速度,角度,车道,行驶方向,行驶趋势等),输出为待控制车辆与其他车辆之间冲突的编码。 2、运动规划器。包括具有ReLU激活函数的四个全连接层。 3、更新时间步长为250ms.使用双延迟深度确定性策略梯度(TD3)优化控制器. 4、奖惩机制:如果发生碰撞给予−100(强负奖励)。如果通过交叉口,给予+100(强正奖励)。−timestep(弱负奖励)鼓励尽可能快地通过交叉口。确保车辆尽可能快地通过交叉口,同时保证安全。 5、实现更稳定和快速的训练模型的两个技术: i) Prioritized Experience Replay: (PER)。在DRL中,添加了一个重放缓冲区来存储过去的经验,最“可学习”的经验是当预测Q值和实际Q值差值(时间差(TD)误差)高时, 在优化过程中从重放缓冲区中选择体验的可能性就越大。 ii) Learning by curriculum:训练任务由易到难,且逐渐增加仿真车辆数。 6、仿真软件:SUMO;算法编写:Pytorch1.5.0和Python3.7;仿真包含一个训练场景和四个测试场景。使用的车辆分布为:35%的柴油车、35%的汽油车和30%的零排放电动汽车。 7、分析指标: (1)训练场景:全局奖励、碰撞次数和时间损失
(2)测试场景:直接指标:行程时间、等待时间和拥堵造成的时间损失。间接指标:排放污染物和燃油/电力消耗。
结果
训练出的模型系统稳定性好。在最接近真实复杂交通场景的第四个测试场景中,行程时间最多减少59%。时间损失最多可减少95%。污染气体(CO、CO2、HC、PMx和NOx)的排放量减少了37%、13%、28%、37%、50%,燃料和电力的消耗量分别减少21%和27%。(因为减少了加减速的次数)
读后感:本文最大的创新点是将深度强化学习网络运用到AIMs中,并且将交通场景扩展得更为复杂。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !