利用对抗性深度强化学习来衡量自动驾驶汽车的运动规划和碰撞避免机制的可靠性

李倩 发表于 2018-06-08 09:54:02 收藏 已收藏
赞(0) •  评论(0

利用对抗性深度强化学习来衡量自动驾驶汽车的运动规划和碰撞避免机制的可靠性

李倩 发表于 2018-06-08 09:54:02

现如今,随着人工智能技术的迅速发展,人们普遍认为,未来的交通系统将由自动驾驶汽车(AV)所主导。可以说,对于更为安全的交通设施的需求是引起人们对自动驾驶汽车感兴趣并推动其发展的一个主要推动力。但不可否认,就现在而言,可靠和具有鲁棒性的自动驾驶汽车技术的发展仍然是一个持续的挑战,对可靠的运动规划和碰撞避免机制的研究尤其重要。最近,堪萨斯州立大学(Kansas State University,KSU)的科学家了提出了一种基于深度强化学习的新框架,用于对自动驾驶汽车的碰撞避免机制的行为进行基准测试。

现如今,随着人们对自主导航的兴趣日益增长,关于运动规划和碰撞避免技术(collision avoidance techniques)的研究已经加速了全新提议和新进展的速度。然而,新技术的复杂性及其安全性要求使得当前的大部分基准测试框架不充分,因此对高效的比较技术的需求没有得到满足。这项研究提出了一种基于深度强化学习的新框架,用于在处理最佳对抗性智能体的最坏情况下对碰撞避免机制的行为进行基准测试,该最佳对抗性智能体进行训练从而将系统驱动到不安全状态。我们将这个框架的体系结构和流程描述为一个基准测试解决方案,并通过一个比较两种碰撞避免机制的可靠性的实际案例研究来证明其有效性,从而对有意识的碰撞尝试做出回应。

人们普遍认为,未来的交通系统将由自动驾驶汽车(AV)所主导。随着近年来这一领域的迅速发展,许多人预测这种转变将在未来十年内发生。对更为安全的交通运输的需求,是引起人们兴趣和推动自动驾驶汽车发展的一个主要动机。一般认为,用专家计算模型代替人类驾驶员的内在缺陷,可以显著减少由驾驶员的误差所导致的事故数量。然而,可靠和具有鲁棒性的自动驾驶汽车技术的发展仍然是一个持续的挑战,并且人们正在积极从各个研究和发展方向来追求这一目标。

图1:对抗性目标的图释

对可靠的运动规划和碰撞避免机制的研究尤其重要。在过去数十年的时间里,科学家们已经提出了许多解决这个问题的方法,从控制理论形式化和最优控制方法到潜在的基于场和规则的技术(field- and rule-based techniques),等等。最近,机器学习的进步使得基于诸如模仿学习和深度强化学习(RL)等技术的全新数据驱动的碰撞避免方法成为可能。然而,随着其部署环境和机制日益复杂,为这些解决方案提供安全保障的挑战变得越来越困难。一个值得注意的例子是交通碰撞避免系统(TCAS),在它广泛部署到NextGen商用飞机之前,它就已经满足了联邦航空局(FAA)的严格安全要求。然而,最近的一些表现表明它在现代高密度空域中非常不可靠,在一定程度上,它可能会导致不可避免的碰撞状态(ICS)——不管未来的轨迹如何,最终都会发生碰撞。此外,最近的研究表明,自动感知和避免机制可以被对抗性地加以利用以操纵自动驾驶车辆的运动轨迹。

作为回应,科学家们提出了越来越多的缓解技术和全新的安全运动规划方法,但每一种都有特定的特定于案例的假设和验证程序。因此,对这些方法进行定量比较变得非常困难。当前最为先进的方法包括在运动规划和碰撞避免中对安全行为进行基准测试的几次尝试,但是许多现有的框架未能满足基于机器学习的新自适应技术的要求。而且,目