一种具有基于CNN的闭环反馈的用于自动驾驶车辆的端到端转向控制器

ml8z_IV_Technol 2018-08-14 4619

电子说

1.2w人已加入

描述

摘要：过去几十年的许多重要研究成果表明，卷积神经网络( CNNs )能够控制方向盘，这是自动驾驶车辆的基本和必要的操作动作。与传统的基于CNN的方法相比，我们提出了一种具有基于CNN的闭环反馈的用于自动驾驶车辆的端到端转向控制器，该控制器提高了驾驶性能。本文证明了所提出的神经网络DAVE - 2SKY能够通过初始监督预训练和随后的强化闭环后训练，利用安装在车辆上的摄像机的图像来学习推断方向盘角度，用于自动驾驶车辆的横向控制。

我们使用PreScan仿真器和Caffe深度学习框架在环境软件（SIL）仿真环境中进行多种环境下的训练。我们使用DRIVE PX2计算机来实现一辆自动驾驶汽车对所提议的端到端控制器进行的实验验证。仿真和道路试验也研究了该系统的性能。这项工作表明，基于CNN的端到端控制器即使在部分可观察的道路条件下也能执行强大的转向控制，这表明由基于CNN的端到端转向控制器控制完全自动驾驶车辆的可能性。

I.介绍

在过去几十年中，在工业机构包括汽车原始设备制造商( OEMs )、相关公司、研究机构和大学的不断努力下，自动驾驶技术取得了显著成就。此外，机器学习的重大进步使得使用深层神经网络的自动驾驶车辆创新方法成为可能。

特别是，卷积神经网络（CNN）[1]已经被证明具有实现方向盘控制的端到端学习的潜力，这是自动驾驶车辆的基本和必要的操作基础。为了构建一个完全自我优化的学习系统，以最大限度地提高轨迹跟踪和驾驶安全性能，而不是使用基于模型的中间控制标准，从一个面向前方的车载摄像头学习方向盘的角度，我们开发了一个加强的闭环反馈训练和推理架构。

1989年，卡内基梅隆大学开发了一种名为自主陆地车辆神经网络（ALVINN）的自动驾驶汽车[2]，该车首次展示了基于摄像头的自动驾驶汽车端对端转向控制的可能性。自ALVINN以来，其他值得关注的研究工作包括已经研究了神经网络(NNs)和国防高级研究项目局(DARPA)的挑战，这些挑战促进了神经网络的发展。

2004年，DARPA自主车辆( DAVE ) [ 3 ]项目演示了如何对一辆无线电控制( RC )汽车进行训练，使其掌握由左、右摄像机拍摄的几小时人类驾驶数据，并在越野环境中驾驶。虽然DAVE无法展示复杂驾驶环境的完整解决方案，但它激发了一个名为DAVE-2的高级版本[4]。

在自动驾驶车辆中，包括车辆转向在内的横向控制是一项基本功能。车道保持是横向控制的代表性操作，在自动驾驶时可将车辆保持在车道的中心。虽然转向控制是自动驾驶车辆的基本功能，但基于CNN的端到端控制器仍然难以在自动驾驶车辆中实现转向[5]。

我们的目标是克服传统的基于CNN的端到端控制方法的局限性，为自主车辆的转向控制器提供一种前沿方法。我们提出了DAVE - 2SKY ( SK Telecom & Yonsei University修改的DAVE - 2 )，这是一种端到端转向控制器，具有基于CNN的闭环反馈体系结构。网络没有被明确教导，并且学习转向控制在跟踪前方车辆时保持车道所需的整个处理流水线。学习过程由两个训练步骤组成：监督的预训练和强化的闭环反馈后训练。因此，DAVE - 2SKY从相机图像数据中产生适当的方向盘角度，用于自动驾驶车辆的稳定和完全横向控制。与DAVE-2 [4]的传统反向传播训练方法相比，所提出的系统能够在更短的训练时间内学习驾驶任务，并具有稳健的、可改进的性能。

本文的其余部分结构如下：在第Ⅱ节，我们提供了所提出的系统DAVE - 2SKY的概述和细节。在第V节中的实验结果之前，第III节和第IV节介绍了使用仿真器实施SIL的环境和结果。在第VI节中，我们讨论了该系统仿真中的结果，最后，我们在第VII节中总结了本文。

Ⅱ.我们所提出的系统

A.网络架构

我们的网络有一个源自DAVE - 2 [ 4 ]的架构，该架构利用安装在自主车辆上的输入相机的图像来训练NNs，以计算方向盘角度来进行横向控制。图2中显示的DAVE-2SKY是使用Caffe深度学习框架[6]实现的。欧几里德损失模型用于计算地面实况和预测方向盘角度之间的平方误差之和，如[7]。

NN由10层组成，包括5个卷积层，3个归一化层和2个完全连接的层，如图1所示。如表I所示，前三个卷积层各有一个5×5内核和一个2×2跨距，接下来的两个卷积层各有一个2×2内核和一个1×1跨距。在每个卷积层中都使用了整流线性单元(ReLU)激活。输入图像被分成RGB平面，然后传送到网络。卷积层被设计为特征提取器，完全连接层是用于操纵车辆的控制器。在卷积层2、3和4之前添加归一化层，以避免梯度消失/爆炸问题，并通过稳定训练过程来提高训练速度[ 8 ]。

图1.所提出的DAVE-2SKY CNN架构。

表I.DAVE-2SKY网络卷积层

控制器

B.加强闭环反馈后训练系统

基于DAVE - 2 [ 4 ]的DAVE - 2SKY系统可以在强化反馈回路中推断转向控制指令。DAVE - 2SKY可以通过两个步骤进行训练，包括监督的预培训和强化的闭环反馈后培训。下面解释两个训练步骤结合的原因。

监督的预训练是图2 ( a )所示架构的第一步。我们实现了类似于传统训练系统的SIL配置，PreScan仿真器在PC上运行，基于Caffe深度学习框架的CNN训练架构在DevBox计算机上运行。来自摄像机的图像被馈送到DAVE-2SKY以产生方向盘角度，该方向盘角度将与记录的可行方向盘角度进行比较，以使用反向传播机制来调整卷积网络的滤波器的权重。我们在受监督的预训练步骤中训练DAVE-2SKY进行有限次数的迭代，在本研究中少于80,000个周期。两***立的计算机，用于仿真器的PC和DevBox，通过用户数据报协议( UDP )网络进行通信。

在预训练步骤之后，DAVE-2SKY在加强的训练后步骤中接受训练。为了反馈回路，我们形成了一个独特的SIL闭环体系结构，由运行在PC上的PreScan仿真器和MATLAB Simulink以及运行在DevBox计算机上的Caffe深度学习框架组成，如图2 ( b )所示。

图2.训练神经网络的框图，DAVE - 2SKY :( a )有监督的预训练；( b )强化闭环反馈后培训。

在PreScan仿真中，我们使用了一辆带有前置摄像头的虚拟车辆。通过使用MATLAB Simulink的一个内置插件，我们在仿真过程中获取了车辆的内部状态和摄像机的图像数据。这些状态数据表示车辆的当前状态，例如速度、位置、航向和横摆角速度。车辆状态被送入预览驱动模型 (PDM)，这是由仿真器配置的内置控制器模型，用于产生所需的方向盘角 (dd)，方法是使用作者团队 [9.10] 提供的算法。在本研究中，PDM预测的转向输出被用作基本事实。使用方向盘上的接口设备，如Logitech G27，可以用人工驾驶代替PDM。这种灵活性使我们能够将训练有素的DAVE - 2SKY转移到一辆真正的自动驾驶汽车上进行道路试验。

与常规监督训练相比，所提出的两个训练步骤可提高学习效率和车辆操纵性能，原因可解释如下。从前置摄像头获取NN的图像数据并发送到DevBox。除了常规深层神经网络训练程序的正常反向传播机制之外，DAVE - 2SKY还在闭环反馈架构中以强化的方式接受训练。与典型的CNN类似，DAVE-2SKY将获取的像素映射到方向盘角度（δC）。反向传播机制[1]调整网络的CNN滤波器的权重，以最小化δD和δC之间的误差。然后，修正了方向盘角度（δD'），由CNN网络根据调整后的重量，作为控制输入被输入到车辆。因此，在所提出的训练后配置中嵌入了强化学习例程。

如前所述，训练有素的NN DAVE-2SKY是自动驾驶车辆的控制器。传统的简单监督预训练步骤可能不足以学习机动车辆所需的仿人端到端视觉智能。涉及闭环反馈的训练后步骤允许在SIL环境中加强学习。如果我们用驾驶仿真器中的人类驾驶员代替PDM，DAVE - 2SKY可以学习启发式驾驶体验。

III.仿真环境

PreScan仿真器允许构建具有真实配置的虚拟验证环境，以使用虚拟车辆模型获取丰富的信息。使用Simulink和PreScan的插件收集训练数据集。在仿真中使用具有默认物理模型和动态配置的虚拟车辆（奥迪A6）。如图3所示，单个虚拟前置摄像头安装在虚拟车辆上。车辆的可控方向盘角度范围为-500°至+ 500°。方向盘角度的符号表示方向盘的方向为顺时针为负，逆时针为正，并且车辆的转向比[11]设定为20：1。如图4所示，行驶轨道长度为1492米，由两条车道( 4米宽)组成。车道被黄色实线隔开，道路两侧都有人行道(高2m )。在仿真自动巡航控制和车道保持机动的过程中，我们将车辆速度设定为5m / s ( 18 km / h )的恒定速度。

图3.安装在虚拟车辆上的前置摄像头传感器。

A．数据收集和预处理

我们的目的是训练系统来评估横向控制能力；因此，只需要车辆的图像和方向盘角度数据。当车辆在轨道上逆时针行驶时(图4 )，数据以10hz的频率提取。车辆状态数据与帧号同步0.1s。用160×90像素帧捕获图像数据，然后裁剪到160×40像素，以消除不必要的上层像素信息，如天空、树木或远离道路的建筑物。方向盘角度数据是从内置的PDM算法获得的，该算法被用作车辆控制器模型，以获得精确的方向盘角度控制数据。因为PDM根据道路环境和车辆状态产生精确的实时值，我们应该扩展它以获得更广泛的学习范围。我们有意在PDM的方向盘角度输出中添加范围从–50到+ 50的随机干扰。随机干扰的目的是确定所提出的训练回路对驾驶过程中可能出现的随机干扰的鲁棒性。

B.训练

我们使用NVIDIA DevBox进行训练，收集的图像和方向盘角度数据是帧同步的。如第Ⅱ节所述，NN分两个阶段进行训练。监督预训练方法用80，000次迭代的数据训练网络。通过实验找到迭代次数，以确定允许强化闭环反馈后训练同时正确训练和仿真的最少迭代次数。在预训练之后，DAVE-2SKY模型经历了训练后的迭代。在训练周期中，我们可以监控所有状态数据，也可以可视化训练和仿真环境，如图5所示。

图4.用于训练和试驾仿真的轨道概述。

图5.可视化仿真环境的截图。

IV.仿真结果

通过仿真，我们打算通过允许自动驾驶车辆在SIL环境中的不同情况下巡航来研究所提出的端到端控制器的性能和能力。测试期间，车辆以顺时针方向行驶，与训练方向相反。通过在训练和测试仿真过程中交替路线，我们可以轻松地为DAVE-2SKY网络提供不同的体验。

我们通过扰乱摄像机前方道路的视野范围来调查端到端控制器的操作极限：我们在完全可观察和部分可观察的情况下仿真了转向性能。需要各种驾驶条件，包括由扰乱完全观察弯道的障碍物引起的完全以及部分可观察的情况，以评估所提出的具有加强反馈回路的CNN模型如何能够在车道保持操纵期间执行横向控制。

完全可观察的情况如图6（b）所示实施，车辆独自在轨道上行驶。对于部分可观察的情况，如图6（c）和6（d）所示，在距自我自动驾驶车辆不同距离处添加前方车辆。参数d定义为车辆后轮中心之间的距离，如图6（a）所示。距离是确定前置摄像头可观测范围的关键因素，我们在测试过程中将距离从7米改变为12米。在仿真期间，测试车辆以5m / s的恒定速度巡航。

图6.输入摄像机的视图: ( a )距离d的定义；( b )完全可观察到(无前方车辆)；( c )部分可观察到( d = 8m )；( d )部分可观察( d = 10m )的情况。

我们认为，如果车辆偏离车道，车道保持机动会出现故障。如果发生故障，则仿真暂停。来自控制器和前置摄像头的所有数据与输入图像的帧数同步。地面实况由PDM的方向盘角度表示。跟踪误差是方向盘角度与第nth帧处的地面实况之间的差异。完整的仿真结束了大约3,001的帧数，因为车辆将返回到1,492米轨道的起始点，恒定巡航速度为5米/秒，并且在3,001帧内进行适当的车道保持操作。

A.完全可观察的情况

图7显示了完全可观察的案例的仿真结果。由DAVE-2SKY驾驶的车辆仅经过预训练36小时即可成功驾驶车辆，直到到达图4中标记的轨道的急弯位置。第1，500帧和第1，700帧之间轨道曲率的突然变化引起必要的转向控制角度的快速变化以维持车道。因此，在车辆进入急剧弯曲的路段之后不久，车辆偏离其车道。此外，DAVE - 2SKY控制器通过主监督预训练步骤和随后的强化后训练步骤成功地完成了全程轨道，并且与车道中心保持了可容忍的误差距离。

B.部分可观察的情况

在部分可观察的情况下，每次尝试通过DAVE-2SKY在预训练步骤中驾驶车辆在仿真中都没有成功，并且如果摄像机仅能部分地观察弯道，则无法操纵车辆进行车道保持操纵。

如果距离d大于临界值，由训练有素的DAVE - 2SKY控制器控制的车辆可以将车道保持在容许误差范围内。在本文的仿真环境中，d的临界值为9m。基于CNN的端到端控制器采用所提议的强化闭环训练步骤进行训练，在部分可观察到的情况下表现出了更好的性能。

图7.DAVE-2SKY充分观测情况下的仿真结果：(a)方向盘角度(上)；(b) PDM的参考值(即仿真中的地面真实值)与推理输出值(下限)之间的误差。

当前方行驶的车辆离自我驾驶车辆太近时，弯道的大部分输入信息都会被前方车辆屏蔽。然而，如果在外部仿真中距离大于9m，车辆可以成功地在轨道上巡航，同时保持其车道在容许误差范围内。图8中呈现的仿真结果有点嘈杂，但尽管在仿真期间施加了额外的干扰，但车辆仍然成功地行驶。

图8.DAVE-2SKY部分可见情况下的仿真结果:(a)方向盘角度(上);(b) PDM的参考值(即仿真中的地面实况)与推理输出值(下限)之间的误差。

V.实验结果

由于多个仿真已经证明了车道保持任务的可接受性能，因此DAVE-2SKY使用DRIVE™PX2计算机集成到真实的自动驾驶车辆中，用于实验真实道路自动驾驶测试，如图9和图10所示。

通过应用第III节中描述的程序，收集并预处理真实道路的图像数据以用于实际车辆的训练。收集的数据集包含了延世大学国际图8中行驶2小时以上的图像。收集到的数据集包含Yonsei大学国际校区行驶2小时以上的图像(环境如图10所示)。在数据收集过程中，一名熟练的驾驶员驾驶车辆保持车道不偏离。

使用所提出的两种连续训练方法训练该车辆72小时。然后，训练好的模型被转移到安装在车辆上的PX - 2计算机上进行实验性真实道路测试。在测试过程中，我们还评估了一个基于先前文章《[ 12，13]》的自动停车算法的代客停车场景。实验验证了应用于DAVE - 2SKY控制器的上述技术可能能够对自动驾驶车辆进行纵向控制。实验视频显示在YouTube [14,15]上。由于长度限制，我们省略了本文中实验场景和相应数据的详细信息。

图9.实验自主真实道路驾驶测试的测试车辆实施

图10.自动驾驶的实验路线，以及道路测试下车辆的快照照片

Ⅵ.讨论

对完全和部分可观察到的情况的仿真显示了用所提议的步骤训练的DAVE - 2SKY的独特能力。第IV节中描述的仿真结果表明，仅通过监督预训练自学的模型(其具有与传统端到端CNN模型相似的特性)无法对车道保持任务执行适当的横向控制。然而，尽管训练周期数相似，但训练后的加强闭环反馈实际上增强并改善了转向控制的性能。

部分可观察的案例显示了DAVE-2SKY的稳健性。由于除了深NN中的反向传播回路之外的闭环反馈系统，所提出的DAVE-2SKY即使在车道保持机动中的部分可观察情况下也执行鲁棒的转向控制。仿真结果表明，DAVE - 2SKY能够从轨道自巡航控制期间的少量干扰中恢复。结果支持了我们的断言，即受监督的预训练和随后的训练后步骤以及增强的闭环反馈使得端到端控制器能够在合理的误差范围内对车道保持任务进行完全横向控制。

Ⅶ.结论

我们提出了一种端到端转向控制器，该控制器具有基于CNN的自主车辆闭环反馈，与传统的基于CNN的方法相比，该控制器可提高控制性能。提议的NN，DAVE - 2SKY，能够通过监督的预训练和加强的闭环后训练，利用安装在车辆上的摄像机的图像来学习控制方向盘角度，用于自动驾驶车辆的横向控制。我们使用PreScan仿真器和Caffe深度学习框架在SIL仿真环境中进行多种环境下的训练。通过仿真和路况试验，研究了该系统的性能。我们使用DRIVE PX2计算机实现了一辆自动驾驶汽车对所提议的端到端控制器进行了实验验证。总之，这项工作表明，基于CNN的端到端控制器即使在部分可观察的情况下也能执行鲁棒的转向控制，这表明完全智能的自动驾驶车辆有可能由基于CNN的端到端转向控制器控制。

致谢

这项工作得到了韩国科学和信通技术部的支持，并得到了信息和通信技术促进研究所监督的信通技术一致性创新方案( IITP - 2017 - 2017 - 0 - 01015 )的支持。作者在SK电信ICT研发中心支持的SKT -Yonsei全球人才培养计划下，作为SKT - Yonsei合作自动驾驶研究中心研究项目的一部分进行了这项工作。

打开APP阅读更多精彩内容