电子说
这是说在没有GPS的的情况下,依靠模拟人类的视觉感知方位和障碍么?
先有请杜勇博士——
杜勇,2016年博士毕业于中科院自动化研究所模式识别国家重点实验室,主要从事深度学习、视频分析、行为识别、视觉目标检测跟踪及识别方面的研究。
先从导航地图的使用说起
首先,设想这样一个问题,我们计划开车去往一个陌生的地方,通常我们会首先打开导航地图,规划一下总体路线,这个地图并不需要特别高的精度。
然后我们在导航地图的帮助下沿着预先规划好的路线开车赶往目的地,一路上我们需要通过眼睛观察周边的行车环境,必要时需要耳朵来辅助,实时根据周围的路况来决策并控制车辆前行。
也就是说,我们并不需要预先知道所要行驶的道路上及周边每一个目标的精确方位及状态,只要沿着预定的路线行进并确保车辆安全行驶,最终一定可以到达目的地。
概括来说,我们需要具备两个条件,即普通的导航地图和实时感知并控制车辆运行的能力。以此分析,未来无人驾驶的一种合理实现方式是车辆可以根据一份普通的导航地图,结合自身强大的环境感知能力实现自主驾驶,其重点就在于环境感知。
问题来了,现在的车辆对周边环境怎么感知?
一种是通过车载激光雷达主动扫描,以实现对周围目标的定位和测距;另一种则是纯视觉模式,简单讲就是利用摄像头采集车辆周围环境数据,并通过计算机视觉算法分析车辆周围目标的方位和运动参数。
其中,前者技术已较为成熟。后者虽起步较晚,但得益于近几年计算机视觉和深度学习的快速发展而进步神速。
高精度的激光雷达虽然可以实现车辆对周围环境的精确感知,但因其成本高昂,难以大规模商业应用。同时单纯地依靠激光雷达并不能定位出车辆在路面上的具体位置,必须配属高精地图,这并不是一种经济理想的方案。
而纯视觉的感知模式成本较低,客观上也符合人类开车过程中对周围环境的感知模式,是一种比较理想的方案,但其难点在于算法设计。
我们怎么去做车辆对周围环境的感知?
其实说起来并不复杂。
第一需要确定出车辆自身在路面上的相对位置,第二则需要确定出车辆周围目标相对于车辆自身的位置及运动状态。
总体上,位置信息的确定涉及到可行驶区域分割、车道线检测、车辆行人等目标检测及视觉测距,运动状态的估计涉及到目标跟踪和视觉测距,车辆周围环境信息的描述则需要建立统一的坐标系。
客观上,这些都关系到无人驾驶的核心问题,即行车安全,因此技术指标需求都很高;但相对而言,对目标检测的召回率要求最高,毕竟行车方向上一定范围内的目标一旦漏检,就很可能酿成事故,对车道线的检测精度要求次之,而对可行驶区域分割精度要求相对较低。
虽然当前计算机视觉和深度学习的发展,为解决这些问题提供了可能,但受限于车载计算平台的运算能力,我们难以在车上部署重量级的深度学习模型,因此如何在车载平台上做到最大化算法精度的同时确保较高的执行效率是算法设计的核心问题。
为解决这一问题,需要在算法设计和模型加速两个层面来做工作。
在算法设计层面,需要明确任务需求,针对不同指标的要求等级来规划算法的各步操作,统筹合理分配各模块允许的计算量,实现总体性能的最优化。例如,无人驾驶中目标跟踪的目的,是为了分析周围目标的运动状态参量,对跟踪问题中常见的遮挡和交叉问题的处理能力要求不高,因此,我们可以采用高速的跟踪算法结合高精度的检测模型来实现相对可靠的跟踪过程。
降低模型的计算量
一类是利用深度学习模型连接权重分布的稀疏性,通过模型裁剪、量化编码、模型蒸馏、二值化等方式来降低模型计算量。
第二类则是在深层剖析网络局部连接作用的基础上通过优化网络结构来降低网络冗余,从而提高计算效率,典型代表如MobileNet。
第三是针对已经训练好的模型通过优化底层计算时的并行计算密度来提高模型inference过程的执行效率,该类方法针对性很强,主要适用于GPU计算平台,典型的实现如NVIDIA的TensorRT,其实现方式决定了对inception结构的网络具有很高的加速比(具体加速效果还受制于GPU的IO带宽和流处理器数量)。
一般情况下,车载计算平台主要是FPGA或者相对低端的GPU。若为FPGA,合适的优化加速方法是模型裁剪、量化编码和二值化,当然在进行这些工作之前也可以先进行模型蒸馏;若计算平台为低端GPU,最好的方式是结合任务需求设计针对性的具有inception结构的网络模型,在部署时先经channel裁剪再基于TensorRT(或者自己实现TensorRT的计算方式)做高倍加速。
单纯地基于视觉来解决无人车的路况感知问题是可行的,但是还有很长的路要走,无人车的发展过程应该是一个视觉逐步替代高端激光雷达的过程。
现实中任何一款传感器都存在稳定性问题,都会有其优势和不足,为了确保行车安全这一最核心要素,未来无人车的环境感知部分一定是多传感融合的结果。
全部0条评论
快来发表一下你的评论吧 !