直觉性AI在无人驾驶中的应用

ml8z_IV_Technol 2019-05-13 3996

电子说

1.4w人已加入

描述

5月9日，以「机器智联、赋能万物」为主题的第六届中国机器人峰会暨智能经济人才峰会在浙江宁波余姚盛大开幕。峰会上中国工程院院士，西安交通大学郑南宁教授以「AI及机器人的新方向」为主题进行了演讲，以下根据郑南宁教授演讲整理内容。

就当前的人工智能而言，解决相对人类有一定挑战的问题相对容易，但是，要让机器解决对人类而言看似简单的问题却非常困难，无人驾驶就属于此类问题。人脑实际上对非认知性的细节内容更多是通过直觉进行判断，直觉实际上扮演着人脑认知世界中一个非常重要的功能。所以，我今天就来谈谈我们如何发展直觉性AI，以及如何将直觉性AI和无人驾驶怎么结合起来。

什么是直觉？

直觉在我们日常生活中处处会使用到，例如，在人群中我们看到一个熟悉面孔，我们即时做出识别，这主要依靠直觉即使调用大脑中所存储的知识；再如，警察在破案过程中，拿到的众多线索错综复杂，可是一位老警察能够敏锐感觉到重要线索就在这里，这就是直觉的判断、决策和执行。

人的认知可以分为三大类：直觉、逻辑思维及形象思维、灵感和顿悟。

我们当前的人工智能依赖符号学，依赖形式化的描述，所以可以在语义上解释人类的思维。但是直觉不能仅仅使用语义进行表达的，实际上，人类直觉工作的过程和深思熟虑以及有意识的思维过程之间存在着错综复杂的作用。

所以新的人工智能中，我们需要思考如何把人类直觉的这种行为变成机器实现的功能。这就是我们下一代人工智能一个非常重要的研究方向。

我们把这个问题引申一下，我们的直觉在判断过程中有哪些规律？

以图像识别为例，人类是把一幅图看成整体或者是一种整体的体验。所以这里有一个先验知识的利用，从整体到局部。这是一种直观决策，如果我们从认知心理学角度看，却是所谓大范围首先理论，这是中国科学院院士在上世纪80年代通过对人类视觉的研究提出的。

机器和多数人工智能方法没有从这个方面解决问题，机器对图象的理解是从一个象素开始的。语音识别也是从语音中每一个量化的数据开始识别。但是，人的认知过程不是这样的，特别是直觉。此外，在人的行动上，依然存在对直觉的应用。直觉的反映、直觉的决策带来了直觉的行动。

例如上图中这四位经过训练的芭蕾舞演员，他们动作整齐划一，非常和谐。这个和谐的背后实际上是人的直觉经过长期训练的反映。或者说在这个场合下，对直觉的敏感性。当然我们还有更夸张的游泳，这是蝶泳员动作很协调；还有极限运动，在攀岩过程中还能够翻跟头。这不是我们用符号和语义所能表达的，因此，机器无法直接模仿人类完成复杂又灵巧的任务。但是对于人类而言，经过专业训练可以达到这样的程度。

为什么要发展直觉性AI？

实际上我们人工智能发展到今天，由于深度学习的出现，人工智能迎来了发展高潮，取得了许多巨大的进展。但是，当我们仔细思考时，实际上当前的AI系统或AI算法实际上对每个任务进行编程，就会带来指数级的复杂性。有许多难题，人类所面临的许多难题只能够在指数时间内得到解决，而且还有一些问题的求解，几乎需要无限长的时间。因此新一代人工智能面临巨大的挑战，那就是如何应对指数级复杂性的任务。

上图可以形象地看到人工智能从过去到当前，再到未来的四个发展阶段。当前的AI和AI2.0中间一个重要的方向就是混合增强智能。那么在混合增强智能之后是什么呢？就是具有人类意识的智能，我们又称之为通用人工智能，这是人工智能追求的长期的目标。当然现在在学术界对这个观点还有不同的争论。

发展直觉性AI的原因之一是计算复杂性与指数爆炸。实际上指数爆炸问题源于两个具体的问题，一个是条件问题，即我们不可能枚举出一个行为的所有条件；另一个是分支问题，即我们不可能预测一个行为有可能带来的所有隐性的成果。条件问题和分支问题背后正是指数级爆炸和计算复杂性。

传统人工智能的局限性

传统人工智能的方法首先需要对一个问题给出精确数学意义上的解析模型，如果模型抽象不出来，这个问题就没有解；模型给出以后还要给出确定的算法，而一个确定的算法设计完成后，这个人工智能系统的算力、能力或任务是唯一的，所以又是一个单一任务。

确定的算法没有办法应对我们人类所面对的许多测不准或不完备的问题，这就是传统人工智能方面面临着在发展中。

深度学习的局限性

深度学习给人工智能带来了春天，而且这个春天会一直发展下去，但是深度学习仍然存在诸多问题：

泛化能力差。而且训练数据和测试数据必须是同分布的，如果不同分布，分类能力就会极大降低；

表达能力弱。这里提到的表达能力是指缺乏推理和因果关系的表达能力，无法解释一个深度学习模型给出结果背后的推理过程；

无法引入注意机制。注意机制强调的是计算过程中的路径选择和计算负载的分配。深度学习目前还找不到有效的办法解决这一问题。

大脑的认知过程

传统人工智能的局限性以及深度学习还面临着一些新的挑战。那么解决这些问题，我们的灵感和启发同哪里来呢？来源于人类大脑。

人类大脑实际上对世界的印象是不完整事件的描述，但是，这个不完整的事件的描述是人类直觉判断和逻辑思维的基础，面对真实世界复杂的、动态的变化，如果能将直觉、经验、知识和以数学为基础的演绎归纳结合，就可能设计出一种机器能够在不完整世界中给出正确的决策或产生相应的行为。

如上图中的两幅图，大多数人会认为左边这幅图更容易记住。这幅图描述了一个家庭的客厅，目前在陪着孩子弹钢琴，母亲右手边挂着世界地图，世界地图下有一张桌子。如果我们把这个场景的各个物体（对象）在空间中的位置做一个调整，得到右边这幅图不符合我们大脑中所记忆的先前积累的经验和常识。

从认知心理学角度来看，把这幅图在大脑形成的这样一种概念，称之为认知影射，所谓认知影射就是人类在理解和描述世界时大脑中形成的对时间的可视化图象，我们又定义为对环境表征的认知地图，这是人类对理解世界的一种模型。

直觉性AI的计算框架

本质上讲，直觉应该遵循泛化，即遵循有序的指令集以在有限步骤中给出决策。把直觉和我们的认知地图结合就形成了直觉性AI的计算框架。

上图右边这幅图是把直觉推理与认知地图结合的一种计算模型。这种计算模型实际上做了两项工作：

第一，把先前经验与模式匹配。即把线索的先桑或者事物模式与存储的模板（大脑中的记忆）进行匹配。大脑的神经网络是一种高效的模式匹配装置，它依据先前经验与存储模板相匹配，从而给出正确决策。

第二，启发式搜索和联想。特别是直觉型启发式搜索，不是去寻找可能性，是要排除不可能，缩小搜索空间，提高决策行动的速度。在逻辑上管理“不确定性”。

这正是直觉性AI的计算框架，下面在这个框架上，我们再把这个问题引申一下，我们怎么能让机器像人一样对物理世界进行直观的理解，这里我给出让机器对物理世界进行直观理解三个基本的要素：

第一，特征的识别，并形成记忆；

第二，物体之间的特征关系与作用的直观理解；

第三，基于模式匹配和想象力的决策或行为模型产生。

直观理解对机器而言如何实现？如下图所示。

左边图中给出两个小朋友玩滑板车，从坡上向下滑，我们知道这个坡的坡度和滑板车的摩擦力，也知道孩子的重量，就知道这两个滑板车上面什么时候会到达目的地，我们称之为物理世界的约束，直观推理可以跨越时间与空间去追踪事物发展的轨迹。按照这个思路，右边给出了一个直观物理层面推理的框架，这一框架有物体间的相互作用的理解，有直观的感知处理与行为产生，也有对情景产生的交互。这一系统其实相对于其它人工智能应用系统而言，可以看作是直觉性AI的基本计算框架。

直觉性AI在无人驾驶中的应用

直觉是以一种最少的假设去描述一个系统或产生相应的行为。

如果从直觉推理上来看智能无人驾驶，我们就可能为无人驾驶技术带来新的方法。

无人驾驶的问题可以定义为具有先前经验和先验知识的不确定性，而且有约束环境条件的推理。2002年我们开始做无人车，2004年我们在校园里能够实现行驶，能够动起来，当时雄心勃勃，可是出了校门就寸步难行了。之后可以在沙漠中的公路上（没有行人，没有车辆的情况下），以每小时十几公里的速度行驶。

经过这样十几年的研究，到2015年我们无人驾驶技术有了新的进展，在一个乡村道路上测试时，它的控制是平稳型，操控性与人类驾驶员都优秀；在2017年中国智能车挑战赛中，我们的无人驾驶汽车拿到了第一名。

尽管我们取得了如此大的进步，但是能上路吗？回答是否定的。

上图是城市经常常见的复杂交通场景，我们即便有了5G，无人驾驶和有人驾驶的车如何进行交互依然是很有挑战性的难题。对于整个十字路口交通场景是不可预测的，但是各个对象的自身的直觉判断和他们对相互之间的关系的理解构建了这样一个稳定的系统。而事实上，我们要让计算机对交通场景及变化进行编码是做不到的。

人类驾驶员开车就是将车外无穷状态空间约简为动态变化的可行驶的二域状态空间，直觉推理是用排除法寻找一个可行驶区域。因此，从认知层面，要解决的问题就是如何把复杂未知的现实世界变换成有限空间环境的语义推理。无人驾驶我们还面临着如何在这些方面上取得更大的突破。

上图是用多激光雷达感知的环境数据，实际上也是为了寻找可行驶的区域，中间是无人驾驶车。因此我们把直觉性AI用到无人驾驶中就是要基于认知构建一个类人自主驾驶。因为人类驾驶员是对场景认知一个连续的过程，我们现在无人驾驶实际上仍是一个离散的过程。

因此我们怎么能够来发展一种具有进化的，自主学习的无人驾驶系统，它的学习过程与人类司机相似，熟能生巧。其中要解决的问题包括以下三点：

第一，人类驾驶员如何注意并获取交通环境信息；

第二，交通环境信息如何在大脑中存储和加工；

第三，产生驾驶行为的背后的存在怎样的内部表征。

这是我们做的一些工作（如上图），大家可以看视觉深度图，怎么把视觉和低精度的地图结合，生成可行驶区域和路径规划，实现一个基于认知构建的无人驾驶，实际上就是「度量-拓扑-语义混合」的交通情境认知的层次结构。

在无人驾驶当中，我们进行了20多年的研究。走到今天，我们已经取得了一些进步，但是无人驾驶真正要进入寻常老百姓家还面临许多艰难的挑战，不是3-5年就能够实现的，可能需要10年乃至更长时间，无论是从技术的安全性，还是从成本上来看，我们都还需要付出艰难的努力。

打开APP阅读更多精彩内容