基于深度学习的自主驾驶系统社会交互思考

gEUp_eng2mot 2022-10-24 1235

汽车电子

2446人已加入

描述

没有人在真空中驾驶汽车；她/他必须与其他道路使用者协商，以实现他们在社交交通场景中的目标（goals）。理性的人类驾驶员可以社会兼容的方式与其他道路使用者交互，在交互密集、安全-紧要的环境中顺利完成他们的驾驶任务。

　　本文旨在回顾现有的方法和理论，帮助理解和重新思考人类驾驶员之间的交互，从而实现社会自主驾驶。这项综述为了寻求一系列基本问题的答案：

　　1）什么是道路交通场景中的社会交互？2）如何衡量和评估社会交互？3）如何建模和揭示社会交互过程？4）人类驾驶员如何在社会交互中达成隐性协议并顺利协商？

　　本文回顾了建模和学习人类驾驶员之间社会交互的各种方法，从优化理论和图模型（graphical models）到社会力理论和行为认知科学。还强调了一些新的方向、关键挑战以及未来研究的开放性问题。

　　人类可以被训练成具有强大社会交互能力的卓越驾驶员。在现实世界的交通中，理性的人类驾驶员可以通过使用非语言通信（如手势，向另一辆车挥手让路）、指示语（如使用转向信号灯指示意图）等有效地与周围环境协商，在复杂和拥挤的场景中做出与社会兼容的决策，以及运动线索（例如加速/减速/转弯）。

　　理解复杂交通场景中人类驾驶员之间动态交互的原则和规则，可以 1）利用对他人行为或反应的信念和期望，产生不同的社会驾驶行为；2）预测具有移动目标场景的未来状态，对于构建可能安全的智能车辆至关重要，其具有行为预测和潜在碰撞检测的能力；3）创建逼真的驾驶模拟器。

　　然而，这项任务不简单，因为从交通心理学家的角度来看，在驾驶交互过程中存在各种社会因素，包括社会动机、社会感知和社会控制。一般来说，人类驾驶行为由人类驾驶员的社会交互和与场景的物理交互所构成。

　　由于人类之间的连续闭环反馈，社会交互比物理交互更加复杂，并且存在许多不确定性。社会交互可能只需要简单的决策，直接将人类感知映射到行动，而无需具体的推理和规划（例如，刺激反应、反应性交互、跟车）。社会交互也可能需要复杂的决策，通过预测其他智体的行为并评估所有可能替代方案的影响，迫使人类驾驶员谨慎地决定备选方案中的行动（例如，让路或通过）。

　　另一方面，人类驾驶员可以通过显式通信相互交流，例如使用手势和闪光灯。然而，在实践中，明确的沟通选项并不总是可用或最有效。在许多情况下，人类驾驶员更喜欢使用隐式而非显式通信来完成交互交通场景中的驾驶任务。

　　从人与人之间交互到人与自动驾驶汽车（AV）的交互

　　人与人之间的社会交互。人类是自然的社会传播者；人类驾驶员安全高效地与其他智体进行协商，形成一个交互密集的多智体系统。一般来说，人类驾驶行为受两类规范的支配：法律规范和社会规范。

　　交通规则构成法律规范，人类社会因素构成社会规范。在真实的交通中，人类驾驶员并不总是严格和刻板地遵守交通法规（例如，在高速公路上保持在限速之下），这是合规的行为（即法律规范）。

　　相反，人类驾驶员通常会根据隐含的社会规范和规则驾驶，促进道路高效和安全的行为。现有研究还表明，根据随便的行为（即社会规范）行事，可以使其他人的行为变得可识别和可预测，从而减少交互不确定性，促进每个智体的决策。

　　因此，通过纯粹的法律规范理解和推断其他人的驾驶行为可能是无效的，因为：

　　交通规则并不总是规定驾驶行为。例如，当驾驶员打算在拥挤的交通中改变车道时，交通法只禁止碰撞，但没有具体说明驾驶员应如何与他人合作或竞争以形成空档。社会规范通常主导这种交互行为。

　　人工驾驶不严格遵守交通规则。如图说明了现实生活中经常发生的交互场景。一名经验丰富的驾驶员（红色）打算通过十字路口，但其领路车正在等待左转。驾驶员可以越过白色实线并从右侧通过超车，节省行驶时间。虽然这种行为稍微违反了交通规则，但却提高了交通流效率。

自动驾驶

　　因此，让自动驾驶汽车（AV）配备人与人之间交互的集体动力学，可以在人类环境中做出知情和社会兼容的决策。

　　自动驾驶车辆的社会行为。作为移动智能的智体，智能车辆也需要与人类交互，并将成为复杂社会系统的一部分。在这样一个安全-紧要的系统中，AVs应该无缝地融入到有人类驾驶的道路中，并在社交上与达到人类水平的性能兼容。然而，如图所示，人类驾驶员遵循的规范与自动驾驶车辆之间存在很大差距。

自动驾驶

　　严格遵循法律规范的自动驾驶车辆可能无法应对高度交互的场景，并搞糊涂其他遵循社会规范的人类驾驶员。例如，在停车标志（可被视为法律规范）向人类传递令人困惑的社会线索之前，AV严格且刻板地遵循3秒法则：“为什么车辆不前进？”为了有效沟通，AVs需要模仿或理想地改进，如人类一般驾驶，这要求他们：

　　理解并适应他人的社交和运动线索。这将AV视为信息接收器，使其在功能上安全高效。例如，如果没有认识到其他驾驶员的攻击性水平，将使AV不安全或过于保守。

　　提供可识别、信息丰富的社交和动作线索。AVs视为信息发送者，其他人类驾驶员能够感知和理解AVs行为，从而能够进行安全有效的工作。例如，在让行和通过之间犹豫的AV会搞糊涂其他道路使用者，导致事故或交通堵塞。

　　并不是说AVs为了表现得像人类驾驶员或与社会兼容就要违反交通规则。学习和理解人类驾驶员遵循的社会规范有助于高效安全的交互。

　　如图说明了两个智体（人类驾驶员和/或AV）之间的动态通信过程，每个智体在信息交换过程中扮演两个角色：信息发送者和接收者。例如，智体A将充当信息发送者，“告诉”智体B其意图。同时，智体B应该感知并理解智体A提供的信息（即感知），然后通过提供可识别的有用信息采取一些行动来响应或适应智体A。

自动驾驶

　　赋予AVs人类社会能力，提高复杂交通场景中的交互性能。例如，用计算认知模型对人类社会偏好（如利他、亲社会、利己和竞争）以及与AV交互时的合作水平进行定量评估。

　　在量化社会交互之前，我们首先需要弄清楚在特定场景中 “交互何时发生？”或者“是否人类驾驶员之间发生交互？”。一个相关的问题是 “谁参与了交互？”

　　在实际交通中，道路使用者并不总是有丰富的交互。例如，在人行道上移动的单个行人通常不会影响其他行人，但更丰富社会交互模式的任务除外，例如体育。同样，驾驶员之间丰富的社会交互可能并不总是发生。

　　人类驾驶员主要单独驾驶，并对物理环境做出反应，但在大多数驾驶任务中，如高速公路的车道保持行为和城市信号交叉路口的受保护左转行为，不会与其他道路使用者直接交互。有三种常用的方法来确定何时发生交互以及谁参与交互。

　　潜在冲突检查

　　确定一个驾驶员是否会与另一个驾驶员（直接或间接）交互的一种直接方法是检查他们近期的路径是否冲突。如果路径冲突，则会发生交互，否则不会发生交互。该检查方法即冲突点的定义，“靠近车辆路径合并、分流或交叉区域的位置。”

　　假设只有潜在冲突的车辆才能相互交互，简化了交互场景，这与日常驾驶过程中的人类直觉一致。可以从多个移动目标的预测未来运动和意图来评估潜在冲突。

　　驾驶员可以利用道路几何和交通法规的相关信息来检查与他人的潜在冲突。当驾驶员进入交通规则明确的交叉路口时，可以通过检查与其他虚拟参考线的交叉点来识别冲突点。此外，驾驶员还用指示语及其对他人意图和动作的社会推理来识别潜在冲突点。例如，当驾驶员（表示为A）注意到相邻车辆（表示为B）打着闪光灯（即指示灯）或有意接近，目的是切入驾驶员A的前方间隙（即社会推理）时，驾驶员A可以识别驾驶员B的换道意图，接着发生冲突。

　　感兴趣区域设置

　　确定交互何时发生的另一种方法是在环境中设置特定的感兴趣区域（RoI）。同时占据RoI的任意一对智体之间存在交互，并且一旦任何一个智体移动到RoI之外，交互就会消失。设置RoI通常是面向应用的，可以根据以下两种方法进行设计：

　　以场景为中心。确定地图上的RoI，并将该地区的所有人类驾驶员视为交互智体。该方法通常用于预测和分析特定交通区域（如城市交叉口和环岛）中的多智体驾驶行为。在这些情况下，研究人员在地图上确定了涵盖此类场景的RoI，并假设占据RoI的所有驾驶员都会相互影响。

　　以智体为中心。将RoI与一个感兴趣的智体（即自智体）连接起来。这种方法通常用于研究自智体与其周围智体的交互行为，例如高速公路上的车道变换行为。RoI的形状有多种选择。例如，在研究高速公路上的车道变换交互行为时，通常将矩形区域连接到自车并设置为RoI。

　　请注意，有些方法还混合二者。例如，在设定高速公路路段的RoI后，进一步计算了智体之间的距离，以确定交互的存在。

　　上述RoI需要手工制定的规则，相关的评估性能可能对RoI的配置敏感。一般来说，RoI越大，参与的智体越多，可能会高估交互；而RoI小，参与的智体越少，可能会低估交互。为了克服这些缺点，可以根据驾驶任务主动选择交互智体。

　　面向任务的智体选择

　　人类将根据具体的驾驶任务，有选择地确定应该更多关注哪些智体以及何时应该关注。受这一事实的启发，研究人员根据问题及其相应交互过程的领域知识，根据经验为特定任务选择交互智体。例如，对于左车道变换任务，研究人员假设自车仅与当前车道上的领头车辆以及左目标车道上的领头和跟随车辆交互。该假设符合人类驾驶经验，并且可以通过只关注任务相关的智体来简化交互问题。然而，它需要具有特定领域知识的手工规则，并且可能无法捕捉个体在如何关注方面的差异。

　　检查驾驶员对彼此的影响可以确定是否存在人类交互。对于驾驶员之间的交互，一项关键任务是弄清楚 “如何在利用社会因素的同时量化这些交互？” 常用的量化方法，通常可分为两类：基于显式模型的方法和隐式数据驱动的方法。

　　基于模型的方法

　　最常用的显式量化交互的方法是构建交互模型，其中一些参数可以从传感器数据中估计，以量化智体之间的社会交互强度。研究人员利用基于不同假设的传感器信息开发了许多交互模型，如图所示四类。

自动驾驶

　　对于作为模型输入的传感器数据，设计师可以明确解释与物理距离相关的度量，从而获得更多研究人员的吸引。在应用中，可以直观地假设交互强度与交通场景中智体相对距离及其变量（例如，相对速度和加速度）相关。例如，相距较近的驾驶员在直觉上会视为彼此具有较大的交互影响。

　　1 基于理性效用的模型

　　人类驾驶行为或动作是（接近）最佳结果，可最大化环境的某些效用。在这一点上，研究人员将物理距离相关信息整合到目标/成本函数中，将驾驶员之间的相互作用表述为优化问题，这可以用现成的动态和线性规划算法来解决。通常，成本函数是根据交通管制和驾驶任务的先验域知识手工构建的。例如，研究人员将驾驶员的换道机动视为一个优化问题，即在车辆动力学约束下最小化横向路径跟踪误差（横向控制），同时保持期望速度（纵向控制）。通常，基于效用的模型可以在类似场景中仔细调参达到预期性能，但在未知场景中通用性较低。通常使用的模型是最优群（optimal swarms）、博弈论模型、模仿学习和马尔可夫决策过程（MDP）。

　　2 概率生成模型

　　社会交互情境的描述是一种条件，其中单个驾驶员的行为由其组织特征和环境决定，其他驾驶员的行为是环境的一个组成部分，反之亦然。从条件概率角度来看，驾驶员之间的交互影响可以解释为“在感知到周围其他驾驶员的状态后，一个驾驶员可能怎样采取特定的行动？”。该问题可以通过概率条件分布或条件行为预测来表示。

　　这一概念是贝叶斯网络的基础。此外，可以通过一种意外的交互来量化智体的交互作用。在这种交互作用中，一个智体（表示为智体B），由于另一个智体（表示为智体A）观察到的轨迹，而经历行为的变化。这种想法使得信息论中的大多数现成相似性度量方法（如KL发散）变得容易。

　　另一方面，交互作用也可以进一步视为（潜在的）概率生成过程或条件概率模型。例如，一种概率图模型捕捉领头车辆的未来状态与动态系统（即领头车辆和后随车辆）历史状态之间的相互作用。然而，它没有考虑并入车辆对前后车辆之间相互作用的影响。一种交互-觉察概率驾驶员模型，捕捉驾驶员的交互偏好，并且考虑到周围驾驶员行为的预测，驾驶员将在当前时间步执行机动。然后，在逆优化框架下，通过加权特征（即导航和风险特征）的组合来制定交互偏好。

　　3 潜在/风险域

　　基于人类驾驶行为来自基于风险域的假设，提出潜在/风险域的模型。在人类机器人和多车辆交互，已经广泛研究了势函数对智体之间交互进行建模。物理距离相关度量通过某些可学习可解释的函数（称为潜函数）允许有效地制定交互，这些函数可以嵌入交通规则和驾驶场景上下文的领域知识。

　　另一方面，势函数相对坐标系（例如，x和y方向）的导数，导致“推”或“拉”车辆的尺度化虚拟力，最小化车辆的局部规划成本，同时与周围的驾驶员进行交互。研究人员还设计了能量函数，根据周围车辆和自车之间的相对距离（通常是两条车辆轨迹的最小值或最近点）捕捉车辆间的交互作用。

　　然而，基于相对距离的测量并不总是正确地捕捉驾驶员之间的交互。当智体之间存在物理约束时，距离较近的驾驶员可能非常弱或无交互作用，例如高速公路护栏或对面车道的分隔线。

　　4 认知模型

　　研究人员用相对距离来表征驾驶员风格，并揭示多智体之间的交互过程，例如，心理学理论和信息累积测度。从行为科学和心理学角度出发，还开发了其他类型的交互模型来模拟人类的驾驶行为。

　　数据驱动的方法

　　与上述模型不同，该模型直接利用显式传感器信息来表征人类驾驶员之间的交互，另一种方法使用编码的隐式信息来量化交互。此类隐式信息通常以低维标量或向量的形式出现（在图模型中也称为嵌入），分为三种编码交互的方法。

　　1 深度神经网络

　　神经网络表示通过一系列基本层（例如，卷积和递归）将多个传感器信息映射到低维向量特征，例如，在自动编码器和生成对抗网络（GAN）结构中。此外，注意机制还可以集成到网络中，模拟驾驶员之间的交互。

　　2 具有社会池化的图神经网络

　　图神经网络（GNN）与常规深度学习（嵌入结构信息作为模型输入的多层神经网络）有一些共同点。信息池化是一种灵活的工具，可根据深度神经网络和大量编程开源的优势，将时域空间和空域空间的智体之间关系抽象为低维可量化嵌入（例如，归一化连续向量）。嵌入可以是时域相关的，捕获演化图（evolving graph）中节点和边缘的时间信息。

　　因此，它们可以通过聚合操作来表征人类驾驶员之间的交互强度，例如平均聚合、加权聚合和图演化消息（或图消息传递）。此外，池化操作可以独立或同时用不同的神经网络结构将信息嵌入到时域和空域维度上的低维潜状态中。前者通常首先应用时域模型（例如，LSTM）来独立概括每个驾驶员随时间变化的特征，然后用一个社会模型制定概括特征的交互，如convolutional social pooling。

　　能够模拟车辆交互的编码嵌入可以通过训练GAN和自动编码器获得。尽管一些方法在标准基准测试中显示了有希望的结果，但仍不清楚这些方法应该用什么信息来预测未来状态，以及如何用物理意义解释这些嵌入。量化交互关系的另一种方法，是在序列观测下采用某些图边缘的可学习权重，也称为加权图边缘。这些“编码器”的一个显著特征是，它们很少或根本没有提及学习的编码信息的有效性和可解释性。

　　3 拓扑模型

　　编码驾驶员之间交互的另一个想法是使用拓扑编织（topological braids）的形式将其映射为二重代数和几何性质的紧凑表示。这种紧凑的拓扑表示有助于理解任何环境中与任何数量驾驶员的复杂交互行为。

　　对社会驾驶过程中的影响建模

　　交通场景中的显式传感器信息和其他驾驶员行为中的隐式社会推断，使人类可以非常好地驾驶，从而进行安全的和社会可接受的操纵。人类的天性是，以社会偏好、社会模仿和社会推理等因素，赋予信息吸收和行为预期能力，这是社会兼容驾驶行为的核心。

　　对这些社会因素的定量评估需要计算认知科学和技术。

　　1 驾驶偏好的社会价值取向（SVO，Social Value Orientation）

　　人类驾驶员在与他人交互时会有各种社会偏好。社会偏好，如其他人类驾驶车辆的利他倾向，可以从计算心理学（如SVO）进行定量评估。SVO模型衡量了一个驾驶员如何将其奖励相对其他智体的奖励的加权，这可以从逆强化学习（IRL）结构下的观测轨迹中学习。然后，SVO模型的在线学习驾驶偏好，集成到两辆或多辆的车辆协同交互的游戏场景中。SVO概念已被广泛研究并应用于社会兼容的自主驾驶中。

　　2 社交驱动模仿的社会凝聚力

　　”人类驾驶员像绵羊一样相互跟随‘，共同作用对交通行为的影响非常强烈。因此，人类驾驶车辆的行为具有社会凝聚力——驾驶员会采取与周围驾驶员类似的行动。例如，如果领头车辆减速并采取轻微的“避碰”行为，自车驾驶员通常会采取类似的行动，在社交上假设可能存在虚拟障碍物（例如，圆锥体、动物身体、路面坑）。受人类驾驶员司社会凝聚力的启发，有人开发了一种凝聚增强的奖励函数，确定哪些方面（what aspects）、谁（who）、和何时（when）跟随以保证安全，自动跟随其他车辆。

　　3 现场-觉察的社会感知

　　人类可以主动收集并获取有关环境的附加信息，创建相对完整的交通场景，从而提供足够的信息并提高环境意识，从而进行安全高效的机动。例如，通过感知相邻车辆的减速和停车行为，无论驾驶员的视线是否被遮挡，人类驾驶员可以推断出潜在的行人通过道路。人类将其他驾驶员视为传感器的能力已被设计并集成到自动驾驶车辆中，增强驾驶员的现场-觉察。

　　4 驾驶风格的社会交互风格

　　人类驾驶员通过评估和平衡未来不同的奖励条款来制定规划并采取行动。根据其内部模型、驾驶任务和动机，人类可能会格外关注不同的奖励条件，通过这些条件，人类与周围环境之间表现出不同的交互风格，如攻击性、保守性、礼貌性、自私性和非理性。因此，交互样式可以表示为在生成轨迹时不同特征的加权结果。例如，研究人员定量衡量这些社会因素诱发的交互风格作为奖励特征。然后，用逆强化学习（IRL）从轨迹中学习此类特征的权重或排名目标函数。

　　如图是人类驾驶员之间交互建模和学习的方法概述：包括基于理性效用的模型、基于深度神经网络的模型、基于图模型、社会场和社会力以及计算认知模型。

自动驾驶

　　基于理性效用的模型

　　日常交通中最常见的交互场景是城市环境和高速公路中的跟车、汇入/汇出和换道。研究人员将人类驾驶员视为最优控制器，其具有可访问的目标函数，实现预定义的目标导向（goal-oriented）任务，制定这些场景中的行为。

　　例如，当在公路闸道上汇合时，将整个过程视为一个显式动态系统，可以将公路上后方车辆对前方车辆的纵向行为（如加速/减速）表示为一个最优控制器。然而，自然交通场景中驾驶员或其他人之间的交互具有物理（例如，运动学和几何）和社会（例如，意图、注意和责任）约束。

　　通常，基于优化的方法需要特定的目标（例如，车辆之间的期望间隙和车头前进速度）和待优化的目标函数。

　　本文没有列举所有基于优化的方法，但选择了一些流行的方法，包括基于swarm/flocking的模型、博弈论模型、模仿学习和马尔可夫决策过程（MDP）。

　　基于swarms/flocks的方法

　　值得注意的是，在应用中Reynolds规则的大多数具体实例是基于牛顿运动定律传播的动态模型。因此，这需要开发一套反映Reynolds定律的力分量全集，这些力分量（即内聚、分离和对齐）与用于模拟行人交互的社会力理论各部分完全匹配。

　　Reynolds规则揭示了交互的基本机制，比基于社会力的理论更具普遍性。

　　尽管flocking启发的规则成功地揭示了动物（如鸟类、鱼类和羊群）之间的群体（swarm）交互机制，但它们只能在自由空间或有静态障碍物的空间（如天空中的鸟类和海洋中的鱼类）中很好地工作。

　　在交互式交通场景中，这些规则可能由于两种类型约束而失效。

　　（i）交通环境的限制。flocks运动的空间有微弱的物理限制，甚至没有物理限制，例如在开阔的天空和水下。相反，道路车辆的运动空间具有来自道路轮廓和交通基础设施的许多约束。例如，车辆应在车道内行驶，而不是在道路边界内行驶。

　　（ii）智体本身的约束。行人和flocks具有高度的运动，例如行人可以在不改变位置的情况下转身。然而，人类驾驶员操作的车辆具有物理运动约束，例如车辆结构导致的最大转弯角和最小转弯半径。

　　总之，在真实道路交通中，采用flocks启发的方法去捕捉人类驾驶员交互会带来一些挑战：

　　1.交通规则：交通场景是结构性的，因为交通标志和灯控制交通。人类驾驶员应该遵守许多交通规范和规则，以确保安全和效率，例如保持车辆在车道上。

　　2.个体异质性：并非每个人类驾驶员都会严格遵守Reynolds规则的每一项；相反，人类驾驶员可能会根据他们的驾驶任务调整规则。例如，人类驾驶员的期望状态可能因其驾驶风格而不同。此外，人类行为可能是随机和时变的。因此，因为道路使用者的个体异质性，很难完美地标定模型匹配所有个体的观测值。

　　博弈方法

　　大多数最早的驾驶员交互博弈论模型关注矩阵博弈。目前，大多数人将交互行为转化为迭代优化问题，角色分配将影响模型性能。因此，动态博弈所需的第一个问题是“自车应如何在连续博弈的单个阶段考虑其他驾驶员的影响和角色？”通常，这个问题有三种解决方案，如图所示，将人类驾驶员视为（a）障碍，（b）理性追随者，以及（c）相互依赖的参与者。

自动驾驶

　　博弈论框架提供了一个可解释的显式解决方案来模拟人类驾驶员之间的动态交互。然而，尽管简化系统动力学和信息结构方面取得了一些进展，但仍难以满足其在连续状态-动作空间中计算易处理的实时约束。由于这些限制，大多数当前的博弈论交互建模方法都存在可扩展性问题，因此仅限于两个车辆的设置和模拟实验，或只是成对地处理多智体场景。

　　社会偏好是一种方法，将重复博弈的长期影响补偿为单步博弈的奖励。社会价值反映了智体在交互中的经验，可嵌入智体的效用（RL领域称为奖励，或控制理论领域称为成本函数）。

　　人类是有适应性的，通过与环境安全交互的奖励-强化机制学习驾驶。受此启发，学习与其他驾驶员交互的过程，可以通过博弈论的强化学习来制定。除自车之外的智体可视为环境的一部分，会产生两种交互建模的博弈方案。如图所示：分为异步和同步。

自动驾驶

　　•异步方案。每个驾驶员将其他周围驾驶员视为环境的一部分，如图（a）所示。异步方案下人类驾驶员之间的交互动力学可以用特定的博弈论方案实现，如k-级博弈，其中人类驾驶员的行为以迭代方式预测，如图（c），而不是同时评估。具体来说，为了获得一个k-级智体的策略，所有其他智体的策略都设置为（k-1）-级，这有效地成为动态已知环境的一部分。因此，k-级智体的策略估计是对其他（k-1）级智体操作的最佳响应，如图（b）所示。

　　•同步方案。在多驾驶员交互场景中，每个人类驾驶员都试图通过类似试错的过程同时解决顺序决策问题。环境状态的演变和每个人类驾驶员收到的奖励函数，是由所有驾驶员的联合行动决定。因此，人类驾驶员需要考虑环境和其他人类驾驶员并与其交互。为此，同步方案可以通过马尔可夫博弈，也被称为随机博弈，捕获涉及多个人类驾驶员的决策过程。每个智体表示为基于MDP的智体，形成多智体强化学习（MARL）。

　　MARL算法的不同学习范式可以设计为不同交互任务的特定假设。从理论上讲，学习范式可分为六组，如图所示：（a）共享策略、（b）独立策略和（c）组内共享策略。（d）一旦中央控制器控制所有驾驶员。（e）集中训练和分散执行：在训练期间，驾驶员可以随时与任何其他驾驶员交换信息；在执行过程中，驾驶员独立操作。（f）联网驾驶员进行分散训练：在训练期间，驾驶员可以与网络中的邻居交换信息；在执行过程中，驾驶员独立操作。

自动驾驶

　　单智体的MDP

　　另一个建模自车如何学习与他人交互的流水线是单智体MDPs方案。单智体MDP假设包含其他智体的环境是静止的，因此可以通过马尔可夫决策过程（MDP）来表示。自车在与环境交互时，动态展开交互轨迹，在考虑其行为影响的情况下，尝试选择最佳规划，最大化相关奖励。

　　从人类演示学习驾驶

　　以上讨论的群优化和博弈论方法都是前向设计。通过启发式设置超参来解决优化问题，而不是使用数据进行优化。利用认知领悟分析场景，然后设计一个先验已知的相关成本/目标函数，模拟人类驾驶员之间的交互行为。

　　驾驶员之间社会交互背后的决策和运动，潜在机制是复杂的，难以编码为简单的手工编程规则。一般来说，演示交互行为要比指定生成相同行为的奖励函数容易得多。这一事实为模拟和学习人类驾驶员的交互提供了另一种选择：通过模仿学习直接从人类演示中学习交互行为。

　　基于所学（行为轨迹或效用），有两种方法：（i）行为克隆，其直接学习从观测（例如，图像）到动作（例如，转向角和油门踏板）的映射；或（ii）效用恢复，它间接地使用数据来检索奖励函数，计划的交互行为尽可能地模仿演示。

　　行为克隆是模仿学习的最简单形式，它专注于监督学习去复制智体的策略。其主要优点是简单和高效。行为克隆旨在解决回归问题，其中通过最大化目标函数（例如，在训练数据中采取行动的可能性）或最小化损失（例如，模拟数据和真实数据之间的行为推导）来实现优化。

　　行为克隆在为简单的驾驶行为（如车道跟踪和高速公路上的汽车跟随）制定驾驶政策方面表现出了效率。行为克隆的成功依赖于能够充分覆盖训练和测试数据集的状态和活动空间的足够数据。然而，行为克隆并没有利用训练过程中的级联学习（cascaded learning）错误。假设数据独立且相同分布（i.i.d.），测试过程中将出现级联误差。因此，行为克隆学习的模型在复杂的交互场景中通常表现不佳。

　　行为克隆旨在通过回归技术直接复制专家的行为或轨迹。相反，IRL方法依赖于从观察的交互行为/轨迹中检索成本函数，前提是奖励函数在不同交通场景中最简洁、稳健和可转移。这一假设与一个事实相吻合，即人类驾驶员可以从未见过的场景中与其他智体高效、安全地交互。

　　恢复智体之间的交互过程通常假设环境状态本质上具有马尔可夫属性，其将学习任务模拟为马尔可夫决策过程（MDP）。因此，人类驾驶员的交互过程通过参数化模型来描述，该模型参数可以通过优化设计的目标函数来估计。直接的方法是使用标准MDP，其中其他人类驾驶员被视为环境的一部分。

　　在现实交通中，人类驾驶员的感知能力有限，无法准确感知所需信息；因此，可以使用部分可观察的MDP（POMDP）对交互进行建模。在MDP结构下，人类驾驶员的交互决策和控制被视为当前交通场景的最佳解决方案，通考虑短期内可能的结果，最大化其回报（或最小化其成本）。这种假设允许逆最优控制（IOC）或IRL学习人类驾驶员的交互过程。

　　请注意，IRL在模仿学习和博弈论模型中用作检索奖励的函数，但发挥不同的作用。在模仿学习中，IRL旨在学习自车智体的奖励函数，模仿自车智体的驾驶行为。在博弈论模型中，IRL用于学习作为自车智体输入的其他智体奖励函数。

　　基于深度神经网络的方法

　　主要关注车辆状态（例如，位置、速度、加速度和航向角）作为输入的方法，同时考虑以下两个方面。首先，直接处理原始传感器数据的深度学习方法（例如，摄像机RGB图像和3D激光雷达点云的卷积），通常遵循纯端到端学习过程，导致弱和隐式交互推理。此外，这些工作的中心焦点通常不在于交互建模。第二，大多数现有的高质量自主驾驶运动数据集16可以提供足够和精确的代理状态轨迹信息。

　　交互编码

　　深度学习是一种强大的工具，具有良好的多智体交互建模潜力。如今，神经网络可能非常复杂。例如，用于自然语言处理（NLP）任务的大型模型GPT-3在其完整版本中有1750亿个模型参数。

　　然而，基本上有四种类型的基本神经网络构建块（全连接层、卷积层、递归层和图层），可以为特定应用开发复杂的网络。不同的构建块在数据和解决方案空间上造成不同的归纳偏差。人们选择不同的构建块将不同的归纳偏差注入学习过程获得更好的性能，而不匹配的归纳偏差可能反过来导致次优或较差的性能。

　　对于许多深度学习实践者来说，这些模块可能已经是现成的，并且正在开发每个层更复杂的变型和操作。

　　社会交互的特征表征

　　时空状态特征张量、空间占用网格和动态插入区域是与深度学习模型交互建模常用的三种特征表示。

　　1）状态特征列表

　　假设N个智体对交通场景感兴趣，并且其状态特征是可测量的。将时间步t第i个智体的状态特征表示为垂直向量x（i），如图所示。

自动驾驶

　　这种表示是有效的，是表示交互场景所需的最小信息量。然而，它有两个局限性。首先，特征大小、车辆数量和每个车辆的有效时间步长T可能随时间和空间变化，这对于期望恒定大小输入的学习方法是有问题的。其次，这种类型的特征表示是置换可变的，即取决于交互智体列出的顺序。例如，简单地切换智体i和智体j的特征条目将导致不同的特征表示。避免这些限制的常用方法是使用占用网格图如下。

　　2）占用网格图

　　占用网格图定义了自车周围（即以自车为中心）或特定固定区域（即以场景为中心）中的空间网格。占用网格图可以处理感兴趣区域（RoI）中不同数量的智体。占用网格图可以通过填充原始状态（例如，位置、速度、加速度）或编码状态（例如由全连接层输出的隐藏状态）来表示交互场景。智体之间的空间关系自然地在网格图布局中捕获。此外，如图所示，如果网格h（i，j）（由色条表示）由隐藏特征填充，这些隐藏特征的编码独立于每个车辆的τ时间步长历史轨迹：

自动驾驶

　　请注意，网格图的形状取决于场景。例如，网格图可以是公路交互的矩形网格或环形交叉口的对数极坐标网格。空间网格表示是光栅大小和智体顺序不变的，但反过来，由于张量的大小与覆盖面积大小和网格分辨率相关，因此会受到精度-大小权衡的影响。

　　3）交互图

　　另一种表示将驾驶场景中的实体表示为图节点vi，并将实体之间的关系表示为图边缘ei。时间范围T中的所有节点和边缘，然后构造时空交互图G，该图允许显式交互和关系推理。

　　有两种类型图，在实体/节点的定义上有所不同。第一种是基于智体的图，它将场景中的智体表示为节点。智体指道路参与者，如车辆、行人、摩托车。每个节点由每个智体的状态特征或编码特征表示。

　　基于智体的图集中于表示智体，而另一个称为基于区域的图集中表示车辆的意图。许多方法根据机动级别对驾驶意图分类，如车道保持、车道变换和转弯。然而，这些操作在驾驶场景中受到高度限制。例如，由于不同的道路拓扑结构，在高速公路或环岛上的机动可能会非常不同。

　　为了使自动驾驶车辆在现实生活中经过动态交互交通场景，需要对驾驶意图进行统一和通用的定义。为此，一个有希望的表示是动态插入区域（DIA），即车辆可以插入的驾驶场景可用间隙。如图所示，当从场景中提取DIA时，静态元素（道路拓扑，如Frenet帧坐标、道路标记，如停车标志）和动态元素（如场景中的移动车辆）都会被利用。因此，DIA可以作为动态环境的统一表示，涵盖所有道路设置上所有类型的驾驶意图和交互。在形式上，时间步t的第i个DIA定义为Ati =（Xfront，Xrear，Xref），包括DIA所在的前边界Xfront、后边界Xrear和参考路径Xref的信息。前边界和后边界由车辆或道路标记形成。然后，时间范围T中的所有DIA可以构造时空语义图Gt，其中每个DIA用作图的节点。

　　社会交互编码

　　智体交互的编码，采用以下几种神经网络：全连接层、卷积层、递推层和图层。

　　全连接层交互编码的思想是，将来自不同智体的所有特征展平并连接到单个向量中，并馈送到全连接层中。理想情况下，智体之间的交互通过堆叠的全连接层之间的信息交换进行编码和处理。然而，这些架构中的交互建模通常被认为是非常弱和隐式的，因为缺乏数据结构并在模型中造成归纳偏差。

　　对于神经网络来说，区分来自不同智体的特征可能具有挑战性。此外，按不同顺序排列智体导致不同的输出，这可能是矛盾的，因为考虑的是相同的场景和智体。因此，但很少用于建模智体间交互。

　　卷积层交互编码的思想是将时空特征（例如，状态特征张量或占用网格图馈送到卷积神经网络中，用于交互分析。

　　理想情况下，卷积交互编码可以更好地利用智体之间的空间关系进行更深入的交互推理。然而，实际交互可以是局部、非局部和选择性的，取决于具体的驾驶情况。因此，在空间网格上应用卷积运算是否能够覆盖足够的交互信息和推理仍然是一个问题。

　　递归层交互编码处理时域推理的交互编码。

　　图层交互编码有望更好地处理多智体环境中的关系推理。通常，智体被表示为具有属性的图节点。智体之间的关系由节点之间的无向或有向边缘表示。节点和边缘一起构成时空图。然后，创建的图被馈送到图层中，用于消息传递中的交互学习，其中每个节点聚集其相邻节点的特征更新其自身的节点属性。这种图层交互编码具有两个优点：可变的智体数和置换不变性。

　　通过注意编码社会交互

　　除了上面的神经网络层之外，另一种编码主体之间社会交互的流行思想是注意——一种量化一个特征如何影响其他特征的机制，从而表示特征之间的关系。在实际交通中，人类在交互场景中驾驶车辆，有选择性地计算其他交通智体的空间和时间影响。每个智体都应该关注历史、现在和未来时间其他智体的驾驶行为。例如，一名驾驶员在高速公路上临时改变车道时，会比其他车道上的车辆更加关注目标车道（target lane）的汽车。

　　那么，如何制定注意机制并设计注意模块来捕捉这种影响呢？

　　在不损失一般性的情况下，一个简单的想法是将每个实体矢量化，然后使用特定的功能度量来计算注意水平。以简化的两个智体交互场景（智体i和智体j是实体）为例，每个智体行为由独立矢量化特征（分别表示为hi和hj）表征。如果功能测量输出大的注意值，则智体i对智体j具有强大的影响。

　　根据最一般的定义，注意机制可以量化不同类型实体对时域空间（短期和长期）和空域空间（远程和局部）的影响。以下有五种常用的实体表示：

　　时域注意
　　智体成对注意
　　基于空域网格的注意
　　基于DIA的注意
　　基于图的注意
　　模型参数学习

　　在智体交互建模之后，需要一个训练过程来使用数据标定模型参数，这通常是通过基于梯度的优化算法实现的。根据任务的目标，设计不同的损失函数反向传播和调整模型参数。例如，对于驾驶行为预测任务，损失函数通常会使预测与真实情况之间的误差最小化，而对于强化学习任务，损失函数会鼓励智体获得更高的回报。

　　此外，损失函数的设计还取决于模型输出的表示。许多现有工作具有模型输出确定性值，其中训练过程被视为确定性回归器。还有一些方法采用生成概率方法，输出这些行为和意图的概率分布，其训练过程是一个概率最大化过程。

　　基于图模型

　　日常交通场景中道路用户之间的交互是结构化的；它们随着不确定性的时空动态变化，其中相互关联的部分（例如，智体、道路线、障碍物）在交通规则和社会规范的约束下组织和演变。事实上，基于图的模型为处理交互行为的复杂性和不确定性提供了一种自然工具。

　　图模型提供了一个直观的界面，研究人员可以通过该界面对高度交互的变量集和数据结构进行建模。此外，基于图的模型通常可以解释为人类主体之间的结构化关系。使用图模型，能够设想针对特定环境的新模型。例如，图神经网络将其节点（顶点）指定为人类智体、实例或决策相关状态，并将节点之间的边缘（弧）指定为交互，例如智体的速度和相对位置。

　　如图提供了一个案例，以图方式表示智体之间的交互关系，其中行为随时间演变。

自动驾驶

　　以下是三种基于图的交通场景交互建模方法：图神经网络、贝叶斯动态网络和拓扑模型。

　　图神经网络

　　用于交通智体交互的基于GNN模型，有不同的名称，例如交互图、智体图、场景图或交通图。本文统称为交互图。

　　在该模型中，交互场景中的N个智体通常由具有N个智体节点（也称为顶点）和N×N条边缘的图表示，这些边缘表征它们之间的交互。交互图可以具有一些节点属性（例如人类驾驶员的状态）和边缘属性（例如，人类驾驶员之间的关系）。除了将人类智体视为图节点外，其他特征，例如潜目标位置（例如，车辆之间的插入区域）也可以视为图节点。

　　设计的图结构可以是静态的或动态的。借助动态图，模型可以利用图关联结构的不同交互和不同的模型输入。在创建高效的交互图之前，应考虑一些相关问题，包括：

　　如何使交互图能够捕获智体在空域和时时域的依赖关系？

　　如何使学习的交互图可转移？

　　如何使交互图适用于交通中的异构智体？

　　如何将环境信息整合到交互图中？

　　如何使交互图与任意数量的智体兼容？

　　贝叶斯动态模型

　　贝叶斯网络是一种概率图模型（PGM）。通常，PGM被用作一种标准图工具，用于计算具有高度结构的大概率分布。与基于GNN的交互模型不同，BNs的节点表示随机变量（例如，具有噪声或离散机动的智体状态或传感器信息），边缘表示条件概率分布中节点之间的随机因果关系。这些依存关系可以用有向无环图进行示意性表示，依赖的结构通常反映分层生成过程，类似于条件行为预测。普通BNs提供了一个概率图架构，该架构明确描述了单个时间片上智体之间的因果依赖关系，但不包括时间依赖关系，如图（a）所示。

自动驾驶

　　动态贝叶斯网络（DBN）作为一种贝叶斯动态模型，是一种BN，包括节点的时间依赖性，简单地说，随着时间的推移重复普通BN的依赖性结构，如图（b）所示。DBN节点在这些时间片上的某些依赖性通常被视为交互的时间动态。

　　作为一般框架，DBN适用于智体交互，建立描述不确定动态过程的概率模型。在应用中，DBN中的时间依赖性通常被实现为确定性递归过程（如RNN）或一阶马尔可夫过程（如状态空间模型）。从这个角度来看，一些SSM和RNN可以被视为DBN的特殊情况。

　　在实际交通中，道路使用者的交互行为是非线性的、上下文相关的，并随时间演化。观察的传感器状态，是其内部模型（例如，潜/隐藏状态）的生成和实现，通常是不可测量的。

　　基于BN的交互模型是一个强大的工具，可以以结构明确的方式捕获复杂的交互，包括物理约束、不可观测状态和观测的不确定性。通常，使用DBN对交互进行建模可进行可靠的长期预测，因为其动态地考虑人类驾驶员的运动和决策之间的相互影响（或相关性）。

　　然而，模型性能在很大程度上取决于模型假设的正确性。例如，具有风险最小化假设的基于DBN模型，无法正确捕捉实际危险交通情况下的条件行为。另一方面，DBN的计算复杂度会随着交互场景中涉及的智体数量的增加而呈指数增长。因此，目前DBN基于现有数据集进行离线评估和实验室测试。

　　贝叶斯非参数动态网络可以从多变量连续观测中自动学习相关模式，而不需要模式数量的先验知识。尽管贝叶斯非参数动态网络能够提取构成连续行为的基本元素，但还不能直接揭示人类驾驶员在奖励和行为方面的动态决策过程。这是因为他们的基本动态模型（如HMM、SSM）没有考虑奖励和动作。

　　拓扑模型

　　在交互场景中，人类是通用智体；人类行为解释的机制是目的论（teleological）。此外，人们的决策受益于其构建的心理表征，如拓扑结构，在复杂的交互中取得成功，有效地简化了推理。因此，人类将其观测抽象为高层嵌入，是不变、可共享和可重用的交叉交互场景和行为。那么，如何定义和查找这些嵌入？

　　尽管贝叶斯非参数动态网络可以在低粒度提取基元来分析高维序列，但不能考虑多智体交互的行为和几何结构以及目的性推理。对于多智能体行为，自然会提出两个基本问题：

　　是否有一种方法可以从代数和几何上将任何复杂的、时空多智体交互行为编码为紧凑表示？

　　是否有一种措施可以识别智体轨迹保持拓扑的变形？

　　拓扑模型为这两个问题提供了初步解决方案，可以将结构化信息转化为抽象形式。经常使用两种拓扑模型：第一个问题的拓扑编织和第二个问题的拓扑学不变性（topological invariance）。

　　社会场和社会力

　　在模拟复杂（例如，环境、内部和社会）运动激励下的人类驾驶交互时，在感知道路边界和人行道等交通环境时，必须考虑人类大脑中主动产生的虚拟力。另一方面，考虑其他人类驾驶员对社会驾驶规则的影响也同样重要。例如，当人类驾驶员接近交叉口并在无保护情况下左转时，看到一辆激进前行的车辆，驾驶员将在碰撞之前改变其决定。在这个过程中，前来的车辆不会向自车施加接触力，但人类驾驶员的反应就像存在力一样。这种不存在但可以直观地描述和解释社会交互的虚拟力是社会力模型。

　　此外，力是所有交互和运动的支配和统一因素，基于社会力的奖励设计可以改善多机器人导航的交互性能。因此，可以合理地假设，与人类驾驶员相关的运动（例如，前移和转向）由人类内心产生的虚拟力（例如，内部动机、期望速度和目的地）和外部约束（例如，交通管制、障碍物和运动智体）控制和驱动。

　　从场和势的另一个角度来看，人类驾驶员跟随车道并与其他车辆交互的根本原因是驾驶员将自己限制在交通环境和其他因素影响形成的场中。人类驾驶员通过平衡成本和回报来生成轨迹并采取行动，这导致以势场（potential field）为特征的总效用。虚拟力迫使人类智体向较低的场值移动，类似于物理学中电场中的带电粒子。在讨论社会力时，相应积分如势、场和能量等无法避开。

　　另一方面，如图所示，人驾驶车辆的运动状态（即速度和位置）是从随时间变化的加速度得出的。因此，直接学习加速度可以捕捉到社会力的相同交互效应。

自动驾驶

　　在物理学中，物理量（例如速度、温度、电和磁）在特定空间区域中的分布称为场（field）。类似地，交通相关量（如感兴趣区域中的风险或安全水平）的分布被称为风险或安全场，称为安全旅行场（Safe Travel Field）。场论提供了一个统一的框架来描述环境约束和碰撞风险，从中可以实现移动机器人的次/最优轨迹和运动规划。人类驾驶员通过感知-动作环路与周围环境交互：实时评估环境的风险水平，预测其他智体的运动，然后对动态环境产生反应。

　　社会场

　　场论是一个特殊的领域，它揭示在道路行驶时纵向和横向车辆操作交互的潜在机制。相关构造场也用于表示人类驾驶员与交通环境之间的交互。在多车辆交互交通场景中，现有研究采用了许多与场理论相关的不同术语，包括风险场/地图或驾驶员风险场、驾驶风险势场，人工势场，事故风险成本，或驾驶安全场等。虽然使用的术语多种多样，但它们有共同点：人为设计和基于风险信息。社会场分为三类：风险/安全场、潜在场和占用场。

　　安全行驶区域的特征在于预定义空间上风险值的标量，形成风险场。许多因素会影响风险水平。交通心理学认为，安全旅行场由三个子场组成：人类驾驶员场、其他人类驾驶员场和汽车场本身。然而，他们没有考虑固定交通结构（如道路边缘和车道线）和交通控制（如停车标志和交通灯）的影响。

　　研究人员首先定性分析人类驾驶员在交互中的典型感知反应，然后设计具有相关约束的每个子场函数。如表1列出了每个子场公式的几种常用核函数，其中大多数是基于高斯的，因为可解释和可微分。

自动驾驶

　　除静态障碍物和道路约束外，所有设计的子场都是动态的，并随时间和空间变化。也有其他替代方法来模拟交互作用。例如，一个简单的想法是使用纯数据驱动的方法，如神经网络，但它们通常缺乏可解释性。

　　在物理学中，电势和场之间存在显式和直观的关系，例如电场和电势，这里电场是电势相对于距离微分的负数。与具有严格、客观证明和验证的物理定义势不同，安全驾驶势函数是启发式，也是人工设计的，根据专家的见解和对人类驾驶行为的理解。

　　与风险场一样，势场是几个独立子势场的聚合或加权和。然而，研究人员对势场的定义有不同的看法。一些研究人员认为，移动和非移动目标都会影响势场。

　　基于场论的方法固有的困难是参数估计。大多数研究人员根据他们对人-驾驶员互动的主观定性判断和评估确定了场参数。选择最优超参很繁琐，这是一个NP- hard问题。虽然估计场参数似乎很难，但通过仔细设计特定驾驶行为的可计算场，已经取得了一些有希望的进展。

　　一般来说，人类驾驶员之间的交互是复杂的，潜在和风险场的混合可以为特定实现的行为建模提供有效的解决方案。

　　社会力

　　这里不讨论人类驾驶员与其他类道路使用者（即行人、骑自行车者和摩托车者）的交互；相反，只关心道路人类驾驶车辆之间的交互。

　　在自然交通场景中，复杂的传感器激励（即内部、环境和社会）会带来行为反应，该反应取决于人类驾驶员的目标（aims），并从一组行为备选方案中选择使效用最大化。理性和有经验的人类驾驶员通常会根据其大脑习惯适应他们熟悉的情况；因此，驾驶员的反应是相对自动的，并由他们的经验决定哪种反应最好。

　　在这样的观点下，研究人员通过一个被称为社会力的向量化，从数学上恢复了行为规则和人类主体之间的影响。人类主体和物理限制之间产生的社会力是导致行为变化的根源，通常由三种内部、环境和社会激励相对应的力组成：自驱动力、排斥力和吸引力。

　　这三类力来自行人或人群，基本上涵盖了交通中交互驾驶行为的所有基本社会力。然而，由于行人和车辆之间的差异，有必要修改这些力，使其适合特定应用。例如，由于物理限制，对车辆加速度和角速度的限制必须比行人更严格。

　　此外，社会力量允许将环境物理约束和交互行为的领域知识转化为个人的动态模型。虽然简单设计复杂的社会力模型听起来很合理，但它通常不会像预期的那样起作用。通用建模过程是一个循环和迭代过程，包括原型设计、参数调整、基于仿真的评估、参数标定以及基于数据和仿真的评估，如图所示。

自动驾驶

　　标定一个良好的社会力模型并非易事，因为（i）大多数模型参数没有可直接测量的当前具体解释-其中大多数是抽象意义，（ii）一个单一参数通常会影响驾驶行为的许多方面，尽管社会力模型被假设为几个独立的子力模型的组合，以及（iii）驾驶行为的特定方面由一个以上参数产生。

　　大多数现有的社会力模型在没有具体解释的情况下以启发式和主观方式标定模型参数。没有唯一的标准方法来调整这些参数或使用数据驱动技术进行模型标定。幸运的是，存在一些方法来标定行人和车辆行人的社会力模型。

　　当使用数据驱动技术进行标定时，研究人员通常将模型参数分为两类：可测量和不可测量。可测量参数可通过传感器直接获得，或通过统计数据分析和车辆的物理限制（如最大转向角和加速度）进行标定。而对于不可测参数，需要使用曲线拟合算法和遗传算法非线性规划。

　　受加速度和力之间关系的启发，直接学习加速度是产生社会力的一种替代方法，而不是通过场论估计智体之间受影响力。计算认知模型

　　认知机制是使人类驾驶员通过隐式通信安全有效地与其他理性主体交互的强大属性之一。所有捕捉人类驾驶员交互的方法都有相关的行为基础，并得到行为和心理行为认知的支持。因此，认知理解交互是设计有效交互建模方法的前提。解决认知科学前沿的基本问题，将是在社交道路上实现社会兼容自主驾驶的一个解决方案。

　　现有关于认知模型的研究大多集中于个体的驾驶行为，而不是主体之间的交互。它们特别适用于建模单个智体在较高级别和较低级别行为之间的关系。

　　在交互过程中，驾驶员需要主动和被动地感知其周围的车辆，根据其先验知识对其他车辆的当前行为以及自车预期的未来潜行为作出反应，并最终根据其对环境判断的信念做出有效决策。受交互过程的启发，这里试图从自车驾驶员的角度回答一些基本问题：

　　1.驾驶员会如何响应他人的行为？

　　2.驾驶员如何理解他人的行为？

　　3.驾驶员如何感知，即处理感知信息，去做出决策？

　　上述三个问题中的每一个都可以用一个特定的（但不是唯一的）认知理论来解释。

　　激励-响应

　　基于此，许多经典的交互模型被开发来解释人类驾驶员，例如经典的跟车模型以及变道交互模型。激励-响应交互归类为简单的社会交互（例如，跟车行为中的反应性交互）。

　　心理理论

　　人类是天生的读心术；人类驾驶员天生就具有将自己置于其他驾驶员的位置并对其行为和意图进行推理的能力。与人工机器不同，心智理论（ToM）描述了人类与其他人类主体交互能力的一个基本属性，即人类可以对其他人类主体的心理状态和行为进行推理。

　　一个经典的认识是人类通过镜像神经元的能力，即将自己置于他人的位置的能力，能够更好地与环境交互，并更有效地与同伴合作。例如，在高速公路上理性的人类驾驶员通常会留出空间，让路给试图合并的闸道车辆。

　　在交通心理学中，ToM广泛指的是人类驾驶员在没有明确沟通的情况下代表他人心理状态的能力，包括他们的欲望、信念和意图。

　　如图（a）和（b）比较了ToM和IRL/RL的结构，并表明可以在IRL/RL结构下指定ToM。蓝色箭头表示人类的心理状态推断（即在某些观察行为下，推断人类不可观察的信念和愿望），这与IRL中的问题相对应（即，根据一些观察策略执行，推断出智体的世界不可观察模型和奖励函数）。此外，ToM可以将人类心理形式化，即给定观察行为不可观察变量（即信念、欲望和感知）的贝叶斯推理，这是行为的生成模型。

自动驾驶

　　如表2还说明了ToM、IRL/RL和贝叶斯ToM的核心组件之间的联系。

自动驾驶

　　另一方面，ToM还提供了博弈论方法和假设，使它们在建模交互时计算上易于处理。

　　信息积累机制

　　漂移扩散模型（DDM）是一种具有扩散（Diffusion）信号的顺序采样模型。决策者积累证据，直到达到上限或下限，然后停止并选择对应于该边界的备选方案。

　　一个典型的例子是在无信号环行交叉口汇入交通流时的决策过程。驾驶员在附路的环形交叉路口等待，直到目标“间隙”达到可接受程度。等待时间是驾驶员做出汇入风险决策的概率累积指标：等待时间越长，做出的风险决策就越大。许多现有的工作只关注驾驶员将做出什么决策，例如行为建模和预测，而较少关注该过程如何操作，以及随着观察到越来越多的信息去触发决策。

　　请注意，为了揭示做决策时如何使用感知信息（即感知决策），行为科学中通常存在四种决策理论：理性模型、完善理性、证据累积和并行约束满足模型。然而，到目前为止，只有证据积累被用于解释交通场景中的人类驾驶行为。

　　讨论

　　一些问题和可能的方向：

　　1 社会交互模型是真得社会觉察吗？2 模型假设和数据集之间的移动3 认知科学能帮助自动驾驶车做到社会兼容？4 轨迹预测模型越精准就越好吗？

　　总结一下：

　　道路交通的交互：什么角色？什么时候？

　　其中提到三种方法：潜在冲突检查、RoI设置和面向任务的智体选择。

　　基于潜在冲突的方法将低估交互，因为根据潜在冲突定义，例如智体之间的通行权。然而，驾驶过程中的一些社会交互并非源自潜在冲突，而是源自凝聚力。例如，一个好斗的司机会模仿他/她前车的行为，在十字路口面对黄灯时采取机会主义行动向前冲。

　　应该强调的是，潜在冲突的方法不会将其视为一种交互。如果假设占据RoI的所有智体都相互作用，则RoI方法可能会高估交互作用。在自然交通中，并非RoI中的所有智体都在交互网络中激活；相反，人类驾驶员可能仅与某些智体直接交互。

　　此外，RoI的大小通常也难以配置，因为它与任务和环境相关。面向任务的智体选择是模拟人类驾驶员如何交互的理想方法。然而，建立这种类型的模型具有挑战性，因为交互过程的了解很少是先验的。此外，人类在决策过程中的选择性注意是动态和随机的），这需要时域适应的模型。

　　基于理性效用的建模

　　理性人类驾驶行为是对动态环境做出响应的所有可能解决方案中“接近最优”或“最优”结果。这一观察结果，能够将人与人之间的交互表述为一个可计算的优化模型，最大化特定的目标。另一种流行的行为优化方法是速度障碍（VO，velocity obstacles），用于模拟人类驾驶交互同时保证无碰撞，该方法已广泛应用于多机器人领域。该方法成功地模拟异构交通环境中的交互和交通轨迹的预测。

　　基于优化的方法在分析上可以解释，在数学上可以证明，包括不同的约束以避免碰撞。然而，对于具有满意计算性能的在线应用程序来说，解决此类复杂优化问题将是一个挑战。

　　基于神经网络的建模

　　基于深度学习的方法提供了一种灵活的网络架构，用于表示和学习交通智体之间的交互，得益于模块化的层结构和丰富的数据。基于深度学习的方法已经通过许多与驾驶相关的挑战、竞赛和排行榜中占据领先地位而显示出其力量和前景。未来，为了在真正的自主驾驶系统上安全地大规模部署，仍然存在许多挑战，例如（i）在保证性能的同时提高可解释性，以及（ii）在各种驾驶实体、场景和情况下增强通用性。

　　基于图的模型建模

　　人类驾驶员之间学习的时空交互可以将节点作为矢量化时空特征的图模型来推理车辆关系。虽然GNN和带有张量融合的社交池化可以方便地使用辅助信息以端到端的方式训练网络，但它们无法确保所需的物理或社会因素是否被实际捕获和学习（即缺乏可解释性）。

　　大多数用图模型进行多智体行为和轨迹预测的工作，都是通过仔细采用这些预测来实现社会兼容自主车辆的安全路径规划和控制设计。然而，当其应用于人类驾驶-自主驾驶的混合环境时，在没有自主智体的情况下，所导出的交互模型准确性是值得怀疑的，因为人类驾驶员可能对自动驾驶汽车有不同的行动。这些模型忽略自主系统对人类智体的影响。此外，GNN提供了直观的理解，但在数量上并不精确，这不足以用于安全-紧要应用，如自动驾驶。

　　社会力和社会场的方法

　　借用物理学中场的概念（例如，电学理论中的电场或磁场）来创建一个驱动自身的虚拟场，一种在几个方面与社会因素相结合、相当特殊的场。社会场和社会力提供了一个概念上统一的框架，解释不同场景中的驾驶员行为，因此可以用于风险评估、最优控制、行为预测和路径规划。

　　此外，它们还可以灵活利用其他交通因素。基于场论的模型通常是根据研究者对人类驾驶行为的主观认知和理解，通过定量分析建立的。因此，可以利用许多因素，例如道路属性（例如直线和曲线道路）、交通条件、车辆属性（例如形状和质量）和人为因素（例如驾驶员的注意）。

　　理论上，基于场的模型可以处理复杂的场景，但仅在简单的交互场景中得到验证，例如，两个智体之间的车辆跟随和变道交互，这是由于大量的标定工作造成的。

　　生成场的元素更具选择性。并非环境中的所有元素和智体（部分元素和智体）都对任务性能有显著影响。这是因为主导运动和驾驶任务的相关元素出现，而非相关元素通常会远离到背景中。

　　此外，根据两个人在交互的角色，他们之间的影响可能是不对称的。例如，周围的车可能是领头车、停放车、尾端车、汇入车等，它们对自车的潜在影响是不同的。每一类汽车可能共享相同的势场，从而形成更紧凑的势场模型。

　　安全旅行场本质上是客观或和主观的表征。一些研究人员将驾驶风险场视为一个物理场，并声称这是一个客观特征，不会随个人的主观意愿而变化。从“上帝的角度”来看，这可能是正确的——如果从鸟瞰的角度分析互动行为的话。

　　然而，如果从第一人称角度分析自车的交互行为，并考虑社会因素，这个结论可能是错误的。该场是人类驾驶员主动和被动感知的风险场，反映了人类驾驶员在社会互动中的行为和反应，因此本质上是一种主观表征。

　　计算认知模型

　　计算认知为理解人类驾驶员之间社会交互中各种认知功能的本质提供了新的视角。借鉴认知计算神经科学的思想和发现，一些工作解释人类驾驶员在交互中的决策过程。

　　然而，一方面，现有方法通常提供过多的细节，例如，描述低级神经现象，使模型显得过大。另一方面，有些方法过于简单，在实践中难以处理，例如，仅在实验室环境中进行测试，缺乏复杂驾驶环境中的原则性调查，或提供决策的高级认知结构。因此，在实时预测人类驾驶行为中实现这些机制的主要实验室机制和实际应用之间存在着挑战性的差距。

　　讨论

　　很多交互模型未能调查对抗性鲁棒性，没有从社会理解的角度评估这些模型与社会行为的一致性。社会理解可以揭示当前模型的局限性，从而提供未来可能的方向。

　　在许多交通应用中，模型鲁棒性仍然是一个核心问题。这可能是由设计模型和生成数据之间的不匹配造成的，包括两个方面。

　　交互模型设计以目标为导向，但人类驾驶员产生的行为主要是习惯性的。这种行为最初是以目标为导向的，但后来在整个体验中形成习惯。例如，一个新的驾驶员用一系列由教师制定的具体子目标来规划行动。然后，驾驶员消化这些步骤并将其转化为习惯，无需设定这些特定的子目标。基于习惯生成的数据集来训练目标导向模型，可能会削弱模型的泛化能力。对于模型假设和数据之间的飘移，一种可能的解决方案可能是，制定基于模型和无模型的框架。

　　交互模型设计是社会导向的，但行为数据是通过物理交互和社会交互混合生成。在开发交互模型时，大多数工作直接建模其交互轨迹，例如使用图神经网络（GNN），但忽略了对交互行为产生的原因和方式的洞察。反事实（Counterfactual）仅使用社会交互假设模型来近似社会和物理交互行为。

　　因此，深入了解相关数据，为AI算法提供动力，可能是自动驾驶车辆具有社会兼容性和鲁棒性的关键之一。

　　完美的自动驾驶需要超越路径跟踪、目标检测和防撞的直觉心理。由于技术障碍和社会障碍，没有直觉心理的自动汽车等路上无意识机器，与其他人类驾驶员共享道路空间还为时过早。

　　社会兼容的自动驾驶车辆应能够发现其他人类智体的心理状态和看法，与其他道路使用者进行安全和可接受的交互。换言之，最终目标是制造像理性的人类驾驶员一样思考和学习的自动驾驶汽车。

　　然而，在他们学习的内容和学习方式方面，真正类似人类的学习和思考能力超出了当前的工程动态。社会兼容的自主驾驶，迫使开发有效的工具，用结构化计算认知模型的观察来解释和理解潜在的决策过程。

　　智体行为预测和推理已被公认为安全-紧要交互系统设计中不可或缺的一部分；例如，在人类环境中进行协商的自动驾驶车辆，需要在其规划和决策中利用人类驾驶车辆的未来行为。

　　更多的工作热衷于在复杂场景中对移动车辆进行更高精度的轨迹预测。在实践中，需要仔细考虑“模型需要多精确才能成功交互”，而不是盲目追求轨迹预测的准确性，有必要考虑人类认知和行为的哪些方面对交互性能影响最大。

　　对于不同的实际任务，进行非常高精度的轨迹预测可能不会有利于整个交互性能，尽管它可能有利于低级控制器的设计。人类驾驶员的预测可能不如机器（例如，自动驾驶车辆）准确，但他们仍能进行有效的交互。

　　结论

　　了解人类驾驶员如何与他人交互是开发社会兼容自动驾驶车辆的一个核心问题。随着自动驾驶车辆在社交道路上与其他人类智体的交互越来越紧密，有定量模型来预测这些交互行为变得越来越重要。

　　本文首先明确定义了道路交通中的社会交互。然后，它不可避免地对人类驾驶员和相关应用之间的交互作用进行了选择性回顾，包括基于理性效用的模型、基于深度学习的模型、图模型、社会场/力和计算认知模型。最后提出了关键的发现和开放的问题，这可以为自动驾驶车辆与人驾驶车辆的交互提供新的方向。

　　编辑：黄飞

打开APP阅读更多精彩内容