战斗机嵌入式训练系统中的智能虚拟陪练

li1234567890123 2022-02-16 1682

电子说

1.3w人已加入

描述

战斗机嵌入式训练系统中的智能虚拟陪练

摘智能化“实虚”对抗是现代先进战斗机嵌入式训练系统的重要功能需求。自主空战决策控制技术在未来空战装备发展中扮演关键角色。将当前的功能需求和发展中的技术结合起来，得到了空战智能虚拟陪练的概念。先进控制决策技术的引入使得智能虚拟陪练能够帮助飞行员完成复杂的战术训练，而训练中真实的对抗场景为技术的验证提供了理想的环境，大量的训练数据为技术的持续迭代优化提供了保障。作为可学习和进化的空战战术专家，智能陪练在人机对抗和自我对抗中不断优化，当其具备与人相当甚至超越人的战术能力时，可应用于未来的无人空战系统。智能虚拟陪练需要具备4项基本能力：智能决策能力、知识学习能力、对抗自优化能力和参数化表示能力。对其包含的关键技术进行了分析，提出并实现了一个基于模糊推理、神经网络和强化学习的解决方案，展示了其各项基本能力及目前达到的空战水平。未来更多的模型和算法可在智能虚拟陪练的框架中进行验证和优化。

现代战斗机装备的嵌入式训练系统一般有“实对实”训练和“实对虚”训练2种模式[1]。其中“实对实”训练是最接近实战的模式，但占用资源多，组织难度大，且存在“假想敌”扮演逼真度有限的问题。“实对虚”训练通过计算机生成数字虚拟目标，可以对“假想敌”的平台、武器和传感器性能进行模拟，能够根据训练需要生成任意的交战场景，从而有效提高空战训练的针对性，扩大训练覆盖面，提升训练效率[2]。

空战战术训练要求虚拟目标具备一定的智能水平[3]。通过建立空战规则库和战术库，赋予虚拟目标基本的战术响应能力，使“实”、“虚”之间可以进行简单的对抗[4-5]。通过将空战战法分解为时序动作，可以实现对某些特定战法的模拟[6]。进一步提高虚拟目标的智能水平，实现更复杂更有针对性的战术演练，是嵌入式训练系统的客观需求[7-8]。

抛开具体的训练场景，将虚拟目标视作一个独立的空战智能体，虚拟目标智能化所需解决的核心问题即为自主空战的决策与控制。而以实现无人机自主空战为目标，国内外进行了各类研究探索[9-11]。其中常用的模型包括影响图[12-13]、矩阵博弈[14]、微分对策[15]、动态规划[16-18]、模糊推理[19-23]、贝叶斯网络[24-25]等。这些模型大体上可以分为2类，一类是通过建立各式各样的“优势函数”，将空战问题转化为优化问题求解;另一类则是模仿人类思维过程建立基于规则的模型。基于“优势函数”的模型为保证其可解性，一般将空战问题大幅简化，采用的“优势函数”大多欠缺严格的物理依据，或者忽略了空战中的重要约束(如中距导弹的中制导过程)，导致其实用价值有限。基于规则的模型在处理简单战术的时候较为合适，但随着输入参数和战术选择的增多，遭遇到维数爆炸问题。

随着近年来深度学习引领的人工智能技术的又一次大爆发[26-27]，自主空战决策控制的研究有了新的突破方向。基于神经网络和强化学习的模型开始进入研究人员的视线，在解决空战机动决策[28-32]、路径规划[33]和目标分配[34]等方面初步显示了其能力。机器学习算法带来了新的方向，同时也暴露了该领域研究存在的客观问题。空战对抗非零和的数学本质决定了先验知识对模型的重要性[35]，机器学习算法本身也需要大量的数据作为基础，而先进战斗机之间的空战对抗数据目前多产生于航空兵部队的内部训练中，研发人员不易接触[36];基于各类机器学习技术的模型需要一个持续的迭代优化过程，而机载软件的安全性要求决定了其不能频繁更换;在各类简化环境下训练得到的模型在真实对抗中的性能有待检验。

结合虚拟目标智能化提升和自主空战技术发展2方面的需求，本文提出智能虚拟陪练的概念。智能虚拟陪练，是具备自主决策控制能力的空战战术训练虚拟对手,及其自主空战能力学习进化支持体系。其依托于机载嵌入式训练系统，此外还有配套的维护和开发系统。不同于目前的虚拟目标，智能虚拟陪练不再是为完成某些特定训练情景任务而设计，而是具备完整独立的空战决策和控制能力，在帮助飞行员训练的同时自身也在不断进化。

通过引入自主空战决策控制技术，使智能虚拟陪练能够满足复杂空战战术演练的需求;通过赋予智能虚拟陪练监督学习能力，使其能够学习“假想敌”战术特点，从而满足针对性训练需要;通过对嵌入式训练系统记录的对抗数据的整理分析，为模型的机器学习提供先验知识和优化训练样本;通过赋予智能虚拟陪练对抗优化能力，使其能够在“人机”对抗和机器自对抗中不断进化;通过实现核心模型的便捷配置，为模型算法的快速迭代提供途径。

智能虚拟陪练不仅是未来嵌入式训练系统“实虚对抗”功能(如图1所示)的重要组成，还是自主空战决策控制技术迭代优化和实验验证的重要工具，是空战训练和新技术研发耦合进步的纽带，为下一步从虚拟走向真实，从陪练走向主角打下基础。

1 智能虚拟陪练的能力需求

智能虚拟陪练的运行场景如图2所示。智能虚拟陪练不仅要实现嵌入式训练系统实虚对抗的智能化，还要实现其自主空战能力的不断进化。智能虚拟陪练的基本能力要求包括以下3项。

1.1 智能战术决策和控制

智能虚拟陪练能够根据任务目标(夺取制空权、要地防守、区域突袭等)，综合考虑交战双方的平台性能(机动性能、滞空时间、隐身性能等)、武器性能(武器射程、导引头截获距离、命中概率等)和传感器性能(探测距离范围和角度范围)，对空中态势做出快速合理的战术响应。其机动动作的控制应为实现相应机动目的的最优或次优解。

与专家经验和战术资料不同，空战对抗演习数据中没有显式的规则，需要用相应的识别算法挖掘出其中的战术决策知识。

1.2 空战战术对抗优化

经过对空战先验知识的学习，智能虚拟陪练可以具备基本的空战能力。人机对抗和机器自对抗可以进一步优化模型和提升战术水平。人机对抗，既包括空战专家在模拟器上与智能虚拟陪练的对抗，也包括飞行员在空中进行的实虚对抗训练。对抗数据可存入数据库用于模型的自动优化。

机器自对抗是智能虚拟陪练自动优化的重要手段。通过采用大规模并行计算等手段，机器自对抗可在较短时间内积累大量的对抗数据。通过机器自对抗，不仅可以对监督训练得到的战术决策模型进行调整优化，还可以自动探索空战战术，发现未被人发现和使用过的战术。

1.3 核心模型参数化表示

智能虚拟陪练的核心决策控制模型实现参数化表示，可通过软件配置文件加载，从而实现模型的便捷更换。对用户来说，根据训练任务的不同，可以灵活选择决策控制模型。对研发方来说，智能虚拟陪练的决策控制模型一直处于训练优化的进程中，在得到阶段性成果后即可快速投入测试和使用。

2 智能虚拟陪练的关键技术

按照上述基本能力要求，可以得到智能虚拟陪练的基本功能逻辑，进一步可以将智能虚拟陪练进行详细的功能划分，如图3所示。

智能虚拟陪练分为应用端和开发维护端。应用端由传感器模拟、决策控制核心模型、武器接口模拟和飞机平台模拟4个部分组成。决策控制核心模型包含态势计算、决策计算和战术控制计算3个模块。开发和维护端包含先验规则库、基于规则的决策控制模型，参数化决策控制模型，以及对抗运行环境。

2.1 应用端关键技术

2.1.1 态势计算

态势计算一直是空战决策控制研究的重点问题，常用的模型包括指标体系[37]、D-S证据理论[38]、贝叶斯网络[39]等。近年来基于神经网络的态势评估方法也不断出现[40-41]。智能虚拟陪练的态势计算要求必须考虑交战双方的平台、武器和传感器性能。目前常用的主观构建的各类优势函数，普遍缺乏对性能因素的定量考虑。建立基于空战物理规律的态势评估模型，是实现空战智能决策控制所需解决的首要问题。

2.1.2 决策计算

以空中敌我运动参数，我方平台状态、武器状态、传感器状态，以及态势计算得到的角色任务、目标威胁度、我方导弹命中概率等参数为输入，进行战术决策计算。

决策计算的实现有2种思路。一种是“推演”式决策。决策模型在决策过程中，需要同时模拟双方的战术响应进行多步推演，根据推演的结果进行战术选择。AlfaGo等棋类人工智能使用的MCTS[42]算法即为典型的“推演”式决策;另一类则是“反应式”决策，也即决策模型是决策输入到输出的直接映射，决策计算一步完成。本质上“反应式”决策模型是一个从态势输入到最优响应战术的函数。目前空战领域研究的多为“反应式”决策模型。“推演式”决策的理论研究是一个值得期待的方向。

在使用复杂机器学习算法时，需要考虑机载嵌入式环境的硬件资源限制。

2.1.3 战术控制计算

战术控制包括飞机平台机动控制、武器控制和传感器控制。现代先进战斗机配备放宽静稳定电传飞控系统。为发挥飞机最大的机动性能，在飞控系统内设计高级战术机动动作库，战术决策输出则为动作选择。每一个战术机动都设有其优化目标和限制条件，飞控系统基于此求解最优控制策略。高级战术机动包含的要素如表1所示。

传感器的辐射状态、工作模式和搜索区域是重要的战术控制对象。武器则是发射流程和发射模式需要控制。

2.1.4 传感器模拟

为了提高智能虚拟陪练的逼真度，各类传感器的数字模型需要对其性能参数和工作逻辑进行模拟。例如，雷达有搜索模式和跟踪模式的区别，搜索范围受框架角限制[43]，存在速度过零现象等。

2.2 开发维护端关键技术

2.2.1 从专家经验、战术资料中识别战术规则

从专家和战术资料的自然语言表述中，识别出决策模型适用的空战战术规则，一般即为“IF-THEN”形式。

2.2.2 从对抗数据中识别战术规则

嵌入式训练系统记录的对抗数据，需要进行时空对准、航迹关联等操作后，才能转化为信息完备的空中交战态势。从交战中飞行员驾驶飞机的运动参数和状态变化，识别其采取了什么战术(智能虚拟陪练则是直接记录了战术决策过程)，这样才能得到“IF-THEN”形式的规则。

2.2.3 基于规则的决策模型产生参数化决策模型

基于规则的模型便于建立，参数化模型则便于进行自动优化和模型配置。由规则模型训练参数化模型已证明可行[44]。另一种思路则是将规则模型本身参数化，如美国某公司提出的进化模糊推理系统[23,45]，其中对模糊推理系统的隶属度函数和规则都进行了参数化。

2.2.4 智能虚拟陪练自对抗优化

近年来引起广泛关注的AlfaGo[42]、AlfaGo Zero[46]、AlfaStar模型等展现了基于深度强化学习的智能体的强大的自对抗优化能力。美国某公司则号称其使用遗传算法优化模糊推理树，实现了超越专家飞行员的空战水平[23,45]，其核心也是模型自对抗。智能虚拟陪练的自对抗优化，不仅能实现对先验知识的优化，还可以充分挖掘既有战术库的潜能，甚至创造目前没有的空战策略。此外，通过自对抗优化，智能虚拟陪练能够自动适应平台、武器或传感器性能的变化，使其具备高度的各向兼容性。

2.2.5 对抗运行环境

智能虚拟陪练自对抗需要在高速并行计算环境下运行，除了硬件平台的支持，模型算法也需要适配[47-48]。

3 智能虚拟陪练的解决方案

3.1 解决方案

为验证上述智能虚拟陪练功能逻辑合理性和相关关键技术的可行性，本文提出了一个初步解决方案并进行了实验验证。下面介绍方案的关键技术和实验验证情况。图4为这个方案的应用端部分，其中决策计算部分包含模糊推理和神经网络2个模型，在不同的阶段需要使用不同的模型。

3.1.1 传感器和武器

传感器层包括了红外告警和雷达、雷达告警的仿真模型。各模型中除引入了各项性能限制外，还加入了重要的工作逻辑，如雷达搜索和跟踪模式的切换等。武器为中距导弹。其仿真模型包括发动机推力模型、导弹气动模型和导引头模型。

3.1.2 态势计算

在态势计算方面，抛弃了传统的基于主观赋权或优势函数的态势评估方法，以平台、武器和传感器性能为依据，按照空战物理原理建立了空战态势评估模型。态势评估模型的典型输出示例如表2所示。

在这个解决方案中，态势计算模块除对单机交战态势进行评估计算，还可以完成编队角色分配和目标分配的计算工作。

3.1.3 空战战术库和规则库

以超视距空战为研究对象，分析和整理了经典的超视距空战战术，构建了战术动作库，如表3所示。以人工方式识别专家经验和战术资料中的战术规则，构建了战术规则库。共得到10种战术动作，60条战术规则。为每一个战术动作设计相应的控制律，将其封装成高级战术动作控制器。

3.1.4 模糊推理战术决策模型

在规则库和战术库的基础上，建立一个模糊推理战术决策模型[23]。对模糊推理模型进行了参数化改造，使其推理规则、模糊隶属度函数等均可以进行参数化表示，如图5所示(编码“0”表示该项输入/输出未被引用)。将隶属度函数的各个关键点用其坐标来表示，调节关键点坐标即可完成对隶属度函数的调节。任意一条规则包含其引用的输入和输出，以及各项输入输出的语义值。将模糊推理系统涉及的所有输入和输出按序编码，对语义也作编码处理，就可以简单的实现对规则的参数化表达。

通过调节推理规则和模糊隶属度函数参数，使决策模型的响应与规则库中的经验知识基本一致。

使用配置该模型的红蓝双方进行模拟对抗，对抗场景和双方的武器配置随机生成，记录红蓝双方各自的决策输入和输出。以实验中的一次模型生成周期中的数据为例，红蓝对抗得到总计2 204场的对抗数据，对应4 408架次的模型决策序列。

3.1.5 神经网路战术决策模型

模糊推理模型相互对抗产生的数据为参数化模型的建立提供了初始样本。建立了一个BP神经网络模型。网络结构为输入30维，输出10维，2隐层，网络权值参数总量为1 541。用上述对抗数据对其进行有监督训练。随后使用该模型组织红蓝模拟对抗，对抗裁决器根据交战结果分别给予红蓝双方奖励或惩罚。神经网络决策模型使用记录的对抗过程数据和最后的奖惩进行强化学习，实现模型优化，决策模型生成过程如图6所示。对抗优化过程的实现参考文献[47-48]中的深度学习神经网络(DQN)算法。这里没有使用文献[47-48]中的深度卷积神经网络，这是由于在此问题中，决策输入是由传感器输出和态势计算输出组成的一维状态向量，而不是卷积神经网络擅长处理的二维图像信息。

在DQN处理的棋类和电视游戏中，决策通常是从一个相对固定的初始状态开始的。而在实际空战中，交战初始条件，包括双方的初始态势和初始武器配置，是在一定范围内随机的。棋类游戏中双方初始态势为均衡，而空战决策模型必须能够处理初始态势非均衡的交战问题。这就使得初始条件对交战结果的影响在对抗优化中不可忽略。如图7所示，初始已经处于绝对劣势的一方，无论作出何种战术决策，都会被击落。在这种情况下，仍直接按照胜奖败惩的原理给予决策模型反馈，强化学习算法将难以收敛。

这里采取了一种“主-客”机制来解决这个问题：双方完成一次对抗后，互换初始条件，综合2场对抗的结果来进行奖惩，以消除初始态势的影响。在图7中，假设击落奖励1，被击落奖励-1，否则奖励0。采用2场奖励平均的方法进行综合。那么在互换态势前后，双方相互击落一次，因此各自得到奖励为0。而如果有一方能够在处于劣势时不被击落，那么综合2场结果其将被奖励0.5，对方则奖励-0.5。

3.1.6 性能评估

选择空战交换比作为决策模型性能的评估标准。交换比定义为一方被击落次数与击落对方次数的比。

3.2 基本能力验证

第1节所述4项基本能力中，参数化表示能力已由模型的本身特性确保，另外3项需要进行实验验证。

3.2.1 先验知识学习能力

神经网络模型在完成对2 204场对抗数据的学习后，其决策输出与模糊推理模型输出的对比如图8所示。可以看出，神经网络输出在保持其趋势和模糊推理模型基本一致的基础上，反复震荡的现象明显减少了。在完成有监督训练后，神经网络模型对模糊推理模型的交换比为1∶1.16。这显示了神经网络完全掌握了模糊推理规则库中的先验知识。同时由于其克服了模糊推理模型输出震荡的问题，性能略有提升。

进一步的，在具体的仿真对抗场景下验证智能虚拟陪练对战术规则的掌握情况。对抗中红蓝双方使用相同版本的决策模型。

1) 三代机对三代机基本战术

图9中红蓝双方均为三代机平台，传感器武器配置相同。双方初始态势为均势(同高度同速度)，迎头进入空战。双方各自躲掉前2发导弹(第2发图中未显示)，在此过程中双方持续下降高度，武器射程缩短，双方距离逐渐缩小。红方最后掉头时机不当被击落。红蓝双方为同版本模型但决策出现差异的原因在于对抗中存在随机扰动因素，包括传感器探测误差和决策模型的战术随机探索。从这里可以看出，在平台、传感器和武器性能相同且初始态势一致的前提下，决定空战胜负的即是决策的细微差异。图10展示了双方从第2次攻击到对抗结束的决策输出。在实际的三代机超视距空战中，适时置尾规避敌机导弹，再回转继续攻击，是常见且合理的战术。

2) 三代机对四代机基本战术

图11中红方为三代机平台，蓝方为四代机平台。蓝方具有隐身优势。双方初始态势为均势，迎头进入空战。蓝方先发现红方。红方在收到雷达告警后，开始做切向机动，破坏蓝方跟踪的同时逼近蓝方，成功规避蓝方第1发导弹。最终红方逼近到雷达可以发现蓝方的距离，双方相互攻击，红方因开火时间晚先被击落，但其导弹已对蓝方构成致命威胁。图12展示了双方对抗全程的决策输出。三代机利用雷达的过零现象逼近四代机，是不多的可以取得一定效果的战术选择。

通过仿真对抗实验可以看出，智能虚拟陪练掌握了不同平台性能配置下的基本超视距空战战术，其战术响应合理正确，与已知的空战经验知识基本符合。

3.2.2 对抗自优化能力

在神经网络完成第1轮1 291场对抗优化后，对模糊推理模型的交换比提高到1∶2.73。在完成第2轮765场对抗优化后，对模糊推理模型的交换比提高到1∶3.6。交换比的提高显示了自对抗对神经网络模型的优化效果。

3.2.3 智能决策综合能力

构建复杂对抗场景，对解决方案中的态势计算和决策模型进行更全面的能力验证。这里以双机编队和单机的对抗作为仿真实验场景。

红蓝双方均为三代机平台，传感器和武器配备相同。红方为双机编队，1号机前突，2号机掩护。红方1号机和蓝方飞机相互攻击。在导弹逼近到危险距离后，双方开始机动规避。此时红方2号机加速前突进行攻击占位。红方1号机和蓝方飞机各自成功规避导弹后开始掉头。此时红方1号机处于掩护位置，红方2号机处于前突位置，红方编队完成了角色轮转。蓝方飞机掉头后遭到红方2号机导弹攻击，不得不再次机动规避。此时红方2号机继续加速前突。在蓝方规避掉导弹后，红方2号机在超音速状态下再次发射导弹。由于距离近，导弹初速高，蓝方未能规避被击落。此时红方1号机也已到达攻击发起位置，准备下一轮攻击。

在这个对抗过程中，态势计算模块进行了正确合理的角色和任务分配，战术决策模型在正确合理的时机选择了导弹发射、置尾规避和回转进攻等战术动作，显示了智能虚拟陪练在复杂对抗场景下具备较好的战术决策能力。

该解决方案验证了前面提出的智能虚拟陪练的功能逻辑和开发维护流程的合理性，证明了其中主要关键技术的可行性。此验证方案中使用的规则库和战术库内容较少，神经网络规模较小，未使用并行计算，未实现规则的自动识别。模型装机后得到人机对抗数据，其中智能虚拟陪练的决策记录可直接供神经网络模型回放强化学习，人的决策过程数据仍需要进行人工识别。

智能虚拟陪练的核心，也即空战战术决策和控制，是一个在迅速发展的研究热点，各类模型算法，只要符合前面提出的基本功能要求，都可以通过智能虚拟陪练进行验证和迭代。

4 从智能虚拟陪练到自主空战

从智能虚拟陪练到自主空战(如图14所示)，主要是从传感器、武器和飞机平台仿真模型，到真实的传感器、武器和飞机平台接口。智能虚拟陪练的决策和控制模型，则可以直接应用到无人自主空战系统中。无人自主空战系统，既可以在现有有人机平台上改装，也可以是专门研制的制空型无人机。智能虚拟陪练的自对抗优化能力，使其能够适应平台的变化。无论是哪一类平台，智能虚拟陪练的意义在于，使这些无人自主空战系统快速具备与人类飞行员相当甚至更好的战术决策和控制能力，使其综合作战效能得到提升。

5 结论

本文提出的智能虚拟陪练，既是空战训练发展的客观需求，又是自主空战技术实验验证的工具。抛开具体的有限的训练情景，把智能虚拟陪练视作具有完全自主能力的空战智能体，分析了其基本能力要求，得到其4项基本能力，即智能决策能力、学习能力、对抗自优化能力和参数化表示的能力。据此设计了智能虚拟陪练的功能逻辑，并识别出了其中的关键技术。其中，基于规则的决策模型可以用来训练参数化模型，而参数化模型进行自对抗优化。以模糊推理模型、神经网络模型和强化学习算法实现了一个初步的智能虚拟陪练解决方案，实验表明其能够满足4项基本能力要求，在不同平台配置和不同场景下均能进行合理的战术决策和控制。未来自主空战领域的新模型、新算法，均可在智能虚拟陪练的框架下，按照4项基本能力的要求进行实验验证和迭代优化。

审核编辑：汤梓红

打开APP阅读更多精彩内容