2023年02月07日 欢迎进入工程科技颠覆性技术专题数据库!

兰德公司评估机器学习在空中任务规划中的应用

2023年01月02日

摘要:2015年,美国国防科学委员会将“自主空中作战规划”和“蜂群自主作战”作为优先研究领域。2016年,美国空军呼吁将“协助任务规划、重新规划、监测和协调活动”作为关键的自主应用。然而,尽管人们对用于复杂国防规划的人工智能/机器学习技术产生了广泛兴趣,但尚不清楚用于解决空中作战规划问题的人工智能系统的范围和复杂性。深度学习技术理论的缺乏和社区对实证研究项目的偏见意味着很难先验地确定现代算法是否可以解决复杂规划问题。鉴于此,兰德公司通过探路实验对机器学习算法在空中任务规划的应用进行了评估。

关键词:美国,空中任务规划,兰德公司,人工智能,强化学习

空中任务规划现状

军用飞机传统上不单独行动,而是在相互支持的飞机“组合”中行动。一个“组合”至少有两架飞机,分别是一架领航机和一架僚机,也可能有几十架飞机,包括攻击机、侦察机、干扰机等。这些不同类型的飞机需要在时间和空间上进行协调,例如,攻击机在周围没有防御压制型战斗机保护的情况下,并不会攻击或接近目标,而是会对预期的威胁进行仔细规划,以避免让飞机在未设防或没有传感器支持的状态下在离危险区域太近的地方行动。考虑到这些飞机可能来自不同的地点,以不同的速度和高度飞行,其飞行员经验不一且可能从未一起飞行过,任务规划的难度可想而知。

对所有复杂因素进行管理的任务包规划是飞行员培训中最高级的主题之一,只有经验丰富的飞行员才能承担这些任务。方法通常为首先确定寻摧毁目标所需的侦察机和攻击机数量和类型,然后根据它们与目标的相对位置、攻击机的计划路线、威胁的范围、速度和可能的警告级别来识别对该任务包的关键威胁。一旦了解了主要威胁,就可以规划防御措施,包括实施干扰以降低其探测范围、让专门的空对地和空对空飞机分别拦截地空导弹或机载拦截器。最后,通过对路线和时间进行微调,来确保安全和适当的相互支持。在时间充足的情况下,最复杂的任务包可能会在真实飞机或网络模拟器中进行演练。

然而,随着飞机和国防网络在能力、集成、自动化和速度方面的提高,这种劳动密集型的手动规划并不可行。一些最复杂的任务,例如涉及B-2等隐形飞机的任务,可能需要大量时间和人力来计划。在作战时,可能根本没有这么多时间和人员来支持,特别是在每天都需要执行许多任务的情况下。再就是涉及未来无人机的任务,目前尚不清楚人类规划者是否能在短时间内选择好路线和时机,充分发挥有人驾驶和无人驾驶飞机在能力和战术上的组合优势。

任务规划容易和路线规划混淆,因此需要对两者作出区分。任务规划不仅包括飞机飞行地点等参数,还包括飞机类型及其相对时间。在具有简单约束的静态、非交互式环境中规划路线时,主要考虑飞向何处,这个问题通常运用迪杰斯特拉算法或A*搜索算法解决。这些算法类似于商业导航和路由系统,通常寻求最小化路线长度和时间等关键变量。在国家安全应用中,可以部署它们来控制风险。它们可以包括许多约束条件,例如装备性能、禁止区域以及传感器或武器射程。美国国防部已使用这些工具(通常集成至联合任务规划系统中)来辅助单个或小群飞机的任务规划。

任务分析和规划通常是通过直觉和启发式方法来进行。尽管启发式方法可以帮助我们确定解决方案,但这些解决方案通常不具备可扩展性或可靠性,无法持续评估出现的大量备选方案。直觉也可能在涉及大量参与者以及复杂的传感器和武器交互的高维问题中失败。因此,需要人工智能技术来辅助任务规划。

评估机器学习算法在空中任务规划中的应用

兰德公司报告《通过机器学习获取制空权:人工智能辅助任务规划初探》提出了一个人工智能系统概念验证原型,来帮助开发和评估空中领域的新作战概念。具体而言,就是通过机器学习技术训练能在作战仿真环境中发挥作用的空战智能体,利用人工智能系统的能力来大规模重复操作、从经验中归纳并改进重复以加速和丰富作战概念的开发。

该原型平台集成了开源深度学习框架、现代算法和美国国防部的标准作战仿真工具“仿真、集成和建模高级框架”(AFSIM)。AFSIM提供仿真环境和模拟器,深度学习框架提供算法平台。测试是简化版本的任务规划:给定一组具有不同传感器、武器、诱饵和无人机,智能体必须找到利用这些飞行器对抗防空系统的方法。该问题之所以具有挑战性,一是因为最优控制问题的决策空间很大,包括飞行轨迹、排序、传感器和武器的战术和策略等;二是因为智能体行为有即时、长期和延迟的影响,智能体必须在近期和远期效用间取得适当的平衡。

研究人员创建了AFSIM的快速、低保真版本AFGYM来模拟对敌防空压制任务(SEAD)。首先,从一维的战斗机、干扰机和地空导弹(SAM)系统场景开始。如图所示,战斗机的目标是摧毁SAM。SAM的目标是摧毁战斗机。在这个公式中,SAM在射程(100 公里)上具有优势,因此可以在战斗机向SAM开火之前摧毁战斗机(80公里)。图中所示的案例只有两种可能的结果:战斗机飞行了一段距离并在进入SAM射程之前折返,这样双方都能幸存,或者战斗机进入SAM射程并被击落。

image.png

在添加一架干扰机后,可能的结果变多,战斗机也更具优势。干扰机可以接近SAM并缩小SAM的射程。如果战斗机在那段时间进入,它可以摧毁SAM并存活。干扰机也可能在战斗机摧毁SAM之前离SAM过近,导致干扰机或战斗机或者这两者均被击落。人工智能系统被赋予了SAM的位置和所有三个组件(战斗机、干扰机和SAM)的射程,并预测派出战斗机和干扰机的时间和距离,以在不损失任何一架飞机的情况下成功摧毁SAM。

image.png

下图从三个实体的上方和侧面显示了在AFSIM环境中呈现的一维场景。战斗机从左向右移动,成功尾随干扰红色SAM的干扰机,然后战斗机成功飞入、射击 SAM并折返。

image.png

每个场景都由两组变量定义:环境和学习。环境变量是指特定的布局或初始状态,对该变量的设置有助于定义机器学习智能体的运行环境。学习变量是指智能体学习的特征,对该变量的设置定义了平台与环境交互的特定计划或方式。在一维任务规划问题中,机器学习智能体针对给定布局寻找最优计划。改变射程和距离的目的是教会战斗机一种通用策略(例如,若战斗机的射程大于SAM的射程,则进入;否则就退出)而不是学习特定于一种情况的硬编码策略。

研究人员在模拟阶段应用了两种算法,分别是Q-learning和GAN,测试后发现两者均表现良好。Q-learning在一维场景中表现得相当稳健,一旦设置了学习率、批量大小和探索率等超参数,网络就能够迅速改进,误差立即下降,然后在短短几百个批次中迅速衰减。误差由神经网络与真实Q函数的逼近程度来定义,误差越低代表强化学习的性能越好。

image.png

另一种算法是GAN。该模型训练生成器和判别器网络来解决模仿学习问题。生成器子网络接收噪声输入并输出任务计划。判别器子网络将任务计划作为输入,并在 [0,1] 区间上给出一个连续的评级,以指示其质量。两个子网络都通过判别器误差信号的反向传播来更新,以响应正样本数据。经过测试,GAN规划器生成的任务规划比随机的规划器更佳。

image.png

接下来将场景扩展到二维,这就需要从起始位置到目标交战位置进行路线规划,从而避免沿途的威胁。这里通常将路径问题部署为基于智能体的MDP,即部分可观察马尔可夫决策过程 (POMDP),在该过程中,智能体无法完全掌握实际状态。在初始公式中,智能体控制所有无人机并可以访问全部信息。这种增量和迭代方法与一维案例中的一次性规划策略形成了根本对比。此时MDP公式的选择是由同时管理状态空间大小和维护路径表示粒度的需要驱动的。此外,MDP公式还可以更有效地支持对动态事件的实时规划。

由于决策空间大得多,一般的二维SEAD场景比一维场景更复杂。最基本的二维场景如图所示:较一维场景增加了一个红色目标,蓝色战斗机要在绕过红色SAM的同时击中红色目标。与一维场景不同,二维场景需要AFSIM和机器学习智能体在任务执行过程中持续协调。AFSIM每隔一段时间上报状态,然后智能体返回AFSIM执行操作,并重复该过程直到模拟完成。

image.png

研究人员在模拟阶段应用了两种算法,分别是A3C和近端策略优化 (PPO),测试后发现只有后者表现良好。测试发现,所有的A3C训练模拟都以崩溃告终,其中大部分训练点无法有效地完成任务,且A3C大部分成功来自奖励辅助。此外,A3C还缺乏通用性,训练后的算法无法在训练场景下保持一致且难以适应新场景。

下图展示了A3C算法在四个AFGYM中的模拟情况。模拟发生在100公里x100公里的网格上,蓝线代表战斗机的轨迹。带有红色圆圈的红色菱形表示SAM及其有效射程。图A中有多架战斗机可用,但只有一架战斗机有足够射程击中SAM,这时A3C算法能选择正确的战斗机上场。图B中所有战斗机都不在SAM的射程内,但在干扰机(绿色轨迹)的协助下(干扰机在SAM附近的安全区域盘旋并缩小了SAM的有效射程),战斗机成功击中SAM。图C的布局与图B一致,战斗机只能在存在干扰机的情况下击中SAM,此时A3C算法已经难以把握时机。结果是干扰机虽然已经靠近SAM但无法缩短其射程,导致战斗机无法射击且远离,干扰机也要么远离要么被击落。图D可视化地展现了算法崩溃。神经网络中某些连接的饱和会导致算法输出一个值,提示飞机逆时针转动,从而导致飞机永远旋转。

image.png

另一种算法是近端策略优化 (PPO)。传统的策略梯度法寻求梯度下降来优化成本函数(例如,最大化奖励或优势),然而这种技术容易导致学习缓慢或策略(学习)崩溃。测试发现,与A3C相比,PPO算法崩溃很少见,发生率约为5%到10%,且经过数千次迭代后仍保持稳定。此外,PPO智能体展示了跨不同布局的普遍性,甚至能在AFSIM中工作,而A3C具备较低的普适性,在类似测试中的成功率不到5%。

研究人员通过PPO 开发了一种单智能体算法,测试情况如下图所示。图A中战斗机的初始位置随机分布在浅蓝色方块内,其导弹射程和初始航向也各不相同,SAM和目标也在各自的方块内变化。图B中战斗机在安全避开地空导弹的同时消灭了目标。由于射程随机化,战斗机在35%的场景中射程超过 SAM,因此该算法在大多数情况下更倾向于避开SAM。在AFGYM中进行的10000次模拟中,该算法的成功率为96%。

image.png

研究人员还训练了涉及战斗机和诱饵的多智能体场景,测试情况如下图所示。图A显示了一个目标和保护它的SAM。战斗机和诱饵在不同的区域活动。图B显示了被SAM击中的诱饵。SAM在再次发射之前会有短暂的延迟。图C显示战斗机通过利用这种延迟来消灭SAM和目标。测试显示,在修改起始位置的10000次AFGYM模拟中,该算法的成功率为18%,说明该算法并未完全学会如何为战斗机计时以充分利用SAM的延迟。相比之下,当起始位置固定且仅初始航向不同时,成功率为80%。总之,该算法不如PPO单智能体算法稳健。


image.png

合并不同数量的智能体可能是一个挑战。上述案例涉及的智能体数量有限,若智能体数量增多,可以考虑按区域定义输入和输出。如图所示,x和y定义每个智能体的位置s和Ɵ分别表示智能体的速度和方向,每个区域都可以包含不同数量的智能体。这种描述状态的方式具备合并大量智能体的优势,未来或能应用至蜂群中。

image.png

未来解决方案

以上研究既凸显了强化学习解决复杂规划问题的潜力,也凸显了这类方法的局限性和挑战。具体而言,纯强化学习算法可能效率低下并且容易出现崩溃。后续可以尝试以更系统的方式解决崩溃问题,具体步骤可能包括:

●增加问题的复杂性和规模:

  增加更多平台将迫使智能体学习无人机之间的协调策略。

  通过添加多个SAM、目标和地形障碍来扩大红军规模和使环境更加逼真。

关注多智能体问题:

  自动化任务规划的未来工作应侧重于开发稳健的多智能体算法。

  从最近的星际争霸2或DOTA 2 AI机器人中可以汲取很多灵感,它们是能同时控制多个角色的 人工智能网络。

  星际争霸AI在将双向循环神经网络作为多智能体相互通信方式上取得了进展。

  DOTA 2 AI在开发独立机器人上取得了进展,这些机器人无需交流即可互动,并依靠“信任”牺牲短期奖励以获得更大的长期奖励(赢得比赛)。

演示从AFGYM 到AFSIM AI的迁移学习:

  在二维场景中,智能体在AFSIM的快速、低保真版本AFGYM环境中接受训练。

  未来有望直接在AFSIM环境中训练智能体,这将需要并行使用 AFSIM的多个示例,会是一个很大的计算负担。

  因此,随着机器学习的进步,也要不断发展建模和仿真系统以及其他可能为学习提供反馈的“目标”环境。

通过相互自我博弈寻求改进:

  现代人工智能,如AlphaZero和DOTA 2机器人,可以通过大规模相互自我博弈来学习和改进。

自动超参数调整:

  超参数调整既重要又未被理论化。

  自动超参数调整是防止过早崩溃的关键。

增加状态表示和问题表述:

  当前的环境表示是不灵活的。

  智能体可以针对固定数量的智能体和目标进行训练。

  引入额外的目标或智能体后,输入向量的大小将会增长,就需要重新训练智能体。

鉴于任务规划的复杂性,人类目前仍难以对其进行及时有效的规划和协调。在报告提及的测试中,研究人员成功运用人工智能系统在不同的初始条件下规划了时空协调的飞行路线,这表明这种方法有可能被大规模采用和优化。但还有几点值得注意,比如尚不清楚训练真实平台应对威胁所需的计算能力和时间,以及经过训练的算法不一定适用于现实世界等,因此将人工智能应用于任务规划还有待进一步评估。

(来源:渊亭防务,2022年12月29日)

【关闭】