下载此文档

基于深度强化学习的尾旋改出技术.docx


文档分类:IT计算机 | 页数:约25页 举报非法文档有奖
1/25
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/25 下载此文档
文档列表 文档介绍
该【基于深度强化学习的尾旋改出技术 】是由【科技星球】上传分享,文档一共【25】页,该文档可以免费在线阅读,需要了解更多关于【基于深度强化学习的尾旋改出技术 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。基于深度强化学习的尾旋改出技术
 
 
谭健美 王君秋
摘 要:      本文搭建了飞机仿真环境, 基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型, 设计了基准版单階段、 基准版双阶段、 加深版单阶段、 加深版双阶段四种网络结构, 用于探究网络结构和改出阶段对尾旋改出
效果的影响,设置了鲁棒性测试试验, 从时延、 误差和高度等方面进行了算法测试和结果分析。
Key:     尾旋改出; 深度学习; 强化学习; 近端策略优化; 算法测试; 飞机
:      TJ760;
:    A
:     1673-5048(2024)01-0077-12
DOI: -
0 引  言
现代先进的作战飞机为提高空战效能, 在设计过程中更加注重其机动性和敏捷性, 并要求具有一定的过失速机动能力, 而在完成过失速机动时, 飞机表面流场变化复杂, 流动的分离情况、 涡的不对称性以及破裂位置的激烈变化, 导致作用在飞机上的气动力和力矩随着状态参数的变化呈现强烈的非线性、 非定常的迟滞特性, 出现抖振、 机翼非指令性的摇晃、 机头非指令性的侧偏、 全机非指令性的俯仰摆动或突然抬头、 迎角增加等不期望的危险飞行状态。 此时, 飞机的操纵性明显变差, 有时甚至完全丧失操纵性, 很有可能进入过失速偏离、 尾旋等危险状态, 给飞行安全造成隐患, 严重时可能导致致命事故[1]。
过失速偏离是飞机从可控飞行状态向尾旋等失控状态过渡的一种短暂运动过程, 可能增加飞机进入尾旋的趋势。 偏离过程通常是一种大振幅的、 非指令
性的和发散的运动。 一般来说, 过失速偏离运动是不发散的。 但若驾驶员快速向后拉杆或采取顺尾旋的横航向操纵, 则有可能使飞机进入尾旋状态。
尾旋是飞机失速后发生的一种自发的持续偏航运动, 且可能伴有绕飞机俯仰、 滚转和偏航等三轴的振荡运动。 飞机航迹沿半径很小的、 很陡的垂直螺旋线轨迹急剧下降, 因而尾旋也称为“螺旋”。 尾旋的产生与机翼自转有很大关系。 当飞机处于临界迎角范围时, 可能具有一定的滚转角速度。 若飞机发生右滚, 左侧机翼迎角变小、 升力下降, 右侧机翼迎角变大、 升力增加, 从而产生左滚力矩阻止飞机进一步滚转, 起到阻尼作用。 然而, 当飞机处于超临界迎角范围时, 若具有一定的右滚角速率, 则左侧机翼迎角减小, 由于迎角处于超临界范围, 迎角减小可能会使升力增加; 同理, 右侧机翼的迎角增加可能引起升力减小, 二者共同作用会加剧飞机的右滚, 使得滚转角速度不断增大。 即使飞机初始没有滚转角速度, 但气流不对称或其他原因都有可能引起飞机的滚转运动, 并在机翼产生的不对称升力的作用下加速滚转, 从而形成机翼自转。 此外, 尾旋本身复杂的旋转和振荡, 使得惯性交感力矩在尾旋运动中也起到了重要作用。 惯性交感力矩一般起到不稳定力矩的作用, 使飞机迎角有增大的趋势。
研究尾旋特性的手段[2]较多, 如风洞中的旋转天平测量试验和动态试验、 立式风洞试验[3]、 模型飞行试验以及飞机试飞等。 此外, 还可通过数值计算、 在飞行模拟器上进行尾旋运动的半物理仿真试验、 开展尾旋预防与改出训练等方法[4], 掌握并验证飞机尾旋时的运动特性和改出方法。
考虑到飞机尾旋运动的非线性和不确定性较强、 气动特性的迟滞效应较大, 且在尾旋的发展过程中飞机动力学特性随时间变化较大, 常规的研究方法存在
一定的局限性。 随着智能技术的发展, 特别是深度学习和强化学习的发展, 计算机在感知过程的数学建模及策略的学习问题等取得了一定的进步。 因此, 本文基于深度学习和强化学习方法, 开展了飞机尾旋改出问题的研究工作。
1 强化学习尾旋改出解决方案
飞机尾旋改出的主要目标是减小迎角并尽快达到安全速度, 同时将高度损失降至最低。 虽然从尾旋中改出的具体技术取决于飞机和尾旋的类型, 但通常通过减少飞机自转角速度、 恢复飞机迎角的策略可以改出大部分尾旋。 采用深度学习和强化学习技术能够在发生尾旋时自动执行改出操作。 经过多年研究, 强化学习发展出多种技术途径。 Tomar D S等 [5]采用强化学习和监督学习技术开展了飞机失速改出技术研究;  Kolb S等[6]开展了飞机深失速实时探测和改出程序研究; Cao H H等[7]采用强化学习技术开展了双阶段飞机尾旋改出策略研究; Kim D等 [8]采用强化学尾旋最优改出策略研究; Chao H Y等[9]开展了无人机失速/尾旋探测技术的飞行试验研究;  Bunge R A等[10-11]开展了无人机的失速/尾旋探测与飞行试验技术研究。
强化学习通过智能体与环境的交互学习获得好的策略, 在解决飞机尾旋改出具有广阔前景。 强化学习控制方案有可能发展为常规尾旋改出的替代方案, 但强化学习也面临一些问题, 研究侧重于解决相应的问题。 学习算法期望从当前动作中获得累积奖励, 因此它可以避免不希望的轨迹, 例如高迎角、 大角速率和大过载的状态。 强化学习经常被用来控制黑盒系统, 包括不确定性, 它保证了在预定状态空间和动作空间上的最优性。 然而, 在利用强化学习解决尾旋改出问题时, 存在相当具有挑战性的问题。 一个问题是维度爆炸的问
题。 随着状态空间和动作空间维度的增加, 相应的计算负载呈指数增长。 另一个问题是函数逼近器的复杂性。 由于学习技术通过使用单个状态操作奖励集进行迭代来更新连续状态上的奖励, 因此需要一个覆盖整个状态空间的函数逼近器。 函数逼近器的复杂性应确定为正确反映目标函数, 而不会出现欠拟合和过拟合。
智能体获得的策略需要满足诸多要求。 强化学习算法应当学习以获得更好的策略, 而更好的策略体现在如下三个方面:
(1) 强化学习获得的策略应当符合安全性的要求。 符合安全性要求的策略应当尽量避免事故的发生。 对于尾旋改出这种从事故中解脱的策略而言, 安全性更是极其重要的方向。
(2) 强化学习获得的策略应具备稳定系统的能力。 在系统控制过程中, 应当能够将系统从不稳定控制转化为稳定控制。 对于尾旋改出策略而言, 控制策略执行后, 飞机应当能够转为平稳飞行, 更要避免二次失速。
(3) 强化学习应当能够完成目标化的探索, 从而避免智能体学习到存在安全隐患的高奖励策略。 强化学习是通过最大化获得奖励获取策略, 如果对奖励的考虑不够充分, 可获得最大奖励的策略。
在利用深度强化学习技术进行飞机尾旋改出的过程中, 需要着重解决强化学习的奖励函数无法兼顾策略安全性与稳定性的问题、 策略的探索与输出难以预测和约束的问题, 以及难以灵活地应对动态的多目标控制问题。
2 算法设计与实现
问题建模
飞机的两个相邻时刻的飞行状态可近似看成飞机在给定操作下状态之间的转移, 飞机下一时刻的状态仅和当前时刻的状态有关, 与上一时刻的状态无关, 所以在理论层面上, 飞机的飞行状态具有马尔科夫性, 然后将飞机飞行过程在飞行时间的维度上离散化, 可以近似将飞机的飞行过程建模为离散时间的马尔科夫链[12](Discrete-Time Markov Chain, DTMC)。 飞机的尾旋改出过程其本质是通过操作杆对飞机的状态转移加以控制, 使飞机达到某个目标状态, 故飞机的尾旋改出过程就是在飞机飞行过程的马尔科夫链的基础上加入决策控制, 故可将飞机尾旋改出过程建模为马尔科夫决策过程(Markov Decision Process, MDP)。
将飞机的尾旋改出过程建模为马尔科夫决策过程, MDP是一个序贯决策过程, 可以由一个5元组来表示, 具体建模内容规范如下:
飞机的尾旋改出是一个连续控制问题[13], 在MDP决策过程中, 采用强化学习方法去解决尾旋改出连续控制问题。 以飞机进入尾旋后的初始状态作为强化学习网络的环境初始化之后的第一个状态, 然后设计合理的强化学习网络去拟合状态和动作的映射关系, 以强化学习网络的输出值(即动作值)作为飞机控制杆的控制量, 飞机获得新的控制量后对当前状态进行更新并获得新的状态, 此时环境会根据飞机的新状态对这次控制决策给出一个奖励值, 随后以该新状态作为强化学习网络的下一个输入值, 如此每一次循环, 飞机将完成识别当前状态—执行控制指令—到达下一状态—获取奖励值这一完整流程, 强化学习的目的是让每一轮中飞机获得的累计奖励值达到最大, 在合理的奖励函数引导下, 就可以引导网络做出有利于尾旋改出的决策, 直至将飞机改出尾旋状态, 恢复平稳飞行。
在基于值函数的强化学习算法中, 深度神经网络的输出是当前状态s的所有可执行动作的状态-动作价值Q(s, a; θ)所组成的向量, 因此该方法只能处理离散动作空间问题。 而本文的尾旋改出场景是连续动作空间问题, 比如动作设定为飞机操纵杆的幅度值, 基于值函数的强化学习算法不适用。 策略梯度方法利用参数化的深度神经网络来近似策略, 从而可以输出连续的动作策略, 解决尾旋改出问题中涉及的连续动作问题。 策略梯度方法在每次进行策略更新前, 需要采用当前的策略与环境进行交互产生多条轨迹, 计算梯度后对模型进行更新, 得到新的策略。
由此可见, 策略梯度是一种在线策略(On-Policy)的更新方法, 导致该算法对样本的利用率较低。 同时, 由于策略梯度算法输出的是动作的概率分布, 而不是一个确定性的动作, 导致改出算法收敛速度较慢且不稳定, 而基于值函数的强化学习方法可以解决这个问题。
综上, 可以将策略梯度和值函数相结合, 构建一个新的强化学习架构, 即Actor-Critic(AC)架構[14-15]。 本文采用基于AC架构建立的近端策略优化算法[16](Proximal Policy Optimization, PPO)开展尾旋改出试验。 PPO算法是一种新型的在线策略梯度方法, 它综合了“策略梯度方法(PG)”和“置信域策略优化(TRPO)”的优点。
算法模型
状态空间
在尾旋改出场景中, 强化学习状态空间的变量由飞机的10个飞行状态量构成, 分别为空速、 迎角、 侧滑角、 滚转角、 俯仰角、 偏航角、 滚转角速
度、 俯仰角速度、 偏航角速度、 垂直速度。 在强化学习的网络训练过程中, 状态信息被表征为一个10维向量。 表1为强化学习状态空间的变量表。
动作空间
在尾旋改出场景下, 强化学习动作空间的控制变量包含升降舵、 副翼、 方向舵和油门杆等4个操纵面。 表2通过对操纵面进行归一化处理, 给出了每一个控制变量的名称、 含义及其取值范围。
奖励函数
针对飞机尾旋改出场景, 奖励函数的设计目的是引导网络做出最优决策, 从而控制飞机完成改出。 因此, 奖励函数应设计为一系列与状态变量有关的函数。 为了使目标网络更容易收敛, 与各状态变量相关的奖励函数应统一, 奖励函数r的形式如下:
式中: 函数变量Curval表示智能体中当前该状态分量的值; Tarval表示智能体中该状态分量的目标值; Θ为缩放系数。 , 该函数如图1所示。
该奖励函数有以下特点:
(1) 越靠近目标值, 奖励值越大。 从图中可以看出, 当前状态值与目标值越接近, 函数值越大, 而且在目标值附近时函数值变化十分剧烈, 这是为了让强化学习网络在目标值附近决策时, 依然可以获取较大的奖励差值, 使网络更容易收敛至最优点。
(2) 通过调整Θ值来代替正向动作奖励。 正向动作奖励是指若当前决策使得该状态分量比上一次决策更接近目标值, 则获得正值的奖励, 否则获得负
值的惩罚, 这会引导智能体在每一次决策中趋向于做出当前状态下的正向决策。 在该奖励函数中, 通过调整缩放系数Θ, 可以改变曲线与x轴的交点, 而通过调整交点位置, 可以在一定程度上代替正向动作奖励, 同时又避免了正向动作奖励在目标值附近振荡的缺点。 试验证明, 当交点为(40, 0)左右时, 训练效果最好, 。
(3) 将奖励值归一到[-1, 1]。 奖励值归一化有利于减少因各个奖励的标量值不同对总体奖励的影响, 同时也更加方便对不同参数的奖励设置不同的权重, 设置更加明确的奖励函数和权重。
总奖励Rtot为各状态分量相关奖励的加权和, 即
权重Wi表示网络对第i个状态分量的重视程度, 在实际的训练过程中, 各项权重将根据训练的不同阶段进行调整。
实际训练中, 使用空速、 迎角、 侧滑角、 滚转角、 俯仰角、 偏航角、 滚转角速度、 俯仰角速度、 偏航角速度、 垂直速度等10个状态变量进行计算, 然后, 将各训练轮次的奖励函数取值进行叠加, 得到最终的奖励函数取值, 即
Rtot=Rα+R+Rθ+RΨ+Rp+Rq+Rr+RVh(3)
式中: Rα, R, Rθ, Rψ, Rp, Rq, Rr, RVh分别表示迎角、 滚转角、 俯仰角、 偏航角、 滚转角速度、 俯仰角速度、 偏航角速度、 垂直速度对应的奖励函数分量。 各分量对应的奖励函数的参数设置如表3所示。
训练和测试环境

基于深度强化学习的尾旋改出技术 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数25
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小465 KB
  • 时间2025-02-12