(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111550831.2
(22)申请日 2021.12.17
(71)申请人 北京航空航天大 学
地址 100191 北京市海淀区学院路37号
(72)发明人 陈万春 龚晓鹏 陈中原
(74)专利代理 机构 北京慧泉知识产权代理有限
公司 11232
专利代理师 王顺荣 唐爱华
(51)Int.Cl.
G06F 30/27(2020.01)
G06F 119/02(2020.01)
(54)发明名称
基于深度强化学习的空空导弹越肩发射制
导律设计方法
(57)摘要
本发明一种基于深度强化学习的空空导弹
越肩发射制导律设计方法, 包括步骤如下: 步骤
1, 对越肩发射进行归一化动力学建模; 对模型进
行归一化使各状态量具有相近的量级, 从而使神
经网络的权重 更新能够更加稳定; 步骤2, 为了适
应强化学习的研究范式, 需要将步骤1中的研究
问题建模为马尔科夫决策过程; 步骤3, 搭建算法
网络, 设置算法参数; 选用的深度学习算法为近
端策略优化算法PPO, 步骤4, 在训练达到目标奖
励值或最大步数之前, 智能体将根据PPO算法不
断收集状态转移数据及奖励, 并不断迭代更新
Actor网络和Critic网络 的参数。 应用本发明的
技术方案, 可以使导弹在复杂的气动环境中获得
具有次优性和鲁棒性的攻角制导律, 且考虑了导
弹不同机动能力的限制, 在未来空战中具有实用
价值。
权利要求书3页 说明书9页 附图5页
CN 114519292 A
2022.05.20
CN 114519292 A
1.一种基于深度强化学习的空空导弹越肩发射制导律设计方法, 其特征在于, 包括步
骤如下:
步骤1, 对越肩发射进行归一化动力学建模; 对模型进行归一化使各状态量具有相近的
量级, 从而使神经网络的权重更新能够更加稳定; 首先对导 弹越肩发射的场景进 行建模, 得
到气动系下的动力学 方程与惯性系下的运动学 方程以及考虑质量变化的方程;
步骤2, 为了适应强化学习的研究范式, 需要将步骤1中的研究问题建模为马尔科夫决
策过程;
步骤3, 搭建算法网络, 设置算法参数; 选用的深度学习算法为近端策略优化算法PPO,
该算法包 含Actor网络和Critic网络, 网络 权重参数采用随机化 参数;
步骤4, 在训练达到目标奖励值或最大步数之前, 智能体将根据PPO算法不断收集状态
转移数据及奖励, 并不断迭代更新Actor网络和Critic网络的参数。
2.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其
特征在于: 在步骤1中, 方程具体为:
其中
为导弹归一化后飞行速度,
为归一化后弹道倾角,
为归一化后横坐标,
为归一化后纵坐标,
为前述各量相应变化率, 而V*、 θ*、 x*、 y*为前述各量
相应的归一化因子; 此外α 为导弹攻角, P为主发动机推力, Trcs为反作用喷气发动机推力, up
和urcs分别为主发动机和反作用喷气发动机的开关机逻 辑量, FD和FL分别为具有较强不确定
性的阻力和升力, m为 导弹质量, mc为质量流量, g为重力加速度常数。
3.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其
特征在于: 在步骤2中, 具体过程包括 步骤201至步骤20 3;
步骤201, 动作空间设置; 为了保证系统动态的平稳性, 选用攻角α 的一阶导数
作为系
统输入; 此外, 将
作为动作 还能满足导弹的机动能力限制; 但随着未来空空导弹机动能力
的发展, 尤其是在推力矢量或反作用喷气的辅助下, 用攻角的限制也将随之取消;
步骤202, 状态空间及观测空间设置; 在步骤201设置动作的基础上, 设置智能体的状态
空间和观测空间, 但并不是系统中所有的状态都对控制指令的决策有意义; 冗余的观测将
导致训练的不稳定, 而不足的观测则容 易直接导致训练不收敛;
步骤203, 奖励函数设置; 奖励函数的设置对最终训练效果有着重要的影响, 为了避免
奖励稀疏, 这里设计的奖励函数为
其中
为期
望转弯角度, θM为导弹弹道倾角, λ1, λ2, λ3为需要设置的超参数, 用于调节各项之间的比例;权 利 要 求 书 1/3 页
2
CN 114519292 A
2且为了提高最终转弯精确度, 引入额外奖励rbonus, 其值为
其中rb为在满足精度条件时的额外奖励, rb需要与前面各项相协调以保证智能体在理想精
度 θthre内获得合 适的奖励。
4.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其
特征在于: 在步骤4中, 具体包括 步骤401至步骤404;
步骤401, 在当前策略
下收集轨迹数据并缓存至经验池, 直至经验池存满; 在每个仿
真步长中, 对于当前观测值ot, 执行当前策略
得到当前动作at, 并根据系统动力学方程积
分得到下一时刻的状态st+1和观测ot+1, 同时获得 奖励rt;
步骤402, 采用广义优势估计GAE的方法估计优势函数
最终的优化目标
其中cvf和cs是调整各项比例的超参数;
为增加更有优势的动作的概率的截断目标,
为值函数损失项,
为鼓励
探索的最大化熵项;
步骤403, 从经验池中按照batch的大小取出轨迹数据, 并将优化目标JPPO( θ )采用随机
梯度下降的方式优化Actor网络和Critic网络的参数, 直到经验池中数据完成K个epoch的
更新;
步骤404, 考虑到初始转弯指令的随机性, 比较新旧策略所获累积奖励的期望, 更新最
终输出的网络参数;
步骤405, 重 复步骤401至步骤404直至训练得到目标奖励值或达到最大训练步数, 得到
Actor网络将作为 最终的策略网络直接 部署在弹载计算机上, 实时生成攻角制导指令 。
5.根据权利要求3所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其
特征在于: 在步骤201中, 如果导弹存在可用攻角限制即|α |<αmax, 其中αmax为攻角限制, 则
6.根据权利要求3所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其
特征在于: 在步骤202中, 系统的状态空间变为
观测空间被设置 为
其中
为期望的转弯角度。
7.根据权利要求4所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其
特征在于: 在步骤401中, 在每个仿真步长中, 基于当前观测值
执行当前
策略得到当前动作
的概率均值, 即
在高斯分布
中采样得到当
前动作
并根据系统动力 学方程f(xt,at,t)积分得到下一时刻的状态st+1和
观测ot+1, 同时计算奖励
直至该回合结束, 收集到一组
轨迹{s0,o0,a0,r1,s1,o1,a1,r2,s2…}; 在当前策 略
下收集轨迹数据并缓存至经验池, 经权 利 要 求 书 2/3 页
3
CN 114519292 A
3
专利 基于深度强化学习的空空导弹越肩发射制导律设计方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:20:20上传分享