安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111550831.2 (22)申请日 2021.12.17 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 陈万春 龚晓鹏 陈中原  (74)专利代理 机构 北京慧泉知识产权代理有限 公司 11232 专利代理师 王顺荣 唐爱华 (51)Int.Cl. G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称 基于深度强化学习的空空导弹越肩发射制 导律设计方法 (57)摘要 本发明一种基于深度强化学习的空空导弹 越肩发射制导律设计方法, 包括步骤如下: 步骤 1, 对越肩发射进行归一化动力学建模; 对模型进 行归一化使各状态量具有相近的量级, 从而使神 经网络的权重 更新能够更加稳定; 步骤2, 为了适 应强化学习的研究范式, 需要将步骤1中的研究 问题建模为马尔科夫决策过程; 步骤3, 搭建算法 网络, 设置算法参数; 选用的深度学习算法为近 端策略优化算法PPO, 步骤4, 在训练达到目标奖 励值或最大步数之前, 智能体将根据PPO算法不 断收集状态转移数据及奖励, 并不断迭代更新 Actor网络和Critic网络 的参数。 应用本发明的 技术方案, 可以使导弹在复杂的气动环境中获得 具有次优性和鲁棒性的攻角制导律, 且考虑了导 弹不同机动能力的限制, 在未来空战中具有实用 价值。 权利要求书3页 说明书9页 附图5页 CN 114519292 A 2022.05.20 CN 114519292 A 1.一种基于深度强化学习的空空导弹越肩发射制导律设计方法, 其特征在于, 包括步 骤如下: 步骤1, 对越肩发射进行归一化动力学建模; 对模型进行归一化使各状态量具有相近的 量级, 从而使神经网络的权重更新能够更加稳定; 首先对导 弹越肩发射的场景进 行建模, 得 到气动系下的动力学 方程与惯性系下的运动学 方程以及考虑质量变化的方程; 步骤2, 为了适应强化学习的研究范式, 需要将步骤1中的研究问题建模为马尔科夫决 策过程; 步骤3, 搭建算法网络, 设置算法参数; 选用的深度学习算法为近端策略优化算法PPO, 该算法包 含Actor网络和Critic网络, 网络 权重参数采用随机化 参数; 步骤4, 在训练达到目标奖励值或最大步数之前, 智能体将根据PPO算法不断收集状态 转移数据及奖励, 并不断迭代更新Actor网络和Critic网络的参数。 2.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其 特征在于: 在步骤1中, 方程具体为: 其中 为导弹归一化后飞行速度, 为归一化后弹道倾角, 为归一化后横坐标, 为归一化后纵坐标, 为前述各量相应变化率, 而V*、 θ*、 x*、 y*为前述各量 相应的归一化因子; 此外α 为导弹攻角, P为主发动机推力, Trcs为反作用喷气发动机推力, up 和urcs分别为主发动机和反作用喷气发动机的开关机逻 辑量, FD和FL分别为具有较强不确定 性的阻力和升力, m为 导弹质量, mc为质量流量, g为重力加速度常数。 3.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其 特征在于: 在步骤2中, 具体过程包括 步骤201至步骤20 3; 步骤201, 动作空间设置; 为了保证系统动态的平稳性, 选用攻角α 的一阶导数 作为系 统输入; 此外, 将 作为动作 还能满足导弹的机动能力限制; 但随着未来空空导弹机动能力 的发展, 尤其是在推力矢量或反作用喷气的辅助下, 用攻角的限制也将随之取消; 步骤202, 状态空间及观测空间设置; 在步骤201设置动作的基础上, 设置智能体的状态 空间和观测空间, 但并不是系统中所有的状态都对控制指令的决策有意义; 冗余的观测将 导致训练的不稳定, 而不足的观测则容 易直接导致训练不收敛; 步骤203, 奖励函数设置; 奖励函数的设置对最终训练效果有着重要的影响, 为了避免 奖励稀疏, 这里设计的奖励函数为 其中 为期 望转弯角度, θM为导弹弹道倾角, λ1, λ2, λ3为需要设置的超参数, 用于调节各项之间的比例;权 利 要 求 书 1/3 页 2 CN 114519292 A 2且为了提高最终转弯精确度, 引入额外奖励rbonus, 其值为 其中rb为在满足精度条件时的额外奖励, rb需要与前面各项相协调以保证智能体在理想精 度 θthre内获得合 适的奖励。 4.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其 特征在于: 在步骤4中, 具体包括 步骤401至步骤404; 步骤401, 在当前策略 下收集轨迹数据并缓存至经验池, 直至经验池存满; 在每个仿 真步长中, 对于当前观测值ot, 执行当前策略 得到当前动作at, 并根据系统动力学方程积 分得到下一时刻的状态st+1和观测ot+1, 同时获得 奖励rt; 步骤402, 采用广义优势估计GAE的方法估计优势函数 最终的优化目标 其中cvf和cs是调整各项比例的超参数; 为增加更有优势的动作的概率的截断目标, 为值函数损失项, 为鼓励 探索的最大化熵项; 步骤403, 从经验池中按照batch的大小取出轨迹数据, 并将优化目标JPPO( θ )采用随机 梯度下降的方式优化Actor网络和Critic网络的参数, 直到经验池中数据完成K个epoch的 更新; 步骤404, 考虑到初始转弯指令的随机性, 比较新旧策略所获累积奖励的期望, 更新最 终输出的网络参数; 步骤405, 重 复步骤401至步骤404直至训练得到目标奖励值或达到最大训练步数, 得到 Actor网络将作为 最终的策略网络直接 部署在弹载计算机上, 实时生成攻角制导指令 。 5.根据权利要求3所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其 特征在于: 在步骤201中, 如果导弹存在可用攻角限制即|α |<αmax, 其中αmax为攻角限制, 则 6.根据权利要求3所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其 特征在于: 在步骤202中, 系统的状态空间变为 观测空间被设置 为 其中 为期望的转弯角度。 7.根据权利要求4所述的基于深度强化学习的空空导弹越肩发射制导律设计方法, 其 特征在于: 在步骤401中, 在每个仿真步长中, 基于当前观测值 执行当前 策略得到当前动作 的概率均值, 即 在高斯分布 中采样得到当 前动作 并根据系统动力 学方程f(xt,at,t)积分得到下一时刻的状态st+1和 观测ot+1, 同时计算奖励 直至该回合结束, 收集到一组 轨迹{s0,o0,a0,r1,s1,o1,a1,r2,s2…}; 在当前策 略 下收集轨迹数据并缓存至经验池, 经权 利 要 求 书 2/3 页 3 CN 114519292 A 3

.PDF文档 专利 基于深度强化学习的空空导弹越肩发射制导律设计方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的空空导弹越肩发射制导律设计方法 第 1 页 专利 基于深度强化学习的空空导弹越肩发射制导律设计方法 第 2 页 专利 基于深度强化学习的空空导弹越肩发射制导律设计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:20:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。