安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111659123.2 (22)申请日 2021.12.31 (71)申请人 上海商汤科技 开发有限公司 地址 201306 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区环湖西二 路888号C楼 (72)发明人 李楚鸣 刘宇 王晓刚 (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G05B 13/04(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 网络训练、 机器人控制方法及装置、 设备及 存储介质 (57)摘要 本公开提供了一种网络训练、 机器人控制方 法及装置、 设备及存储介质, 其中, 训练方法包 括: 获取在 目标应用场景下的环境状态信息; 根 据所述环境状态信息和预训练的强化学习网络 得到动作序列信息, 并确定所述动作序列信息对 应的回报奖励总值, 所述动作序列信息用于指示 未来预设时长内至少两个连续的执行动作; 基于 回报奖励总值对强化学习网络的网络参数值进 行调整, 得到训练好的强化学习网络。 本公开中, 由回报奖励总值调整后的强化学习网络能够更 好的适应于动作序列的生成, 这样, 随着强化学 习网络的调整, 所生成的动作序列也越来越好。 在将训练好的强化学习网络应用到诸如需要进 行连续控制等复杂场景的情况下, 也可以具有较 好的控制性能。 权利要求书2页 说明书13页 附图2页 CN 114397817 A 2022.04.26 CN 114397817 A 1.一种网络训练方法, 其特 征在于, 包括: 获取在目标应用场景 下的环境状态信息; 根据所述环境状态信 息和预训练的强化学习网络得到动作序列信 息, 并确定所述动作 序列信息对应的回报奖励总值, 所述动作序列信息用于指示未来预设时长内至少两个连续 的执行动作; 基于所述 回报奖励总值对所述强化学习网络的网络参数值进行调整, 得到训练好的强 化学习网络; 其中, 所述训练好的强化学习网络用于获取对目标对 象进行连续控制的目标 动作序列, 所述目标动作序列对应的回报奖励总值大于预设阈值。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述动作序列信 息对应的回报奖 励总值, 包括: 将所述动作序列信 息作用于所述目标应用场景, 得到与 所述动作序列信 息对应的环境 状态序列信息以及回报奖励值集合; 所述回报奖励值集合包括顺序执行所述至少两个连续 的执行动作的情况 下、 每个执行动作分别对应的回报奖励值; 基于所述环境状态序列信息以及所述回报奖励值 集合, 得到所述回报奖励总值。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述环境状态序列信 息以及所述 回报奖励值 集合, 得到所述回报奖励总值, 包括: 针对所述至少两个连续的执行动作包括的每个执行动作, 从所述环境状态序列信 息以 及所述回报奖励值集合中, 分别确定与所述执行动作对应的环境状态以及在执行所述执行 动作的情况下, 产生的回报奖励值; 并基于所述回报奖励值以及在所述环境状态下 的环境 影响值, 确定针对所述执 行动作的回报奖励和值; 基于每个执行动作分别确定的回报奖励和值, 确定所述回报奖励总值。 4.根据权利要求3所述的方法, 其特征在于, 所述基于每个执行动作分别确定的回报奖 励和值, 确定所述回报奖励总值, 包括: 获取为每 个执行动作分别赋予的动作权 重值; 基于每个执行动作分别确定的回报奖励和值、 以及每个执行动作分别赋予的动作权重 值, 确定所述回报奖励总值。 5.根据权利要求1至4任一所述的方法, 其特征在于, 所述动作序列信息用于指示未来 预设时长内N个连续的执行动作, N为大于或等于2的整 数, 所述根据所述环 境状态信息和预 训练的强化学习网络得到动作序列信息, 包括: 根据所述预训练的强化学习网络、 所述目标应用场景第 n‑1时刻的环境状态确定第n个 执行动作, n 为整数, 且0<n≤N; 其中, 在n为1时, 所述目标应用场景第n ‑1时刻的环境状态根据所述环境状态信息确 定; 在1<n≤N时, 所述目标应用场景第n ‑1时刻的环 境状态根据所述目标应用场景第n ‑2时 刻的环境状态和第n ‑1个执行动作确定 。 6.根据权利要求1至5任一所述的方法, 其特征在于, 所述基于所述回报奖励总值对所 述强化学习网络的网络参数值进行调整, 得到训练好的强化学习网络, 包括: 循环执行以下步骤, 直至所述训练好的强化学习网络输出的目标动作序列对应的回报 奖励总值大于预设阈值; 基于所述 回报奖励总值对所述强化学习网络的网络参数值进行调整, 得到调整后的强权 利 要 求 书 1/2 页 2 CN 114397817 A 2化学习网络; 以及, 将所述动作序列信息作用于所述目标应用场景, 得到与所述动作序列信 息对应的环境状态序列信息; 将所述环境状态序列信息包括的最后一个环境状态信息输入到调整后的强化学习网 络, 得到所述强化学习网络输出的用于执行未来预设时长内多个连续的执行动作的动作序 列信息、 以及 在执行所述动作序列信息的情况 下, 产生的回报奖励总值。 7.一种机器人控制方法, 其特 征在于, 包括: 获取目标机器人 所处的当前环境状态信息; 将所述当前环境状态信息输入到利用权利要求1至6任一所述的网络训练方法所训练 好的强化学习网络, 得到用于对所述目标机器人进行 连续控制的目标动作序列。 8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括: 在接收到所述目标机器人发送的针对所述目标动作序列包括的当前执行动作的执行 成功指令的情况下, 向所述目标机器人下发用于执行所述当前执行动作的下一个执行动作 的动作指令 。 9.一种网络训练装置, 其特 征在于, 包括: 获取模块, 用于获取在目标应用场景 下的环境状态信息; 训练模块, 用于根据所述环境状态信息和预训练的强化学习 网络得到动作序列信息, 并确定所述动作序列信息对应的回报奖励总值, 所述动作序列信息用于指示未来预设时长 内至少两个连续的执 行动作; 调整模块, 用于基于所述回报奖励总值对所述强化学习 网络的网络参数值进行调整, 得到训练好的强化学习网络; 其中, 所述训练好的强化学习网络用于获取对目标对 象进行 连续控制的目标动作序列, 所述目标动作序列对应的回报奖励总值大于预设阈值。 10.一种机器人控制装置, 其特 征在于, 包括: 获取模块, 用于获取目标机器人 所处的当前环境状态信息; 控制模块, 用于将所述当前环境状态信 息输入到利用权利要求1至6任一所述的网络训 练方法所训练好的强化学习网络, 得到用于对 所述目标机器人进 行连续控制的目标动作序 列。 11.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述 处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总 线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至6任一项 所述的网络训 练方法的步骤或者如权利要求7或8所述的机器人控制方法的步骤。 12.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处理器运行时执行如权利要求1至6任一项 所述的网络训练方法的步骤 或者如权利要求7或8所述的机器人控制方法的步骤。权 利 要 求 书 2/2 页 3 CN 114397817 A 3
专利 网络训练、机器人控制方法及装置、设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 00:20:32
上传分享
举报
下载
原文档
(635.7 KB)
分享
友情链接
岗位说明书.pdf
GB-T 33172-2016 资产管理 综述、原则和术语.pdf
GB-T 41703-2022 商业或工业用及类似用途的热泵热水系统设计、安装、验收规范.pdf
GB-T 41619-2022 科学技术研究项目评价实施指南 基础研究项目.pdf
T-CESA 1121—2020 人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法.pdf
GB-T 31464-2022 电网运行准则.pdf
DB32/T 4405-2022 工程建设项目“多测合一”技术规程 江苏省.pdf
GM-T 0003.1-2012 SM2椭圆曲线公钥密码算法第1部分:总则.pdf
UNE EN ISO IEC 19790 2020.pdf
GB-T 43206-2023 信息安全技术 信息系统密码应用测评要求.pdf
GB-T 30013-2013 城市轨道交通试运营基本条件.pdf
GB-T 34300-2017 城乡社区网格化服务管理规范.pdf
GB-T 20520-2006 信息安全技术 公钥基础设施 时间戳规范.pdf
GB-T 43436-2023 智能工厂 面向柔性制造的自动化系统 通用要求.pdf
NY-T 1875-2020 联合收获机报废技术条件.pdf
NB-T 10579-2021 海上风电场运行安全规程.pdf
SN-T 3005-2011 有机化学品中碳、氢、氮、硫含量的元素分析仪测定方法.pdf
GB-T 40327-2021 轮式移动机器人导引运动性能测试方法.pdf
GB-T 33562-2017 信息安全技术 安全域名系统实施指南.pdf
奇安信 冬奥安全体系建设分享与思路拓展 .pdf
交流群
-->
1
/
3
18
评价文档
赞助2元 点击下载(635.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。