安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210744893.5 (22)申请日 2022.06.27 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学清华园北京 100084-82信箱 申请人 毫末智行 科技有限公司 (72)发明人 詹仙园 张文嘉 顾维灏 艾锐 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 赵娜 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种动力学模型支持的双重有偏好模仿学 习方法及系统 (57)摘要 本发明提供一种动力学模型支持的双重有 偏好模仿学习方法及系统, 包括: 获取自动驾驶 训练所需要的训练样本集, 其中, 所述训练样本 包含离线专家数据集、 离线无奖励标签数据集和 动力学模型数据集; 通过预设的第一判别器输出 数据与专家数据的接近程度和预设的第二判别 器输出数据与真实数据的接近程度构建损失函 数, 训练驾驶模仿策略模型; 通过训练后的驾驶 模仿策略模型, 对自动驾驶车辆进行模仿训练。 本发明解决了现有模仿训练中可用 专家数据量 少、 训练效率低的缺陷, 以实现快速高效的有偏 好模仿学习。 权利要求书2页 说明书9页 附图5页 CN 114986512 A 2022.09.02 CN 114986512 A 1.一种动力学模型支持的双重有偏好模仿学习方法, 其特 征在于, 包括: 获取自动驾驶训练所需要的训练样本集, 其中, 所述训练样本包含离线专家数据集、 离 线无奖励标签数据集和动力学模型 数据集; 通过预设的第一判别器输出数据与专家数据的接近程度和预设的第二判别器输出数 据与真实数据的接 近程度构建损失函数, 训练驾驶模仿策略模型; 通过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练。 2.根据权利要求1所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所 述通过预设的第一判别器输出数据与专家数据的接近程度和预设的第二判别器输出数据 与真实数据的接 近程度构建损失函数, 训练驾驶模仿策略模型, 具体包括: 所述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第一判别器, 判别出专 家数据, 输出 数据与专 家数据的接 近程度; 将所述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第二判别 器, 判别出真实数据, 输出 数据与真实数据的接 近程度; 通过所述输出数据与专家数据的接近程度和输出数据与真实数据的接近程度构造损 失函数对驾驶模仿策略模型进行训练, 学习专 家数据; 其中, 所述动力学模型数据集是通过动力学模型对离线专家数据集和离线无奖励标签 数据集进行 学习所生成的。 3.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所 述动力学模型数据集是通过动力学模型对离线专家数据集和离线无奖励标签数据集进行 学习所生成的, 具体包括: 将离线专 家数据集和离线无 奖励标签数据集共同输入至动力学模型; 所述动力学模型根据离线专家数据集中的专家数据和离线无奖励标签数据集中的无 奖励标签数据进行 学习, 并进行 数据扩增, 生成动力学模型 数据集; 所述动力学模型 数据集中包括真实专 家数据和伪专 家数据。 4.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所 述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第一判别器, 判别出 专家数据, 输出 数据与专 家数据的接 近程度, 具体包括: 所述第一判别器对输入的离线专家数据集、 离线无奖励标签数据集和动力学模型数据 集进行判断, 判别出专 家数据次优数据; 对判别出专 家数据提升 权重, 对判别出的次优数据降低权 重; 根据专家数据的权 重信息和次优数据集的权 重信息输出数据与专 家数据的接 近程度。 5.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 将 所述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第二判别器, 判别 出真实数据, 输出 数据与真实数据的接 近程度, 具体包括: 所述第二判别器对输入的离线专家数据集、 离线无奖励标签数据集和动力学模型数据 集进行判断, 判别出真实数据虚假数据; 对判别出真实数据提升 权重, 对判别出的虚假数据降低权 重; 根据真实数据的权 重信息和虚假数据集的权 重信息输出数据与真实数据的接 近程度。 6.根据权利要求5所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所权 利 要 求 书 1/2 页 2 CN 114986512 A 2述第二判别器与动力学模型之间进行对抗耦合训练; 将第二判别器判断的结果反馈至动力学模型, 使动力学模型调整学习策略, 学习更多 真实数据。 7.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 通 过所述输出数据与专家数据的接近程度和输出数据与真实数据的接近程度构造损失函数 对驾驶模仿策略模型进行训练, 学习专 家数据, 具体包括: 所述输出数据与专家数据的接近程度、 输出数据与真实数据的接近程度和模仿策略自 身的损失函数进行相加, 获得总损失函数; 通过总损 失函数对驾驶模仿策略模型进行训练, 修正模仿学习策略, 生成修正后的驾 驶模仿策略模型; 所述修正后的驾驶模仿策略模型对真实的专家数据进行模仿学习, 模仿专家数据集对 应的功能。 8.一种动力学模型支持的双重有偏好模仿学习 系统, 其特 征在于, 所述系统包括: 数据获取模块, 获取自动驾驶训练所需要的训练样本集, 其中, 所述训练样本包含离线 专家数据集、 离线无 奖励标签数据集和动力学模型 数据集; 模仿学习 模块, 通过预设的第 一判别器输出数据与专家数据的接近程度和预设的第 二 判别器输出 数据与真实数据的接 近程度构建损失函数, 训练驾驶模仿策略模型; 训练模块, 用于通过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述一种动力学模型支持的双重有偏好模仿学习方法。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至7任一项所述一种动力学模型支持的双重有偏 好模仿学习方法。权 利 要 求 书 2/2 页 3 CN 114986512 A 3
专利 一种动力学模型支持的双重有偏好模仿学习方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:05:36
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
T-CEC 5069—2022 飞轮储能电站设计规范.pdf
DB36-T 1477-2021 碳普惠平台运营管理规范 江西省.pdf
T-ISC-0011-2021 数据安全治理能力评估方法.pdf
YD T 4582-2023 电信业务涉诈风险安全评估要求.pdf
GB-T 22452-2008 硼酸盐非线性光学单晶元件通用技术条件.pdf
证券公司网络和信息安全三年提升计划(2023-2025).pdf
TB-T 1669-2018 机车车辆车钩及缓冲装置计量器具 13型车钩量具.pdf
ISO IEC 2382-37 022 Information technology — Vocabulary — Part 37 Biometrics.pdf
GB-T 8020-2015 汽油中铅含量的测定 原子吸收光谱法.pdf
GB-T 39701-2020 粉煤灰中铵离子含量的限量及检验方法.pdf
GB 12955-2008 防火门.pdf
GB-T 36951-2018 信息安全技术 物联网感知终端应用安全技术要求.pdf
GA 1551.5-2019 石油石化系统治安反恐防范要求 第5部分:运输企业.pdf
GB-T 14728.2-2008 双臂操作助行器具 要求和试验方法 第2部分:轮式助行架.pdf
GB-T 42875-2023 城市公共设施 城市家具 分类.pdf
GB 25527-2010 矿用混装炸药车 安全要求.pdf
GB-T 446-2023 全精炼石蜡.pdf
GM-T 0117-2022 网络身份服务密码应用技术要求.pdf
GB-T 39334.2-2020 机械产品制造过程数字化仿真 第2部分:生产线规划和布局仿真要求.pdf
GB-T 31497-2015 信息技术 安全技术 信息安全管理 测量.pdf
1
/
3
17
评价文档
赞助2元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。