安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210744893.5 (22)申请日 2022.06.27 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学清华园北京 100084-82信箱 申请人 毫末智行 科技有限公司 (72)发明人 詹仙园 张文嘉 顾维灏 艾锐  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 赵娜 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种动力学模型支持的双重有偏好模仿学 习方法及系统 (57)摘要 本发明提供一种动力学模型支持的双重有 偏好模仿学习方法及系统, 包括: 获取自动驾驶 训练所需要的训练样本集, 其中, 所述训练样本 包含离线专家数据集、 离线无奖励标签数据集和 动力学模型数据集; 通过预设的第一判别器输出 数据与专家数据的接近程度和预设的第二判别 器输出数据与真实数据的接近程度构建损失函 数, 训练驾驶模仿策略模型; 通过训练后的驾驶 模仿策略模型, 对自动驾驶车辆进行模仿训练。 本发明解决了现有模仿训练中可用 专家数据量 少、 训练效率低的缺陷, 以实现快速高效的有偏 好模仿学习。 权利要求书2页 说明书9页 附图5页 CN 114986512 A 2022.09.02 CN 114986512 A 1.一种动力学模型支持的双重有偏好模仿学习方法, 其特 征在于, 包括: 获取自动驾驶训练所需要的训练样本集, 其中, 所述训练样本包含离线专家数据集、 离 线无奖励标签数据集和动力学模型 数据集; 通过预设的第一判别器输出数据与专家数据的接近程度和预设的第二判别器输出数 据与真实数据的接 近程度构建损失函数, 训练驾驶模仿策略模型; 通过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练。 2.根据权利要求1所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所 述通过预设的第一判别器输出数据与专家数据的接近程度和预设的第二判别器输出数据 与真实数据的接 近程度构建损失函数, 训练驾驶模仿策略模型, 具体包括: 所述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第一判别器, 判别出专 家数据, 输出 数据与专 家数据的接 近程度; 将所述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第二判别 器, 判别出真实数据, 输出 数据与真实数据的接 近程度; 通过所述输出数据与专家数据的接近程度和输出数据与真实数据的接近程度构造损 失函数对驾驶模仿策略模型进行训练, 学习专 家数据; 其中, 所述动力学模型数据集是通过动力学模型对离线专家数据集和离线无奖励标签 数据集进行 学习所生成的。 3.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所 述动力学模型数据集是通过动力学模型对离线专家数据集和离线无奖励标签数据集进行 学习所生成的, 具体包括: 将离线专 家数据集和离线无 奖励标签数据集共同输入至动力学模型; 所述动力学模型根据离线专家数据集中的专家数据和离线无奖励标签数据集中的无 奖励标签数据进行 学习, 并进行 数据扩增, 生成动力学模型 数据集; 所述动力学模型 数据集中包括真实专 家数据和伪专 家数据。 4.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所 述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第一判别器, 判别出 专家数据, 输出 数据与专 家数据的接 近程度, 具体包括: 所述第一判别器对输入的离线专家数据集、 离线无奖励标签数据集和动力学模型数据 集进行判断, 判别出专 家数据次优数据; 对判别出专 家数据提升 权重, 对判别出的次优数据降低权 重; 根据专家数据的权 重信息和次优数据集的权 重信息输出数据与专 家数据的接 近程度。 5.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 将 所述离线专家数据集、 离线无奖励标签数据集和动力学模型数据集输入第二判别器, 判别 出真实数据, 输出 数据与真实数据的接 近程度, 具体包括: 所述第二判别器对输入的离线专家数据集、 离线无奖励标签数据集和动力学模型数据 集进行判断, 判别出真实数据虚假数据; 对判别出真实数据提升 权重, 对判别出的虚假数据降低权 重; 根据真实数据的权 重信息和虚假数据集的权 重信息输出数据与真实数据的接 近程度。 6.根据权利要求5所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 所权 利 要 求 书 1/2 页 2 CN 114986512 A 2述第二判别器与动力学模型之间进行对抗耦合训练; 将第二判别器判断的结果反馈至动力学模型, 使动力学模型调整学习策略, 学习更多 真实数据。 7.根据权利要求2所述的动力学模型支持的双重有偏好模仿学习方法, 其特征在于, 通 过所述输出数据与专家数据的接近程度和输出数据与真实数据的接近程度构造损失函数 对驾驶模仿策略模型进行训练, 学习专 家数据, 具体包括: 所述输出数据与专家数据的接近程度、 输出数据与真实数据的接近程度和模仿策略自 身的损失函数进行相加, 获得总损失函数; 通过总损 失函数对驾驶模仿策略模型进行训练, 修正模仿学习策略, 生成修正后的驾 驶模仿策略模型; 所述修正后的驾驶模仿策略模型对真实的专家数据进行模仿学习, 模仿专家数据集对 应的功能。 8.一种动力学模型支持的双重有偏好模仿学习 系统, 其特 征在于, 所述系统包括: 数据获取模块, 获取自动驾驶训练所需要的训练样本集, 其中, 所述训练样本包含离线 专家数据集、 离线无 奖励标签数据集和动力学模型 数据集; 模仿学习 模块, 通过预设的第 一判别器输出数据与专家数据的接近程度和预设的第 二 判别器输出 数据与真实数据的接 近程度构建损失函数, 训练驾驶模仿策略模型; 训练模块, 用于通过训练后的驾驶模仿策略模型, 对自动驾驶车辆进行模仿训练。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述一种动力学模型支持的双重有偏好模仿学习方法。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至7任一项所述一种动力学模型支持的双重有偏 好模仿学习方法。权 利 要 求 书 2/2 页 3 CN 114986512 A 3

.PDF文档 专利 一种动力学模型支持的双重有偏好模仿学习方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种动力学模型支持的双重有偏好模仿学习方法及系统 第 1 页 专利 一种动力学模型支持的双重有偏好模仿学习方法及系统 第 2 页 专利 一种动力学模型支持的双重有偏好模仿学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:05:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。