安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210244258.0 (22)申请日 2022.03.14 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 贾海涛 乔磊崖 王云 李家伟  高源 陈泓秀  (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) G06F 16/36(2019.01) (54)发明名称 一种基于双边路径质量评估的强化学习知 识图谱推理方法 (57)摘要 本发明公开了一种基于双边路径质量评估 的强化学习知识图谱推理方法。 该 发明针对传统 知识图谱强化学习推理算法未明确定义推理路 径质量的问题所导致的虚假路径及对长路径推 理效果差的问题, 设置双边路径质量评估模块, 通过爬取维基百科作为外部辅助信息, 对头尾实 体描述信息关键词集合与路径实体分别计算语 义相似度, 拟合后代替原来的奖励模块反馈给智 能体, 激励其选择高质量路径。 该方法将智 能体 在环境中游走得到的路径映射到LSTM策略网络, 以双边路径质量评估器的输出作为奖励反馈给 智能体, 最终实现较为准确的实体关系路径学 习, 对长路径有着更高的适应性和敏感度。 权利要求书3页 说明书7页 附图9页 CN 114626530 A 2022.06.14 CN 114626530 A 1.一种基于双边路径质量评估的强化学习知识图谱推理方法, 包括以下步骤: 步骤1: 根据表示学习方法Trans系列在事实预测任务的原始评分, 选择相应表征能力 更强的表示学习方法来表示 强化学习环境, 嵌入方法在数据集上的原始推理结果可以直接 反应此表示方法与数据集的适配程度, 评 分越高, 推理效果越好, 即表明此方法能够更多 更 完善地获取数据原本的语义信息, 算法环 境具有更强的表征能力; 基于此, 本文选择TransD 做为NELL‑995的表示方法, 选择TransH作为FB15K ‑237的表示方法; 步骤2: 使用专家数据进行预训练, 在预训练过程中采用双边BFS来寻找实体之间的正 确路 径 , 对 于 监 督 学 习 , 算 法 给 每 一 个 成 功的 游 走 + 1的 奖 励 , 得 到 形 如式 的奖励公式并更新策略网络; 步骤3: 通过爬取维基百科语料获得外部辅助信息, 爬取知识图谱中每个头尾实体的描 述信息集合, 将初始语料进 行分词、 停用词等预 处理使其可被后续使用, 运用基于BERT 预训 练模型的关键词提取 方法提取每 个实体描述信息的关键词集 合; 步骤4: 该步骤是专利核心内容: 记录每次成功游走时智能体经过的路径实体集Ep= {e1, e2, ..., en}, 在所有 头尾实体描述信息关键词集合中提取此时头实体es与尾实体et分别 对应的关键词集合Ws={word1, word2, ..., wordh}与Wt={words1, words2, ..., wordsk}, 分 别对路径实体集Ep中的每个实体与Ws和Wt做语义相似度计算, 以头实体es描述信息关键词 集合中的关键词wor d1和路径实体集合为例, 根据Word2Vec表示模型与余弦相似度的语义 计算方法, 计算word1和路径实体集合中每个词语所对应的cosine距离, 可得出头实体es的 关键词word1与路径实体集 合的语义相似度X11如下式所示: 式中所指皆为 向量, 同理可得尾实体et描述信息关键词 集合与路径实体集合的语义相 似度矩阵Wij(i=1,2,...,n; j=1,2,...,k), 另外, 以头实体es举例, 将矩阵Xij中的每一行 提取出来, 例如提 取第i行得到{Xi1, Xi2, ..., Xih}, 其中分别对应路径实体ei与头实体es描述 信息关键词集 合中的每 个词{word1, word2, ..., wordh}的语义相似度, 即为Xi, 如式所示: 将其加权取平均, 则可 得出路径实体ei与头实体的近似语义相似度Simi如式所示: 经过以上处理, 得到每个路径实体ei(i=1,2,...,n)与头实体描述信息每个关键词的 相似度集合Simi={Sim1, Sim2, ..., Simn}(i=1,2,...,n), 随着路径的不断增加, 路径实体 ei与头实体e1描述信息关键词的相似度对整个路径的反映程度不同, 随着i的不断增加, Simi对整体路径质量的影响应该不断缩减, 为此, 对每个路径实体的相似度赋予不同权重, 尽量保证路径质量能被更有说服力的相似度评估, 同时也顾及到了较遥远的相似度对整体 路径质量 不可忽略的影响,权 利 要 求 书 1/3 页 2 CN 114626530 A 2设置路径实体相似度权 重wi为如式所示: 离头实体es最近的路径实体e1的相似度权重为1/2, 随着路径长度不断增加, 权重以指 数倍数下降, 当路径长度为n时, 到达路径实体集中的最后一个实体en, 也为距离头实体最 远的路径实体, 为了使整体权重之和为1, 取en处的相似度 权重与en‑1处的权重相等, 则可得 头实体描述信息关键词集 合与路径实体集的最终语义相似度Sims如式所示: Sims的取值范围同余弦相似度的取值范围为[0,1]; Sims的值即可表示此次游 走得到的 路径质量, 值越接 近1则表示路径质量越好, 反 之亦然; 同理可得尾实体描述信息关键词集 合与路径实体集的最终语义相似度Simt如式所示: 在奖励再训练的过程中, 使用 双边路径质量评估模块替换原先人为设定的奖励函数, 在之前的强化学习知识图谱推理算法中, 奖励只存在两种情况: 一为智能体无法到达目标 顶点, 则奖励为0; 二为智能体成功到达目标顶点, 奖励为1, 这种人为设置的奖励函数无疑 没有考虑到路径是否正确和路径的好坏程度, 在基于双边路径质量评估的强化学习知识图 谱推理算法中, 使用双边路径质量评估模块替代原先 的奖励函数, 将得到的双边路径质量 作为奖励 模块的输出, 反馈给智能体, 其中包含三个部 分: 头实体描述信息 关键词集合与路 径实体集的相似度(路径质量评估)得分与尾实体描述信息关键词集合与路径实体集的相 似度(路径质量评估)得分以及路径长度奖励, 具体奖励得分如式所示: 其中, Rlength为路径长度奖励, 是为路径长度的倒数, 即路径越长路径长度奖励越小; α 与β 为人工设定的奖励权重, 将在实验时根据模型结果进行相应调整, 取值范围为[0, 1]且 满足α +β =1, 当智能体成功到达目标实体et时, 将获得值为Rtotal的奖励; 若智能体无法到达 目标实体, 则奖励为0; 步骤5: 以步骤4的输出为奖励, 使用式 更新策略网 络; 步骤6: 结果分析, 对于链接预测实验, 在NELL ‑995上, RLKGR ‑BPQA(本实验)在各链接预 测任务上总体结果都优于其他实验, 在NELL ‑995上, 本实验的MAP指标相比较与TransE、 TransR、 PRA和DeepPat h分别增长了6.7%, 1.6%, 12.8%, 0.8%, 在FB15 K‑237上, 本实验的 MAP指标相比较与Tran sE、 TransR、 PRA和DeepPat h分别增长了10.5%, 9.8%, 9.6%, 6.5%, 更深层的分析, 在NELL ‑995数据集上, 本实验对比DeepPath在结果指标Hits@1, Hits@3, MRR 和MAP值上分别增长了0.4%, 1.3%, 0.5%, 0.8%, 在FB15K ‑237数据集上, 本实验对比 DeepPath在结果指标Hits@1, Hits@3, MRR和MAP值上分别增长了7.4%, 7.5%, 5.7%, 6.5%; 对于事实预测实验, 在NELL ‑995数据集中, 本实验的MAP值比TransE、 TransR、权 利 要 求 书 2/3 页 3 CN 114626530 A 3

.PDF文档 专利 一种基于双边路径质量评估的强化学习知识图谱推理方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双边路径质量评估的强化学习知识图谱推理方法 第 1 页 专利 一种基于双边路径质量评估的强化学习知识图谱推理方法 第 2 页 专利 一种基于双边路径质量评估的强化学习知识图谱推理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。