专利 一种基于双边路径质量评估的强化学习知识图谱推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210244258.0 (22)申请日 2022.03.14 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人贾海涛　乔磊崖　王云　李家伟　高源　陈泓秀　 (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) G06F 16/36(2019.01) (54)发明名称一种基于双边路径质量评估的强化学习知识图谱推理方法 (57)摘要本发明公开了一种基于双边路径质量评估的强化学习知识图谱推理方法。该发明针对传统知识图谱强化学习推理算法未明确定义推理路径质量的问题所导致的虚假路径及对长路径推理效果差的问题，设置双边路径质量评估模块，通过爬取维基百科作为外部辅助信息，对头尾实体描述信息关键词集合与路径实体分别计算语义相似度，拟合后代替原来的奖励模块反馈给智能体，激励其选择高质量路径。该方法将智能体在环境中游走得到的路径映射到LSTM策略网络，以双边路径质量评估器的输出作为奖励反馈给智能体，最终实现较为准确的实体关系路径学习，对长路径有着更高的适应性和敏感度。权利要求书3页说明书7页附图9页 CN 114626530 A 2022.06.14 CN 114626530 A 1.一种基于双边路径质量评估的强化学习知识图谱推理方法，包括以下步骤：步骤1：根据表示学习方法Trans系列在事实预测任务的原始评分，选择相应表征能力更强的表示学习方法来表示强化学习环境，嵌入方法在数据集上的原始推理结果可以直接反应此表示方法与数据集的适配程度，评分越高，推理效果越好，即表明此方法能够更多更完善地获取数据原本的语义信息，算法环境具有更强的表征能力；基于此，本文选择TransD 做为NELL‑995的表示方法，选择TransH作为FB15K ‑237的表示方法；步骤2：使用专家数据进行预训练，在预训练过程中采用双边BFS来寻找实体之间的正确路径，对于监督学习，算法给每一个成功的游走 + 1的奖励，得到形如式的奖励公式并更新策略网络；步骤3：通过爬取维基百科语料获得外部辅助信息，爬取知识图谱中每个头尾实体的描述信息集合，将初始语料进行分词、停用词等预处理使其可被后续使用，运用基于BERT 预训练模型的关键词提取方法提取每个实体描述信息的关键词集合；步骤4：该步骤是专利核心内容：记录每次成功游走时智能体经过的路径实体集Ep＝ {e1， e2， ...， en}，在所有头尾实体描述信息关键词集合中提取此时头实体es与尾实体et分别对应的关键词集合Ws＝{word1， word2， ...， wordh}与Wt＝{words1， words2， ...， wordsk}，分别对路径实体集Ep中的每个实体与Ws和Wt做语义相似度计算，以头实体es描述信息关键词集合中的关键词wor d1和路径实体集合为例，根据Word2Vec表示模型与余弦相似度的语义计算方法，计算word1和路径实体集合中每个词语所对应的cosine距离，可得出头实体es的关键词word1与路径实体集合的语义相似度X11如下式所示：式中所指皆为向量，同理可得尾实体et描述信息关键词集合与路径实体集合的语义相似度矩阵Wij(i＝1,2,...,n； j＝1,2,...,k)，另外，以头实体es举例，将矩阵Xij中的每一行提取出来，例如提取第i行得到{Xi1， Xi2， ...， Xih}，其中分别对应路径实体ei与头实体es描述信息关键词集合中的每个词{word1， word2， ...， wordh}的语义相似度，即为Xi，如式所示：将其加权取平均，则可得出路径实体ei与头实体的近似语义相似度Simi如式所示：经过以上处理，得到每个路径实体ei(i＝1,2,...,n)与头实体描述信息每个关键词的相似度集合Simi＝{Sim1， Sim2， ...， Simn}(i＝1,2,...,n)，随着路径的不断增加，路径实体 ei与头实体e1描述信息关键词的相似度对整个路径的反映程度不同，随着i的不断增加， Simi对整体路径质量的影响应该不断缩减，为此，对每个路径实体的相似度赋予不同权重，尽量保证路径质量能被更有说服力的相似度评估，同时也顾及到了较遥远的相似度对整体路径质量不可忽略的影响，权　利　要　求　书 1/3 页 2 CN 114626530 A 2设置路径实体相似度权重wi为如式所示：离头实体es最近的路径实体e1的相似度权重为1/2，随着路径长度不断增加，权重以指数倍数下降，当路径长度为n时，到达路径实体集中的最后一个实体en，也为距离头实体最远的路径实体，为了使整体权重之和为1，取en处的相似度权重与en‑1处的权重相等，则可得头实体描述信息关键词集合与路径实体集的最终语义相似度Sims如式所示： Sims的取值范围同余弦相似度的取值范围为[0,1]； Sims的值即可表示此次游走得到的路径质量，值越接近1则表示路径质量越好，反之亦然；同理可得尾实体描述信息关键词集合与路径实体集的最终语义相似度Simt如式所示：在奖励再训练的过程中，使用双边路径质量评估模块替换原先人为设定的奖励函数，在之前的强化学习知识图谱推理算法中，奖励只存在两种情况：一为智能体无法到达目标顶点，则奖励为0；二为智能体成功到达目标顶点，奖励为1，这种人为设置的奖励函数无疑没有考虑到路径是否正确和路径的好坏程度，在基于双边路径质量评估的强化学习知识图谱推理算法中，使用双边路径质量评估模块替代原先的奖励函数，将得到的双边路径质量作为奖励模块的输出，反馈给智能体，其中包含三个部分：头实体描述信息关键词集合与路径实体集的相似度(路径质量评估)得分与尾实体描述信息关键词集合与路径实体集的相似度(路径质量评估)得分以及路径长度奖励，具体奖励得分如式所示：其中， Rlength为路径长度奖励，是为路径长度的倒数，即路径越长路径长度奖励越小； α 与β 为人工设定的奖励权重，将在实验时根据模型结果进行相应调整，取值范围为[0， 1]且满足α +β ＝1，当智能体成功到达目标实体et时，将获得值为Rtotal的奖励；若智能体无法到达目标实体，则奖励为0；步骤5：以步骤4的输出为奖励，使用式更新策略网络；步骤6：结果分析，对于链接预测实验，在NELL ‑995上， RLKGR ‑BPQA(本实验)在各链接预测任务上总体结果都优于其他实验，在NELL ‑995上，本实验的MAP指标相比较与TransE、 TransR、 PRA和DeepPat h分别增长了6.7％， 1.6％， 12.8％， 0.8％，在FB15 K‑237上，本实验的 MAP指标相比较与Tran sE、 TransR、 PRA和DeepPat h分别增长了10.5％， 9.8％， 9.6％， 6.5％，更深层的分析，在NELL ‑995数据集上，本实验对比DeepPath在结果指标Hits@1， Hits@3， MRR 和MAP值上分别增长了0.4％， 1.3％， 0.5％， 0.8％，在FB15K ‑237数据集上，本实验对比 DeepPath在结果指标Hits@1， Hits@3， MRR和MAP值上分别增长了7.4％， 7.5％， 5.7％， 6.5％；对于事实预测实验，在NELL ‑995数据集中，本实验的MAP值比TransE、 TransR、权　利　要　求　书 2/3 页 3 CN 114626530 A 3

专利 一种基于双边路径质量评估的强化学习知识图谱推理方法

专利一种基于双边路径质量评估的强化学习知识图谱推理方法