(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210223886.0
(22)申请日 2022.03.09
(71)申请人 湖南兴盛 优选网络科技有限公司
地址 410205 湖南省长 沙市高新 开发区青
山路662号芯城科技园二期1号栋802
房
(72)发明人 高航 胡毅 曹梦华
(74)专利代理 机构 长沙大珂知识产权代理事务
所(普通合伙) 4323 6
专利代理师 姚弘奕
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/953(2019.01)
G06F 40/194(2020.01)
G06F 40/216(2020.01)G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于语义索引的意图识别方法
(57)摘要
本发明公开了基于语义索引的意图识别方
法, 使用搜索语义模型进行训练用户搜索数据;
对搜索引擎产生的日志进行统计, 将日志中历史
Query的出现频次超过一定阈值的历史Query建
立查询和意图的统计条目; 将历史Query输入搜
索语义模型, 获取语义向量; 将语义向量加入统
计条目, 得到语义意图索引; 将在线用户Query输
入搜索语义模型, 获取Query语义向量v; 以在线
用户的v检索语义意图索引, 获取语义意图索引
中与在线Query语义最相近的多条记录及相应的
语义相似度; 计算在线Query的意图识别结果。 本
发明利用语义匹配和统计意图的方法实现意图
识别, 具有更好的泛化性和更高的准确率和召回
率。
权利要求书2页 说明书4页 附图3页
CN 114595305 A
2022.06.07
CN 114595305 A
1.基于语义索引的意图识别方法, 其特 征在于, 包括以下步骤:
使用搜索语义模型进行训练用户搜索数据, 其中训练数据同时包括单个用户的搜索词
序列和单个文档的搜索词序列;
对搜索引擎产生的日志进行统计, 将日志中历史Query的出现频次超过一定阈值的历
史Query建立查询和意图的统计条目; 将历史Query输入搜索语义模型, 获取语义向量; 将语
义向量加入统计条目, 得到语义 意图索引;
将在线用户Query输入搜索语义模型, 获取Query语义向量v; 以在线用户的语义向量v
检索所述语义意图索引, 获取所述语义意图索引中与在线Query语义最相近的多条记录及
相应的语义相似度;
融合检索结果, 计算得到在线Query的意图识别结果。
2.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 所述搜索语义模
型使用Word2vec或FastText的神经网络模型。
3.根据权利 要求1所述的基于语义索引的意图识别方法, 其特征在于, 对Query分词时,
优先使用领域词库, 若没有领域词库, 在通用词库的基础上, 提取词级别的n ‑gram特征。
4.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 所述查询和意图
的统计条目为<qi,intenti>, 其中intenti=*category1:prob1,category2:prob2,…+, 其中
qi为第i条Query, intenti为第i条意图, category1, category2为第1个和第2个 意图, prob1,
prob2为第1个和第2个意图的概 率。
5.根据权利要求4所述的基于语义索引的意图识别方法, 其特征在于, 所述语义意图索
引的每条记录形如: <qi,vi,intenti>。
6.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 使用余弦相似度
的方法, 在线用户的语义向量v检索所述语义 意图索引。
7.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 设定相似度阈值
θ, 依此获取与在线Query语义最相 近的k条记录*reci|i=1,2, …k+及相应的语义相似度*
simi|i=1,2,…k+。
8.根据权利要求7所述的基于语义索引的意图识别方法, 其特征在于, 根据以下的检索
结果, 计算 最终预测结果:
若检索结果不为空, 结果中相似度最大的记录为r eca, 相似度sima=1, 将该记录的意图
intenta作为最终预测结果;
若检索结果不为空, 且所有相似度均小于1, 通过加权计算得到最终预测结果:
其中k为与在线Query语义 最相近的k条记录;
若检索结果 为空, 将用户输入识别为泛意图Query, 即 没有明确意图的搜索。
9.根据权利要求8所述的基于语义索引的意图识别方法, 其特征在于, 记录所述泛意图
Query的识别次数a、 点击次数b和搜索点击行为次数c, 计算泛意图Query更新 值Qu:
权 利 要 求 书 1/2 页
2
CN 114595305 A
2其中α, β为预设的权重参数, a1和a2为预设的识别次数阈值, b1为预设的点击次数阈
值, 当泛意图Query更新值Qu超过更新阈值Q1时, 所述泛意图Query随着搜索语义模型和统
计意图的周期更新, 添加到所述语义 意图索引中。权 利 要 求 书 2/2 页
3
CN 114595305 A
3
专利 基于语义索引的意图识别方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:55上传分享