(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210280298.0
(22)申请日 2022.03.22
(65)同一申请的已公布的文献号
申请公布号 CN 114385933 A
(43)申请公布日 2022.04.22
(73)专利权人 武汉大学
地址 430072 湖北省武汉市武昌区珞珈山
武汉大学
(72)发明人 桂志鹏 胡晓辉 凌志鹏 姜屿涵
吴华意
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 王琪
(51)Int.Cl.
G06F 16/9537(2019.01)
G06F 40/30(2020.01)
(56)对比文件
CN 110069709 A,2019.07.3 0CN 111538894 A,2020.08.14
CN 111143561 A,2020.0 5.12
CN 111310008 A,2020.0 6.19
CN 112905893 A,2021.0 6.04
US 20210 64658 A1,2021.0 3.04
CN 110309400 A,2019.10.08
张晓娟.查询意图自动分类与分析. 《中国博
士学位论文全文数据库 信息科技 辑》 .2015,
桂思思等.基于查询表达式特 征的时态意图
识别研究. 《数据分析与知识发现》 .2019,
高景斌.基 于查询子意图识别的检索结果多
样化方法研究. 《中国优秀硕士学位 论文全文数
据库 信息科技 辑》 .2014,
Dan Yang.et.l.Geo and temporal i ntent
discovery of web searc h. 《2011 IEEE
Internati onal Conference o n Computer
Science and Automati on Engineering 》
.2011,
审查员 陈娜
(54)发明名称
一种顾及语义的地理信息资源检索意图识
别方法
(57)摘要
本发明公开了一种顾及语义的地理信息资
源检索意图识别方法, 包括: 1) 构建面向地理信
息资源检索的意图维度树, 并定义意图的形式化
表达模型; 2) 基于相关反馈技术获取反馈样本集
合, 并计算样本增强系数; 3) 基于最小描述长度
准则设计优化目标函数; 4) 采用样本随机合并策
略生成候选子意图; 5) 使用贪心算法, 调用步骤
4) 搜索反馈样本编码长度最小的意图, 并基于正
样本覆盖比例阈值过滤无效子意图, 生成意图识
别结果; 6) 基于多次反馈迭代更新意图。 本发明
利用反馈样本内容语义标签的概念层次关系进
行意图识别, 并滤除样本中的噪声, 具有较高的
意图识别准确度及噪声容忍度, 可推广应用于各
类地理信息门户, 提升地理信息共享的服务品质。
权利要求书4页 说明书9页 附图5页
CN 114385933 B
2022.06.07
CN 114385933 B
1.一种顾及语义的地理信息资源检索意图识别方法, 其特 征在于, 包括以下步骤:
1) 构建地理信息资源检索意图维度树, 并设计 “意图‑子意图‑维度分量 ”三层嵌套的意
图形式化表达模型, 使用领域本体中的概念集 合作为维度分量取值 来源;
2) 基于相关反馈技术, 让用户标记出前若干项检索结果中符合检索需求的部分结果,
得到反馈样本集 合S, 并计算样本增强系数 α;
步骤2) 中依据下式计算样本增 强系数α, 以应对反馈样本不足导致的意图识别失败问
题;
式中,S+为正反馈样本集合; LN(x)为Rissanen提出的整数 x通用编码长度, 其中省略号
指从log(x)开始, 依次对前一项取对数得到的所有非负项; LN(|S+|+1)为每个正样本对应 一
个子意图时编码子意图数量所需长度; d为意图维度数量; Ci为第i个维度对应本体的概念
集合;Lavg(S|∅)为不基于意图编码时反馈样本的平均编码长度, 该平均编码长度基于香农
无噪声编码理论计 算;y为反馈样本的正负性, 即 S+与S‑分别表示 S中正、 负反馈样本集合; | ∙
|为集合中元素的数量; 3) 将意图识别视为组合优化问题, 并基于最小描述长度准则, 并将
反馈样本集 合总编码长度作为 意图识别优化目标函数;
4) 采用样本随机合并策略, 根据领域本体中概念的语义关系随机选取两个正反馈样本
合并得到一个候选子意图, 所述候选子意图每个维度分量取值为两个正反馈样本对应维度
中具有最大语义相似度的标签对的最低公共祖 先概念;
5) 基于贪心算法, 调用步骤4) 搜索使得编码长度减少最多的候选子意图, 并合并得到
最优候选意图, 再基于正样本覆盖比例阈值过 滤无效子意图后作为 意图识别结果;
步骤5) 的具体实现方式如下;
步骤51, 将当前意图 I设置为空集, 表示无意图, 将剩余 反馈样本集合 Sr设置为反馈样本
全集S, 并根据步骤3计算当前意图对应的反馈样本集 合总编码长度 L(S, I);
步骤52, 将步骤4) 重复指定次数得到多个候选子意图, 分别添加各候选子意图至当前
意图I得到候选意图集 合candI_set ;
添加时须判断候选子意图与 I中子意图之间是否存在覆盖情况, 若候选子意图覆盖 I中
某个子意图, 则使用候选子意图替换被覆盖子意图得到候选意图, 若候选子意图被某个子
意图覆盖, 则将 I作为候选意图;
步骤53, 根据步骤3) 计算候选意图集合 candI_set 中各候选意图对应的反馈样本集合
总编码长度, 将对应总编码长度最小的候选意图记为 candImin;
步骤54, 比较 L(S, candImin)与L(S, I)的大小, 若 L(S, candImin) 大于L(S, I), 则计
算I中各子意图覆盖的正样本数与正样本总 数的比值, 并删除 比值小于设定阈值的子意图
得到意图识别结果, 若 L(S, candImin) 小于或等于 L(S, I)则重复执 行步骤5) ;权 利 要 求 书 1/4 页
2
CN 114385933 B
26) 若用户进入下一次反馈, 则基于新一轮的反馈样本集合重复步骤2) 至步骤5) , 更新
意图识别结果, 否则停止意图迭代更新。
2.根据权利要求1所述的一种顾及语义的地理信息资源检索意图识别方法, 其特征在
于: 步骤1) 中构建的层次化的地理信息资源检索意图维度树包括 “内容”、“空间”、“时间”和
“其他”四个基本顶层维度, 并使用可选的 “特有维度 ”辅助表达不同类型的地理信息 资源包
含的特殊检索需求, 为 意图维度的选取提供参 考框架;
“意图‑子意图‑维度分量 ”形式的意图表示模型包括子意图、 维度分量及两者的逻辑关
系, 一个意图包含若干个子意图, 一个子意图包含若干个维度分量, 一个维度分量由维度标
识符及取值组成, 子意图之间为逻辑 “或”关系, 子意图各维度分量之间为逻辑 “与”关系。
3.根据权利要求1所述的一种顾及语义的地理信息资源检索意图识别方法, 其特征在
于: 所述步骤3) 计算当前意图对应的反馈样本集 合总编码长度 L(S, I)的计算方式如下:
S31、 对于地理信息资源检索意图 I中的第k个子意图 Ik, 遍历反馈样本集合以获取 Ik覆
盖的反馈样本子集
k, 假设样本各意图维度均已标注若干标签, 标签来源于各维度对应本
体概念集合, 则判定子意图覆盖反馈样本的规则为: 若反馈样本某维度分量的取值集合中
存在某取值在语义上等价或从属于子意图对应维度分量取值, 则认为反馈样本在该维度符
合子意图, 若反馈样本在所有维度均符合子意图, 则子意图覆盖反馈样本;
S32、 去除反馈样本集 合中各子意图覆盖样本得到剩余样本集 合, 记为Sr;
S33、 根据各子意图覆盖反馈样本子集
k, 计算
k中反馈样本的平均编码长度 Lavg(
k|
Ik),
其中y为反馈样本的正负性, 即
与
分别表示
中正、 负反馈样本集合, | ∙|为集合中
元素的数量;
S34、 若反馈样本被多个子意图覆盖, 则仅在平均编码长度 Lavg(
k|Ik)最小的反馈样本
子集中予以保留, 即将该反馈样本从其它反馈样本子集中删除, 得到去重后的反馈样本子
集, 记为Sk;
S35、 计算各子意图覆盖的反馈样本子集及剩余样本集合的编码长度, 求和得到给定意
图后的反馈样本集 合编码长度 L(S|I),
式中,Sk为子意图 Ik覆盖的去重后反馈样本 子集;Sr为剩余样本集 合;
Lavg(
k|Ik)代表子意图 Ik所含反馈样本的平均编码长度; Lavg(Sr|I)表示剩余样本的平
均编码长度; y为反馈样本的正负性, 即
与
分别表示 Sr中正、 负反馈样本集合; | ∙|为集
合中元素的数量;
S36、 计算子意图数量的编码长度与各子意图的编码长度, 求和得到意图 I的编码长度 L
(I):权 利 要 求 书 2/4 页
3
CN 114385933 B
3
专利 一种顾及语义的地理信息资源检索意图识别方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:49上传分享