(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210339119.6
(22)申请日 2022.04.01
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 沈卓 刘艾婷 荆宁 罗雨
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
专利代理师 聂秀娜
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/953(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)G06F 40/284(2020.01)
G06N 20/00(2019.01)
(54)发明名称
一种问题答案 选取的方法以及相关装置
(57)摘要
本申请实施例公开了一种问题答案选取的
方法以及相关装置, 至少涉及人工智能中的自然
语言处理和机器学习等技术。 获取目标问题、 至
少两个潜在答案以及每个潜在答案各自所在的
候选文档, 并获取各个候选文档的质量特征表
示、 每个潜在答案的特征表示以及目标问题与各
个候选文档之间的相关性特征表 示; 将所获取到
的各个特征表 示作为预设选取模 型的输入, 得到
每个潜在答案的预测概率值, 并基于每个潜在答
案的预测概率值从至少两个潜在答案中选取目
标潜在答案。 通过上述方式, 能够提升针对目标
问题所选 取出的最终答案的答案质量, 而且使 得
目标问题 不再受限于需要与 潜在答案、 段落之间
存在共现特征, 能够适用在各种不同的复杂问题
的解答场景中。
权利要求书3页 说明书20页 附图5页
CN 114741490 A
2022.07.12
CN 114741490 A
1.一种问题答案 选取的方法, 其特 征在于, 包括:
获取目标问题、 与所述目标问题对应的至少两个潜在答案、 以及每个所述潜在答案各
自所在的候选文档, 每个所述潜在答案为从各自所在的所述候选文档中查找到的与所述目
标问题对应的预测答案;
获取各个所述候选文档的质量特征表示、 每个所述潜在答案的特征表示、 以及所述目
标问题与各个所述 候选文档之间的相关性特 征表示;
将所述各个候选文档的质量特征表示、 所述每个潜在答案的特征表示、 以及所述目标
问题与各个所述候选文档之 间的相关性特征表示作为预设选取模型的输入, 得到每个所述
潜在答案的预测概率值, 其中, 所述潜在答案的预测 概率值指示所述每个潜在答案与所述
目标问题之间匹配的概率, 所述预设选取模型是以预测每个潜在答案的概率值为训练目
标, 以标注了潜在答案和目标问题的候选文档作为训练数据训练得到的机器学习模型;
基于每个所述潜在答案的预测概 率值从所述至少两个潜在答案中选取目标潜在答案 。
2.根据权利要求1所述的方法, 其特征在于, 所述候选文档的质量特征表示包括所述候
选文档的行文质量得分、 发布所述候选文档的站点的权威度得分、 以及所述候选文档的广
告得分中的一个或多个, 其中, 所述站 点的权威度得分用于指示所述站 点的可靠程度, 所述
候选文档的广告得分用于指示从所述 候选文档中所选取 出的潜在答案的可信程度。
3.根据权利要求2所述的方法, 其特征在于, 所述获取各个所述候选文档的质量特征表
示, 包括:
将所述候选文档中的字符串与每类预设非规范化行文格式进行匹配, 得到所述字符串
符合所述每 类非规范化行文格式时的匹配等级;
分别确定所述字符串符合所述每 类非规范化行文格式时的匹配等级所对应的得分;
从所述字符串符合所述每类非规范化行文格式时的匹配等级所对应的得分中确定目
标得分, 并将所述目标得分确定为所述候选文档的行文质量得分, 其中, 所述目标得分用于
指示所述 候选文档的行文格式的规范程度。
4.根据权利要求2所述的方法, 其特征在于, 所述获取各个所述候选文档的质量特征表
示, 包括:
确定所述站点的网站前缀信息和网站后缀信息;
基于所述网站前缀信息所对应的网站等级确定所述站点的网站得分;
在所述网站后缀信 息存在于预设黑名单中时, 则基于所述网站后 缀信息在所述预设黑
名单中的黑名单等级确定所述站点的权 重;
基于所述站点的网站得分和所述站点的权重进行乘积处理, 确定所述站点的权威度得
分。
5.根据权利要求2的方法, 其特 征在于, 所述获取 所述候选文档的广告得分, 包括:
统计显示所述 候选文档时在所述 候选文档中弹出的广告个数;
基于所述广告个数确定所述 候选文档的广告得分。
6.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述潜在答案的特征表示包
括所述潜在答案的预测得分、 所述候选文档的空值答案得分、 以及所述潜在答案的频次中
的一个或多个, 其中, 所述潜在答案的预测得分用于指示所述潜在答案能解答所述 目标问
题时的答案质量情况, 所述候选文档的空值答案得分用于指示所述候选文档中未出现所述权 利 要 求 书 1/3 页
2
CN 114741490 A
2潜在答案时的情况。
7.根据权利要求6所述的方法, 其特征在于, 所述获取每个所述潜在答案的特征表示,
包括:
基于预设分类模型对所述候选文档的语义向量序列进行处理, 得到第 一概率值和第 二
概率值, 所述第一概率值用于指示在第一开始位置查找到所述潜在答案时的概率, 所述第
二概率值用于指示在第一结束位置查找到所述潜在答案时的概 率;
确定所述第一 概率值和所述第二 概率值之间的第一 概率均值;
将所述第一 概率均值确定为所述潜在答案的预测得分。
8.根据权利要求6所述的方法, 其特征在于, 所述获取每个所述潜在答案的特征表示,
包括:
基于预设分类模型对所述候选文档的语义向量序列进行处理, 得到第 三概率值和第四
概率值, 所述第三概率值用于指示在所述候选文档的开始位置未查找到所述潜在答案时的
概率, 所述第四概率值用于指示在所述候选文档的结束位置未查找到所述潜在答案时的概
率;
确定所述第三 概率值和所述第四概 率值之间的第二 概率均值;
将所述第二 概率均值确定为所述 候选文档的空值 答案得分。
9.根据权利要求6所述的方法, 其特征在于, 所述获取每个所述潜在答案的特征表示,
包括:
统计每个所述潜在答案在所述每 个候选文档中出现的共现次数;
将具有相同字符串的每个所述潜在答案的共现次数进行合并, 得到所述潜在答案的频
次。
10.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述相关性特征表示包括所
述目标问题与所述候选文档的标题之 间的相关性特征、 所述目标问题与所述候选文档的内
容之间的相关性特 征中的一个或多个。
11.根据权利要求10所述的方法, 其特征在于, 所述目标问题与 所述候选文档的标题之
间的相关性特征包括: 所述目标问题的字符串与所述候选文档的标题的字符串之 间的字符
串相似度、 所述目标问题与所述候选文档 之间的边界相似度、 字符串交集占字符串并集的
比例、 公共词占所述目标问题的字符串的比例、 所述 公共词占所述标题的字符串的比例、 以
及所述目标问题与所述标题之间的公共连续前缀的字符串长度中的一个或多个;
其中, 所述字符串交集为所述目标问题的字符串与所述标题的字符串之间的交集, 所
述字符串并集为所述目标问题的字符串与所述标题的字符串之 间的并集, 所述公共词为共
同出现在所述目标问题与所述标题中的词。
12.根据权利要求11所述的方法, 其特征在于, 所述获取所述目标问题与各个所述候选
文档之间的相关性特 征表示, 包括:
计算所述字符串交集中的字符串个数和所述字符串并集中的字符串的个数;
基于所述字符串交集中的字符串个数和所述字符串并集中的字符串的个数确定所述
字符串交集占字符串并集的比例。
13.根据权利要求10所述的方法, 其特征在于, 所述获取所述目标问题与各个所述候选
文档之间的相关性特 征表示, 包括:权 利 要 求 书 2/3 页
3
CN 114741490 A
3
专利 一种问题答案选取的方法以及相关装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:42上传分享