(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210412327.4
(22)申请日 2022.04.19
(71)申请人 北京金山数字 娱乐科技有限公司
地址 100085 北京市海淀区西二 旗中路33
号院5号楼1 1层002号
(72)发明人 王得贤 李长亮
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 何定润
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
(54)发明名称
关键句抽取方法及装置
(57)摘要
本申请提供关键句抽取方法及 装置, 其中所
述关键句抽取方法包括: 获取目标文档, 基于所
述目标文档的文字内容, 提取关键词和第一关键
句集; 提取所述关键词的第一语义特征和所述目
标文档中各文本语句的第二语义特征, 并根据所
述第一语义特征和各所述第二语义特征, 确定第
二关键句集; 根据所述第一关键句集和所述第二
关键句集, 确定目标关键句集。 本方法可 以有效
提高抽取关键句的准确性和效率。
权利要求书3页 说明书22页 附图6页
CN 114818727 A
2022.07.29
CN 114818727 A
1.一种关键句 抽取方法, 其特 征在于, 包括:
获取目标文档, 基于所述目标文档的文字内容, 提取关键词和第一关键句集;
提取所述关键词的第 一语义特征和所述目标文档中各文本语句的第 二语义特征, 并根
据所述第一语义特 征和各所述第二语义特 征, 确定第二关键句集;
根据所述第一关键句集和所述第二关键句集, 确定目标关键句集。
2.根据权利要求1所述的方法, 其特征在于, 所述第 一关键句集包括第 三关键句集和第
四关键句集;
所述基于所述目标文档的文字内容, 提取关键词和第一关键句集, 包括:
根据所述目标文档的文字内容, 利用基于文字内容的提取算法, 提取所述目标文档的
关键词和第三关键句集;
根据所述关键词, 识别所述目标文档 中包含有所述关键词的目标文本语句, 基于所述
目标文本语句构建所述目标文档的第四关键句集。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述目标文档的文字内容, 利用
基于文字内容的提取算法, 提取 所述目标文档的关键词, 包括:
将所述目标文档的文字内容进行分词和去停用词处 理, 得到多个候选词;
根据预设滑动窗口, 以各候选词为节点, 并以各候选词之间的共现关系为边, 构建词
图;
根据所述词图, 迭代计算各候选词对应的第一初始权重, 直至达到第 一预设收敛条件,
得到各候选词对应的第一目标权 重;
基于所述第一目标权 重, 从各候选词确定所述目标文档的关键词。
4.根据权利要求2所述的方法, 其特征在于, 所述根据所述目标文档的文字内容, 利用
基于文字内容的提取算法, 提取第三关键句集, 包括:
将所述目标文档的文字内容进行分句处 理, 得到多个候选语句;
以各候选语句为节点, 并以各候选语句之间的语句 相似度为 边, 构建句图;
根据所述句图, 迭代计算各候选语句对应的第二初始权重, 直至达到第二预设收敛条
件, 得到各候选词对应的第二目标权 重;
基于所述第二目标权 重, 从各候选语句确定所述目标文档的第三关键句集。
5.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一关键句集和所述第 二关
键句集, 确定目标关键句集, 包括:
对所述第二关键句集、 所述第三关键句集和所述第 四关键句集求交集, 获得目标关键
句集。
6.根据权利要求5所述的方法, 其特征在于, 所述对所述第二关键句集、 所述第三关键
句集和所述第四关键句集 求交集, 获得目标关键句集, 包括:
确定初始关键句相对于第 二关键句集的第 一初始置信度、 相对于第 三关键句集的第 二
初始置信度和相对于第四关键句集的第三初始置信度, 其中, 所述初始关键句是指所述第
二关键句集、 所述第三关键句集和所述第四关键句中的任一关键句;
根据所述第一初始置信度、 所述第二初始置信度和所述第三初始置信度, 确定所述初
始关键句的目标置信度;
基于所述目标置信度, 从所述第二关键句集、 所述第三关键句集和所述第 四关键句集权 利 要 求 书 1/3 页
2
CN 114818727 A
2中确定目标关键句;
基于所述目标关键句构建所述目标关键句集。
7.根据权利要求1 ‑6任意一项所述的方法, 其特征在于, 所述目标文档包括查询文档和
多个候选文档;
在所述根据所述第一关键句集和所述第二关键句集, 确定目标关键句集之后, 还 包括:
根据所述查询文档的目标关键句集和所述多个候选文档的目标关键句集, 确定所述查
询文档分别与各候选文档的文本相似度。
8.根据权利要求7所述的方法, 其特征在于, 在所述根据 所述查询文档的目标关键句集
和所述多个候选文档的目标关键句集, 确定所述查询文档分别与各候选文档的文本相似度
之后, 还包括:
根据各所述文本相似度, 从所述多个候选文档中召回所述 查询文档的相似文档。
9.根据权利要求7所述的方法, 其特征在于, 在所述根据 所述查询文档的目标关键句集
和所述多个候选文档的目标关键句集, 确定所述查询文档分别与各候选文档的文本相似度
之前, 还包括:
获取预训练的相似度分析模型, 其中, 所述相似度分析模型基于携带有相似度标签的
样本语句集对训练得到;
所述根据 所述查询文档的目标关键句集和所述多个候选文档的目标关键句集, 确定所
述查询文档分别与各候选文档的文本相似度, 包括:
将所述查询文档的目标关键句集和所述多个候选文档的目标关键句集输入至所述相
似度分析模型, 得到所述 查询文档分别与各候选文档的文本相似度。
10.根据权利要求9所述的方法, 其特征在于, 在所述获取预训练的相似度分析模型之
前, 还包括:
获取预设的语言表征模型和样本集, 其中, 所述样本集中包含多个携带相似度标签的
样本语句集对, 所述样本语句集对 包括第一样本语句集和第二样本语句集;
从所述样本集中提取任一样本语句集对, 将该样本语句集对中的第 一样本语句集和第
二样本语句集输入至所述语言表征模型, 得到所述第一样本语句集和所述第二样本语句集
的预测相似度;
根据所述预测相似度和该样本语句集对携带的相似度标签, 确定损失值;
根据所述损 失值, 调整所述语言表征模型的模型参数, 继续执行所述从所述样本集中
提取任一样本语句集对的步骤, 在达到第一预设训练停止条件的情况下, 将训练好的所述
语言表征模型确定为相似度分析模型。
11.根据权利要求1所述的方法, 其特征在于, 所述根据所述第一语义特征和各所述第
二语义特 征, 确定第二关键句集, 包括:
确定所述第一语义特 征与各所述第二语义特 征的语义关联度;
根据所述语义关联度, 从所述各文本语句中确定第二关键句集。
12.根据权利要求11所述的方法, 其特征在于, 在所述提取所述关键词的第 一语义特征
和所述目标文档中各文本语句的第二语义特 征之前, 还 包括:
获取预训练的关联度分析模型, 其中, 所述关联度分析模型包括特征提取子模型和关
联度计算子模型;权 利 要 求 书 2/3 页
3
CN 114818727 A
3
专利 关键句抽取方法及装置
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:14上传分享