安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210355287.4 (22)申请日 2022.04.06 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 王丙琛 李长亮 李小龙 (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 孙翠贤 孟维娜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 40/126(2020.01) G06F 16/335(2019.01) (54)发明名称 一种摘要提取方法、 装置、 设备以及存储介 质 (57)摘要 本发明实施例提供了一种摘要提取方法、 装 置、 设备以及存储介质, 涉及人工智能技术领域, 特别是涉及自然语 言处理技术领域。 具体实现方 案为: 对目标文本中的各个语句进行预测处理, 得到各个语句的预测结果; 其中, 所述预测处理 用于预测是否属于摘要语句; 利用各个预测结 果, 从所述目标文本中筛选多个目标语句; 其中, 所述目标语句为被预测为属于摘要语句的语句; 构建包含所述多个目标语句的初始摘要; 对所述 初始摘要进行语义生成处理, 得到所述目标文本 的摘要; 其中, 所述语义生成处理用于生成完整 语义信息。 可见, 通过本方案, 可以兼顾摘要 提取 的效率以及准确度。 权利要求书3页 说明书15页 附图3页 CN 114722832 A 2022.07.08 CN 114722832 A 1.一种摘要提取 方法, 其特 征在于, 所述方法包括: 对目标文本 中的各个语句进行预测处理, 得到各个语句的预测结果; 其中, 所述预测处 理用于预测是否属于摘要语句; 利用各个预测结果, 从所述目标文本 中筛选多个目标语句; 其中, 所述目标语句为被预 测为属于摘要语句的语句; 构建包含所述多个目标语句的初始摘要; 对所述初始摘要进行语义生成处理, 得到所述目标文本的摘要; 其中, 所述语义生成处 理用于生成完整语义信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述对目标文本 中的各个语句进行预测处 理, 得到各个 语句的预测结果, 包括: 对目标文本进行分句处 理, 得到待处 理的各个 语句; 利用预先训练完成的、 用于预测语句是否属于摘要语句的预测模型, 对所述待处理的 各个语句进行 预测, 得到各个 语句的预测结果。 3.根据权利要求2所述的方法, 其特征在于, 所述预测模型为基于多个样本文本 中的各 个样本语句以及每一样本语句的第一指 定标签, 训练得到的模 型; 其中, 每一样本语句的第 一指定标签用于表征该样本语句是否属于摘要语句, 且每一样本语句的第一指 定标签基于 该样本语句对应的摘要, 对该样本语句进行标签识别得到, 该样本语句对应的摘要为人工 设定的、 针对该样本语句所属的样本文本的摘要。 4.根据权利要求3所述的方法, 其特征在于, 所述基于该样本语句对应的摘要, 对该样 本语句进行 标签识别的方式, 包括: 获取该样本语句对应的摘要所包 含的各个 语句; 识别所获取的各个 语句中, 是否存在与该样本语句的匹配度超过 预设阈值的语句; 若存在, 将表征该样本语句属于摘要语句的第一标签, 确定为该样本语句的第一指定 标签, 否则, 将表征该样本语句不属于摘要语句的第二标签, 确定为该样本语句的第一指 定 标签。 5.根据权利要求4所述的方法, 其特征在于, 所述识别所获取的各个语句中, 是否存在 与该样本语句的匹配度超过 预设阈值的语句, 包括: 计算所获取的各个 语句与该样本语句之间的匹配度, 得到各个匹配结果; 从所述各个匹配结果中, 确定是否存在匹配度超过 预设阈值的匹配结果。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述对所述初始摘要进行语义生 成处理, 得到所述目标文本的摘要, 包括: 利用预先训练完成的、 用于生成完整语义信息的生成模型, 对所述初始摘要进行语义 生成处理, 得到所述目标文本的摘要; 其中, 所述生成模型为基于多个样本摘要训练得到的 模型, 每一样本摘要 具有第二指 定标签, 每一第二指定标签为人工 设定的、 针对样本摘要 所 属的样本文本的摘要。 7.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述构建包含所述多个目标语句 的初始摘要, 包括: 按照预设的排序方式, 对所述多个目标语句进行排序; 对所述多个目标语句按照排序顺序进行组合, 得到初始摘要。权 利 要 求 书 1/3 页 2 CN 114722832 A 28.一种摘要提取装置, 其特 征在于, 所述装置包括: 处理模块, 用于对目标文本中的各个语句进行预测处理, 得到各个语句的预测结果; 其 中, 所述预测处 理用于预测是否属于摘要语句; 筛选模块, 用于利用各个预测结果, 从所述目标文本中筛选多个目标语句; 其中, 所述 目标语句为被预测为属于摘要语句的语句; 构建模块, 用于构建包 含所述多个目标语句的初始摘要; 生成模块, 用于对所述初始摘要进行语义生成处理, 得到所述目标文本的摘要; 其中, 所述语义 生成处理用于生成完整语义信息 。 9.根据权利要求8所述的装置, 其特 征在于, 所述处 理模块, 包括: 分句子模块, 用于对目标文本进行分句处 理, 得到待处 理的各个 语句; 预测子模块, 用于利用预先训练完成的、 用于预测语句是否属于摘要语句的预测模型, 对所述待处 理的各个 语句进行 预测, 得到各个 语句的预测结果。 10.根据权利要求8所述的装置, 其特征在于, 所述预测模型为基于多个样本文本中的 各个样本语句以及每一样本语句的第一指定标签, 训练得到的模型; 其中, 每一样本语句的 第一指定标签用于表征该样本语句是否属于摘要语句, 且每一样本语句的第一指 定标签基 于该样本语句对应的摘要, 对该样本语句进行标签识别得到, 该样本语句对应的摘要为人 工设定的、 针对该样本语句所属的样本文本的摘要。 11.根据权利要求10所述的装置, 其特征在于, 所述基于该样本语句对应的摘要, 对该 样本语句进行 标签识别的方式, 包括: 获取该样本语句对应的摘要所包 含的各个 语句; 识别所获取的各个 语句中, 是否存在与该样本语句的匹配度超过 预设阈值的语句; 若存在, 将表征该样本语句属于摘要语句的第一标签, 确定为该样本语句的第一指定 标签, 否则, 将表征该样本语句不属于摘要语句的第二标签, 确定为该样本语句的第一指 定 标签。 12.根据权利要求11所述的装置, 其特征在于, 所述识别所获取的各个语句中, 是否存 在与该样本语句的匹配度超过 预设阈值的语句, 包括: 计算所获取的各个 语句与该样本语句之间的匹配度, 得到各个匹配结果; 从所述各个匹配结果中, 确定是否存在匹配度超过 预设阈值的匹配结果。 13.根据权利要求8 ‑12任一项所述的装置, 其特 征在于, 所述 生成模块, 具体用于: 利用预先训练完成的、 用于生成完整语义信息的生成模型, 对所述初始摘要进行语义 生成处理, 得到所述目标文本的摘要; 其中, 所述生成模型为基于多个样本摘要训练得到的 模型, 每一样本摘要 具有第二指 定标签, 每一第二指定标签为人工 设定的、 针对样本摘要 所 属的样本文本的摘要。 14.根据权利要求8 ‑12任一项所述的装置, 其特 征在于, 所述构建模块, 具体用于: 按照预设的排序方式, 对所述多个目标语句进行排序; 对所述多个目标语句按照排序顺序进行组合, 得到初始摘要。 15.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总 线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序;权 利 要 求 书 2/3 页 3 CN 114722832 A 3
专利 一种摘要提取方法、装置、设备以及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:21
上传分享
举报
下载
原文档
(636.6 KB)
分享
友情链接
DB52-T 1239.1-2017 政府数据 核心元数据 第1部分:人口基础数据 贵州省.pdf
DB4106-T 32-2020 公共机构既有建筑节能改造管理规范 鹤壁市.pdf
JR-T 0071.2—2020 金融行业网络安全等级保护实施指引 第2部分:基本要求.pdf
GB-T 2988-2023 高铝砖.pdf
GM-T 0032-2014 基于角色的授权与访问控制技术规范.pdf
GB-T 27930-2023 非车载传导式充电机与电动汽车之间的数字通信协议.pdf
SN-T 0001-2016 出口食品、化妆品理化测定方法标准编写的基本规定.pdf
T-SHZSAQS 00194—2023 库尔勒香梨密植微灌水肥高效管理技术规程.pdf
GB-T 33448-2016 数字城市地理信息公共平台 运行服务质量规范.pdf
GB-T 25058-2010 信息安全技术 信息系统安全等级保护实施指南.pdf
安恒 物联网安全测试指南 2022.pdf
T-CESA 1208—2022 光伏组件节能量计算方法.pdf
DB65-T 4536.8—2022 电子政务外网建设规范第8部分:网络质量规范 新疆维吾尔自治区.pdf
GB-T 25052-2010 连续热浸镀层钢板和钢带尺寸、外形、重量及允许偏差.pdf
GB-T 32609-2016 网球拍及部件的物理参数和试验方法.pdf
T-CES 173—2022 锂离子电池储能舱技术规范.pdf
DB44-T 2359-2022 垛基果林湿地恢复技术规程 广东省.pdf
DB14-T 1720-2018 黄土公路隧道工程监测技术规程 山西省.pdf
ISO 14064-1 2018 温室气体 第1部分 组织层面温室气体排放量和清除量量化和报告指南规范 中文.pdf
DB37-T 3160-2018 渔港安全管理规范 山东省.pdf
1
/
3
22
评价文档
赞助2.5元 点击下载(636.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。