安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210243644.8 (22)申请日 2022.03.12 (71)申请人 云知声智能科技股份有限公司 地址 100096 北京市海淀区西三 旗建材城 内1幢一层101号 (72)发明人 刘畅 王亦宁 刘升平 梁家恩 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法、 装置、 存 储介质及电子装置 (57)摘要 本发明公开了一种文本处理方法、 装置、 存 储介质及电子装置。 其中, 该文本处理方法: 首先 将长文本以基本的标点符号为分 隔切开, 并对切 开的子句分别用预训练模型进行建模; 然后针对 前一步中得到的模型表示, 使用双向循环神经网 络建立子句之间的上下文依 赖, 从而以子句为单 位完成组块 分析。 本发明实施例打破了预训练模 型的长度限制, 同时结合了循环神经网络模型建 模子句之间上下文时序关系依赖的优势, 可以较 好解决长文本建模和切分的问题, 以至少解决现 有技术中, 文本匹配准确度较低的技 术问题。 权利要求书2页 说明书8页 附图3页 CN 114707487 A 2022.07.05 CN 114707487 A 1.一种文本处 理方法, 其特 征在于, 包括: 根据预设分隔符切分目标文本, 得到所述目标文本对应的组块集合, 其中, 所述组块集 合中组块是由不同字词组成; 将所述组块 集合中的每 个组块输入预训练模型中, 得到每 个组块对应的词向量; 将所述每个组块对应的词向量输入双向循环神经网络 中, 确定每个组块之间的依赖关 系; 根据所述依赖关系对所述组块 集合中的组块进行处 理, 得到所述目标文本切分结果。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述依赖关系对所述组块集合中 的组块进行处 理, 得到所述目标文本切分结果, 包括: 将所述依赖关系相同的组块进行合并, 得到所述目标文本切分结果。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述组块集合中的每个组块输入预 训练模型中, 得到每 个组块对应的词向量, 包括: 在所述目标文本D, 切分为N个字句, 所述组块集合包括N个字句的情况下, 通过所述预 训练模型进行词向量编 码, 得到每个字句n* m格式的词向量, 其中, 所述n表 示所述每个字句 中的字数量, 所述m预训练模型的特 征向量维度。 4.根据权利要求2所述的方法, 其特征在于, 所述通过所述预训练模型进行词向量编 码, 得到每 个字句n*m格式的词向量之后, 所述方法还 包括: 使用计算平均池化的方法, 将每个子句的词向量转化为一维向量, 得到所述目标文本 对应的文本序列。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述每个组块对应的词向量输入双 向循环神经网络中, 确定每 个组块之间的依赖关系, 包括: 将文本序列输入所属双向循环神经网络 中, 得到每一个子句包含上下文语义的表示向 量; 通过全连接层将所属表示向量进行处 理, 得到目标向量; 根据所述目标向量确定所述每 个组块之间的依赖关系。 6.一种文本处 理装置, 其特 征在于, 包括: 切分单元, 用于根据 预设分隔符切分目标文本, 得到所述目标文本对应的组块集合, 其 中, 所述组块 集合中组块是由不同字词组成; 第一得到单元, 用于将所述组块集合中的每个组块输入预训练模型中, 得到每个组块 对应的词向量; 确定单元, 用于将所述每个组块对应的词向量输入双 向循环神经网络中, 确定每个组 块之间的依赖关系; 第二得到单元, 用于根据所述依赖关系对所述组块集合中的组块进行处理, 得到所述 目标文本切分结果。 7.根据权利要求6所述的装置, 其特 征在于, 所述第二得到单 元, 包括: 第二得到模块, 用于将所述依赖关系相同的组块进行合并, 得到所述目标文本切分结 果。 8.根据权利要求6所述的装置, 其特 征在于, 所述第一得到单 元, 包括: 第一得到模块, 用于在所述目标文本D, 切分为N个字句, 所述组块集合包括N个字句的权 利 要 求 书 1/2 页 2 CN 114707487 A 2情况下, 通过所述预训练模 型进行词向量编码, 得到每个字句n* m格式的词向量, 其中, 所述 n表示所述每 个字句中的字数量, 所述m预训练模型的特 征向量维度。 9.根据权利要求7 所述的装置, 其特 征在于, 所述装置还 包括: 计算单元, 用于所述通过所述预训练模型进行词向量编码, 得到每个字句n*m格 式的词 向量之后, 使用计算平均池化的装置, 将 每个子句的词向量转化为一 维向量, 得到所述目标 文本对应的文本序列。 10.根据权利要求6所述的装置, 其特 征在于, 所述确定单 元, 包括: 第三得到模块, 用于将文本序列输入所属双 向循环神经网络中, 得到每一个子句包含 上下文语义的表示向量; 处理模块, 用于通过全连接层将所述表示向量进行处 理, 得到目标向量; 确定模块, 用于根据所述目标向量确定所述每 个组块之间的依赖关系。 11.一种计算机可读的存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其 中, 所述计算机程序被设置为 运行时执 行所述权利要求1至 5任一项中所述的方法。 12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行所述权利要求 1至5任一项中所述的方 法。权 利 要 求 书 2/2 页 3 CN 114707487 A 3
专利 文本处理方法、装置、存储介质及电子装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:03
上传分享
举报
下载
原文档
(522.0 KB)
分享
友情链接
DB62-T 2779-2021 松落针病综合防治技术规程 甘肃省.pdf
GB-T 35753-2017 空调器室外机安装用支架.pdf
T-CASME 661—2023 绿色建筑节能设计技术文件编制规范.pdf
GB-T 33009.1-2016工业自动化和控制系统网络安全集散控制系统(DCS)第1部分防护要求.pdf
GB-T 38395-2019 煤焦油 硫和氮含量的测定.pdf
GB-T 4622.1-2022 管法兰用缠绕式垫片 第1部分:PN系列.pdf
T-CSAE 137—2020 汽车紧固点防水密封性能试验及评价方法.pdf
山东省规章和行政规范性文件备案规定.pdf
DL-T 2021-2019 抽水蓄能机组设备监造导则.pdf
GB-T 32488-2016 球墨铸铁管和管件 水泥砂浆内衬密封涂层.pdf
GB-T 18781-2023 珍珠分级.pdf
GM-T 0079-2020 可信计算平台直接匿名证明规范.pdf
GB 9706.236-2021 医用电气设备 第2-36部分:体外引发碎石设备的基本安全和基本性能专用要求.pdf
GB-T 42236.1-2022 电动自行车集中充电设施 第1部分:技术规范.pdf
GB-T 29409-2012 木材储存保管技术规范.pdf
GB-T 16638.4-2008 空气动力学 概念、量和符号 第4部分:飞机的空气动力、力矩及其系数和导数.pdf
AQ 1008-2007 矿山救护规程.pdf
安华金和 数据安全治理白皮书 5.0 - 2023 .pdf
GB-T 3324-2017 木家具通用技术条件.pdf
DB3310-T 93-2022 公共数据授权运营指南 台州市.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(522.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。