安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210243644.8 (22)申请日 2022.03.12 (71)申请人 云知声智能科技股份有限公司 地址 100096 北京市海淀区西三 旗建材城 内1幢一层101号 (72)发明人 刘畅 王亦宁 刘升平 梁家恩  (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法、 装置、 存 储介质及电子装置 (57)摘要 本发明公开了一种文本处理方法、 装置、 存 储介质及电子装置。 其中, 该文本处理方法: 首先 将长文本以基本的标点符号为分 隔切开, 并对切 开的子句分别用预训练模型进行建模; 然后针对 前一步中得到的模型表示, 使用双向循环神经网 络建立子句之间的上下文依 赖, 从而以子句为单 位完成组块 分析。 本发明实施例打破了预训练模 型的长度限制, 同时结合了循环神经网络模型建 模子句之间上下文时序关系依赖的优势, 可以较 好解决长文本建模和切分的问题, 以至少解决现 有技术中, 文本匹配准确度较低的技 术问题。 权利要求书2页 说明书8页 附图3页 CN 114707487 A 2022.07.05 CN 114707487 A 1.一种文本处 理方法, 其特 征在于, 包括: 根据预设分隔符切分目标文本, 得到所述目标文本对应的组块集合, 其中, 所述组块集 合中组块是由不同字词组成; 将所述组块 集合中的每 个组块输入预训练模型中, 得到每 个组块对应的词向量; 将所述每个组块对应的词向量输入双向循环神经网络 中, 确定每个组块之间的依赖关 系; 根据所述依赖关系对所述组块 集合中的组块进行处 理, 得到所述目标文本切分结果。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述依赖关系对所述组块集合中 的组块进行处 理, 得到所述目标文本切分结果, 包括: 将所述依赖关系相同的组块进行合并, 得到所述目标文本切分结果。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述组块集合中的每个组块输入预 训练模型中, 得到每 个组块对应的词向量, 包括: 在所述目标文本D, 切分为N个字句, 所述组块集合包括N个字句的情况下, 通过所述预 训练模型进行词向量编 码, 得到每个字句n* m格式的词向量, 其中, 所述n表 示所述每个字句 中的字数量, 所述m预训练模型的特 征向量维度。 4.根据权利要求2所述的方法, 其特征在于, 所述通过所述预训练模型进行词向量编 码, 得到每 个字句n*m格式的词向量之后, 所述方法还 包括: 使用计算平均池化的方法, 将每个子句的词向量转化为一维向量, 得到所述目标文本 对应的文本序列。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述每个组块对应的词向量输入双 向循环神经网络中, 确定每 个组块之间的依赖关系, 包括: 将文本序列输入所属双向循环神经网络 中, 得到每一个子句包含上下文语义的表示向 量; 通过全连接层将所属表示向量进行处 理, 得到目标向量; 根据所述目标向量确定所述每 个组块之间的依赖关系。 6.一种文本处 理装置, 其特 征在于, 包括: 切分单元, 用于根据 预设分隔符切分目标文本, 得到所述目标文本对应的组块集合, 其 中, 所述组块 集合中组块是由不同字词组成; 第一得到单元, 用于将所述组块集合中的每个组块输入预训练模型中, 得到每个组块 对应的词向量; 确定单元, 用于将所述每个组块对应的词向量输入双 向循环神经网络中, 确定每个组 块之间的依赖关系; 第二得到单元, 用于根据所述依赖关系对所述组块集合中的组块进行处理, 得到所述 目标文本切分结果。 7.根据权利要求6所述的装置, 其特 征在于, 所述第二得到单 元, 包括: 第二得到模块, 用于将所述依赖关系相同的组块进行合并, 得到所述目标文本切分结 果。 8.根据权利要求6所述的装置, 其特 征在于, 所述第一得到单 元, 包括: 第一得到模块, 用于在所述目标文本D, 切分为N个字句, 所述组块集合包括N个字句的权 利 要 求 书 1/2 页 2 CN 114707487 A 2情况下, 通过所述预训练模 型进行词向量编码, 得到每个字句n* m格式的词向量, 其中, 所述 n表示所述每 个字句中的字数量, 所述m预训练模型的特 征向量维度。 9.根据权利要求7 所述的装置, 其特 征在于, 所述装置还 包括: 计算单元, 用于所述通过所述预训练模型进行词向量编码, 得到每个字句n*m格 式的词 向量之后, 使用计算平均池化的装置, 将 每个子句的词向量转化为一 维向量, 得到所述目标 文本对应的文本序列。 10.根据权利要求6所述的装置, 其特 征在于, 所述确定单 元, 包括: 第三得到模块, 用于将文本序列输入所属双 向循环神经网络中, 得到每一个子句包含 上下文语义的表示向量; 处理模块, 用于通过全连接层将所述表示向量进行处 理, 得到目标向量; 确定模块, 用于根据所述目标向量确定所述每 个组块之间的依赖关系。 11.一种计算机可读的存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其 中, 所述计算机程序被设置为 运行时执 行所述权利要求1至 5任一项中所述的方法。 12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行所述权利要求 1至5任一项中所述的方 法。权 利 要 求 书 2/2 页 3 CN 114707487 A 3

.PDF文档 专利 文本处理方法、装置、存储介质及电子装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、存储介质及电子装置 第 1 页 专利 文本处理方法、装置、存储介质及电子装置 第 2 页 专利 文本处理方法、装置、存储介质及电子装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。