安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210440065.2 (22)申请日 2022.04.25 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 刘东煜  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 洪铭福 (51)Int.Cl. G06V 30/148(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06V 30/416(2022.01)G06V 10/82(2022.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/22(2019.01) (54)发明名称 文档信息提取方法、 装置、 设备及 介质 (57)摘要 本申请涉及信息处理技术领域, 提供了一种 文档信息提取方法、 装置、 设备及介质, 方法包 括: 对文档进行识别处理, 得到多个文本块, 将多 个文本块输入到预训练的命名实体识别模型, 以 通过命名实体识别模型得到各个文本块对应的 语义段落标签, 根据各个文本块对应的语义段落 标签, 确定文档的语义段落, 基于文本阅读顺序, 确定文档中每个语义段落对应的布局类型, 其 中, 文本阅读顺序包括左右阅读顺序和上下阅读 顺序, 布局类型包括段落布局和表格布局, 根据 语义段落对应的布局类型, 提取每个语义段落的 结构化数据。 本申请实施例的文档信息提取方法 能够简化文档信息的提取流程, 并便于应用领域 的迁移, 提高对不同文档类型的适应性。 权利要求书2页 说明书14页 附图6页 CN 114821590 A 2022.07.29 CN 114821590 A 1.一种文档 信息提取 方法, 其特 征在于, 包括: 对文档进行识别处 理, 得到多个文本块; 将所述多个文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识别模型 得到各个所述文本块对应的语义段落标签; 根据各个所述文本块对应的语义段落标签, 确定所述文档的语义段落; 基于文本阅读顺序, 确定所述文档中每个语义段落对应的布局类型, 其中, 所述文本阅 读顺序包括左右阅读顺序和上 下阅读顺序, 所述布局类型包括段落布局 和表格布局; 根据所述语义段落对应的布局类型, 提取每 个所述语义段落的结构化数据。 2.根据权利要求1所述的文档信息提取方法, 其特征在于, 所述基于文本阅读顺序, 确 定所述文档中每 个语义段落对应的布局类型, 包括: 获取所述语义段落对应的文本特 征信息; 根据所述文本特 征信息, 确定所述语义段落的文本阅读顺序; 当所述语义段落的文本阅读顺序为左右阅读顺序, 确定所述语义段落的布局类型为段 落布局; 当所述语义段落的文本阅读顺序为上下阅读顺序, 确定所述语义段落的布局类型为表 格布局。 3.根据权利要求2所述的文档信息提取方法, 其特征在于, 所述根据所述文本特征信 息, 确定所述语义段落的文本阅读顺序, 包括: 构造用于确定所述语义段落的文本阅读顺序的二分类任务; 将所述文本特征信息输入到分类模型, 以通过所述分类模型进行所述二分类任务, 得 到所述语义段落的文本阅读顺序。 4.根据权利要求3所述的文档信 息提取方法, 其特征在于, 所述文本特征信 息为所述语 义段落的词向量矩阵, 所述分类模型为TextCN N模型; 所述将所述文本特征信息输入到分类模型, 以通过所述分类模型进行所述二分类任 务, 得到所述语义段落的文本阅读顺序, 包括: 将所述词 向量矩阵输入到TextCNN模型, 以通过所述TextCNN模型进行所述二分类任 务, 得到所述语义段落的文本阅读顺序。 5.根据权利要求3所述的文档信 息提取方法, 其特征在于, 所述文本特征信 息为所述语 义段落的字符特 征矩阵, 所述分类模型为Xgbo ost模型; 所述将所述文本特征信息输入到分类模型, 以通过所述分类模型进行所述二分类任 务, 得到所述语义段落的文本阅读顺序, 包括: 将所述字符特征矩阵中的每行字符向量进行最大池化, 得到所述语义段落的行特征向 量; 拼接所述语义段落的行特征向量, 并将拼接后的行特征向量输入到Xgboost模型, 以通 过所述Xgbo ost模型进行 所述二分类任务, 得到所述语义段落的文本阅读顺序。 6.根据权利要求1所述的文档信息提取方法, 其特征在于, 所述根据所述布局类型, 提 取每个所述语义段落的结构化数据, 包括: 当所述语义段落的布局类型为段落布局, 执 行以下处 理: 获取所述语义段落中的字段属性和字段值;权 利 要 求 书 1/2 页 2 CN 114821590 A 2通过正则匹配方式标准 化所述语义段落中的字段属性; 将所述字段值映射到标准 化后的字段属性中, 得到所述语义段落的结构化数据。 7.根据权利要求1所述的文档信 息提取方法, 其特征在于, 所述命名实体识别模型为基 于LayoutLM模型的二维命名实体识别模型; 在所述将所述多个文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识 别模型得到各个所述文本块对应的语义段落标签之前, 所述方法还 包括: 获取预设的文档训练数据集; 利用所述文档训练数据集对所述二维命名实体识别模型进行增广预训练, 其中, 所述 增广预训练采用基于掩码视 觉语言模型的自监 督预训练方式。 8.一种文档 信息提取装置, 其特 征在于, 所述装置包括: 文本块获取模块, 用于对文档进行识别处 理, 得到多个文本块; 标签分类模块, 用于将所述多个文本块输入到预训练的命名实体识别模型, 以通过所 述命名实体识别模型 得到各个所述文本块对应的语义段落标签; 语义段落提取模块, 用于根据各个所述文本块对应的语义段落标签, 确定所述文档的 语义段落; 布局类型分类模块, 用于基于文本阅读顺序, 确定所述文档 中每个语义段落对应的布 局类型, 其中, 所述文本阅读顺序包括左右阅读顺序和上下阅读顺序, 所述布局类型包括段 落布局和表格布局; 文档信息提取模块, 用于根据所述语义段落对应的布局类型, 提取每个所述语义段落 的结构化数据。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储程序; 处理器, 用于执行所述存储器存储的程序, 当所述处理器执行所述存储器存储的程序 时, 所述处 理器用于执 行: 如权利要求1至7中任一项所述的文档 信息提取 方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机可执行指令, 所述计算机可 执行指令用于执 行: 如权利要求1至7中任一项所述的文档 信息提取 方法。权 利 要 求 书 2/2 页 3 CN 114821590 A 3

.PDF文档 专利 文档信息提取方法、装置、设备及介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档信息提取方法、装置、设备及介质 第 1 页 专利 文档信息提取方法、装置、设备及介质 第 2 页 专利 文档信息提取方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。