安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210440065.2 (22)申请日 2022.04.25 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 刘东煜 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 洪铭福 (51)Int.Cl. G06V 30/148(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06V 30/416(2022.01)G06V 10/82(2022.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/22(2019.01) (54)发明名称 文档信息提取方法、 装置、 设备及 介质 (57)摘要 本申请涉及信息处理技术领域, 提供了一种 文档信息提取方法、 装置、 设备及介质, 方法包 括: 对文档进行识别处理, 得到多个文本块, 将多 个文本块输入到预训练的命名实体识别模型, 以 通过命名实体识别模型得到各个文本块对应的 语义段落标签, 根据各个文本块对应的语义段落 标签, 确定文档的语义段落, 基于文本阅读顺序, 确定文档中每个语义段落对应的布局类型, 其 中, 文本阅读顺序包括左右阅读顺序和上下阅读 顺序, 布局类型包括段落布局和表格布局, 根据 语义段落对应的布局类型, 提取每个语义段落的 结构化数据。 本申请实施例的文档信息提取方法 能够简化文档信息的提取流程, 并便于应用领域 的迁移, 提高对不同文档类型的适应性。 权利要求书2页 说明书14页 附图6页 CN 114821590 A 2022.07.29 CN 114821590 A 1.一种文档 信息提取 方法, 其特 征在于, 包括: 对文档进行识别处 理, 得到多个文本块; 将所述多个文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识别模型 得到各个所述文本块对应的语义段落标签; 根据各个所述文本块对应的语义段落标签, 确定所述文档的语义段落; 基于文本阅读顺序, 确定所述文档中每个语义段落对应的布局类型, 其中, 所述文本阅 读顺序包括左右阅读顺序和上 下阅读顺序, 所述布局类型包括段落布局 和表格布局; 根据所述语义段落对应的布局类型, 提取每 个所述语义段落的结构化数据。 2.根据权利要求1所述的文档信息提取方法, 其特征在于, 所述基于文本阅读顺序, 确 定所述文档中每 个语义段落对应的布局类型, 包括: 获取所述语义段落对应的文本特 征信息; 根据所述文本特 征信息, 确定所述语义段落的文本阅读顺序; 当所述语义段落的文本阅读顺序为左右阅读顺序, 确定所述语义段落的布局类型为段 落布局; 当所述语义段落的文本阅读顺序为上下阅读顺序, 确定所述语义段落的布局类型为表 格布局。 3.根据权利要求2所述的文档信息提取方法, 其特征在于, 所述根据所述文本特征信 息, 确定所述语义段落的文本阅读顺序, 包括: 构造用于确定所述语义段落的文本阅读顺序的二分类任务; 将所述文本特征信息输入到分类模型, 以通过所述分类模型进行所述二分类任务, 得 到所述语义段落的文本阅读顺序。 4.根据权利要求3所述的文档信 息提取方法, 其特征在于, 所述文本特征信 息为所述语 义段落的词向量矩阵, 所述分类模型为TextCN N模型; 所述将所述文本特征信息输入到分类模型, 以通过所述分类模型进行所述二分类任 务, 得到所述语义段落的文本阅读顺序, 包括: 将所述词 向量矩阵输入到TextCNN模型, 以通过所述TextCNN模型进行所述二分类任 务, 得到所述语义段落的文本阅读顺序。 5.根据权利要求3所述的文档信 息提取方法, 其特征在于, 所述文本特征信 息为所述语 义段落的字符特 征矩阵, 所述分类模型为Xgbo ost模型; 所述将所述文本特征信息输入到分类模型, 以通过所述分类模型进行所述二分类任 务, 得到所述语义段落的文本阅读顺序, 包括: 将所述字符特征矩阵中的每行字符向量进行最大池化, 得到所述语义段落的行特征向 量; 拼接所述语义段落的行特征向量, 并将拼接后的行特征向量输入到Xgboost模型, 以通 过所述Xgbo ost模型进行 所述二分类任务, 得到所述语义段落的文本阅读顺序。 6.根据权利要求1所述的文档信息提取方法, 其特征在于, 所述根据所述布局类型, 提 取每个所述语义段落的结构化数据, 包括: 当所述语义段落的布局类型为段落布局, 执 行以下处 理: 获取所述语义段落中的字段属性和字段值;权 利 要 求 书 1/2 页 2 CN 114821590 A 2通过正则匹配方式标准 化所述语义段落中的字段属性; 将所述字段值映射到标准 化后的字段属性中, 得到所述语义段落的结构化数据。 7.根据权利要求1所述的文档信 息提取方法, 其特征在于, 所述命名实体识别模型为基 于LayoutLM模型的二维命名实体识别模型; 在所述将所述多个文本块输入到预训练的命名实体识别模型, 以通过所述命名实体识 别模型得到各个所述文本块对应的语义段落标签之前, 所述方法还 包括: 获取预设的文档训练数据集; 利用所述文档训练数据集对所述二维命名实体识别模型进行增广预训练, 其中, 所述 增广预训练采用基于掩码视 觉语言模型的自监 督预训练方式。 8.一种文档 信息提取装置, 其特 征在于, 所述装置包括: 文本块获取模块, 用于对文档进行识别处 理, 得到多个文本块; 标签分类模块, 用于将所述多个文本块输入到预训练的命名实体识别模型, 以通过所 述命名实体识别模型 得到各个所述文本块对应的语义段落标签; 语义段落提取模块, 用于根据各个所述文本块对应的语义段落标签, 确定所述文档的 语义段落; 布局类型分类模块, 用于基于文本阅读顺序, 确定所述文档 中每个语义段落对应的布 局类型, 其中, 所述文本阅读顺序包括左右阅读顺序和上下阅读顺序, 所述布局类型包括段 落布局和表格布局; 文档信息提取模块, 用于根据所述语义段落对应的布局类型, 提取每个所述语义段落 的结构化数据。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储程序; 处理器, 用于执行所述存储器存储的程序, 当所述处理器执行所述存储器存储的程序 时, 所述处 理器用于执 行: 如权利要求1至7中任一项所述的文档 信息提取 方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机可执行指令, 所述计算机可 执行指令用于执 行: 如权利要求1至7中任一项所述的文档 信息提取 方法。权 利 要 求 书 2/2 页 3 CN 114821590 A 3
专利 文档信息提取方法、装置、设备及介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:20
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GW0014-2017 国家电子政务工程项目 应用软件第三方测试规范.pdf
T-SIA 031.3—2021 系统安全工程 网络弹性构建指南 第3部分 网络弹性构建过程.pdf
DB4401-T 42-2020 市政燃气管道安全评估规则 广州市.pdf
GB-T 1420-2015 海绵钯.pdf
GB 25527-2010 矿用混装炸药车 安全要求.pdf
GB-T 36958-2018 信息安全技术 网络安全等级保护安全管理中心技术要求.pdf
GB-T 35659-2017 经济贸易展览会分级与评定准则.pdf
GB-T 43528-2023 电化学储能电池管理通信技术要求.pdf
信通院 5G+云+AI:数字经济新时代的引擎.pdf
DB33-T 310016—2023 工业园区挥发性有机物传感器法网格化监测技术规范 浙江省.pdf
DB22-T 370-2014 建筑逃生缓降器设置技术规范 吉林省.pdf
DB23-T 2979—2021 大豆对大豆拟茎点种腐病抗病性鉴定技术规程 黑龙江省.pdf
freebuf 2021企业安全运营实践研究报告.pdf
DB63-T 2226-2023 绿色算力基础设施智能运维规范 青海省.pdf
GB-T 15320-2001节能产品评价导则.pdf
T ZJHIA XX-2014 医疗健康数据分类分级规范.pdf
ISO IEC 38500 2024 Information technology — Governance of IT for the organizatio.pdf
DB34-T 2395-2015 涉路工程安全评价规范 安徽省.pdf
奇安信 2018勒索病毒白皮书政企篇.pdf
GB-T 24507-2020 浸渍纸层压实木复合地板.pdf
1
/
3
23
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。