专利 文档信息提取方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210440065.2 (22)申请日 2022.04.25 (71)申请人中国平安人寿保险股份有限公司地址 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人刘东煜　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师洪铭福 (51)Int.Cl. G06V 30/148(2022.01) G06V 30/19(2022.01) G06K 9/62(2022.01) G06V 30/416(2022.01)G06V 10/82(2022.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/22(2019.01) (54)发明名称文档信息提取方法、装置、设备及介质 (57)摘要本申请涉及信息处理技术领域，提供了一种文档信息提取方法、装置、设备及介质，方法包括：对文档进行识别处理，得到多个文本块，将多个文本块输入到预训练的命名实体识别模型，以通过命名实体识别模型得到各个文本块对应的语义段落标签，根据各个文本块对应的语义段落标签，确定文档的语义段落，基于文本阅读顺序，确定文档中每个语义段落对应的布局类型，其中，文本阅读顺序包括左右阅读顺序和上下阅读顺序，布局类型包括段落布局和表格布局，根据语义段落对应的布局类型，提取每个语义段落的结构化数据。本申请实施例的文档信息提取方法能够简化文档信息的提取流程，并便于应用领域的迁移，提高对不同文档类型的适应性。权利要求书2页说明书14页附图6页 CN 114821590 A 2022.07.29 CN 114821590 A 1.一种文档信息提取方法，其特征在于，包括：对文档进行识别处理，得到多个文本块；将所述多个文本块输入到预训练的命名实体识别模型，以通过所述命名实体识别模型得到各个所述文本块对应的语义段落标签；根据各个所述文本块对应的语义段落标签，确定所述文档的语义段落；基于文本阅读顺序，确定所述文档中每个语义段落对应的布局类型，其中，所述文本阅读顺序包括左右阅读顺序和上下阅读顺序，所述布局类型包括段落布局和表格布局；根据所述语义段落对应的布局类型，提取每个所述语义段落的结构化数据。 2.根据权利要求1所述的文档信息提取方法，其特征在于，所述基于文本阅读顺序，确定所述文档中每个语义段落对应的布局类型，包括：获取所述语义段落对应的文本特征信息；根据所述文本特征信息，确定所述语义段落的文本阅读顺序；当所述语义段落的文本阅读顺序为左右阅读顺序，确定所述语义段落的布局类型为段落布局；当所述语义段落的文本阅读顺序为上下阅读顺序，确定所述语义段落的布局类型为表格布局。 3.根据权利要求2所述的文档信息提取方法，其特征在于，所述根据所述文本特征信息，确定所述语义段落的文本阅读顺序，包括：构造用于确定所述语义段落的文本阅读顺序的二分类任务；将所述文本特征信息输入到分类模型，以通过所述分类模型进行所述二分类任务，得到所述语义段落的文本阅读顺序。 4.根据权利要求3所述的文档信息提取方法，其特征在于，所述文本特征信息为所述语义段落的词向量矩阵，所述分类模型为TextCN N模型；所述将所述文本特征信息输入到分类模型，以通过所述分类模型进行所述二分类任务，得到所述语义段落的文本阅读顺序，包括：将所述词向量矩阵输入到TextCNN模型，以通过所述TextCNN模型进行所述二分类任务，得到所述语义段落的文本阅读顺序。 5.根据权利要求3所述的文档信息提取方法，其特征在于，所述文本特征信息为所述语义段落的字符特征矩阵，所述分类模型为Xgbo ost模型；所述将所述文本特征信息输入到分类模型，以通过所述分类模型进行所述二分类任务，得到所述语义段落的文本阅读顺序，包括：将所述字符特征矩阵中的每行字符向量进行最大池化，得到所述语义段落的行特征向量；拼接所述语义段落的行特征向量，并将拼接后的行特征向量输入到Xgboost模型，以通过所述Xgbo ost模型进行所述二分类任务，得到所述语义段落的文本阅读顺序。 6.根据权利要求1所述的文档信息提取方法，其特征在于，所述根据所述布局类型，提取每个所述语义段落的结构化数据，包括：当所述语义段落的布局类型为段落布局，执行以下处理：获取所述语义段落中的字段属性和字段值；权　利　要　求　书 1/2 页 2 CN 114821590 A 2通过正则匹配方式标准化所述语义段落中的字段属性；将所述字段值映射到标准化后的字段属性中，得到所述语义段落的结构化数据。 7.根据权利要求1所述的文档信息提取方法，其特征在于，所述命名实体识别模型为基于LayoutLM模型的二维命名实体识别模型；在所述将所述多个文本块输入到预训练的命名实体识别模型，以通过所述命名实体识别模型得到各个所述文本块对应的语义段落标签之前，所述方法还包括：获取预设的文档训练数据集；利用所述文档训练数据集对所述二维命名实体识别模型进行增广预训练，其中，所述增广预训练采用基于掩码视觉语言模型的自监督预训练方式。 8.一种文档信息提取装置，其特征在于，所述装置包括：文本块获取模块，用于对文档进行识别处理，得到多个文本块；标签分类模块，用于将所述多个文本块输入到预训练的命名实体识别模型，以通过所述命名实体识别模型得到各个所述文本块对应的语义段落标签；语义段落提取模块，用于根据各个所述文本块对应的语义段落标签，确定所述文档的语义段落；布局类型分类模块，用于基于文本阅读顺序，确定所述文档中每个语义段落对应的布局类型，其中，所述文本阅读顺序包括左右阅读顺序和上下阅读顺序，所述布局类型包括段落布局和表格布局；文档信息提取模块，用于根据所述语义段落对应的布局类型，提取每个所述语义段落的结构化数据。 9.一种电子设备，其特征在于，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于执行：如权利要求1至7中任一项所述的文档信息提取方法。 10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行：如权利要求1至7中任一项所述的文档信息提取方法。权　利　要　求　书 2/2 页 3 CN 114821590 A 3

专利 文档信息提取方法、装置、设备及介质

专利文档信息提取方法、装置、设备及介质