安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210350155.2 (22)申请日 2022.04.02 (71)申请人 广州故新智能科技有限责任公司 地址 510000 广东省广州市海珠区新港中 路397号自编79号201房(仅限办公) (72)发明人 马文翔 朱乐为 崔子锋 (74)专利代理 机构 广州市百拓共享专利代理事 务所(特殊普通 合伙) 44497 专利代理师 刘静 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/215(2019.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06Q 10/10(2012.01)G06Q 40/00(2012.01) (54)发明名称 一种用于金融长文本复核系统的文本格式 审核模块 (57)摘要 一种用于金融长文本复核系统的文本格式 审核模块, 其用于对金融长文本的表格、 目录等 格式进行复核, 判断该金融长文本的连续易读 性, 其特征在于: 所述模块包括一预处理模块, 一 序号获取模块, 一序号匹配模块, 一连续性审核 模块, 一引用 审核模块和一输出模块。 经过上述 模块的配合, 可以快速对金融长文本进行格式审 核, 基于自然语言处理技术, 利用人工智能直接 输出审核结构, 极大降低了审核所需时间, 审核 效率高, 审核准确率好, 防止出现工作人员因修 改文档删除或增加了一些段落却忘记修改段落 前的序号, 由此引起目录不连续或引用的目录不 存在的现象, 系统主要检测这部分的格式错误给 用户提示, 保证文档的连续 易读性。 权利要求书2页 说明书5页 附图3页 CN 114691919 A 2022.07.01 CN 114691919 A 1.一种用于金融长文本复核系统的文本格式审核模块, 其用于对金融长文本的目录、 标题格式进 行审核, 判断该金融长文本的连续性, 其特征在于: 所述文本格式审核模块包括 一预处理模块、 一序号获取模块、 一序号匹配模块、 一连续性审核模块、 一引用审核模块和 一输出模块; 其中, 所述预处理模块对输入的金融长文本进行文本数据划分后, 根据NLP模型解析文本数 据获得段落数据、 标题数据、 表格数据及其之 间的数据关系, 该预 处理模块还读取文本目录 结构, 根据文本目录结构对标题数据进 行层级格式化; 该预 处理模块将解析后的段落数据, 标题数据和表格数据按预定义的数据模型组织输出并保存至数据库中; 所述序号获取模块用于获取标题序号和序号格式并进行序号分类, 所述标题序号的类 别包括目录标题序号, 正文标题序号以及附录表格标题序号; 所述序号匹配模块用于将序号获取模块获取的序号与序号前后的特征词进行匹配并 保存; 所述连续性审核模块用于审核所述序号获取模块获取的目录标题序号、 正文标题序号 以及附录表格标题序号, 并将该些序号判定为连续性序号或非连续性序号, 同时对标题数 据的格式及对应序号的格式进行审核; 所述引用审核模块根据 所述序号匹配模块输出的序号与 特征词关系, 用于对文本数据 中引用的序号审核其引用准确性; 所述输出模块将所述连续 性审核模块和所述引用审核模块的审核结果输出并保存。 2.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述预处理模块还包括一文本转换单元, 用于将PDF格式的金融长文本转换为图片格式文 本, 将所述图片格式文本进行拉伸和二 值化处理后根据CV模型获取文本数据。 3.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述连续性审核模块包括一比较单元, 用于比较相邻的同一格式标题的序号的连续性, 并 判定所述序号的为连续序号或非连续序号。 4.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述输出模块包括一显示单元和一标记单元, 所述显示单元用于 以标注形式显示审核结 果; 所述标记单元用于对文本出现问题的序号数据或标题数据进行标识, 并在所述显示单 元中显示。 5.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述NLP模型为预训练模型, 由大规模通用语料和金融语料训练获得。 6.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于, 所述文本格式审核模块 通过以下步骤处 理金融长文本: S1: 输入P DF金融长文本; S2: 使用N LP模型对金融长文本进行 预处理, 预定格式保存处 理后数据; S3: 获取标题序号和序号格式, 进行序号分类; S4: 将序号与其前后的特 征词进行匹配保存; S5: 审核标题序号连续 性、 标题格式和对应序号格式; S6: 审核文本数据中引用的序号是否准确; S7: 将S5与S6步骤中的审核结果以预定义格式输出和保存。权 利 要 求 书 1/2 页 2 CN 114691919 A 27.根据权利要求6所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于, 所述使用N LP模型对金融长文本进行 预处理的具体步骤为: S20: 将PDF格式金融长文本转化为图片格式文本, 根据CV模型检测所述图片格式文本 获取表格、 页眉、 页脚、 图片、 公 式数据, 提取并组织表格、 页眉、 页脚、 图片、 公 式数据以外的 文字数据; S21: 根据NLP模型将所述文字数据划分为段落数据和标题数据, 获取段落数据中表格 数据; S22: 对段落数据和标题数据进行数据清洗, 数据长度切割和定位数据提取位置, 根据 NLP模型解析处理后的段落数据和标题数据, 提取数据关系后按预定义的数据模型输出保 存; S23: 对表格数据进行数据清洗和集合划分, 根据NLP模型解析处理后的表格数据并提 取数据关系, 按预定义的数据模型输出保存; S24: 获取文本目录结构; S25: 读取S23的标题数据, 进行 标题层级格式化。 8.根据权利要求7所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于, 所述标题层级格式化方法为: S250: 确定标题数据间的标题领属关系; S251: 根据所述标题领属关系确定标题层级; S252: 对不同层级标题进行格式化。权 利 要 求 书 2/2 页 3 CN 114691919 A 3
专利 一种用于金融长文本复核系统的文本格式审核模块
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:58
上传分享
举报
下载
原文档
(395.0 KB)
分享
友情链接
GB-T 24561-2009 干燥窑与烘烤炉节能监测.pdf
GB-T 12604.10-2023 无损检测 术语 第10部分:磁记忆检测.pdf
GB-T 42571-2023 信息安全技术 区块链信息服务安全规范.pdf
GB-T 1506-2016 锰矿石 锰含量的测定 电位滴定法和硫酸亚铁铵滴定法.pdf
JR-T0232-2021 银行互联网渗透测试指南.pdf
DB13-T 5617-2022 精细化工反应安全风险评估导则 河北省.pdf
GB-T 12971.1-2023 电力牵引用接触线 第1部分:铜及铜合金接触线.pdf
GB-T 36630.3-2018 信息安全技术 信息技术产品安全可控评价指标 第3部分:操作系统.pdf
JR-T0199-2020 金融科技创新安全通用规范.pdf
算力网络安全白皮书 .pdf
QX-T 109—2021 城镇燃气雷电防护技术规范.pdf
GB-T 37606-2019 钛-钢复合管.pdf
GB-T 28534-2012 高压开关设备和控制设备中六氟化硫(SF6)气体的释放对环境和健康的影响.pdf
T-SMSWYY 001—2021 多花黄精工厂化育苗技术规程.pdf
GB-T 25897-2020 剩余电阻比测量 铌-钛 Nb-Ti 和铌三锡 Nb3Sn 复合超导体剩余电阻比测量.pdf
T-CCTAS 18—2021 固化剂混合料设计与施工技术指南.pdf
法律法规 中华人民共和国电信条例2016-02-06.pdf
GB-T 29314-2023 电动机系统节能改造规范.pdf
GB/Z 24294.3-2017 信息安全技术 基于互联网电子政务信息安全实施指南 第3部分:身份认证与授权管理.pdf
GB-T 19001-2016 质量管理体系 要求.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(395.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。