安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210436411.X (22)申请日 2022.04.25 (71)申请人 杭州实在智能科技有限公司 地址 310000 浙江省杭州市余杭区余杭街 道文一西路1818-2号6幢6层 (72)发明人 严鹏 孙林君 (74)专利代理 机构 浙江永鼎律师事务所 3 3233 专利代理师 周希良 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/103(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 用于合同类文件的自动内容解析与信息评 测方法及系统 (57)摘要 本发明属于人工智能技术领域, 具体涉及用 于合同类文件的自动内容解析与信息评测方法 及系统。 方法包括S1, 判断合同文件格式, 并采用 不同的工具对合同文件内的文本进行提取; S2, 将提取出的文本进行拆分, 并输入已建立的合同 类Bert模型, 解析出关键信息; S3, 利用评分模型 对解析出的关键信息进行信息风险评测; S4, 将 信息风险评测结果在可视化界面端进行展示。 系 统包括合同文本提取模块、 合同文本解析模块、 合同文本评测模块和可视化展示模块。 本发明具 有消耗资源少, 能自动高效抽取关键信息, 且能 够处理各类格式文档的特点。 权利要求书2页 说明书6页 附图6页 CN 114548072 A 2022.05.27 CN 114548072 A 1.用于合同类文件的自动内容 解析与信息 评测方法, 其特 征在于, 包括如下步骤; S1, 判断合同文件格式, 并采用不同的工具对合同文件内的文本进行提取; S2, 将提取 出的文本进行拆分, 并输入已建立的合同类Ber t模型, 解析 出关键信息; S3, 利用评分模型对解析 出的关键信息进行信息风险评测; S4, 将信息风险评测结果在可视化界面端 进行展示。 2.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法, 其特征在 于, 步骤S1包括如下步骤; S11, 若合同文件格式为图片, 则 利用OCR技 术将文本提取 出来; S12, 若合同文件格式为P DF, 则使用P DF解析工具包抓取合同文件中的文本; S13, 若合同文件格式为docx, 则使用WORD解析工具包提取 出合同文件中的文本; S14, 若合同文件格式为doc, 则使用转换工具将合同文件转变为docx文件再进行步骤 S13过程的处 理。 3.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法, 其特征在 于, 所述合同类Ber t模型的构建过程包括如下步骤: 采用大量真实合同文本作为语料, 对Bert模型进行预训练, 并同时使用简体和繁体中 文, 通过子任务掩盖机制和下句预测任务对Bert模型进行训练, 使Bert模型具备通用语义 特征。 4.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法, 其特征在 于, 步骤S2包括如下步骤: S21, 设定“句号”为提前切分符, 同时将文本按长度5 00进行拆分; S22, 将拆分后的文本输入合同类Bert模型, 获得文本信息的词向量、 句向量和位置向 量; S23, 使用自编码器与条件随机场对词向量、 句向量和位置向量进行关键信息解析, 并 对解析出的关键信息进行 校验。 5.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法, 其特征在 于, 所述评分模型的构建过程如下: 使用逻辑 回归模型根据 各类信息对合同文本的影响程度, 训练出对关键信 息风险进行 判断的评分模型。 6.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法, 其特征在 于, 步骤S3包括如下步骤: S31, 将合同类Bert模型所解析出的关键信息, 根据评分模型归类为低、 中、 高三类风 险, 并赋予相应分值; 合同文件评测满分为100分, 若出现一个风险, 则减去相应分值, 获得 最终分值; S32, 通过最终分值, 得出合同类Bert模型在对应合同文件解析中的效果; 最终分值越 低, 则合同文件中解析 出的信息越少, 越重要的关键性信息越少。 7.根据权利要求6所述的用于合同类文件的自动内容解析与信息评测方法, 其特征在 于, 步骤S4包括如下步骤: S41, 将步骤S32 获得的最终分值以及高风险、 中风险、 低风险关键信息条数在可视化界 面端展示。权 利 要 求 书 1/2 页 2 CN 114548072 A 28.用于合同类文件的自动内容 解析与信息 评测系统, 其特 征在于, 包括: 合同文本提取模块, 用于判断合同文件格式, 并采用不同的工具对合同文件内的文本 进行提取; 合同文本解析模块, 用于将提取出的文本进行拆分, 并输入已建立的合同类Bert模型, 解析出关键信息; 合同文本 评测模块, 用于利用评分模型对解析 出的关键信息进行信息风险评测; 可视化展示模块, 用于将信息风险评测结果在可视化界面端 进行展示。 9.根据权利要求8所述的用于合同类文件的自动内容解析与信息评测系统, 其特征在 于, 所述合同文本解析模块还 包括; 合同类Bert模型构建模块, 用于采用大量真实合同文本作为语料, 对Bert模型进行预 训练, 并同时使用简体和繁体中文, 通过子任务掩盖机制和下句预测任务对Bert模型进行 训练, 使Ber t模型具备通用语义特 征。 10.根据权利要求8所述的用于合同类文件的自动内容解析与信息评测系统, 其特征在 于, 所述合同文本 评测模块还 包括: 评分模型构建模块, 用于使用逻辑回归模型根据各类信息对合同文本的影响程度, 训 练出对关键信息风险进行判断的评分模型。权 利 要 求 书 2/2 页 3 CN 114548072 A 3
专利 用于合同类文件的自动内容解析与信息评测方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:44
上传分享
举报
下载
原文档
(928.8 KB)
分享
友情链接
GB-T 30520-2014 会议分类和术语.pdf
GB-T 42583-2023 信息安全技术 政务网络安全监测平台技术规范.pdf
DB65-T 4536.8—2022 电子政务外网建设规范第8部分:网络质量规范 新疆维吾尔自治区.pdf
GB-T 6719-2009 袋式除尘器技术要求.pdf
DB34-T 4102-2022 废旧锂离子动力蓄电池贮存安全技术条件 安徽省.pdf
GB-T 28905-2022 建筑用低屈服强度钢板.pdf
GB-T 13575.1-2022 普通和窄V带传动 第1部分:基准宽度制.pdf
SL-T791-2019 水库降等与报废评估导则.pdf
T-CISA 216—2022 船舶用热轧纵向变厚度钢板.pdf
YY-T 1869-2023 探测器阵列剂量测量系统 性能和试验方法.pdf
GB-T 39997-2021 加油站埋地用热塑性塑料复合管道系统.pdf
GB-T 16880-1997 光掩模缺陷分类和尺寸定义的准则.pdf
T-JSJTQX 38—2023 节段梁短线法智能匹配预制施工 技术规程.pdf
GW0203-2014 国家电子政务外网 安全监测体系技术规范与实施指南.pdf
GB-T 5905.1-2023 起重机 检验与试验规范 第1部分:通则.pdf
蚂蚁集团 图数据库选型方法 问题 方法与工具.pdf
GB-T 42381.61-2023 数据质量 第61部分:数据质量管理:过程参考模型.pdf
GM-T 0101-2020 近场通信密码安全协议检测规范.pdf
GB-T 7044-2022 色素炭黑.pdf
T-TCDZ 0001—2019 电动自行车用蓄电池充电器.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(928.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。