(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210225837.0
(22)申请日 2022.03.07
(71)申请人 重庆中烟工业有限责任公司
地址 400060 重庆市南岸区南 坪东路2号
申请人 西安工程大 学
(72)发明人 刘昌宏 陈亮 赵康廷
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 黄宗波
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向协同制造企业的非结构化图表数
据分析方法
(57)摘要
本发明公开了一种面向协同制造企业的非
结构化图表数据分析方法, 包括: 获取非结构化
图表数据; 通过光学字 符识别技术和深度学习的
卷积神经网络对所述非结构化图表数据进行文
本提取, 得到文本信息; 通过基于沙漏网络的关
键点检测网络模型对所述非结构化图表数据进
行关键点提取, 得到关键点特征数据; 将所述关
键点特征数据和所述文本信息进行结合整理, 得
到图表信息, 通过基于深度学习的预训练的自然
语言生成模型对图表信息进行处理, 得到所述非
结构化图表数据的图表分析文本。 本发明能够实
现自动获取图表中的文本和数据, 提取了图表中
的有价值的数据; 获取了多种类别图表的底层特
征, 并根据多种类别图表的底层特征来分类和提
取图表信息 。
权利要求书2页 说明书11页 附图5页
CN 114936279 A
2022.08.23
CN 114936279 A
1.一种面向协同制造企业的非结构化图表数据分析 方法, 其特 征在于, 包括如下步骤:
获取非结构化图表数据;
通过光学字符识别技术和深度学习的卷积神经网络对所述非结构化图表数据进行文
本提取, 得到文本信息, 其中, 文本信息包括文本内容信息和文本位置信息;
通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提取,
得到关键点特 征数据;
将所述关键点特征数据和所述文本信息进行结合整理, 得到 图表信息, 其中图表信息
包括图表基础信息和数值信息;
通过基于深度 学习的预训练 的自然语言生成模型对图表信 息进行处理, 得到所述非结
构化图表数据的图表分析文本 。
2.根据权利要求1所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述通过光学字符识别技术和深度学习的卷积神经网络对所述 非结构化图表数据进 行
文本提取, 得到文本信息的步骤, 包括:
对非结构化图表数据进行 预处理操作, 所述预处 理操作包括图像的缩放和裁 剪;
对预处理后的非结构化图表数据进行二 值化处理;
使用基于深度学习的文本像素分类器去除二值化处理后的非结构化图表数据中的非
文本像素, 获得仅保留了文本像素的纯 净图像;
通过光学字符识别技 术识别所述纯 净图像中的文本, 得到文本信息 。
3.根据权利要求2所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述文本信息的类型为4种, 包括: 图表标题、 图例、 x轴以及y轴; 文本信息的类型是使用
径向基核函数训练支持向量机对提取到的文本元 素进行分类得到的。
4.根据权利要求1所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提
取, 得到关键点特 征数据的步骤, 包括:
通过沙漏网络对非结构化图表数据进行一系列的下采样操作和上采样操作处理, 得到
将非结构化图表数据的关键点 位置像素高亮的概 率特征图;
将所述概率特征图作为输入经过关键点检测网络模型的左上角预测模块和右上角预
测模块, 得到所述 概率特征图的热力特 征图、 嵌入特 征图和偏移特 征图;
根据关键点检测网络模型的热力特征图、 嵌入特征图和偏移特征图得到关键点特征数
据。
5.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述关键点检测网络模型包括沙漏网络、 下采样操作层、 上采样操作层、 特征提取操作
层、 特征保存操作层构成。
6.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述根据热力特 征图、 嵌入特 征图和偏移特 征图得到关键点特 征数据的步骤, 包括:
通过热力特征图预测关键点 区域左上角和 右下角点的位置信 息, 通过嵌入特征图匹配
同一目标的左上和右下关键点, 通过偏移特征图校正关键点的位置, 得到所述非结构化图
表数据的关键点特 征数据。
7.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在权 利 要 求 书 1/2 页
2
CN 114936279 A
2于, 所述热力特 征图的损失函数如下:
其中, N为非结构化图表数据中关键点的数量, α和β 为决定每个关键点贡献的超参数,
分别设定为2和3; pcij为类别为C的关键点在(i,j)位置的得分; ycij为用高斯公式计算的真
实热力特 征图, (1‑ycij)为高斯非线性 化后预测角点与真实角点之间的距离 。
8.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述嵌入特 征图的损失函数为:
其中, Lpull为最小化同一 组角点之间距离的损失函数, Lpush为增大不同组角点距离以区
分角点的损失函数。 etk为类别为k的左上角点的嵌入特征, ebk为类别为k的右上角点的嵌入
特征, ek为etk与ebk的平均值。
9.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述图表信息提取部分的时间 复杂度为:
其中, D为关键点检测网络模型和卷积神经网络的层数, 取值为关键点检测模型的104
层加上卷积神经网络的3层, M为每个卷积层输出的特征图大小, N为卷积核的边长, C为每一
层的输入输出通道数。
10.根据权利要求1所述的面向协同制造企业的非结构化图表数据分析方法, 其特征在
于, 所述通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理, 得到所述
非结构化图表数据的图表分析文本的步骤之前, 包括:
获取制造企业语义表达数据集和制造企业意图分析数据集, 以及通过制造企业可视化
平台的用户需求文本;
通过所述制造企业语义表达数据集和所述制造企业意图分析数据集对深度学习的自
然语言生成模型进行训练, 将用户需求文本作为模型初始序列, 经过自然语言生成模型迭
代生成语义序列, 得到预训练的自然语言生成模型, 所述预训练的自然语言生成模型包含
用户需求的语义序列。权 利 要 求 书 2/2 页
3
CN 114936279 A
3
专利 一种面向协同制造企业的非结构化图表数据分析方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:43上传分享