(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211032520.1
(22)申请日 2022.08.26
(71)申请人 深圳市星桐科技有限公司
地址 518027 广东省深圳市福田区华强北
街道福强社区红荔路2001号四川大厦
A座1413
(72)发明人 李兵
(74)专利代理 机构 北京开阳星知识产权代理有
限公司 1 1710
专利代理师 王雪
(51)Int.Cl.
G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
图像处理方法、 装置、 设备及 介质
(57)摘要
本公开涉及一种图像处理方法、 装置、 设备
及介质, 该方法包括: 获取包含目标公式的目标
图像; 将目标图像输入至预先训练好的公式识别
模型进行公 式识别, 得到目标 公式中每个字符对
应的第一字符预测结果和第一关系预测结果; 其
中, 公式识别模 型是基于具有标注信息的公式样
本图像训练得到的, 标注信息包括: 公式样本对
应的字符序列、 语义特征向量和字符检测框; 根
据每个字符对应的第一字符预测结果和第一关
系预测结果, 得到目标图像中目标 公式的识别结
果。 本公开能够提高公式识别准确性。
权利要求书3页 说明书12页 附图2页
CN 115376140 A
2022.11.22
CN 115376140 A
1.一种图像处 理方法, 其特 征在于, 包括:
获取包含目标公式的目标图像;
将所述目标图像输入至预先训练好的公式识别模型进行公式识别, 得到所述目标公式
中每个字符对应的第一字符预测结果和第一关系 预测结果; 其中, 所述公式识别模型是基
于具有标注信息的公式样本图像训练得到的, 所述标注信息包括: 公式样本对应的字符序
列、 语义特 征向量和字符检测框;
根据所述每个字符对应的第 一字符预测结果和第 一关系预测结果, 得到所述目标图像
中所述目标公式的识别结果。
2.根据权利要求1所述的方法, 其特征在于, 所述公式识别模型包括: 特征映射模块、 自
注意力模块、 语义 提取模块和字符预测模块;
所述将所述目标图像输入至预先训练好的公式识别模型进行公式识别, 得到所述目标
公式中每个字符对应的字符预测结果和关系预测结果, 包括:
将所述目标图像输入至所述特征映射模块, 通过所述特征映射模块对所述目标图像进
行特征映射, 得到所述目标图像对应的第一映射特 征;
通过所述自注意力模块对所述第一映射特 征进行特征提取, 得到第二映射特 征;
通过所述语义提取模块对所述第 二映射特征进行语义特征提取, 得到第 一全局语义向
量;
通过所述字符预测模块基于所述第 二映射特征和所述第 一全局语义特征, 得到所述目
标公式中每个字符对应的第一字符预测结果和第一关系 预测结果; 其中, 所述第一关系 预
测结果用于指示字符与相邻前一 位置处字符的关系。
3.根据权利要求2所述的方法, 其特征在于, 所述字符预测模块包括: 词嵌入层、 注意力
层和解码器; 所述通过所述字符预测模块基于所述第二映射特征和所述第一全局语义特
征, 得到所述目标公式 中每个字符对应的第一字符预测结果和第一关系预测结果, 包括:
通过所述词嵌入层将所述第 二映射特征进行向量化表示, 得到所述第 二映射特征的语
义特征;
通过所述注意力层基于所述第二映射特 征的语义特 征, 得到注意力向量;
通过所述解码器基于所述注意力向量和所述第 一全局语义特征, 得到所述目标公式中
每个字符对应的第一字符预测结果和第一关系预测结果。
4.根据权利要求1所述的方法, 其特 征在于, 所述公式识别模型的训练过程包括:
获取第一训练集和第二训练集; 其中, 所述第一训练集中的公式样本 图像上标注有公
式样本对应的字符序列、 语义特征向量和字符检测框, 所述第二训练集中的公式样本图像
上标注有公式样本对应的字符序列、 语义特 征向量;
获取待训练的第一模型; 所述第一模型包括: 特征映射模块、 自注意力模块、 语义提取
模块、 字符预测模块、 卷积模块和数量预测模块;
根据所述第一训练集对所述第一模型进行训练;
在所述第一模型训练结束后, 将所述卷积模块的参数保持不变, 得到第二模型;
根据所述第二训练集对所述第二模型进行训练;
当所述第 二模型训练收敛时, 将所述特征映射模块、 所述自注意力模块、 所述语义提取
模块、 所述字符预测模块确定为所述公式识别模型。权 利 要 求 书 1/3 页
2
CN 115376140 A
25.根据权利要求4所述的方法, 其特征在于, 所述根据所述第 一训练集对所述第 一模型
进行训练, 包括:
将第一公式样本 图像输入到所述第一模型; 其中, 所述第一公式样本 图像为所述第一
训练集中的公式样本图像;
通过所述特征映射模块输出 所述第一公式样本图像对应的第三映射特 征;
通过所述自注意力模块基于所述第三映射特 征输出第四映射特 征;
通过所述语义 提取模块基于所述第四映射特 征输出第二全局语义向量;
通过所述卷积模块基于所述第四映射特征输出所述第一公式样本图像的公式样本中
每个字符的字符中心点;
通过所述数量预测模块基于所述第四映射特征输出所述第一公式样本图像的公式样
本中的字符数量;
通过所述字符预测模块基于所述第四映射特征和所述第 二全局语义向量, 输出所述第
一公式样本图像的公式样本中每 个字符对应的第二字符预测结果和第二关系预测结果;
根据所述第 一公式样本图像上标注的公式样本对应的字符序列、 语义特征向量和字符
检测框, 所述第二字符预测结果、 第二关系 预测结果、 所述第二全局语义向量、 所述字符中
心点和所述字符数量, 以及预设损失函数, 对所述第一模型进行训练。
6.根据权利要求5所述的方法, 其特征在于, 所述根据所述第 一公式样本图像上标注的
公式样本对应的字符序列、 语义特征向量和字符检测框, 所述第二字符预测结果、 第二关系
预测结果、 所述第二全局语义向量、 所述字符中心点和所述字符数量, 以及预设损失函数,
对所述第一模型进行训练, 包括:
根据所述第一公式样本图像上标注的语义特征向量、 所述第 二全局语义向量和L1损失
函数, 计算所述语义 提取模块的第一损失函数值;
根据所述第 一公式样本图像上标注的公式样本对应的字符检测框、 所述字符中心点和
分类损失函数 Focal Loss损失函数, 计算所述卷积模块的第二损失函数值;
根据所述第 一公式样本图像上标注的公式样本对应的字符检测框、 所述字符数量和多
分类交叉熵损失函数, 计算所述数量预测模块的第三损失函数值;
根据所述第二字符预测结果、 第二关系预测结果, 得到所述第一公式样本 图像中公式
样本的预测字符序列;
根据所述预测字符序列、 所述第 一公式样本图像上标注的公式样本对应的字符序列以
及多分类交叉熵损失函数, 计算所述字符预测模块的第四损失函数值;
根据所述第一损 失函数值、 所述第二损 失函数值、 所述第三损 失函数值和所述第 四损
失函数值, 对所述第一模型进行训练。
7.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
获取标注有字符序列和字符检测框的第二公式样本图像;
根据标注的字符序列和字符检测框对所述第二公式样本图像中的各字符进行三元组
编码, 得到三元组结构, 所述三元组结构包括: 当前字符、 所述当前字符对应的前一位置处
的相邻字符、 所述当前字符和所述相邻字符 之间的关系;
通过词嵌入方法得到所述 三元组结构对应的词嵌入向量;
将各字符对应的所述词嵌入向量输入至预先训练好的语义信 息提取模型, 得到所述第权 利 要 求 书 2/3 页
3
CN 115376140 A
3
专利 图像处理方法、装置、设备及介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:40:35上传分享