安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210260965.9 (22)申请日 2022.03.16 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 范湉湉 黄灿 王长虎 (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 曹寒梅 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) (54)发明名称 文本识别方法、 装置、 可读介质及电子设备 (57)摘要 本公开涉及一种文本识别方法、 装置、 可读 介质及电子设备, 包括: 获取待识别文本图像; 提 取待识别文本图像中的 图像特征; 确定目标解码 模块; 通过在每一个解码时间步中对一个子词进 行解码的方式, 根据目标解码模块对图像特征解 码得到文本识别结果。 这样, 将子词作为最小分 词单位来对编码后的图像特征进行解码, 这样能 够使得在解码的过程中能够充分利用文本语义 来完成文本识别, 避免了仅基于字符char解码导 致识别文本中无法包括文本语义的问题, 而且子 词相比于词汇word更加精简, 能够用更小 量级的 子词字典识别更多的文本, 避免了基于词汇解码 中的方案中由于词汇量过大容易出现OOV未登录 词, 从而影响识别精度的问题。 权利要求书2页 说明书9页 附图4页 CN 114611509 A 2022.06.10 CN 114611509 A 1.一种文本识别方法, 其特 征在于, 所述方法包括: 获取待识别文本图像; 提取所述待识别文本图像中的图像特 征; 确定目标解码模块; 通过在每一个解码时间步中对一个子词 进行解码的方式, 根据 所述目标解码模块对所 述图像特征解码得到文本识别结果, 其中, 所述 目标解码模块为基于目标子词字典训练得 到的解码模块, 所述子词为对词汇进行分解得到的词单位。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 确定所述文本识别结果所要应用的下游的自然语言处 理任务; 所述确定目标解码模块包括: 根据所述自然语言处 理任务确定所述目标解码模块。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述自然语言处理任务确定所述 目标解码模块包括: 确定所述自然语言处 理任务对应的子词字典作为所述目标子词字典; 将基于所述目标子词字典训练得到的解码模块确定为所述目标解码模块。 4.根据权利要求2所述的方法, 其特征在于, 所述通过在每一个解码时间步中对一个子 词进行解码的方式, 根据所述目标解码模块对所述图像特 征解码得到文本识别结果包括: 通过在每一个解码时间步中对一个子词 进行解码的方式, 根据 所述目标解码模块对所 述图像特 征解码得到文本识别结果以及所述文本识别结果的语义表征。 5.根据权利要求4所述的方法, 其特征在于, 所述通过在每一个解码时间步中对一个子 词进行解码的方式, 根据所述目标解码模块对 所述图像特征解码得到文本识别结果以及所 述文本识别结果的语义表征包括: 将所述图像特 征和目标语义分类符号输入所述目标解码模块; 通过在每一个解码时间步中对一个子词 进行解码的方式, 根据 所述目标解码模块对所 述图像特征解码得到文本识别结果, 并将所述目标解码模块的解码结果中对应于所述目标 语义分类符号的输出作为所述文本识别结果的语义表征。 6.一种文本识别装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待识别文本图像; 提取模块, 用于提取 所述待识别文本图像中的图像特 征; 第一确定模块, 用于确定目标解码模块; 识别模块, 用于通过在每一个解码时间步中对一个子词进行解码的方式, 根据所述目 标解码模块对所述图像特征解码得到文本识别结果, 其中, 所述 目标解码模块为基于目标 子词字典训练得到的解码模块, 所述子词为对词汇进行分解得到的词单位。 7.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括: 第二确定模块, 用于确定所述文本识别结果所要应用的下游的自然语言处 理任务; 所述第一确定模块还用于: 根据所述自然语言处 理任务确定所述目标解码模块。 8.根据权利要求7 所述的装置, 其特 征在于, 所述第一确定模块还 包括: 第一确定子模块, 用于确定所述自然语言处理任务对应的子词字典作为所述目标子词权 利 要 求 书 1/2 页 2 CN 114611509 A 2字典; 第二确定子模块, 用于将基于所述目标子词字典训练得到的解码模块确定为所述目标 解码模块。 9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行 时实现权利要求1 ‑5中任一项所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 存储装置, 其上存 储有计算机程序; 处理装置, 用于执行所述存储装置 中的所述计算机程序, 以实现权利要求1 ‑5中任一项 所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114611509 A 3
专利 文本识别方法、装置、可读介质及电子设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:18
上传分享
举报
下载
原文档
(725.0 KB)
分享
友情链接
GB-T 26079-2010 梁式吊具.pdf
GB 4943.1-2022 音视频、信息技术和通信技术设备 第1部分:安全要求.pdf
GB-T 30942-2014 化妆品中禁用物质乙二醇甲醚、乙二醇乙醚及二乙二醇甲醚的测定 气相色谱法.pdf
GB-T 16597-2019 冶金产品分析方法 X射线荧光光谱法通则.pdf
GB/T 36073-2018 数据管理能力成熟度评估模型.pdf
GB-T 32916-2023 信息安全技术 信息安全控制评估指南 ISO 27008-2019.pdf
DB43-T 1903-2020 茶园有机肥替减化肥技术规程 湖南省.pdf
tc260 大数据安全标准化白皮书 2017版.pdf
GB-T 43079.2-2023 钢制管法兰、垫片及紧固件选用规定 第2部分:Class系列.pdf
GB-T 35075-2018 燃气燃烧器节能试验规则.pdf
GW0201-2011 国家电子政务外网 IPSec VPN安全接入技术要求与实施指南.pdf
数据供应链管理办法.pdf
GB-T 38652-2020 电子商务业务术语.pdf
T-XMYXH 0001—2023 厦门市医疗机构“规范药房”管理指南.pdf
GB-T 15624-2011 服务标准化工作指南.pdf
ISOIEC 29100-2024.pdf
GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南.pdf
GB-T 33133.1-2016 信息安全技术 祖冲之序列密码算法 第1部分:算法描述.pdf
T-CSAE 26—2022 乘用车白车身轻量化设计与评价方法.pdf
GB-T 38569-2020 工业微生物菌株质量评价 拉曼光谱法.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(725.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。