安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111666573.4 (22)申请日 2021.12.31 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 (72)发明人 王永灿 丁克玉 (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 代理人 刘希 (51)Int.Cl. G06F 3/023(2006.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本输入法以及相关装置 (57)摘要 本申请公开了一种文本输入法以及相关装 置, 包括: 获取字符串和融合候选词向量库; 将字 符串输入解码模型, 得到字符串的解码词; 其中, 解码模型用于获取字符串的语义特征, 利用字 符 串的语义特征和融合候选词向量库, 得到字符串 的解码词; 融合候选词向量库中包括多个候选语 义特征, 候选语义特征是候选字的融合语义特 征, 候选字的融合语义特征是候选字的通用语义 特征与候选字的人名语义特征的加权融合, 解码 词为字符串中各字符的候选字的组合。 这样可以 基于神经网络一体化建模, 实现通用输入与人名 输入的统一 建模协同解码, 并且在保障解码效果 的同时, 避免给用户引入更多操作成本, 从而改 善人名解码效果, 提升人名输入效率。 权利要求书2页 说明书10页 附图3页 CN 114356116 A 2022.04.15 CN 114356116 A 1.一种文本 输入法, 其特 征在于, 包括: 获取字符串和融合候选词向量库; 其中, 所述字符串包括按键序列、 语言序列及笔画序 列; 将所述字符串输入解码模型, 得到所述字符串的解码词; 其中, 所述解码模型用于获取所述字符串的语义特征, 利用所述字符串的语义特征和 所述融合候选词向量库, 得到所述字符串的解码词; 所述融合候选词向量库中包括多个候 选语义特征, 所述候选语义特征是候选字的融合语义特征, 所述候选字的融合语义特征是 候选字的通用语义特征与候选字的人名语义特征的加权融合, 所述解码词为所述字符串中 各字符的候选 字的组合。 2.根据权利要求1所述的文本 输入法, 其特 征在于, 所述解码模型还用于获取所述字符串为人名字符串的概率值, 将所述概率值作为候选 字的人名语义特征的权重系数, 以加权融合候选字的通用语义特征与候选字的人名语义特 征, 候选字的通用语义特 征的权重系数与候选 字的人名语义特 征的权重系数的和为1。 3.根据权利要求2所述的文本 输入法, 其特 征在于, 所述解码模型包括端到端神经网络结构, 所述端到端神经网络结构包括预测模块, 所 述预测模块包括编 码器以及与所述编 码器连接的分类网络, 所述编 码器用于对所述字符串 进行编码得到所述字符串的语义特征, 所述分类网络用于获取所述字符串为人名字符串的 概率值。 4.根据权利要求3所述的文本输入法, 其特征在于, 所述端到端神经网络结构还包括解 码模块; 所述解码模块用于逐字符地从所述融合候选词向量库中获取匹配当前字符的候选语 义特征, 匹配当前字符的候选语义特 征为多个; 融合前一字符的解码信息计算匹配当前字符的各个候选语义特 征的概率。 5.根据权利要求 4所述的文本 输入法, 其特 征在于, 所述编码器的网络结构为Bi LSTM或压缩的预训练语言表征模型BERT; 所述分类网络的网络结构为包括全连接层的分类网络; 所述解码模块的网络结构为长短期记 忆网络LSTM或t ransformer模型。 6.根据权利要求3所述的文本 输入法, 其特 征在于, 所述文本 输入法还 包括: 获取样本语料, 所述样本语料为拼音串, 所述拼音串携带文本标签和概率标签, 所述文 本标签用于标识所述拼音串对应的文本, 所述概率标签用于标识所述拼音串对应的文本是 通用文本还是 人名文本; 将所述样本语料输入初始端到端神经网络, 计算端到端神经网络的损 失, 所述损 失为 概率损失与文本损失的加权融合; 基于所述损失, 迭代更新端到端神经网络的参数, 直至满足训练截止条件。 7.根据权利要求1所述的文本 输入法, 其特 征在于, 所述文本 输入法还 包括: 构建基础候选词向量库, 所述基础候选词向量库包括通用词库和人名词库, 所述通用 词库中包括多个通用语义特 征, 所述人名词库中包括多个人名语义特 征; 所述获取融合候选词向量库包括: 从所述基础候选词向量库中获取所述字符串中各字 符的候选字的通用语义特征和人名语义特征; 加权融合候选字的通用语义特征与候选字的权 利 要 求 书 1/2 页 2 CN 114356116 A 2人名语义特 征, 得到候选 字的融合语义特 征, 构成所述融合 候选词向量库。 8.根据权利要求7 所述的文本 输入法, 其特 征在于, 所述构建基础候选词向量库包括: 获取通用文本语料和人名文本语料; 将所述通用文本语料输入第一语言模型获取所述通用文本语料中各个字的通用语义 特征, 将所述人名文本语料输入第二语言模型获取所述人名文本语料中各个字的人名语义 特征, 形成所述基础候选词向量库。 9.一种文本 输入装置, 其特 征在于, 包括: 获取模块, 用于获取字符串和融合 候选词向量库; 解码词模块, 与所述获取模块连接, 用于将所述字符串输入解码模型, 得到所述字符串 的解码词; 其中, 所述解码模型用于获取所述字符串的语义特征, 利用所述字符串的语义特 征和所述融合候选词向量库, 得到所述字符串的解码词; 所述融合候选词向量库中包括多 个候选语义特征, 所述候选语义特征是候选字的融合语义特征, 所述候选字的融合语义特 征是候选字的通用语义特征与候选字的人名语义特征的加权融合, 所述解码词为所述字符 串中各字符的候选 字的组合。 10.一种电子设备, 其特征在于, 包括相互耦接的存储器和 处理器, 所述存储器中存储 有程序指 令, 所述处理器用于执行所述程序指 令以实现权利要求 1至8任一项 所述的文本输 入法。 11.一种存储装置, 其特征在于, 存储有能够被处理器运行的程序指令, 所述程序指令 用于实现权利要求1至8任一项所述的文本 输入法。权 利 要 求 书 2/2 页 3 CN 114356116 A 3
专利 文本输入法以及相关装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 00:20:15
上传分享
举报
下载
原文档
(554.0 KB)
分享
友情链接
ISO IEC 19770-6 2024 Information technology — IT asset management — Part 6 Hard.pdf
GB-T 31496-2023 信息技术 安全技术 信息安全管理体系 指南.pdf
GM-T 0035.4-2014 射频识别系统密码应用技术要求 第4部分:电子标签与读写器通信密码应用技术要求.pdf
T-FJLY 001—2022 自然教育基地质量评定.pdf
DB52-T 1636.6-2021 机关事务云 第6部分:公共机构节能管理数据 贵州省.pdf
GB-T 3978-2008 标准照明体和几何条件.pdf
T-ZKJXX 00003—2021 基于三维空间信息技术的工程数字化交付技术规范.pdf
NB-T 10869—2021 水电工程移民安置生活污水处理技术规范.pdf
DB51-T 2989-2023 四川省健康医疗大数据应用指南 四川省.pdf
GB-T 18781-2023 珍珠分级.pdf
GB-T 28452-2012 信息安全技术 应用软件系统通用安全技术要求.pdf
NY-T 5133-2002 无公害食品 肉兔饲养管理准则.pdf
TB-T 3369-2018 铁路数字移动通信系统(GSM-R)光纤直放站网络管理系统试验方法.pdf
T-ZJXTJC 002—2020 信息安全服务 人员能力评估标准.pdf
DB32-T 4013-2021 第三方社会稳定风险评估规范 江苏省.pdf
burp web cache poisoning web缓存投毒 英文版.pdf
GB-T 30257-2013 节能量测量和验证技术要求 通风机系统.pdf
GB-T 42888-2023 信息安全技术 机器学习算法安全评估规范.pdf
JR-T0232-2021 银行互联网渗透测试指南.pdf
GB-T 26607-2011 工业用邻苯基苯酚.pdf
交流群
-->
1
/
3
16
评价文档
赞助2元 点击下载(554.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。