安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210333795.2 (22)申请日 2022.03.30 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 林阔  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 李曼 (51)Int.Cl. G06F 16/335(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种确定推荐词汇的方法、 装置、 电子设备 和存储介质 (57)摘要 本申请提供了一种确定推荐词汇的方法、 装 置、 电子设备和存储介质。 所述方法包括: 将目标 词汇输入目标识别模型, 得到所述目标词汇的目 标词向量, 其中, 所述目标识别模型能够缩小所 述目标词汇和所述目标词汇的同义词之间的词 向量距离, 所述目标识别模型中具有至少一个样 本词向量; 从所述样本词向量中查找与所述目标 词向量匹配的至少一个匹配词向量; 确定所述匹 配词向量对应的匹配词汇; 将所述匹配词汇作为 推荐词汇, 并通过所述目标识别模 型输出所述推 荐词汇。 本申请使推荐词汇更加准确。 权利要求书2页 说明书9页 附图2页 CN 114706970 A 2022.07.05 CN 114706970 A 1.一种确定推荐词汇的方法, 其特 征在于, 所述方法包括: 将目标词 汇输入目标识别模型, 得到所述目标词汇的目标词向量, 其中, 所述目标识别 模型能够缩小 所述目标词汇和所述目标词汇的同义词之 间的词向量距离, 所述目标识别模 型中具有至少一个样本词向量; 从所述样本词向量中查找与所述目标词向量匹配的至少一个匹配词向量; 确定所述匹配词向量对应的匹配词汇; 将所述匹配词汇作为推荐词汇, 并通过 所述目标识别模型输出 所述推荐词汇。 2.根据权利要求1所述的方法, 其特征在于, 将目标词汇输入所述目标识别模型之前, 所述方法还 包括: 获取样本文档, 其中, 所述样本文档中包括至少一个样本词汇; 获取样本词汇和所述样本词汇的至少一个同义词汇, 其中, 所述同义词汇与所述样本 词汇的含义相同; 将所述样本词汇和所述至少一个同义词汇输入词向量模型, 其中, 所述词向量模型用 于生成词汇的词向量; 通过所述至少一个同义词汇, 缩短所述样本词汇的词向量和所述同义词汇的词向量之 间的向量距离, 得到训练后的词向量模型; 将每个样本词汇输入所述训练后的词向量模型, 得到目标识别模型。 3.根据权利要求2所述的方法, 其特征在于, 所述将每个样本词汇输入所述训练后的词 向量模型, 得到目标识别模型包括: 将每个样本词汇输入所述训练后的词向量模型, 得到每 个样本词汇的初始词向量; 根据预设筛 选方案, 从所述初始词向量中筛 选出与业 务场景相关联的样本词向量; 将包含所述样本词向量的模型作为所述目标识别模型。 4.根据权利要求2所述的方法, 其特 征在于, 获取样本文档之前, 所述方法还 包括: 识别预设文档中的待选实体和所述待选实体的实体 类别; 根据实体 类别从所述待选实体中筛 选样本实体, 得到包 含至少一个样本实体的词表; 通过分词工具将所述词表进行分词, 得到包含样本词 汇的样本文档, 其中, 所述样本词 汇为样本实体。 5.根据权利要求1所述的方法, 其特征在于, 将目标词汇输入所述目标识别模型之前, 所述方法还 包括: 获取查询词汇; 在所述查询词汇中包 含目标实体的情况 下, 将所述 查询词汇作为所述目标词汇; 在所述查询词汇中不包含目标实体、 或在所述样本词向量中未匹配到所述目标实体的 目标词向量的情况 下, 将所述 查询词汇进行分词, 得到分词后的目标词汇。 6.根据权利要求2所述的方法, 其特征在于, 所述通过所述至少一个同义词汇, 缩短所 述样本词汇的词向量和所述同义词汇的词向量之间的向量距离包括: 在所述同义词汇为一个的情况下, 将所述同义词汇作为监督数据, 缩短所述样本词汇 的词向量和所述同义词汇的词向量之间的向量距离; 在所述同义词汇为至少两个的情况下, 将所述至少两个同义词汇作为监督数据, 缩短 所述样本词汇的词向量和每 个所述同义词汇的词向量之间的向量距离 。权 利 要 求 书 1/2 页 2 CN 114706970 A 27.一种确定推荐词汇的装置, 其特 征在于, 所述装置包括: 输入模块, 用于将目标词汇输入目标识别模型, 得到所述目标词汇的目标词向量, 其 中, 所述目标识别模型能够缩小所述目标词汇和所述目标词汇的同义词之间的词向量距 离, 所述目标识别模型中具有至少一个样本词向量; 查找模块, 用于从所述样本词向量中查找与所述目标词向量匹配的至少一个匹配词向 量; 确定模块, 用于确定所述匹配词向量对应的匹配词汇; 输出模块, 用于将所述匹配词汇作为推荐词汇, 并通过所述目标识别模型输出所述推 荐词汇。 8.根据权利要求7 所述的装置, 其特 征在于, 该装置还用于: 获取样本文档, 其中, 所述样本文档中包括至少一个样本词汇; 获取样本词汇和所述样本词汇的至少一个同义词汇, 其中, 所述同义词汇与所述样本 词汇的含义相同; 将所述样本词汇和所述至少一个同义词汇输入词向量模型, 其中, 所述词向量模型用 于生成词汇的词向量; 通过所述至少一个同义词汇, 缩短所述样本词汇的词向量和所述同义词汇的词向量之 间的向量距离, 得到训练后的词向量模型; 将每个样本词汇输入所述训练后的词向量模型, 得到目标识别模型。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执 行存储器上所存放的程序时, 实现权利要求1 ‑6任一所述的方法步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机 程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑6任一所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114706970 A 3

.PDF文档 专利 一种确定推荐词汇的方法、装置、电子设备和存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种确定推荐词汇的方法、装置、电子设备和存储介质 第 1 页 专利 一种确定推荐词汇的方法、装置、电子设备和存储介质 第 2 页 专利 一种确定推荐词汇的方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。