安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210500042.6 (22)申请日 2022.05.06 (71)申请人 北京沃东天骏信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 郭晓洁 吴凌飞 李恺健 陈佳佳 刁世亮 何臻 (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 陈媛婧 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01)G06F 40/216(2020.01) G06F 16/35(2019.01) (54)发明名称 文本素材的语义识别方法、 装置、 电子设备 和可读介质 (57)摘要 本公开提供一种文本素材的语义识别方法、 装置、 电子设备和可读介质, 其中, 文本素材的语 义识别方法包括: 对待处理的文本素材进行分词 处理, 以得到分词; 按照预设的关注点与关键词 之间的对应关系对分词进行匹配处理; 若匹配失 败, 则将文本素材输入至训练好的主题识别模 型, 主题识别模 型输出文本素材对应于各个关注 点的概率; 根据文本素材对应于各个 关注点的概 率确定文本素材的语义主题。 通过本公开实施 例, 提高了文本素材的语义识别的可靠性、 准确 性和效率。 权利要求书3页 说明书12页 附图7页 CN 114896982 A 2022.08.12 CN 114896982 A 1.一种文本素 材的语义识别方法, 其特 征在于, 包括: 对待处理的文本素 材进行分词处 理, 以得到分词; 按照预设的关注点与关键词之间的对应关系对所述分词进行匹配处 理; 若匹配失败, 则将所述文本素材输入至训练好的主题识别模型, 所述主题识别模型输 出所述文本素 材对应于各个所述关注点的概 率; 根据所述文本素 材对应于各个所述关注点的概 率确定所述文本素 材的语义主题。 2.如权利要求1所述的文本素 材的语义识别方法, 其特 征在于, 还 包括: 若匹配成功, 则根据所述分词对应的关注点确定所述文本素 材的语义主题。 3.如权利要求1所述的文本素材的语义识别方法, 其特征在于, 在对待处理的文本素材 进行分词处 理前, 还包括: 确定待训练的主题 识别模型; 将所述文本素材的样本和预设的关注点个数输入至所述待训练的主题识别模型进行 训练, 并记录每次训练的一 致性分数; 将最大的所述一致性分数对应的主题识别模型确定为初级训练后的所述主题识别模 型。 4.如权利要求3所述的文本素材的语义识别方法, 其特征在于, 在对待处理的文本素材 进行分词处 理前, 还包括: 在完成所述主题识别模型的初级训练后, 确定所述关注点对应的文本素材的样本的数 量; 根据所述文本素 材的样本的数量对所述关注点进行合并或拆分。 5.如权利要求4所述的文本素材的语义识别方法, 其特征在于, 根据所述文本素材的样 本的数量对所述关注点进行合并或拆分包括: 确定所述文本素 材的样本的数量与预设样本数量之间的大小关系; 确定所述文本素 材的样本的数量小于所述预设样本数量的关注点 为第一类关注点; 对多个所述第一类关注点进行合并。 6.如权利要求4所述的文本素材的语义识别方法, 其特征在于, 根据所述文本素材的样 本的数量对所述关注点进行合并或拆分还 包括: 确定所述文本素 材的样本的数量与预设样本数量之间的大小关系; 确定所述文本素材的样本的数量大于或等于所述预设样本数量的关注点为第二类关 注点; 将所述第一类关注点 合并至所述第二类关注点; 对所述第二类关注点进行切词; 根据所述第二类关注点的切词结果进行拆分。 7.如权利要求5或6所述的文本素材的语义识别方法, 其特征在于, 在对待处理的文本 素材进行分词处 理前, 还包括: 在完成所述关注点的合并或拆分后, 更新所述关注点对应所述文本素 材样本的概 率; 在完成全部所述关注点的概 率更新后, 确定所述主题 识别模型训练完成。 8.如权利要求1 ‑6中任一项所述的文本素材的语义识别方法, 其特征在于, 在对待处理 的文本素 材进行分词处 理前, 还包括:权 利 要 求 书 1/3 页 2 CN 114896982 A 2在完成所述主题识别模型的训练后, 对所述关注点对应的文本素材的样本进行聚类处 理; 根据词频对聚类处 理后的文本素 材的样本进行关键 字提取。 9.如权利要求1 ‑6中任一项所述的文本素材的语义识别方法, 其特征在于, 根据 所述文 本素材对应于各个所述关注点的概 率确定所述文本素 材的语义主题包括: 确定所述文本素 材对应于各个所述关注点的概 率; 确定概率最大的关注点为第 一类关注点, 并根据 所述第一类关注点确定所述文本素材 的第一主题; 将所述主题 识别模型中除所述第一类关注点外的关注点确定为第二类关注点; 计算所述第一类关注点的概 率与所述第二类关注点的概 率之间的概 率差; 判断所述 概率差是否小于或等于预设概 率差; 若判定所述概率差小于或等于所述预设概率差, 则根据 所述第二类关注点确定所述文 本素材的第二主题, 根据所述第一主题和所述第二主题确定所述文本素 材的语义; 若判定所述概率差均 大于所述预设概率差, 则根据 所述第一主题确定所述文本素材的 语义。 10.一种文本素 材的语义识别装置, 其特 征在于, 包括: 分词模块, 设置为对待处 理的文本素 材进行分词处 理, 以得到分词; 匹配模块, 设置为按照预设的关注点与关键词之间的对应关系 对所述分词 进行匹配处 理; 识别模块, 设置为若 匹配失败, 则将所述文本素材输入至训练好的主题识别模型, 所述 主题识别模型输出 所述文本素 材对应于各个所述关注点的概 率; 确定模块, 设置为根据 所述文本素材对应于各个所述关注点的概率确定所述文本素材 的语义主题。 11.如权利要求10所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置 为: 若匹配成功, 则根据所述分词对应的关注点确定所述文本素 材的语义主题。 12.如权利要求10所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置 为: 确定待训练的主题 识别模型; 将所述文本素材的样本和预设的关注点个数输入至所述待训练的主题识别模型进行 训练, 并记录每次训练的一 致性分数; 将最大的所述一致性分数对应的主题识别模型确定为初级训练后的所述主题识别模 型。 13.如权利要求12所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置 为: 在完成所述主题识别模型的初级训练后, 确定所述关注点对应的文本素材的样本的数 量; 根据所述文本素 材的样本的数量对所述关注点进行合并或拆分。 14.如权利要求13所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置权 利 要 求 书 2/3 页 3 CN 114896982 A 3
专利 文本素材的语义识别方法、装置、电子设备和可读介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:12
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
专利 隐私计算、隐私数据和联邦学习的互联互通方法及装置.PDF
《信息安全技术 基于信息流的关键信息基础设施边界确定方法》【2019.4.21】.pdf
DB14-T 2136-2020 《特种设备风险分级管控实施指南》 山西省.pdf
T CECC 027-2024 生成式人工智能数据应用合规指南.pdf
GB-T 17747.2-2011 天然气压缩因子的计算 第2部分:用摩尔组成进行计算.pdf
GB-T 42332-2023 海岛及周边海域地形图测绘规范.pdf
T-ZZB 1993—2020 电梯光幕.pdf
T-WD 107—2020 公共海外仓设施技术要求与运营管理规范.pdf
GM-T 0035.3-2014 射频识别系统密码应用技术要求 第3部分:读写器密码应用技术要求.pdf
GB-T 14951-2023 汽车节油技术评定方法.pdf
T-CSTM 01094—2023 材料基因工程 合金扩散偶制备元数据.pdf
思度安全-DSMM-021 存储媒体安全管理规范V1.0.pdf
GB-T 32563-2016 无损检测 超声检测 相控阵超声检测方法.pdf
T-HSCA 001—2018 体育场馆钢结构检测与鉴定规程.pdf
GB-T 40113.1-2021 生物质热解炭气油多联产工程技术规范 第1部分:工艺设计.pdf
GB 11614-2022 平板玻璃.pdf
GB-T 14206-2015 玻璃纤维增强聚酯连续板.pdf
GB-T 5541-2017 分散染料 高温分散稳定性的测定 双层滤纸过滤法.pdf
GM T 0131-2023 电子签章应用接口规范.pdf
GB-T 36957-2018 信息安全技术 灾难恢复服务要求.pdf
1
/
3
23
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。