安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210220139.1 (22)申请日 2022.03.08 (71)申请人 马上消费金融股份有限公司 地址 401120 重庆市渝北区黄山大道中段 52号渝兴广场B2栋4至8楼 (72)发明人 曹磊 蒋宁 王洪斌 吴海英  李长林  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 何倚雯 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/247(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 敏感词检测方法、 装置及计算机可读存储介 质 (57)摘要 本申请公开了敏感词检测方法、 装置及计算 机可读存储介质, 该敏感词检测方法包括: 获取 待检测文本; 将待检测文本输入多任务模型中, 得到待检测文本中是否存在敏感词; 在多任务模 型中, 特征提取子模型用于对待检测文本进行特 征提取, 得到待检测文本对应的文本特征向量, 以及待检测文本中每个字对应的文字特征向量, 第一子分类模型用于对文本特征向量进行分类 处理, 得到待检测文本的情感类别信息, 第二子 分类模型用于对文字特征向量进行分类处理, 得 到待检测文本中每个字的文字类别信息, 输出子 模型用于基于情感类别信息和文字类别信息, 确 定并输出待检测文本中是否存在敏感词。 基于上 述方式, 有利于提高敏感词检测方法的准确率。 权利要求书2页 说明书11页 附图3页 CN 115186051 A 2022.10.14 CN 115186051 A 1.一种敏感词检测方法, 其特 征在于, 所述敏感词检测方法包括: 获取待检测文本; 将所述待检测文本 输入多任务模型中, 得到所述待检测文本中是否存在敏感词; 其中: 所述多任务模型包括特征提取子模型、 第一子分类模型、 第二子分类模型和输出子模 型; 所述特征提取子模型用于对所述待检测文本进行特征提取, 得到所述待检测文本对应 的文本特 征向量, 以及得到所述待检测文本中每 个字对应的文字特 征向量; 所述第一子分类模型用于对所述文本特征向量进行分类处理, 得到所述待检测文本的 情感类别 信息; 所述第二子分类模型用于对所述文字特征向量进行分类处理, 得到所述待检测文本中 每个字的文字类别 信息; 所述输出子模型用于基于所述情 感类别信 息和所述文字类别信 息, 得到所述待检测文 本中是否存在敏感词。 2.根据权利要求1所述的敏感词检测方法, 其特征在于, 所述第二子分类模型具体用 于: 根据所述文本特征向量与 所述文字特征向量的关联性, 对所述文字特征向量进行分类 处理, 得到所述待检测文本中每 个字的文字类别 信息。 3.根据权利要求2所述的敏感词检测方法, 其特征在于, 所述根据 所述文本特征向量与 所述文字特征向量的关联性, 对所述文字特征向量进行分类处理, 得到所述待检测文本中 每个字的文字类别 信息的步骤 包括: 计算所述文本特征向量分别与所述待检测文本中每个字对应的文字特征向量的加权 和; 对所述加权和进行分类处 理, 得到所述待检测文本中每 个字的文字类别 信息。 4.根据权利要求3所述的敏感词检测方法, 其特征在于, 所述计算所述文本特征向量分 别与所述待检测文本中每 个字对应的文字特 征向量的加权和的步骤 包括: 计算所述文本特征向量分别与所述待检测文本中每个字对应的文字特征向量的相似 度; 基于所述待检测文本中每个字对应的相似度, 确定所述文本特征向量分别与 所述待检 测文本中每 个字对应的文字特 征向量的加权和。 5.根据权利要求1所述的敏感词检测方法, 其特 征在于, 所述输出子模型 具体用于: 基于所述文字类别 信息, 确定所述待检测文本中是否存在预设的关键词; 若所述待检测文本中存在关键词, 则基于所述情感类别信息, 确定所述关键词是否为 敏感词。 6.根据权利要求5所述的敏感词检测方法, 其特征在于, 所述若所述待检测文本 中存在 关键词, 则基于所述情感类别 信息, 确定所述关键词是否为敏感词的步骤 包括: 若所述情感类别信息对应的情感为负向情感, 则确定所述关键词是敏感词, 并输出所 述敏感词。 7.根据权利要求1至6任一项所述的敏感词检测方法, 其特征在于, 在所述获取待检测权 利 要 求 书 1/2 页 2 CN 115186051 A 2文本的步骤之前, 所述敏感词检测方法还 包括: 对录音文件进行语音识别, 得到待检测文段; 以所述录音文件所对应音频中的低音量区域为划分界限, 将所述待检测文段划分为至 少一待检测文本, 其中, 所述低音量区域 为所述音频中音量低于预设音量阈值的区域。 8.根据权利要求7所述的敏感词检测方法, 其特征在于, 所述将所述待检测文段划分为 至少一待检测文本的步骤 包括: 将所述待检测文段中属于同一角色的相邻文本, 合并为同一个待检测文本 。 9.一种敏感词检测装置, 其特 征在于, 包括: 存 储器和处 理器; 所述存储器用于存储程序指令, 所述处理器用于执行所述程序指令以实现如权利要求 1至8任一项所述方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有程序指 令, 所述程序指令被处 理器执行时实现如权利要求1至8任一项所述方法。权 利 要 求 书 2/2 页 3 CN 115186051 A 3

.PDF文档 专利 敏感词检测方法、装置及计算机可读存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 敏感词检测方法、装置及计算机可读存储介质 第 1 页 专利 敏感词检测方法、装置及计算机可读存储介质 第 2 页 专利 敏感词检测方法、装置及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。