(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210255150.1
(22)申请日 2022.03.15
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 姜鹏
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 谭晓欣
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
(54)发明名称
基于深度学习的命名实体识别方法、 装置、
设备和介质
(57)摘要
本申请涉及自然语 言处理技术领域, 提出了
一种基于深度学习的命名实体识别方法、 装置、
设备和介质, 方法包括: 从待处理句子识别出多
个候选span, 以识别出长度不超 过预设识别长度
阈值的、 所有可能的候选span, 进而组成候选
span集合, 解决跨度较长的嵌套实体无法识别的
问题; 对候选span集合中的候选span进行筛选,
目的是将低质量的候选span剔除, 得到至少一个
第一正向span, 从而减少后续的计算开销; 通过
第一神经网络预测第一正向span对应的边界偏
移值, 得到目标span; 通过第二神经网络预测目
标span对应的实体分类。 如此, 能够基于预测的
边界偏移值对span边界进行微调, 使最终的目标
span尽可能与真实的span重叠, 达到或接近完全
重叠的理想 状态, 从而提高实体识别准确性。
权利要求书3页 说明书14页 附图5页
CN 114611517 A
2022.06.10
CN 114611517 A
1.一种基于深度学习的命名实体识别方法, 其特 征在于, 所述方法包括:
获取待处 理句子;
基于不同的预设识别长度从所述待处理句子识别出多个候选span, 得到候选span集
合, 其中, 所述预设识别长度小于预设识别长度阈值, 所述候选 span集合包括多个长度小于
等于所述预设识别长度阈值的候选span;
对所述候选span 集合中的候选span进行筛 选, 得到至少一个第一 正向span;
通过预设的第一神经网络预测所述第一 正向span对应的边界偏移值;
根据所述第一正向span对应的边界偏移值, 调整所述第一正向span的边界, 并基于调
整边界后的所述第一 正向span得到目标span;
通过预设的第二神经网络预测所述目标span对应的实体分类。
2.根据权利 要求1所述的方法, 其特征在于, 所述对所述候选span集合中的候选span进
行筛选, 得到至少一个第一 正向span, 包括:
获取预设的真实span 集合;
将候选span与所述真实span 集合进行IOU计算, 得到所述 候选span对应的IOU值;
根据所述候选span集合中各个所述候选span对应 的IOU值, 从所述候选span集合的所
述候选span中确定所述第一 正向span。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述候选span集合中各个所述候
选span对应的IOU值, 从所述候选span集合的所述候选span中确定所述第一正向span, 包
括:
从所述候选span集合 中获取IOU值大于预设IOU阈值的所述候选span, 并将获取的所述
候选span作为第二 正向span;
获取各个所述第二 正向span对应的嵌入向量;
将所述第二正向span对应的嵌入向量输入至预设的第三神经网络, 使所述第三神经网
络输出所述第二 正向span对应的正向样本预测概 率;
将正向样本预测概率大于预设正向样本预测概率阈值的所述第二正向span作为所述
第一正向span。
4.根据权利要求3所述的方法, 其特征在于, 所述第三神经网络包括至少两层第一BI ‑
LSTM网络和第一全连接网络, 其中, 所述至少两层第一BI ‑LSTM网络依次连接, 所述第一全
连接网络与最后一层所述第一BI ‑LSTM网络连接;
所述将所述第二正向span对应的嵌入向量输入至预设的第三神经网络, 使所述第三神
经网络输出所述第二 正向span对应的正向样本预测概 率, 包括:
将所述第二正向span对应的嵌入向量输入至所述第三神经网络的第一层所述第一BI ‑
LSTM网络;
由所述第三神经网络的最后一层所述第一BI ‑LSTM网络输出所述第二正向span对应的
特征向量;
由所述第三神经网络的第一全连接 网络利用sigmoid函数对所述第二正向span的特征
向量进行处 理, 输出所述第二 正向span对应的正向样本预测概 率。
5.根据权利要求4所述的方法, 其特征在于, 所述第二正向span包括多个token, 所述第
二正向span对应的嵌入向量由多个t oken的嵌入向量拼接形成, 所述token嵌入向量通过如权 利 要 求 书 1/3 页
2
CN 114611517 A
2下公式表示:
hi=E(ti)+Pi;
其中, hi表示第i个token的嵌入 向量, E(ti)表示第i个token的词嵌入向量, Pi表示第i
个token的位置嵌入向量。
6.根据权利要求1所述的方法, 其特 征在于, 所述第一神经网络为回归算法模型;
所述通过预设的第一神经网络预测所述第一 正向span对应的边界偏移值, 包括:
根据预设的多个边界移动单位对所述第一正向span的边界进行移动, 得到多个第三正
向span;
将所述多个第三 正向span对应的to ken特征向量进行拼接, 得到拼接特 征向量;
由所述回归算法模型通过如下公式计算所述第一 正向span对应的边界偏移值:
offset=W2·GELU(W1h+b1)+b2;
其中, 所述offset表示所述第一正向span对应 的边界偏移值, 所述GELU( ·)表示所述
回归算法模型 中的激活函数, 所述h表示所述第一正向span对应的拼接特征向量, 所述W1表
示第一权重矩阵, 所述W2表示第二权重矩阵, 所述b1表示第一偏置参数, 所述b2表示第二偏
置参数。
7.根据权利要求1所述的方法, 其特征在于, 所述第二神经网络包括至少两层第二BI ‑
LSTM网络和第二全连接网络, 其中, 所述至少两层第二BI ‑LSTM网络依次连接, 所述第二全
连接网络与最后一层所述第二BI ‑LSTM网络连接;
所述通过预设的第二神经网络预测所述目标span对应的实体分类, 包括:
将所述目标span输入至所述第二神经网络的第一层所述第二BI ‑LSTM网络;
由所述第二神经网络的最后一层所述第二BI ‑LSTM网络输出所述目标span对应的特征
向量;
由所述第二神经网络的第二全连接 网络利用softmax函数对所述目标span的特征向量
进行处理, 输出所述目标span对应的实体分类。
8.一种基于深度学习的命名实体识别装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待处 理句子;
候选span确定模块, 用于基于不同的预设识别长度对所述待处理句子进行遍历, 得到
候选span集合, 其中, 所述预设识别长度小于预设识别长度阈值, 所述候选 span集合包括多
个长度小于等于所述预设识别长度阈值的候选span;
筛选模块, 用于对所述候选span集合中的候选span进行筛选, 得到至少一个第一正向
span;
第一预测模块, 用于通过预设的第一神经网络预测所述第一正向span对应的边界偏移
值;
目标span确定模块, 用于根据所述第一正向span对应的边界偏移值, 对所述第一正向
span进行边界调整, 并基于调整边界后的所述第一 正向span得到目标span;
第二预测模块, 用于通过 预设的第二神经网络预测所述目标span对应的实体分类。
9.一种电子设备, 其特 征在于, 包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,权 利 要 求 书 2/3 页
3
CN 114611517 A
3
专利 基于深度学习的命名实体识别方法、装置、设备和介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:34上传分享