专利 基于深度学习的命名实体识别方法、装置、设备和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210255150.1 (22)申请日 2022.03.15 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人姜鹏　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师谭晓欣 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称基于深度学习的命名实体识别方法、装置、设备和介质 (57)摘要本申请涉及自然语言处理技术领域，提出了一种基于深度学习的命名实体识别方法、装置、设备和介质，方法包括：从待处理句子识别出多个候选span，以识别出长度不超过预设识别长度阈值的、所有可能的候选span，进而组成候选 span集合，解决跨度较长的嵌套实体无法识别的问题；对候选span集合中的候选span进行筛选，目的是将低质量的候选span剔除，得到至少一个第一正向span，从而减少后续的计算开销；通过第一神经网络预测第一正向span对应的边界偏移值，得到目标span；通过第二神经网络预测目标span对应的实体分类。如此，能够基于预测的边界偏移值对span边界进行微调，使最终的目标 span尽可能与真实的span重叠，达到或接近完全重叠的理想状态，从而提高实体识别准确性。权利要求书3页说明书14页附图5页 CN 114611517 A 2022.06.10 CN 114611517 A 1.一种基于深度学习的命名实体识别方法，其特征在于，所述方法包括：获取待处理句子；基于不同的预设识别长度从所述待处理句子识别出多个候选span，得到候选span集合，其中，所述预设识别长度小于预设识别长度阈值，所述候选 span集合包括多个长度小于等于所述预设识别长度阈值的候选span；对所述候选span 集合中的候选span进行筛选，得到至少一个第一正向span；通过预设的第一神经网络预测所述第一正向span对应的边界偏移值；根据所述第一正向span对应的边界偏移值，调整所述第一正向span的边界，并基于调整边界后的所述第一正向span得到目标span；通过预设的第二神经网络预测所述目标span对应的实体分类。 2.根据权利要求1所述的方法，其特征在于，所述对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span，包括：获取预设的真实span 集合；将候选span与所述真实span 集合进行IOU计算，得到所述候选span对应的IOU值；根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span。 3.根据权利要求2所述的方法，其特征在于，所述根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span，包括：从所述候选span集合中获取IOU值大于预设IOU阈值的所述候选span，并将获取的所述候选span作为第二正向span；获取各个所述第二正向span对应的嵌入向量；将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率；将正向样本预测概率大于预设正向样本预测概率阈值的所述第二正向span作为所述第一正向span。 4.根据权利要求3所述的方法，其特征在于，所述第三神经网络包括至少两层第一BI ‑ LSTM网络和第一全连接网络，其中，所述至少两层第一BI ‑LSTM网络依次连接，所述第一全连接网络与最后一层所述第一BI ‑LSTM网络连接；所述将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率，包括：将所述第二正向span对应的嵌入向量输入至所述第三神经网络的第一层所述第一BI ‑ LSTM网络；由所述第三神经网络的最后一层所述第一BI ‑LSTM网络输出所述第二正向span对应的特征向量；由所述第三神经网络的第一全连接网络利用sigmoid函数对所述第二正向span的特征向量进行处理，输出所述第二正向span对应的正向样本预测概率。 5.根据权利要求4所述的方法，其特征在于，所述第二正向span包括多个token，所述第二正向span对应的嵌入向量由多个t oken的嵌入向量拼接形成，所述token嵌入向量通过如权　利　要　求　书 1/3 页 2 CN 114611517 A 2下公式表示： hi＝E(ti)+Pi；其中， hi表示第i个token的嵌入向量， E(ti)表示第i个token的词嵌入向量， Pi表示第i 个token的位置嵌入向量。 6.根据权利要求1所述的方法，其特征在于，所述第一神经网络为回归算法模型；所述通过预设的第一神经网络预测所述第一正向span对应的边界偏移值，包括：根据预设的多个边界移动单位对所述第一正向span的边界进行移动，得到多个第三正向span；将所述多个第三正向span对应的to ken特征向量进行拼接，得到拼接特征向量；由所述回归算法模型通过如下公式计算所述第一正向span对应的边界偏移值： offset＝W2·GELU(W1h+b1)+b2；其中，所述offset表示所述第一正向span对应的边界偏移值，所述GELU( ·)表示所述回归算法模型中的激活函数，所述h表示所述第一正向span对应的拼接特征向量，所述W1表示第一权重矩阵，所述W2表示第二权重矩阵，所述b1表示第一偏置参数，所述b2表示第二偏置参数。 7.根据权利要求1所述的方法，其特征在于，所述第二神经网络包括至少两层第二BI ‑ LSTM网络和第二全连接网络，其中，所述至少两层第二BI ‑LSTM网络依次连接，所述第二全连接网络与最后一层所述第二BI ‑LSTM网络连接；所述通过预设的第二神经网络预测所述目标span对应的实体分类，包括：将所述目标span输入至所述第二神经网络的第一层所述第二BI ‑LSTM网络；由所述第二神经网络的最后一层所述第二BI ‑LSTM网络输出所述目标span对应的特征向量；由所述第二神经网络的第二全连接网络利用softmax函数对所述目标span的特征向量进行处理，输出所述目标span对应的实体分类。 8.一种基于深度学习的命名实体识别装置，其特征在于，所述装置包括：获取模块，用于获取待处理句子；候选span确定模块，用于基于不同的预设识别长度对所述待处理句子进行遍历，得到候选span集合，其中，所述预设识别长度小于预设识别长度阈值，所述候选 span集合包括多个长度小于等于所述预设识别长度阈值的候选span；筛选模块，用于对所述候选span集合中的候选span进行筛选，得到至少一个第一正向 span；第一预测模块，用于通过预设的第一神经网络预测所述第一正向span对应的边界偏移值；目标span确定模块，用于根据所述第一正向span对应的边界偏移值，对所述第一正向 span进行边界调整，并基于调整边界后的所述第一正向span得到目标span；第二预测模块，用于通过预设的第二神经网络预测所述目标span对应的实体分类。 9.一种电子设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，权　利　要　求　书 2/3 页 3 CN 114611517 A 3

专利 基于深度学习的命名实体识别方法、装置、设备和介质

专利基于深度学习的命名实体识别方法、装置、设备和介质