专利 命名实体识别的方法和装置，以及电子设备和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210483111.7 (22)申请日 2022.05.06 (65)同一申请的已公布的文献号申请公布号 CN 114580425 A (43)申请公布日 2022.06.03 (73)专利权人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人王续武　严明　田俊峰　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师安伟 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 113435203 A,2021.09.24CN 111046668 A,2020.04.21 CN 112733533 A,2021.04.3 0 EP 3812926 A1,2021.04.28 WO 2021135193 A1,2021.07.08 CN 113128494 A,2021.07.16 US 2020134398 A1,2020.04.3 0 US 202101 1941 A1,2021.01.14 US 2021216862 A1,2021.07.15 田等.一种基于多模态主题模型的图像自动标注方法. 《国外电子测量技术》 .2015,(第0 5 期), Xuwu Wang 等.PromptMNER: Prompt-Based Entity-Related Visual Clue Extracti on and Integrati on for Multimodal Named Entity Recognition. 《Database System s for Advanced Ap plications》 .2022,第297-305页. 审查员闪赛 (54)发明名称命名实体识别的方法和装置，以及电子设备和存储介质 (57)摘要本公开涉及一种命名实体识别的方法和装置，以及电子设备和存储介质。其中，多模态信息包括待识别文本和关联图像，在多模态信息中进行命名实体识别的方法包括：基于设定的提示词和关联图像获取提示词语义空间的第一视觉线索向量；对第一视觉线索向量进行向量空间变换，得到文本语义空间的第二视觉线索向量；随后基于转换后的第二视觉线索向量和待识别文本的文本向量，对待识别文本进行命名实体识别。本公开提供的方法，可以从关联图像中准确的抽取出重要的视觉线索向量，最大限度减少无关噪声的引入，并将抽取到的视觉线索向量转换到文本语义空间中，减少了语义差异，有效提高了基于文本向量和视觉线索向量进行命名实体识别的效果。权利要求书3页说明书15页附图5页 CN 114580425 B 2022.09.09 CN 114580425 B 1.一种在多模态信息中进行命名实体识别的方法，其特征在于，所述多模态信息包括待识别文本和关联图像，所述方法包括：基于设定的提示词和所述关联图像获取提示词语义空间的第一视觉线索向量；利用线性编码器对所述第一视觉线索向量进行向量空间变换，得到文本语义空间的第二视觉线索向量；利用所述线性编码器对应的线性解码器对所述第二视觉线索向量进行解码处理，得到文本语义空间的第三视觉线索向量；基于所述第三视觉线索向量和所述第一视觉线索向量对所述线性编码器进行参数调整；利用参数调整后的线性编码器对所述第一视觉线索向量进行向量空间变换，得到第二视觉线索向量；基于所述第二视觉线索向量和所述待识别文本的文本向量，对所述待识别文本进行命名实体识别。 2.根据权利要求1所述的方法，其特征在于，所述基于设定的提示词和所述关联图像获取提示词语义空间的第一视觉线索向量，包括：获取提示词向量，所述提示词向量与所述提示词对应；对所述关联图像进行向量提取，获得对应的图像向量；获取所述图像向量与每个提示词向量的关联性系数；将所述关联性系数叠加到所述提示词向量上，获得提示词语义空间的所述第一视觉线索向量。 3.根据权利要求2所述的方法，其特征在于，所述获取提示词向量，包括：获取至少一个离散的提示词和/或连续的提示词语义向量；基于所述至少一个离散的提示词和/或连续的提示词语义向量进行向量提取，以获取所述提示词向量。 4.根据权利要求1所述的方法，其特征在于，所述基于所述第二视觉线索向量和所述待识别文本的文本向量，对所述待识别文本进行命名实体识别，包括：获取与所述文本向量对应的第一位置向量和第一分段向量，以及与所述第二视觉线索向量对应的第二位置向量和第二分段向量；将所述文本向量、所述第一分段向量和所述第一位置向量相加得到第一文本输入向量，并将所述第二视觉线索向量、所述第二分段向量和所述第二位置向量相加得到第二文本输入向量；利用模态区分的注意力层对所述第一文本输入向量和所述第二文本输入向量进行信息融合处理，得到信息融合向量；基于所述信息融合向量进行命名实体识别，得到命名实体识别结果。 5.根据权利要求4所述的方法，其特征在于，所述模态区分的注意力层包括第一注意力层和第二注意力层；所述利用模态区分的注意力层对所述第一文本输入向量和所述第二文本输入向量进行信息融合处理，得到信息融合向量，包括：基于作为查询向量的所述第一文本输入向量，利用所述第一注意力层将所述第一文本输入向量和所述第二文本输入向量进行信息融合，生成融合后的第一文本输入向量；权　利　要　求　书 1/3 页 2 CN 114580425 B 2基于作为查询向量的所述第二文本输入向量，利用所述第二注意力层将所述第一文本输入向量和所述第二文本输入向量进行信息融合，生成融合后的第二文本输入向量；其中，所述信息融合向量包括所述融合后的第一文本输入向量和所述融合后的第二文本输入向量。 6.根据权利要求5所述的方法，其特征在于，所述第一注意力层包括第一注意力子层和第二注意力子层；所述基于作为查询向量的所述第一文本输入向量，利用所述第一注意力层将所述第一文本输入向量和所述第二文本输入向量进行信息融合，生成融合后的第一文本输入向量，包括：根据所述第一文本输入向量和设定的第一参数确定第一查询向量；基于所述第一注意力子层，计算所述第一查询向量和所述第一文本输入向量的相关性生成第一相关性参数，并根据所述第一相关性参数和所述第一文本输入向量生成第一融合向量；根据所述第一文本输入向量和设定的第二参数确定第二查询向量；基于所述第二注意力子层，计算所述第二查询向量和所述第二文本输入向量的相关性生成第二相关性参数，并根据所述第二相关性参数和所述第二文本输入向量生成第二融合向量；将所述第一融合向量、所述第二融合向量和所述第一文本输入向量进行求和，生成融合后的第一文本输入向量。 7.根据权利要求5所述的方法，其特征在于，所述第二注意力层包括第三注意力子层和第四注意力子层；所述基于作为查询向量的所述第二文本输入向量，利用所述第二注意力层将所述第一文本输入向量和所述第二文本输入向量进行信息融合，生成融合后的第二文本输入向量，包括：根据所述第二文本输入向量和设定的第三参数确定第三查询向量；基于所述第三注意力子层，计算所述第三查询向量和所述第一文本输入向量的相关性生成第三相关性参数，并根据所述第三相关性参数和所述第一文本输入向量生成第三融合向量；根据所述第二文本输入向量和设定的第四参数确定第四查询向量；基于所述第四注意力子层，计算所述第四查询向量和所述第二文本输入向量的相关性生成第四相关性参数，并根据所述第四相关性参数和所述第二文本输入向量生成第四融合向量；将所述第三融合向量、所述第四融合向量和所述第二文本输入向量进行求和，生成融合后的第二文本输入向量。 8.一种主题构建方法，其特征在于，包括：获取多模态信息；基于所述多模态信息，采用上述权利要求1至权利要求7中任一所述的方法得到命名实体识别结果；基于所述命名实体识别结果构建主题。 9.一种在多模态信息中进行命名实体识别的装置，其特征在于，所述多模态信息包括待识别文本和关联图像，所述装置包括：获取单元，用于基于设定的提示词和所述关联图像获取提示词语义空间的第一视觉线索向量；变换单元，用于利用线性编码器对所述第一视觉线索向量进行向量空间变换，得到文本语义空间的第二视觉线索向量；利用所述线性编码器对应的线性解码器对所述第二视觉权　利　要　求　书 2/3 页 3 CN 114580425 B 3

专利 命名实体识别的方法和装置，以及电子设备和存储介质

专利命名实体识别的方法和装置，以及电子设备和存储介质