专利 基于语义增强的跨模态检索方法及装置、存储介质和终端

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210376785.7 (22)申请日 2022.04.06 (65)同一申请的已公布的文献号申请公布号 CN 114780777 A (43)申请公布日 2022.07.22 (73)专利权人中国科学院上海高等研究院地址 201210 上海市浦东新区海科路9 9号 (72)发明人黄俊　潘浩　魏鑫燏　朱智聪　 (74)专利代理机构上海光华专利事务所(普通合伙) 31219 专利代理师刘逸潇 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/58(2019.01) G06F 40/30(2020.01)G06V 10/74(2022.01) G06K 9/62(2022.01) (56)对比文件 CN 110110122 A,2019.08.09 CN 112966127 A,2021.0 6.15 CN 105205096 B,2019.02.12 US 2020104318 A1,2020.04.02 US 2020302340 A1,2020.09.24 黄涛.基于Web图像的视觉模式挖掘研究. 《中国博士学位论文全文数据库》 .201 1, Huatian Zhang， Zhendo ng Mao,.Sho w Your Faith: Cros s-Modal Co nfidence-Aware Network for Ima ge-Text Matc hing. 《The Thirty-Sixth A AAI Conference o n Artificial I ntelligence (A AAI-22)》 .2022, 审查员徐捷 (54)发明名称基于语义增强的跨模态检索方法及装置、存储介质和终端 (57)摘要本发明公开了一种基于语义增强的跨模态检索方法及装置、存储介质和终端，其中方法包括构建跨模态检索模型，并基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型；确定目标查询数据和目标模态数据集，基于训练后的跨模态检索模型获取目标查询数据与每个目标模态数据之间的整体语义相似度；在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据，并确定检索结果。本发明方法充分挖掘了图像模态数据和文本模态数据的多层语义信息，将语义信息用于增强多模态数据的特征表示，并在多层语义的基础上实现细粒度的跨模态对齐，从而增强多模态数据之间的语义相关性。权利要求书5页说明书17页附图6页 CN 114780777 B 2022.12.20 CN 114780777 B 1.一种基于语义增强的跨模态检索方法，包括：构建跨模态检索模型，并基于图文检索数据训练集对所述跨模态检索模型进行训练以获取训练后的跨模态检索模型；确定目标查询数据和目标检索数据库中的目标模态数据集，基于所述训练后的跨模态检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体语义相似度；在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个数的所述整体语义相似度对应的所述目标模态数据，并将预设个数的目标模态数据按对应所述整体语义相似度从大到小的顺序作为检索结果；其中，所述图文检索数据训练集包括多个图像模态数据和多个文本模态数据，所述目标查询数据的模态与所述目标模态数据集中目标模态数据的模态不同；所述跨模态检索模型包括特征提取单元、语义增强单元、细粒度跨模态对齐单元和语义相似度单元，所述特征提取单元包括图像特征提取子单元和文本特征提取子单元，所述语义增强单元包括图像语义增强子单元和文本语义增强子单元；所述图像特征提取子单元，用于对图像模态数据进行特征提取，以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义；所述文本特征提取子单元，用于对文本模态数据进行特征提取，以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义；所述图像语义增强子单元，用于将所述图像关系语义集成到所述图像区域特征上，以获取所述图像模态数据的关系语义增强的图像特征，并将所述图像属性语义集成到所述图像区域特征上，以获取所述图像模态数据的属性语义增强的图像特征；所述文本语义增强子单元，用于将所述文本关系语义集成到所述文本单词特征上，以获取所述文本模态数据的关系语义增强的文本特征，并将所述文本属性语义集成到所述文本单词特征上，以获取所述文本模态数据的属性语义增强的文本特征；所述细粒度跨模态对齐单元，用于将所述关系语义增强的图像特征和所述关系语义增强的文本特征进行跨模态对齐，以获取对应的关系层表示，并将所述属性语义增强的图像特征和所述属性语义增强的文本特征进行跨模态对齐，以获取对应的属性层表示；所述语义相似度单元，用于基于所述图像模态数据的关系语义增强的图像特征及其对应的对齐后的关系层表示、属性语义增强的图像特征及其对应的对齐后的属性层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度，或基于所述文本模态数据的关系语义增强的文本特征及其对应的对齐后的关系层表示、属性语义增强的文本特征及其对应的对齐后的文本层表示，获取对应的图像模态数据和文本模态数据之间的整体语义相似度。 2.根据权利要求1所述的检索方法，其特征在于，所述图像特征提取子单元对图像模态数据进行特征提取，以获取所述图像模态数据的图像区域特征、图像关系语义和图像属性语义过程包括：通过目标检测器提取所述图像模态数据中的区域目标特征和区域位置特征，并将所述区域目标特征通过全连接层映射为所述图像模态数据的图像区域特征；基于所述区域位置特征建立所述区域目标特征中所有图像区域之间的相对位置关系，权　利　要　求　书 1/5 页 2 CN 114780777 B 2并将所述相对位置关系通过全连接层和激活函数映射为所述图像模态数据的隐式关系语义；通过场景图模型将所述图像模态数据解析为图结构，所述图结构包括边特征和节点特征，所述图结构的边特征通过词编码矩阵映射为边关系向量，所述边关系向量即为所述图像模态数据的显式关系语义；通过属性检测器预测所述图像模态数据的图像类别和图像属性，并将所述图像类别和所述图像属性通过词编码矩阵分别映射为类别向量和属性向量，将所述类别向量和所述属性向量进行拼接以获取拼接向量，并将所述拼接向量通过所述全连接层映射为图像属性语义。 3.根据权利要求2所述的检索方法，其特征在于，所述图像语义增强子单元将所述图像关系语义集成到所述图像区域特征上，以获取所述图像模态数据的关系语义增强的图像特征，并将所述图像属性语义集成到所述图像区域特征上，以获取所述图像模态数据的属性语义增强的图像特征过程包括：基于所述图像模态数据的隐式关系语义和所述区域目标特征，通过预设工具获取隐式关系语义增强的图像特征；基于所述图像模态数据的显式关系语义和所述图结构的节点特征，通过预设工具获取显示关系语义增强的图像特征；基于所述隐式关系语义增强的图像特征和所述显示关系语义增强的图像特征，通过预设工具获取整体关系语义增强的图像特征；基于所述图像属性语义，通过预设工具获取属性语义增强的图像特征；其中，所述预设工具为Transformer。 4.根据权利要求1所述的检索方法，其特征在于，所述文本特征提取子单元对文本模态数据进行特征提取，以获取所述文本模态数据的文本单词特征、文本关系语义和文本属性语义过程包括：将所述文本模态数据通过词编码矩阵映射为文本向量表示，并通过循环神经网络将所述文本向量表示映射为具有上下文信息的文本单词特征；通过句法解析工具对所述文本模态数据进行关系抽取，以获取所述文本模态数据的所有关系三元组，将所有所述关系三元组中代表关系的单词通过词编码矩阵映射为文本关系语义；通过句法解析工具对所述文本模态数据进行属性抽取，以获取所述文本模态数据的所有属性二元组，并基于所有所述二元组获取所述文本模态数据的文本属性语义。 5.根据权利要求1所述的检索方法，其特征在于，所述文本语义增强子单元将所述文本关系语义集成到所述文本单词特征上，以获取所述文本模态数据关系语义增强的文本特征，并将所述文本属性语义集成到所述文本单词特征上，以获取所述文本模态数据属性语义增强的文本特征过程包括：基于所述文本单词特征和所述文本关系语义，通过图注意力网络获取关系语义增强的文本特征；基于所述文本单词特征和所述文本属性语义，通过图注意力网络获取属性语义增强的文本特征。权　利　要　求　书 2/5 页 3 CN 114780777 B 3

专利 基于语义增强的跨模态检索方法及装置、存储介质和终端

专利基于语义增强的跨模态检索方法及装置、存储介质和终端