(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210376785.7
(22)申请日 2022.04.06
(65)同一申请的已公布的文献号
申请公布号 CN 114780777 A
(43)申请公布日 2022.07.22
(73)专利权人 中国科学院上海高等研究院
地址 201210 上海市浦东 新区海科路9 9号
(72)发明人 黄俊 潘浩 魏鑫燏 朱智聪
(74)专利代理 机构 上海光华专利事务所(普通
合伙) 31219
专利代理师 刘逸潇
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/58(2019.01)
G06F 40/30(2020.01)G06V 10/74(2022.01)
G06K 9/62(2022.01)
(56)对比文件
CN 110110122 A,2019.08.09
CN 112966127 A,2021.0 6.15
CN 105205096 B,2019.02.12
US 2020104318 A1,2020.04.02
US 2020302340 A1,2020.09.24
黄涛.基于Web图像的视 觉模式挖掘研究.
《中国博士学位 论文全文数据库》 .201 1,
Huatian Zhang, Zhendo ng Mao,.Sho w Your
Faith: Cros s-Modal Co nfidence-Aware
Network for Ima ge-Text Matc hing. 《The
Thirty-Sixth A AAI Conference o n
Artificial I ntelligence (A AAI-22)》 .2022,
审查员 徐捷
(54)发明名称
基于语义增强的跨模态检索方法及装置、 存
储介质和终端
(57)摘要
本发明公开了一种基于语义增强的跨模态
检索方法及装置、 存储介质和终端, 其中方法包
括构建跨模态检索模型, 并基于图文检索数据训
练集对跨模态检索模型进行训练以获取训练后
的跨模态检索模 型; 确定目标查询数据和目标模
态数据集, 基于训练后的跨模态检索模型获取目
标查询数据与每个目标模态数据之间的整体语
义相似度; 在目标模态数据集中依据整体语义相
似度从大到小的顺序选取预设个数的整体语义
相似度对应的目标模态数据, 并确定检索结果。
本发明方法充分挖掘了图像模态数据和文本模
态数据的多层语义信息, 将语义信息用于增强多
模态数据的特征表示, 并在 多层语义的基础上实
现细粒度的跨模态对齐, 从而增强多模态数据之
间的语义相关性。
权利要求书5页 说明书17页 附图6页
CN 114780777 B
2022.12.20
CN 114780777 B
1.一种基于语义增强的跨模态检索方法, 包括:
构建跨模态检索模型, 并基于图文检索数据训练集对所述跨模态检索模型进行训练以
获取训练后的跨模态检索模型;
确定目标查询数据和目标检索数据库中的目标模态数据集, 基于所述训练后的跨模态
检索模型获取所述目标查询数据与所述目标模态数据集中每个目标模态数据之间的整体
语义相似度;
在所述目标模态数据集中依据所述整体语义相似度从大到小的顺序选取预设个数的
所述整体语义相似度对应的所述目标模态数据, 并将预设个数的目标模态数据按对应所述
整体语义相似度从大到小的顺序作为检索结果;
其中, 所述图文检索数据训练集包括多个图像模态数据和多个文本模态数据, 所述目
标查询数据的模态与所述目标模态数据集中目标模态数据的模态不同;
所述跨模态检索模型包括特征提取单元、 语义增强单元、 细粒度跨模态对齐单元和语
义相似度单元, 所述特征提取单元包括图像特征提取子单元和文本特征提取子单元, 所述
语义增强单 元包括图像 语义增强子单 元和文本语义增强子单 元;
所述图像特征提取子单元, 用于对图像模态数据进行特征提取, 以获取所述图像模态
数据的图像区域特 征、 图像关系语义和图像属性语义;
所述文本特征提取子单元, 用于对文本模态数据进行特征提取, 以获取所述文本模态
数据的文本单词特 征、 文本关系语义和文本属性语义;
所述图像语义增强子单元, 用于将所述图像关系语义集成到所述图像区域特征上, 以
获取所述图像模态数据的关系语义增强的图像特征, 并将所述图像属性语义集成到所述图
像区域特 征上, 以获取 所述图像模态数据的属性语义增强的图像特 征;
所述文本语义增强子单元, 用于将所述文本关系语义集成到所述文本单词特征上, 以
获取所述文本模态数据的关系语义增强的文本特征, 并将所述文本属性语义集成到所述文
本单词特 征上, 以获取 所述文本模态数据的属性语义增强的文本特 征;
所述细粒度跨模态对齐单元, 用于将所述关系语义增强的图像特征和所述关系语义增
强的文本特征进行跨模态对齐, 以获取对应的关系层表示, 并将所述属 性语义增强的图像
特征和所述属性语义增强的文本特 征进行跨模态对齐, 以获取对应的属性层表示;
所述语义相似度 单元, 用于基于所述图像模态数据的关系语义增强的图像特征及其对
应的对齐后的关系层表示、 属 性语义增强的图像特征及其对应的对齐后的属 性层表示, 获
取对应的图像模态数据和文本模态数据之 间的整体语义相似度, 或基于所述文本模态数据
的关系语义增强的文本特征及其对应的对齐后的关系层表示、 属性语义增强的文本特征及
其对应的对齐后的文本层表示, 获取对应的图像模态数据和文本模态数据之间的整体语义
相似度。
2.根据权利要求1所述的检索方法, 其特征在于, 所述图像特征提取子单元对图像模态
数据进行特征提取, 以获取所述图像模态数据的图像区域特征、 图像关系语义和图像属 性
语义过程包括:
通过目标检测器提取所述图像模态数据中的区域目标特征和区域位置特征, 并将所述
区域目标 特征通过全连接层映射 为所述图像模态数据的图像区域特 征;
基于所述 区域位置特征建立所述区域目标特征中所有图像区域之间的相对位置关系,权 利 要 求 书 1/5 页
2
CN 114780777 B
2并将所述相对位置关系通过全连接层和激活函数映射为所述图像模态数据的隐式关系语
义;
通过场景图模型将所述图像模态数据解析为图结构, 所述图结构包括边特征和节点特
征, 所述图结构的边特征通过词编码矩阵映射为边关系向量, 所述边关系向量即为所述图
像模态数据的显式关系语义;
通过属性检测器预测所述图像模态数据的图像类别和图像属性, 并将所述图像类别和
所述图像属性通过词编 码矩阵分别映射为类别向量和属性向量, 将所述类别向量和所述属
性向量进 行拼接以获取拼接向量, 并将所述拼接向量通过所述全连接层映射为图像属性语
义。
3.根据权利要求2所述的检索方法, 其特征在于, 所述图像语义增强子单元将所述图像
关系语义集成到所述图像区域特征上, 以获取所述图像模态数据的关系语义增强的图像特
征, 并将所述图像属 性语义集成到所述图像区域特征上, 以获取所述图像模态数据的属 性
语义增强的图像特 征过程包括:
基于所述图像模态数据的隐式关系语义和所述区域目标特征, 通过预设工具获取隐式
关系语义增强的图像特 征;
基于所述图像模态数据的显式关系语义和所述图结构的节点特征, 通过预设工具获取
显示关系语义增强的图像特 征;
基于所述隐式关系语义增强的图像特征和所述显示关系语义增强的图像特征, 通过预
设工具获取整体关系语义增强的图像特 征;
基于所述图像属性语义, 通过 预设工具获取属性语义增强的图像特 征;
其中, 所述预设工具为Transformer。
4.根据权利要求1所述的检索方法, 其特征在于, 所述文本特征提取子单元对文本模态
数据进行特征提取, 以获取所述文本模态数据的文本单词特征、 文本关系语义和文本属 性
语义过程包括:
将所述文本模态数据通过词编码矩阵映射为文本向量表示, 并通过循环神经网络将所
述文本向量表示映射 为具有上 下文信息的文本单词特 征;
通过句法解析工具对所述文本模态数据进行关系抽取, 以获取所述文本模态数据的所
有关系三元组, 将所有所述关系三元组中代表关系的单词通过词编 码矩阵映射为文本 关系
语义;
通过句法解析工具对所述文本模态数据进行属性抽取, 以获取所述文本模态数据的所
有属性二元组, 并基于所有所述 二元组获取 所述文本模态数据的文本属性语义。
5.根据权利要求1所述的检索方法, 其特征在于, 所述文本语义增强子单元将所述文本
关系语义集成到所述文本单词特征上, 以获取所述文本模态数据关系语义增强的文本特
征, 并将所述文本属 性语义集成到所述文本单词 特征上, 以获取所述文本模态数据属 性语
义增强的文本特 征过程包括:
基于所述文本单词特征和所述文本关系语义, 通过图注意力网络获取关系语义增强的
文本特征;
基于所述文本单词特征和所述文本属性语义, 通过图注意力网络获取属性语义增强的
文本特征。权 利 要 求 书 2/5 页
3
CN 114780777 B
3
专利 基于语义增强的跨模态检索方法及装置、存储介质和终端
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:53上传分享