(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111626977.0
(22)申请日 2021.12.28
(71)申请人 中电金信软件 有限公司
地址 100082 北京市海淀区西小口路6 6号
东升科技园C区4 号楼401室
(72)发明人 覃祥坤
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
代理人 于彬
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 30/186(2022.01)
G06K 9/62(2022.01)
G10L 25/03(2013.01)
G10L 25/24(2013.01)G10L 25/45(2013.01)
(54)发明名称
多模态特征融合方法、 装置、 电子设备及可
读存储介质
(57)摘要
本申请提供了一种多模态特征融合方法、 装
置、 电子设备及可读存储介质, 获取目标对象的
多个异源异构数据; 针对于每个异源异构数据,
提取该异源异构数据的单模态特征矩阵; 针对每
个单模态特征矩阵, 基于该单模态特征矩阵与其
所对应的多个单模态权重矩阵, 确定该单模态特
征矩阵的融合特征矩阵; 针对每个融合特征矩
阵, 确定该融合特征矩阵与各个融合特征矩阵之
间的融合权重矩阵; 对每个融合权重矩阵进行归
一化处理, 得到归一化后的融合权重矩阵; 基于
每个融合特征矩 阵和每个融合特征矩 阵所对应
的多个归一化后的融合权重矩阵, 确定描述目标
对象的多模态特征矩阵。 这样, 能够融合异源异
构数据所携带的不同模态特征, 更加细致的表达
出目标对象的特 征。
权利要求书3页 说明书16页 附图5页
CN 114332575 A
2022.04.12
CN 114332575 A
1.一种多模态特 征融合方法, 其特 征在于, 所述多模态特 征融合方法包括:
获取目标对象的多个异源异构数据;
针对于每 个异源异构数据, 提取 该异源异构数据的单模态特 征矩阵;
针对于每个单模态特征矩阵, 分别确定该单模态特征矩阵与 各个单模态特征矩阵之间
的单模态权 重矩阵;
基于该单模态特征矩阵和该单模态特征矩阵所对应的多个单模态权重矩阵, 确定该单
模态特征矩阵的融合特 征矩阵;
针对于每个融合特征矩阵, 分别确定该融合特征矩阵与 各个融合特征矩阵之间的融合
权重矩阵;
针对于该融合特征矩阵所对应的每个融合权重矩阵, 对该融合权重矩阵进行归一化处
理, 得到归一 化后的融合权 重矩阵;
基于每个融合特征矩阵和每个融合特征矩阵所对应的多个归一化后的融合权重矩阵,
确定用于描述所述目标对象的多模态特 征矩阵。
2.根据权利要求1所述的多模态特征融合方法, 其特征在于, 当所述异源异构数据包括
音频数据时, 所述 提取该异源异构数据的单模态特 征矩阵, 包括:
将所述音频数据转换为单声道音频数据, 并对所述单声道音频数据进行重采样处理,
得到重采样后的音频 数据;
在所述重采样后的音频数据 上移动预设窗长的汉宁时窗, 对所述重采样后的音频数据
进行傅里叶变换, 得到所述音频 数据的音频 频谱;
利用滤波器组将所述音频 频谱映射 为初始梅尔倒频谱;
对所述初始梅尔倒频谱进行对数计算, 得到稳定梅尔倒频谱;
按照预设时长 重组所述稳定梅尔倒频谱, 得到所述音频 数据的单模态特 征矩阵。
3.根据权利要求1所述的多模态特征融合方法, 其特征在于, 当所述异源异构数据包括
文本数据时, 所述 提取该异源异构数据的单模态特 征矩阵, 包括:
对所述文本数据进行自然语言预处理, 从所述文本数据中提取出多种 文字特征组以及
每种文字特征组对应的图片特征组; 其中, 所述文字特征组包括汉字特征、 词组特征以及句
子特征中的至少两种; 所述文字特 征组的表现形式为 one‑hot向量形式;
确定每种文字特征组的文字特征矩阵以及每种文字特征组对应的图片特征组的图片
特征矩阵;
针对于每种 文字特征组, 融合该文字特征组 的文字特征矩阵和所述文字特征组对应的
图片特征组的图片特 征矩阵, 得到该文字特 征组的初步融合矩阵;
针对于每种 文字特征组, 基于该文字特征组 的初步融合矩阵和所述文字特征组对应的
图片特征组的图片特征矩阵, 确定该文字特征组中每个子文字特征与该子文字特征对应的
子图片特 征之间的多维相关矩阵;
基于所述文字特征组中每个子文字特征的多维相关矩阵, 确定子文字特征的多维注意
力权重;
基于每种文字特征组中每个子文字特征的多维注意力权重以及每个子文字特征对应
的子图片特 征的图片特 征矩阵, 确定所述文本数据的单模态特 征矩阵。
4.根据权利要求3所述的多模态特征融合方法, 其特征在于, 所述确定每种 文字特征组权 利 要 求 书 1/3 页
2
CN 114332575 A
2的文字特 征矩阵以及每种文字特 征组对应的图片特 征组的图片特 征矩阵, 包括:
针对于每个文字特征组, 利用预先训练好的该文字特征组对应的特征提取模型, 确定
能够表征 出该文字特 征组中每 个子文字特 征的文字特 征矩阵;
利用预先训练好的卷积神经网络, 确定该文字特征组对应的图片特征组 的图片特征矩
阵。
5.根据权利要求3所述的多模态特征融合方法, 其特征在于, 所述融合该文字特征组 的
文字特征矩阵和所述文字特征组对应的图片特征组的图片特征矩阵, 得到该文字特征组的
初步融合矩阵, 包括:
针对于该文字特征组中的每个子文字特征, 融合该子文字特征的子文字矩阵与所述子
文字特征对应的子图片特 征的子图片矩阵, 得到每 个子文字特 征的子融合矩阵;
基于每个子文字特 征的子融合矩阵, 确定该文字特 征组的初步融合矩阵。
6.根据权利要求5所述的多模态特征融合方法, 其特征在于, 所述基于该文字特征组 的
初步融合矩阵和所述文字特征组对应的图片特征组的图片特征矩阵, 确定该文字特征组中
每个子文字特 征与该子文字特 征对应的子图片特 征之间的多维相关矩阵, 包括:
针对该文字特征组中每个子文字特征, 基于该子文字特征的子融合矩阵和所述子文字
特征对应在子图片特 征的子图片矩阵, 确定该子文字特 征的多维相关矩阵。
7.根据权利要求1所述的多模态特征融合方法, 其特征在于, 当所述异源异构数据包括
视频数据时, 所述多模态特 征融合方法还 包括:
将所述视频 数据切分为多帧图片数据;
当所述异源异构数据包括图片数据时, 所述提取该异源异构数据的单模态特征矩阵,
包括:
利用具有残差 跳跃机制的深度神经网络, 提取 出所述图片数据的单模态特 征矩阵。
8.一种多模态特 征融合装置, 其特 征在于, 所述多模态特 征融合装置包括:
数据获取模块, 用于获取目标对象的多个异源异构数据;
矩阵提取模块, 用于针对于每个异源异构数据, 提取该异源异构数据的单模态特征矩
阵;
单模态权重确定模块, 用于针对于每个单模态特征矩阵, 分别确定该单模态特征矩阵
与各个单模态特 征矩阵之间的单模态权 重矩阵;
融合矩阵确定模块, 用于基于该单模态特征矩阵和该单模态特征矩阵所对应的多个单
模态权重矩阵, 确定该 单模态特 征矩阵的融合特 征矩阵;
融合权重确定模块, 用于针对于每个融合特征矩阵, 分别确定该融合特征矩阵与各个
融合特征矩阵之间的融合权 重矩阵;
矩阵归一化模块, 用于针对于该融合特征矩阵所对应的每个融合权重矩阵, 对该融合
权重矩阵进行归一 化处理, 得到归一 化后的融合权 重矩阵;
多模态特征确定模块, 用于基于每个融合特征矩阵和每个融合特征矩阵所对应的多个
归一化后的融合权 重矩阵, 确定用于描述所述目标对象的多模态特 征矩阵。
9.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述处
理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过所述
总线进行通信, 所述机器可读指 令被所述处理器运行时执行如权利要求 1至7任一所述的多权 利 要 求 书 2/3 页
3
CN 114332575 A
3
专利 多模态特征融合方法、装置、电子设备及可读存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:04上传分享