安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210476076.6 (22)申请日 2022.04.29 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 单斌 尹维冲 孙宇  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/908(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称 多模态表 示模型的训练方法、 跨模态检索方 法及装置 (57)摘要 本公开提供了一种多模态表示模型的训练 方法、 跨模态检索方法及装置, 涉及人工智 能技 术领域, 尤其涉及深度学习、 智能搜索技术领域。 实现方案为: 获取样本元组, 样本元组包括第一 数据模态的第一样本、 第二样 本和第二数据模态 的第三样 本第四样本; 将四个样 本分别输入相应 的表示模块, 得到第一表示、 第二表示、 第三表示 和第四表示; 基于第一表示和第二表示, 确定第 一单模态损失; 基于第三表示和第四表示, 确定 第二单模态损失; 基于第一目标表 示和第二目标 表示, 确定第一跨模态损失和第二跨模态损失; 基于第一单模态损失、 第二单模态损失、 第一跨 模态损失和第二跨模态损失, 确定多模态表示模 型的整体损失; 基于整体损失, 调整多模态表示 模型的参数。 权利要求书5页 说明书16页 附图7页 CN 114840734 A 2022.08.02 CN 114840734 A 1.一种多模态表示模型的训练方法, 其中, 所述多模态表示模型包括对应于第一数据 模态的第一表示模块和对应于第二数据模态的第二表示模块, 所述方法包括: 获取样本元组, 所述样本元组包括所述第一数据模态的第一样本和第二样本, 以及所 述第二数据模态的第三样本和第四样本, 其中, 所述样本元组所包括的各个样本的语义相 匹配; 将所述第一样本和所述第 二样本分别输入所述第 一表示模块, 以得到所述第 一样本的 第一表示和所述第二样本的第二表示; 将所述第三样本和所述第四样本分别输入所述第 二表示模块, 以得到所述第 三样本的 第三表示和所述第四样本的第四表示; 基于所述第一表示和所述第二表示, 确定所述第一数据模态的第一单模态损失; 基于所述第三表示和所述第四表示, 确定所述第二数据模态的第二单模态损失; 基于第一目标表示和第 二目标表示, 确定由所述第 一数据模态到所述第 二数据模态的 第一跨模态损失和由所述第二数据模态到所述第一数据模态的第二跨模态损失, 其中, 所 述第一目标表示为所述第一表示和所述第二表示中的任一者, 所述第二目标表示为所述第 三表示和所述第四表示中的任一 者; 基于所述第一单模态损 失、 所述第二单模态损 失、 所述第一跨模态损 失和所述第二跨 模态损失, 确定所述多模态 表示模型的整体损失; 以及 基于所述整体损失, 调整所述多模态 表示模型的参数。 2.根据权利要求1所述的方法, 还 包括: 获取原始数据对, 所述原始数据对包括所述第 一数据模态的第 一原始数据和所述第 二 数据模态的第二原 始数据, 所述第一原 始数据和所述第二原 始数据的语义相匹配; 基于所述第一原 始数据, 生成所述第一样本和所述第二样本; 以及 基于所述第二原 始数据, 生成所述第三样本和所述第四样本 。 3.根据权利要求2所述的方法, 其中, 基于所述第一原始数据, 生成所述第一样本和所 述第二样本包括: 对所述第一原 始数据进行第一数据增强处 理, 以生成所述第一样本; 以及 对所述第 一原始数据进行第 二数据增强处理, 以生成所述第 二样本, 其中, 所述第一样 本与所述第二样本不同。 4.根据权利要求2所述的方法, 其中, 所述第 一样本和所述第 二样本与 所述第一原始数 据相同, 所述第一表示模块被配置为添加随机噪声, 以使所述第一表示与所述第二表示不 同。 5.根据权利要求4所述的方法, 其中, 所述第一数据模态为文本模态, 所述第一表示模 块为包括dropout处 理层的文本编码器, 所述dropout处 理层的丢弃概 率小于预设阈值。 6.根据权利要求1 ‑5中任一项所述的方法, 其中, 基于所述第一表示和所述第二表示, 确定所述第一数据模态的第一单模态损失包括: 基于所述第 一表示与 所述第二表示的第 一相似度, 以及所述第 一表示与其他样本元组 的第二表示的第二相似度, 确定所述第一单模态损失, 其中, 所述第一单模态损失与所述第 一相似度负相关并且与所述第二相似度正相关。 7.根据权利要求1 ‑6中任一项所述的方法, 其中, 基于第一目标表示和第二目标表示,权 利 要 求 书 1/5 页 2 CN 114840734 A 2确定由所述第一数据模态到所述第二数据模态的第一 跨模态损失包括: 基于所述第 一目标表示和所述第 二目标表示的第 三相似度, 以及所述第 一目标表示与 其他样本元组的第二目标表示的第四相似度, 确定所述第一跨模态损失, 其中, 所述第一跨 模态损失与所述第三相似度负相关并且与所述第四相似度正相关。 8.根据权利要求1 ‑7中任一项所述的方法, 其中, 基于第一目标表示和第二目标表示, 确定由所述第二数据模态到所述第一数据模态的第二 跨模态损失包括: 基于所述第 一目标表示和所述第 二目标表示的第 三相似度, 以及所述第 二目标表示与 其他样本元组的第一目标表示的第五相似度, 确定所述第二跨模态损失, 其中, 所述第二跨 模态损失与所述第三相似度负相关并且与所述第五相似度正相关。 9.根据权利要求1 ‑8中任一项所述的方法, 其中, 所述整体损失为所述第一单模态损 失、 所述第二单模态损失、 所述第一 跨模态损失和所述第二 跨模态损失的加权和。 10.根据权利要求1 ‑9中任一项所述的方法, 还 包括: 基于预设应用场景 下的匹配数据对, 对所述多模态 表示模型进行微调。 11.根据权利要求10所述的方法, 其中, 所述匹配数据对包括目标数据模态的第 一数据 和第二数据, 所述第一数据和所述第二数据的语义相匹配, 并且其中, 基于预设应用场景下 的匹配数据对, 对所述多模态 表示模型进行微调包括: 基于所述匹配数据对, 对所述目标 数据模态对应的表示模块进行微调。 12.根据权利要求10所述的方法, 其中, 所述匹配数据对包括第 一数据模态的第 一数据 和第二数据模态的第二数据, 所述第一数据和所述第二数据的语义相匹配, 并且其中, 基于 预设应用场景 下的匹配数据对, 对所述多模态 表示模型进行微调包括: 基于所述第一数据, 生成所述第一数据模态的第一数据样本和第二数据样本; 基于所述第二数据, 生成所述第二数据模态的第三数据样本和第四数据样本; 基于所述第一数据样本、 所述第二数据样本、 所述第三数据样本、 所述第 四数据样本, 构造数据样本元组; 以及 基于所述数据样本元组, 对所述多模态 表示模型进行微调。 13.根据权利要求1 ‑12中任一项所述的方法, 其中, 所述第 一数据模态和所述第 二数据 模态为以下任意两者: 文本模态、 图像模态、 视频模态、 音频模态。 14.一种跨模态检索方法, 包括: 获取第一数据模态的检索对象; 将所述检索对象输入多模态 表示模型, 以得到所述检索对象对应的第一表示; 获取第二数据模态 的多个候选对象各自的第二表示, 其中, 所述第二表示是通过将相 应的候选对象输入所述多模态 表示模型而得到的; 以及 基于所述第 一表示与每个第 二表示的相似度, 从所述多个候选对象中确定与 所述检索 对象相匹配的目标对象, 其中, 所述多模态 表示模型 是根据权利要求1 ‑13中任一项所述的方法训练得到的。 15.一种多模态表示模型的训练装置, 其中, 所述多模态表示模型包括对应于第一数据 模态的第一表示单 元和对应于第二数据模态的第二表示单 元, 所述装置包括: 第一获取单元, 被配置为获取样本元组, 所述样本元组包括所述第一数据模态的第一 样本和第二样本, 以及所述第二数据模态的第三样本和 第四样本, 其中, 所述样本元组所包权 利 要 求 书 2/5 页 3 CN 114840734 A 3

.PDF文档 专利 多模态表示模型的训练方法、跨模态检索方法及装置

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多模态表示模型的训练方法、跨模态检索方法及装置 第 1 页 专利 多模态表示模型的训练方法、跨模态检索方法及装置 第 2 页 专利 多模态表示模型的训练方法、跨模态检索方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。