专利 标题生成方法、模型训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210271572.8 (22)申请日 2022.03.18 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人徐鲁辉　熊鹏飞　陈宇　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师贾允 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称标题生成方法、模型训练方法及装置 (57)摘要本申请公开了一种标题生成方法、模型训练方法及装置，属于计算机技术领域。所述方法包括：获取目标多媒体对象；确定媒体信息对应的目标特征信息，以及文本信息对应的文本特征信息；基于跨模态信息处理模型，对目标特征信息与文本特征信息进行跨模态语义分析处理，输出目标多媒体对象对应的标题文本。本申请实施例提供的技术方案中，通过确定目标多媒体对象中目标模态的媒体信息对应的目标特征信息，以及目标多媒体对象中的文本信息对应的文本特征信息，并由跨模态信息处理模型对上述目标模态和文本模态对应的特征信息进行跨模态语义分析处理后，自动输出目标多媒体对象的标题文本，提升了标题生成效率与标题准确度。权利要求书4页说明书28页附图15页 CN 114611498 A 2022.06.10 CN 114611498 A 1.一种标题生成方法，其特征在于，所述方法包括：获取目标多媒体对象，所述目标多媒体对象包括目标模态对应的媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；确定所述媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息；基于跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本；其中，所述跨模态信息处理模型是以多媒体样本对象在所述目标模态与所述文本模态对应的特征信息为样本数据进行训练得到的机器学习模型。 2.根据权利要求1所述的方法，其特征在于，所述文本信息包括至少一个文本语料单元，所述文本特征信息包括所述至少一个文本语料单元对应的文本特征序列，所述媒体信息包括所述目标多媒体对象对应的至少一个图像，所述目标特征信息包括所述至少一个图像对应的视觉特征序列；所述基于所述跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本，包括：基于所述跨模态信息处理模型，对所述视觉特征序列与所述文本特征序列进行跨模态语义分析处理，输出所述标题文本。 3.根据权利要求1所述的方法，其特征在于，所述文本信息包括所述目标多媒体对象对应的原始标题信息，所述文本特征信息包括所述原始标题信息对应的原始标题特征序列，所述媒体信息包括所述目标多媒体对象对应的至少一个图像，所述目标特征信息包括所述至少一个图像对应的视觉特征序列；所述基于所述跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本，包括：基于所述跨模态信息处理模型，对所述视觉特征序列与所述原始标题特征序列进行跨模态语义分析处理，输出所述标题文本。 4.根据权利要求3所述的方法，其特征在于，所述目标多媒体对象包括目标视频，所述文本信息还包括所述目标视频对应的视频文本信息，所述文本特征信息还包括所述视频文本信息对应的视频文本特征序列；所述基于所述跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本，包括：基于所述跨模态信息处理模型，对所述视觉特征序列、所述视频文本特征序列与所述原始标题特征序列进行跨模态语义分析处理，输出所述目标视频对应的视频标题文本。 5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本，包括：将所述目标特征信息与所述文本特征信息输入所述跨模态信息处理模型，所述目标特征信息包括至少一个第一特征语料单元，所述文本特征信息包括至少一个第二特征语料单元；确定所述跨模态信息处理模型对应的第一自注意力掩膜信息，所述第一自注意力掩膜信息用于表征所述跨模态信息处理模型对应的语境信息选取方向为复合方向；权　利　要　求　书 1/4 页 2 CN 114611498 A 2基于所述第一自注意力掩膜信息，将所述至少一个第一特征语料单元以及所述至少一个第二特征语料单元，确定为所述至少一个第一特征语料单元或所述至少一个第二特征语料单元对应的语境语料单元；基于所述跨模态信息处理模型，对所述语境语料单元进行跨模态语义分析处理，输出所述标题文本。 6.根据权利要求5所述的方法，其特征在于，所述基于所述跨模态信息处理模型，对所述语境语料单元进行跨模态语义分析处理，输出所述标题文本，包括：基于所述跨模态信息处理模型，对所述语境语料单元进行跨模态语义分析处理，得到所述至少一个第一特征语料单元对应的第一语义特征数据，以及所述至少一个第二特征语料单元对应的第二语义特征数据；基于所述第一语义特征数据与所述第二语义特征数据，确定所述标题文本中第1个文本单元对应的语义特征数据；根据所述第一自注意力掩膜信息，将所述第一语义特征数据、所述第二语义特征数据以及第i个文本单元之前的文本单元对应的语义特征数据，确定为所述第i个文本单元对应的语境信息，所述 i为大于1的整数；基于所述语境信息，确定所述第i个文本单元对应的语义特征数据；根据各个文本单元对应的语义特征数据，输出所述标题文本。 7.根据权利要求1至3任一项所述的方法，其特征在于，所述目标多媒体对象包括目标视频，所述方法还包括：获取所述目标视频中的前N个视频帧，所述 N为大于0的整数；对所述前N个视频帧进行文本识别处理，得到识别文本信息，所述文本信息包括所述识别文本信息。 8.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取标题长度阈值；确定所述标题长度阈值对应的标题长度特征信息；所述基于所述跨模态信息处理模型，对所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述目标多媒体对象对应的标题文本，包括：基于所述跨模态信息处理模型，对所述标题长度特征信息、所述目标特征信息与所述文本特征信息进行跨模态语义分析处理，输出所述标题文本，所述标题文本的长度小于等于所述标题长度阈值。 9.一种模型训练方法，其特征在于，所述方法包括：获取第一多媒体样本对象，所述第一多媒体样本对象包括目标模态对应的第一媒体信息和文本模态对应的文本信息，所述目标模态是指与所述文本模态不同的至少一种信息模态；确定所述第一媒体信息对应的目标特征信息，以及所述文本信息对应的文本特征信息；获取待训练的跨模态信息处理模型；基于所述目标特征信息与所述文本特征信息，对所述待训练的跨模态信息处理模型进行模型训练，输出所述第一多媒体样本对象对应的标题文本；权　利　要　求　书 2/4 页 3 CN 114611498 A 3

专利 标题生成方法、模型训练方法及装置

专利标题生成方法、模型训练方法及装置