专利 一种模型训练方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210186688.1 (22)申请日 2022.02.28 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人高鹏至　何中军　李芝　吴华　 (74)专利代理机构北京易光知识产权代理有限公司 11596 专利代理师阎敏　徐升升 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种模型训练方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种模型训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及自然语言处理技术领域。具体实现方案为：获取多组句子对，每组句子对包含源语言句子和目标语言句子；针对各组句子对，确定句子对中包含的源语言句子中的第一语义元素的第一词向量，并确定句子对中包含的目标语言句子中的第二语义元素的第二词向量；利用第一语义元素的第一词向量和第二语义元素的第二词向量，确定句子对对应的样本对；利用句子对和对应的样本对确定第一损失函数，采用第一损失函数对模型进行训练。本公开能够降低模型训练过程的复杂度。权利要求书2页说明书10页附图4页 CN 114580442 A 2022.06.03 CN 114580442 A 1.一种模型训练方法，包括：获取多组句子对，每组句子对包含源语言句子和目标语言句子；针对各组所述句子对，确定所述句子对中包含的所述源语言句子中的第一语义元素的第一词向量，并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量；利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量，确定所述句子对对应的样本对；利用所述句子对和对应的样本对确定第一损失函数，采用所述第一损失函数对所述模型进行训练。 2.根据权利要求1所述的方法，其中，所述利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量，确定所述句子对对应的样本对，包括：按照预定概率，对所述源语言句子中的各个第一语义元素的第一词向量进行置零，并对所述目标语言句子中的各个第二语义元素的第二词向量进行置零，得到所述样本对；其中，所述样本对包括第一样本和第二样本；所述第一样本包括按照所述预定概率对所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果，所述第二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量进行置零后得到的数据结果。 3.根据权利要求2所述的方法，其中，所述预定概率为Pcut；所述按照预定概率，对所述源语言句子中的各个第一语义元素的第一词向量进行置零，包括：针对所述源语言句子中的各个第一语义元素的第一词向量，控制每个第一词向量有Pcut的概率被替换为零向量、并且有1 ‑Pcut的概率保持不变；所述按照预定概率，对所述目标语言句子中的各个第二语义元素的第二词向量进行置零，包括：针对所述目标语言句子中的各个第二语义元素的第二词向量，控制每个第二词向量有Pcut的概率被替换为零向量、并且有1 ‑Pcut的概率保持不变。 4.根据权利要求1至3中任一所述的方法，其中，所述利用所述句子对和对应的样本对确定第一损失函数，包括：确定第一概率分布与所述句子对中包含的目标语言句子的标签的交叉熵函数，并确定第一概率分布和第二概率分布的相对熵函数；其中，所述第一概率分布对应于所述句子对，所述第二概率分布对应于所述句子对对应的样本对；利用所述交叉熵函数、所述相对熵函数和预设的超参数，确定所述第一损失函数。 5.根据权利要求4所述的方法，其中，所述采用所述第一损失函数对所述模型进行训练，包括：采用所述第一损失函数，利用梯度下降法对所述模型的参数进行调整，在所述调整过程中，从所述第一概率分布对应的模型参数和所述第二概率分布对应的模型参数进行两侧回传。 6.根据权利要求1至 5中任一所述的方法，其中，所述模型包括神经机器翻译NMT模型。 7.一种模型训练装置，包括：句子对获取模块，用于获取多组句子对，每组句子对包含源语言句子和目标语言句子；样本对确定模块，用于针对各组所述句子对，确定所述句子对中包含的所述源语言句权　利　要　求　书 1/2 页 2 CN 114580442 A 2子中的第一语义元素的第一词向量，并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向量；利用所述第一语义元素的第一词向量和所述第二语义元素的第二词向量，确定所述句子对对应的样本对；训练模块，用于利用所述句子对和对应的样本对确定第一损失函数，采用所述第一损失函数对所述模型进行训练。 8.根据权利要求7 所述的装置，其中，所述样本对确定模块用于，按照预定概率，对所述源语言句子中的各个第一语义元素的第一词向量进行置零，并对所述目标语言句子中的各个第二语义元素的第二词向量进行置零，得到所述样本对；其中，所述样本对包括第一样本和第二样本；所述第一样本包括按照所述预定概率对所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果，所述第二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量进行置零后得到的数据结果。 9.根据权利要求8所述的装置，其中，所述预定概率为Pcut；样本对确定模块用于，针对所述源语言句子中的各个第一语义元素的第一词向量，控制每个第一词向量有Pcut的概率被替换为零向量、并且有1 ‑Pcut的概率保持不变；针对所述目标语言句子中的各个第二语义元素的第二词向量，控制每个第二词向量有Pcut的概率被替换为零向量、并且有1 ‑Pcut的概率保持不变。 10.根据权利要求7至9中任一所述的装置，其中，所述训练模块包括：损失函数生成子模块，用于确定第一概率分布与所述句子对中包含的目标语言句子的标签的交叉熵函数，并确定第一概率分布和第二概率分布的相对熵函数；其中，所述第一概率分布对应于所述句子对，所述第二概率分布对应于所述句子对对应的样本对；利用所述交叉熵函数、所述相对熵函数和预设的超参数，确定所述第一损失函数。 11.根据权利要求10所述的装置，其中，所述训练模块包括：调整子模块，用于采用所述第一损失函数，利用梯度下降法对所述模型的参数进行调整，在所述调整过程中，从所述第一概率分布对应的模型参数和所述第二概率分布对应的模型参数进行两侧回传。 12.根据权利要求7至11中任一所述的装置，其中，所述模型包括神经机器翻译NMT模型。 13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1 ‑6中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114580442 A 3

专利 一种模型训练方法、装置、电子设备及存储介质

专利一种模型训练方法、装置、电子设备及存储介质