安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210186688.1 (22)申请日 2022.02.28 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 高鹏至 何中军 李芝 吴华 (74)专利代理 机构 北京易光知识产权代理有限 公司 11596 专利代理师 阎敏 徐升升 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种模型训练方法、 装置、 电子设备及存储 介质 (57)摘要 本公开提供了一种模型训练方法、 装置、 电 子设备及存储介质, 涉及人工智 能技术领域, 尤 其涉及自然语言处理技术领域。 具体实现方案 为: 获取多组句子对, 每组句子对包含源语言句 子和目标语言句子; 针对各组句子对, 确定句子 对中包含的源语言句子中的第一语义元素的第 一词向量, 并确定句子对中包含的目标语言句子 中的第二语义元素的第二词向量; 利用第一语义 元素的第一词向量和第二语义元素的第二词向 量, 确定句子对对应的样本对; 利用句子对和对 应的样本对确定第一损失函数, 采用第一损失函 数对模型进行训练。 本公开能够降低模型训练过 程的复杂度。 权利要求书2页 说明书10页 附图4页 CN 114580442 A 2022.06.03 CN 114580442 A 1.一种模型训练方法, 包括: 获取多组句子对, 每组句子对 包含源语言句子和目标语言句子; 针对各组所述句子对, 确定所述句子对中包含的所述源语言句子 中的第一语义元素的 第一词向量, 并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向 量; 利用所述第 一语义元素的第 一词向量和所述第 二语义元素的第 二词向量, 确定所述句 子对对应的样本对; 利用所述句子对和对应的样本对确定第 一损失函数, 采用所述第 一损失函数对所述模 型进行训练。 2.根据权利要求1所述的方法, 其中, 所述利用所述第 一语义元素的第 一词向量和所述 第二语义元 素的第二词向量, 确定所述句子对 对应的样本对, 包括: 按照预定概率, 对所述源语言句子中的各个第一语义元素的第一词向量进行置零, 并 对所述目标语言句子中的各个第二语义元 素的第二词向量进行置零, 得到所述样本对; 其中, 所述样本对包括第一样本和第二样本; 所述第一样本包括按照所述预定概率对 所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果, 所述第 二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量 进行置零后得到的数据结果。 3.根据权利要求2所述的方法, 其中, 所述预定概 率为Pcut; 所述按照预定概率, 对所述源语言句子中的各个第一语义元素的第一词向量进行置 零, 包括: 针对所述源语言句子中的各个第一语义元素的第一词向量, 控制每个第一词向量 有Pcut的概率被替换为 零向量、 并且有1 ‑Pcut的概率保持不变; 所述按照预定概率, 对所述目标语言句子中的各个第 二语义元素的第 二词向量进行置 零, 包括: 针对所述目标语言句子中的各个第二语义元素的第二词向量, 控制每个第二词向 量有Pcut的概率被替换为 零向量、 并且有1 ‑Pcut的概率保持不变。 4.根据权利要求1至3中任一所述的方法, 其中, 所述利用所述句子对和对应的样本对 确定第一损失函数, 包括: 确定第一概率分布与 所述句子对中包含的目标语言句子的标签的交叉熵函数, 并确定 第一概率分布和第二概率分布的相对熵函数; 其中, 所述第一概率分布对应于所述句子对, 所述第二 概率分布对应于所述句子对 对应的样本对; 利用所述交叉熵函数、 所述相对熵函数和预设的超参数, 确定所述第一损失函数。 5.根据权利要求4所述的方法, 其中, 所述采用所述第一损失函数对所述模型进行训 练, 包括: 采用所述第一损 失函数, 利用 梯度下降法对所述模型的参数进行调整, 在所述调整过 程中, 从所述第一概率分布对应的模型参数和所述第二概率分布对应的模 型参数进行两侧 回传。 6.根据权利要求1至 5中任一所述的方法, 其中, 所述模型包括神经机器翻译NMT模型。 7.一种模型训练装置, 包括: 句子对获取模块, 用于获取多组句子对, 每组句子对 包含源语言句子和目标语言句子; 样本对确定模块, 用于针对各组所述句子对, 确定所述句子对中包含的所述源语言句权 利 要 求 书 1/2 页 2 CN 114580442 A 2子中的第一语义元素的第一词向量, 并确定所述句子对中包含的所述目标语言句子中的第 二语义元素的第二词向量; 利用所述第一语义元素的第一词向量和所述第二语义元素的第 二词向量, 确定所述句子对 对应的样本对; 训练模块, 用于利用所述句子对和对应的样本对确定第一损 失函数, 采用所述第一损 失函数对所述模型进行训练。 8.根据权利要求7 所述的装置, 其中, 所述样本对确定模块用于, 按照预定概率, 对所述源语言句子中的各个第一语义元素的第一词向量进行置零, 并 对所述目标语言句子中的各个第二语义元 素的第二词向量进行置零, 得到所述样本对; 其中, 所述样本对包括第一样本和第二样本; 所述第一样本包括按照所述预定概率对 所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果, 所述第 二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量 进行置零后得到的数据结果。 9.根据权利要求8所述的装置, 其中, 所述预定概 率为Pcut; 样本对确定模块用于, 针对所述源语言句子中的各个第一语义元素的第一词向量, 控 制每个第一词向量有Pcut的概率被替换为零向量、 并且有1 ‑Pcut的概率保持不变; 针对所述 目标语言句子中的各个第二语义元素的第二词向量, 控制每个第二词向量有Pcut的概率被 替换为零向量、 并且有1 ‑Pcut的概率保持不变。 10.根据权利要求7至9中任一所述的装置, 其中, 所述训练模块包括: 损失函数生成子模块, 用于确定第 一概率分布与 所述句子对中包含的目标语言句子的 标签的交叉熵函数, 并确定第一概率分布和 第二概率分布的相对熵函数; 其中, 所述第一概 率分布对应于所述句子对, 所述第二 概率分布对应于所述句子对 对应的样本对; 利用所述交叉熵函数、 所述相对熵函数和预设的超参数, 确定所述第一损失函数。 11.根据权利要求10所述的装置, 其中, 所述训练模块包括: 调整子模块, 用于采用所述第一损 失函数, 利用 梯度下降法对所述模型的参数进行调 整, 在所述调整过程中, 从所述第一概率分布对应的模型参数和所述第二概率分布对应的 模型参数进行两侧回传。 12.根据权利要求7至11中任一所述的装置, 其中, 所述模型包括神经机器翻译NMT模 型。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114580442 A 3
专利 一种模型训练方法、装置、电子设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:51
上传分享
举报
下载
原文档
(825.8 KB)
分享
友情链接
ISO 14644-4 2022 Cleanrooms and associated controlled environments — Part 4 Design, construction and start-up.pdf
GB-T 30452-2013 光催化纳米材料光解指数测试方法.pdf
GB-T 24262-2009 石油物探仪器环境试验及可靠性要求.pdf
YD-T 4058-2022 电信网和互联网安全防护基线配置要求和检测要求 大数据组件.pdf
GB/T 40566-2021 流化床法颗粒硅 氢含量的测定 脉冲加热惰性气体熔融红外吸收法.pdf
DB12-T 724.35-2021 安全生产等级评定技术规范 第35部分:医药制造企业 天津市.pdf
GB-T 41139-2021 信息分类编码及元数据标准符合性测试要求.pdf
T-ZYLM 0003—2023 昌吉玉米种子 制种玉米种子加工技术规程.pdf
GBT 41400-2022 信息安全技术 工业控制系统信息安全防护能力成熟度模型.pdf
GB-T 33565-2017 信息安全技术 无线局域网接入系统安全技术要求(评估保障级2级增强).pdf
GB-T 30290.3-2013 卫星定位车辆信息服务系统 第3部分:信息安全规范.pdf
DB11-T 1968-2022 中央厨房布局设置与管理规范 北京市.pdf
T-CSTM 00591—2022 石墨烯-铜薄膜材料电导率测量 范德堡法.pdf
GB-T 31853-2015 矢量无负压供水设备.pdf
DB3305-T 149—2020 长三角G60科创走廊“一网通办”专窗管理规范 湖州市.pdf
GB-T 42129-2022 数据管理能力成熟度评估方法.pdf
T-SLEA 1011.1—2023 实验室设计与建设技术规范 第1部分:通用技术要求.pdf
GM-T 0028-2014 密码模块安全技术要求.pdf
GB-T 20280-2006 信息安全技术 网络脆弱性扫描产品测试评价方法.pdf
DB13-T 2262-2015 在用工业锅炉节能运行监测技术规程 河北省.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(825.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。