(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210506361.8
(22)申请日 2022.05.10
(71)申请人 网易(杭州)网络有限公司
地址 310052 浙江省杭州市滨江区网商路
599号网易大厦
(72)发明人 蔡子健 陈泽
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 彭星
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/30(2020.01)
G06F 40/35(2020.01)
G06F 16/35(2019.01)
G06F 40/205(2020.01)G06F 40/289(2020.01)
G06N 3/08(2006.01)
(54)发明名称
文本纠错模 型的训练方法及装置、 文本纠错
方法及装置
(57)摘要
本申请提供了一种文本纠错模型的训练方
法及装置、 文本纠错方法及装置, 所述训练方法
包括: 先使用通用文本数据对语言模 型进行基本
训练, 再使用目标领域下的专有文本数据对语言
模型进行微调训练, 然后, 通过与目标服务对象
之间进行数据交互的方式, 使用目标领域下较为
成熟的目标服务对象, 来对文本纠错模型进行交
互辅助性训练。 这样, 本申请可 以在不损失泛化
文本纠错能力的前提下, 训练模 型快速适应复杂
而独特的语言环境, 从而提高模 型在目标领域下
的文本纠错准确率。 与之相应的, 本申请中训练
好的文本纠错模型可以对目标服务对象应用过
程中涉及的文本数据进行文本纠错处理, 有利于
提高目标服务对象的运行效率 以及输出结果的
准确程度。
权利要求书6页 说明书33页 附图11页
CN 114861636 A
2022.08.05
CN 114861636 A
1.一种文本纠错模型的训练方法, 其特征在于, 所述文本纠错模型用于为目标领域下
的目标服务对 象提供文本纠错服务; 其中, 所述 目标服务对 象属于所述 目标领域下已收敛
的成熟算法模型; 所述训练方法包括:
利用无语义标记 的第一训练文本对语言模型进行预训练, 得到第一语言表征模型; 其
中, 所述第一训练文本包括所述目标领域下的特定文本数据以及所述目标领域之外的通用
文本数据;
利用所述目标领域下已语义标记的第 二训练文本对所述第 一语言表征模型进行训练,
得到具备目标文本特征识别能力的第二语言表征模型; 其中, 所述 目标文本特征用于表征
文本数据在所述目标 领域下特有的语义特 征和/或文字表达特 征;
将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语
言表征模型中, 得到所述第二语言表征模型输出的对所述第三训练文本进 行文本纠错处理
后的更正训练文本;
根据所述目标服务对象基于所述第三训练文本得到的更正前输出结果以及所述目标
服务对象基于所述更正训练文本得到的更正后输出结果, 获取所述目标服务对象的模型输
出结果在更正前后产生的正向偏差/负向偏差, 并根据所述正向偏差/负向偏差对所述第二
语言表征模型的模型参数进行调整, 得到包括调整好的模型参数的文本纠错模型。
2.根据权利要求1所述的训练方法, 其特征在于, 所述利用无语义标记的第 一训练文本
对语言模型进行 预训练, 得到第一语言表征模型, 包括:
通过随机采样的方式, 对所述第一训练文本中第一目标数量的分词进行掩码遮蔽, 得
到包括第一 目标数量遮蔽词的第一遮蔽训练文本; 其中, 所述第一 目标数量是根据所述 随
机采样的采样比例与所述第一训练文本中包括的分词数量确定的;
将所述第一遮蔽训练文本输入至所述语言模型中, 得到所述语言模型输出的包括第 一
目标数量遮蔽词的预测结果的第一遮蔽预测文本;
利用所述第一遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损
失, 调整所述语言模 型的模型参数, 直至所述语言模型达到收敛, 并将达到收敛后的所述语
言模型作为所述第一语言表征模型。
3.根据权利要求1所述的训练方法, 其特征在于, 所述利用无语义标记的第 一训练文本
对语言模型进行 预训练, 得到第一语言表征模型, 还 包括:
按照第一预设采样比例, 对所述第 一训练文本 中属于所述特定文本数据的第 二目标数
量的分词进 行掩码遮蔽, 得到包括第二目标数量遮蔽词的第二遮蔽训练文本; 其中, 所述第
二目标数量是根据所述第一预设采样比例与所述第一训练文本中属于所述特定文本数据
的分词数量确定的;
将所述第二遮蔽训练文本输入至所述语言模型中, 得到所述语言模型输出的包括第 二
目标数量遮蔽词的预测结果的第二遮蔽预测文本;
利用所述第二遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损
失, 调整所述语言模 型的模型参数, 直至所述语言模型达到收敛, 并将达到收敛后的所述语
言模型作为所述第一语言表征模型。
4.根据权利要求1所述的训练方法, 其特征在于, 所述利用所述目标领域下已语义标记
的第二训练文本对所述第一语言表征模型进 行训练至少包括: 利用所述目标领域下已语义权 利 要 求 书 1/6 页
2
CN 114861636 A
2标记的第二训练文本对所述第一语言表征模型进 行粗粒度训练和/或细粒度训练; 其中, 所
述粗粒度训练用于训练所述第一语言表征模型根据所述目标领域下同一语义概念对应的
不同文字表达方式, 对所述第二训练文本中同一所述语义概念下 的不同语句进行分类; 所
述细粒度训练用于训练所述第一语言表征模型根据所述第二训练文本中每一语句在所述
目标领域下的分词序列标记结果, 对每一语句在所述目标领域下的文字表达方式进行识
别。
5.根据权利要求4所述的训练方法, 其特征在于, 通过以下方法对所述第 一语言表征模
型进行所述粗粒度训练:
针对所述第 二训练文本 中的任意两个语句, 将所述任意两个语句去除已有的所述语义
标记后的原始版本语句输入至所述第一语言表征模型中, 通过所述第一语言表征模型对所
述任意两个语句是否对应所述目标领域下的同一语义概念进 行分类预测, 得到所述任意两
个语句的分类预测结果;
根据所述任意两个语句在所述第 二训练文本 中已有的所述语义标记, 确定所述任意两
个语句的真实分类结果; 其中, 所述真实分类结果用于表征所述任意两个语句是否对应所
述目标领域下的同一语义 概念;
利用所述分类预测结果与 所述真实分类结果之间的交叉熵损失, 调 整所述第 一语言表
征模型的模型参数, 直至所述第一语言表征模型达 到收敛。
6.根据权利要求4所述的训练方法, 其特征在于, 通过以下方法对所述第 一语言表征模
型进行所述细粒度训练:
针对所述第 二训练文本 中的每一语句, 将该语句去除已有的所述语义标记后的原始版
本语句输入至所述第一语言表征模型中, 通过所述第一语言表征模型对该语句在所述目标
领域下的句子成分进 行分析, 得到该语句在所述目标领域下的语句分析结果; 其中, 所述句
子成分至少包括: 属于所述 目标领域下定义的实体的第一 目标分词, 以及能够表征所述 目
标领域下不同语义 概念的第二目标分词;
根据所述目标领域下定义的多个实体以及该语句中已有的所述语义标记, 对该语句中
包括的多个分词进行序列标记, 得到该语句的分词序列标记结果;
利用所述语句分析结果与 所述分词序列 标记结果之间的交叉熵损失, 调整所述第 一语
言表征模型的模型参数, 直至所述第一语言表征模型达 到收敛。
7.根据权利要求1所述的训练方法, 其特征在于, 所述将所述目标服务对象在训练过程
中输入或者输出的第三训练文本输入至所述第二语言表征模型中, 得到所述第二语言表征
模型输出的对所述第三训练文本进行文本纠错处 理后的更正训练文本, 包括:
针对所述第三训练文本中的每一语句, 将该语句输入至所述第二语言表征模型中, 得
到所述第二语言表征模型针对该语句的第一输出 结果;
在检测到所述第 一输出结果与该语句存在差异的情况下, 确定所述第 二语言表征模型
对该语句进行了所述文本纠错处 理, 并将所述第一输出 结果作为所述更正训练文本;
在检测到所述第 一输出结果与该语句相同的情况下, 则从所述第 三训练文本中获取下
一语句, 重复上述针对该语句的处 理步骤, 直至得到所述更正训练文本为止 。
8.根据权利要求1所述的训练方法, 其特征在于, 在所述得到所述第 二语言表征模型输
出的对所述第三训练文本进行文本纠错处理后的更正训练文本之后, 所述训练方法还包权 利 要 求 书 2/6 页
3
CN 114861636 A
3
专利 文本纠错模型的训练方法及装置、文本纠错方法及装置
文档预览
中文文档
51 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共51页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:14上传分享