(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210458189.3
(22)申请日 2022.04.27
(71)申请人 北京智谱华 章科技有限公司
地址 100084 北京市海淀区中关村东路1号
院6号楼6层6 03A
(72)发明人 王路路 张鹏 杜冀中 闫磊
陆弘锴 彭钰婷 刘佳
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 单冠飞
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06F 40/216(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于对比学习的中文句子精简方法和系统
(57)摘要
本申请提出一种基于对比学习的中文句子
精简方法和系统, 该方法包括: 基于无监督学习
方式挖掘多个语义相似的复杂句 ‑简单句句对;
计算每个句对的监督信号; 将监督信号以字符串
的形式添加至句对中复杂句的起始位置, 生成有
监督信号的复杂句 ‑简单句句对的数据集, 并将
数据集划分为训练集、 验证集和测试集; 对预设
的基于编码器 ‑解码器的多语种预训练模型进行
模型剪枝, 获得中文单语种预训练模型; 引入对
比学习损失对中文单语种预训练模 型进行微调,
联合训练出中文句子简化模型; 将测试集中的复
杂句输入简化模 型生成预测的精简句子, 评测中
文句子简化模 型的效果。 该方法可根据实际需求
控制生成的简化句子, 提高生 成的简化句子的忠
实度。
权利要求书2页 说明书10页 附图2页
CN 114757203 A
2022.07.15
CN 114757203 A
1.一种基于对比学习的中文句子精简方法, 其特 征在于, 包括以下步骤:
基于无监 督学习方式挖掘多个 语义相似的复杂句 ‑简单句句对;
计算每个所述复杂句 ‑简单句句对的监 督信号;
将每个所述监督信号以字符串的形式添加至对应的句对中的复杂句的起始位置, 生成
有监督信号的复杂句 ‑简单句句对的数据集, 并按照预设比例将所述有监督信号的复杂句 ‑
简单句句对的数据集划分为训练集、 验证集和 测试集;
对预设的基于编码器 ‑解码器的多语种预训练模型进行模型剪枝, 以获得中文单语种
预训练模型;
基于所述训练集和所述验证集, 引入对比学习损失对所述中文单语种预训练模型进行
微调, 联合训练出中文句子简化模型;
将所述测试集中的复杂句输入至所述中文句子简化模型, 通过所述中文句子简化模型
生成预测的精简句 子, 并评测所述中文句 子简化模型 的简化效果, 在所述简化效果大于预
设阈值时, 通过 所述中文句子简化模型对待简化的中文句子进行精简。
2.根据权利要求1所述的精简方法, 其特征在于, 所述基于无监督学习方式挖掘多个语
义相似的复杂句 ‑简单句句对, 包括:
从预设的资源库中获取 大数据量中文句子;
通过语言工具库获取每个句子的向量并创建索引, 挖掘出每个句子对应的多个相似候
选句子;
对每个句子对应的所述候选句子进行条件过滤, 确定每个句子对应的目标句子, 生成
所述多个 语义相似的复杂句 ‑简单句句对。
3.根据权利要求1或2所述的精简方法, 其特征在于, 所述监督信号包括句子长度比、 编
辑距离比、 词汇复杂度比和句法树深度比, 所述计算每个所述复杂句 ‑简单句句对的监督信
号, 包括:
计算每个所述句对中的简单句长度与复杂句长度的比值, 以获得 所述句子 长度比;
计算所述复杂句与 所述简单句之间的莱文斯坦距离, 并计算每个编 辑操作的莱文斯坦
距离比, 以获得 所述编辑距离比, 所述编辑操作包括: 删除、 插 入和替换;
计算所述复杂句的词汇复杂度与 所述简单句的词汇复杂度的比值, 以获得所述词汇复
杂度比, 其中, 通过词汇的词频表示所述词汇复杂度;
通过自然语言文本处理库分别获取所述复杂句和所述简单句的句法树深度, 计算所述
复杂句的句法树深度与所述简单句的句法树深度的比值, 以获得 所述句法树深度比。
4.根据权利要求1所述的精简方法, 其特征在于, 所述将每个所述监督信号以字符串的
形式添加至对应的句对中的初始复杂句的起始位置, 包括:
将每个所述句对的各个所述监督信号, 以在监督信号名称后设置监督信号比值的形式
依次添加至对应的复杂句的所述 起始位置之前。
5.根据权利要求1所述的精简方法, 其特征在于, 所述对预设的基于编码器 ‑解码器的
多语种预训练模型进行模型剪枝, 包括:
选取中文语句中常用的标点符号、 数字、 英文字母和高频的中文词, 作为 新的词汇 表;
将所述多语种预训练模型的原始词汇表替换为所述新的词汇表, 并更新所述多语种预
训练模型的输入向量和输出向量的表示 参数, 以更新所述多语种预训练模型;权 利 要 求 书 1/2 页
2
CN 114757203 A
2保存所述 新的词汇 表和更新后的预训练模型。
6.根据权利要求1所述的精简方法, 其特征在于, 所述评测所述中文句子简化模型的简
化效果, 包括:
将所述预测的精简句子与标准的参 考精简句子进行对比;
通过预设的多个评测指标对所述中文句子简化模型的简化效果进行评测, 所述多个评
测指标包括: BLEU ‑4指标、 Rouge ‑L指标和SARI指标。
7.一种基于对比学习的中文句子精简系统, 其特 征在于, 包括:
挖掘模块, 用于基于无监 督学习方式挖掘多个 语义相似的复杂句 ‑简单句句对;
计算模块, 用于计算每 个所述复杂句 ‑简单句句对的监 督信号;
第一生成模块, 用于将每个所述监督信号以字符串的形式添加至对应的句对中的复杂
句的起始 位置, 生成有监督信号的复杂句 ‑简单句句对的数据集, 并按照预设比例将所述有
监督信号的复杂句 ‑简单句句对的数据集划分为训练集、 验证集和 测试集;
第二生成模块, 用于对预设的基于编码器 ‑解码器的多语种预训练模型进行模型剪枝,
以获得中文单语种预训练模型;
训练模块, 用于基于所述训练集和所述验证集, 引入对比学习损 失对所述中文单语种
预训练模型进行微调, 联合训练出中文句子简化模型;
第三生成模块, 用于将所述测试集中的复杂句输入至所述中文句子简化模型, 通过所
述中文句 子简化模型生成预测的精简句 子, 评测所述中文句 子简化模型 的简化效果, 并在
所述简化效果大于预设阈值时, 通过所述中文句子简化模型对待简化的中文句子进行精
简。
8.根据权利要求7 所述的系统, 其特 征在于, 所述挖掘模块, 具体用于:
从预设的资源库中获取 大数据量中文句子;
通过语言工具库获取每个句子的向量并创建索引, 挖掘出每个句子对应的多个相似候
选句子;
对每个句子对应的所述候选句子进行条件过滤, 确定每个句子对应的目标句子, 生成
所述多个 语义相似的复杂句 ‑简单句句对。
9.根据权利要求7或8所述的系统, 其特征在于, 所述监督信号包括句子长度比、 编辑距
离比、 词汇复杂度比和句法树深度比, 所述计算模块, 具体用于:
计算每个所述句对中的简单句长度与复杂句长度的比值, 以获得 所述句子 长度比;
计算所述复杂句与 所述简单句之间的莱文斯坦距离, 并计算每个编 辑操作的莱文斯坦
距离比, 以获得 所述编辑距离比, 所述编辑操作包括: 删除、 插 入和替换;
计算所述复杂句的词汇复杂度与 所述简单句的词汇复杂度的比值, 以获得所述词汇复
杂度比, 其中, 通过词汇的词频表示所述词汇复杂度;
通过自然语言文本处理库分别获取所述复杂句和所述简单句的句法树深度, 计算所述
复杂句的句法树深度与所述简单句的句法树深度的比值, 以获得 所述句法树深度比。
10.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计
算机程序被处理器执行时实现如权利要求 1‑6中任一所述的基于对比学习的中文句子精简
方法。权 利 要 求 书 2/2 页
3
CN 114757203 A
3
专利 基于对比学习的中文句子精简方法和系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:20上传分享