专利 基于对比学习的中文句子精简方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210458189.3 (22)申请日 2022.04.27 (71)申请人北京智谱华章科技有限公司地址 100084 北京市海淀区中关村东路1号院6号楼6层6 03A (72)发明人王路路　张鹏　杜冀中　闫磊　陆弘锴　彭钰婷　刘佳　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于对比学习的中文句子精简方法和系统 (57)摘要本申请提出一种基于对比学习的中文句子精简方法和系统，该方法包括：基于无监督学习方式挖掘多个语义相似的复杂句 ‑简单句句对；计算每个句对的监督信号；将监督信号以字符串的形式添加至句对中复杂句的起始位置，生成有监督信号的复杂句 ‑简单句句对的数据集，并将数据集划分为训练集、验证集和测试集；对预设的基于编码器 ‑解码器的多语种预训练模型进行模型剪枝，获得中文单语种预训练模型；引入对比学习损失对中文单语种预训练模型进行微调，联合训练出中文句子简化模型；将测试集中的复杂句输入简化模型生成预测的精简句子，评测中文句子简化模型的效果。该方法可根据实际需求控制生成的简化句子，提高生成的简化句子的忠实度。权利要求书2页说明书10页附图2页 CN 114757203 A 2022.07.15 CN 114757203 A 1.一种基于对比学习的中文句子精简方法，其特征在于，包括以下步骤：基于无监督学习方式挖掘多个语义相似的复杂句 ‑简单句句对；计算每个所述复杂句 ‑简单句句对的监督信号；将每个所述监督信号以字符串的形式添加至对应的句对中的复杂句的起始位置，生成有监督信号的复杂句 ‑简单句句对的数据集，并按照预设比例将所述有监督信号的复杂句 ‑ 简单句句对的数据集划分为训练集、验证集和测试集；对预设的基于编码器 ‑解码器的多语种预训练模型进行模型剪枝，以获得中文单语种预训练模型；基于所述训练集和所述验证集，引入对比学习损失对所述中文单语种预训练模型进行微调，联合训练出中文句子简化模型；将所述测试集中的复杂句输入至所述中文句子简化模型，通过所述中文句子简化模型生成预测的精简句子，并评测所述中文句子简化模型的简化效果，在所述简化效果大于预设阈值时，通过所述中文句子简化模型对待简化的中文句子进行精简。 2.根据权利要求1所述的精简方法，其特征在于，所述基于无监督学习方式挖掘多个语义相似的复杂句 ‑简单句句对，包括：从预设的资源库中获取大数据量中文句子；通过语言工具库获取每个句子的向量并创建索引，挖掘出每个句子对应的多个相似候选句子；对每个句子对应的所述候选句子进行条件过滤，确定每个句子对应的目标句子，生成所述多个语义相似的复杂句 ‑简单句句对。 3.根据权利要求1或2所述的精简方法，其特征在于，所述监督信号包括句子长度比、编辑距离比、词汇复杂度比和句法树深度比，所述计算每个所述复杂句 ‑简单句句对的监督信号，包括：计算每个所述句对中的简单句长度与复杂句长度的比值，以获得所述句子长度比；计算所述复杂句与所述简单句之间的莱文斯坦距离，并计算每个编辑操作的莱文斯坦距离比，以获得所述编辑距离比，所述编辑操作包括：删除、插入和替换；计算所述复杂句的词汇复杂度与所述简单句的词汇复杂度的比值，以获得所述词汇复杂度比，其中，通过词汇的词频表示所述词汇复杂度；通过自然语言文本处理库分别获取所述复杂句和所述简单句的句法树深度，计算所述复杂句的句法树深度与所述简单句的句法树深度的比值，以获得所述句法树深度比。 4.根据权利要求1所述的精简方法，其特征在于，所述将每个所述监督信号以字符串的形式添加至对应的句对中的初始复杂句的起始位置，包括：将每个所述句对的各个所述监督信号，以在监督信号名称后设置监督信号比值的形式依次添加至对应的复杂句的所述起始位置之前。 5.根据权利要求1所述的精简方法，其特征在于，所述对预设的基于编码器 ‑解码器的多语种预训练模型进行模型剪枝，包括：选取中文语句中常用的标点符号、数字、英文字母和高频的中文词，作为新的词汇表；将所述多语种预训练模型的原始词汇表替换为所述新的词汇表，并更新所述多语种预训练模型的输入向量和输出向量的表示参数，以更新所述多语种预训练模型；权　利　要　求　书 1/2 页 2 CN 114757203 A 2保存所述新的词汇表和更新后的预训练模型。 6.根据权利要求1所述的精简方法，其特征在于，所述评测所述中文句子简化模型的简化效果，包括：将所述预测的精简句子与标准的参考精简句子进行对比；通过预设的多个评测指标对所述中文句子简化模型的简化效果进行评测，所述多个评测指标包括： BLEU ‑4指标、 Rouge ‑L指标和SARI指标。 7.一种基于对比学习的中文句子精简系统，其特征在于，包括：挖掘模块，用于基于无监督学习方式挖掘多个语义相似的复杂句 ‑简单句句对；计算模块，用于计算每个所述复杂句 ‑简单句句对的监督信号；第一生成模块，用于将每个所述监督信号以字符串的形式添加至对应的句对中的复杂句的起始位置，生成有监督信号的复杂句 ‑简单句句对的数据集，并按照预设比例将所述有监督信号的复杂句 ‑简单句句对的数据集划分为训练集、验证集和测试集；第二生成模块，用于对预设的基于编码器 ‑解码器的多语种预训练模型进行模型剪枝，以获得中文单语种预训练模型；训练模块，用于基于所述训练集和所述验证集，引入对比学习损失对所述中文单语种预训练模型进行微调，联合训练出中文句子简化模型；第三生成模块，用于将所述测试集中的复杂句输入至所述中文句子简化模型，通过所述中文句子简化模型生成预测的精简句子，评测所述中文句子简化模型的简化效果，并在所述简化效果大于预设阈值时，通过所述中文句子简化模型对待简化的中文句子进行精简。 8.根据权利要求7 所述的系统，其特征在于，所述挖掘模块，具体用于：从预设的资源库中获取大数据量中文句子；通过语言工具库获取每个句子的向量并创建索引，挖掘出每个句子对应的多个相似候选句子；对每个句子对应的所述候选句子进行条件过滤，确定每个句子对应的目标句子，生成所述多个语义相似的复杂句 ‑简单句句对。 9.根据权利要求7或8所述的系统，其特征在于，所述监督信号包括句子长度比、编辑距离比、词汇复杂度比和句法树深度比，所述计算模块，具体用于：计算每个所述句对中的简单句长度与复杂句长度的比值，以获得所述句子长度比；计算所述复杂句与所述简单句之间的莱文斯坦距离，并计算每个编辑操作的莱文斯坦距离比，以获得所述编辑距离比，所述编辑操作包括：删除、插入和替换；计算所述复杂句的词汇复杂度与所述简单句的词汇复杂度的比值，以获得所述词汇复杂度比，其中，通过词汇的词频表示所述词汇复杂度；通过自然语言文本处理库分别获取所述复杂句和所述简单句的句法树深度，计算所述复杂句的句法树深度与所述简单句的句法树深度的比值，以获得所述句法树深度比。 10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1‑6中任一所述的基于对比学习的中文句子精简方法。权　利　要　求　书 2/2 页 3 CN 114757203 A 3

专利 基于对比学习的中文句子精简方法和系统

专利基于对比学习的中文句子精简方法和系统