安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210405606.8 (22)申请日 2022.04.18 (71)申请人 南通大学 地址 226019 江苏省南 通市啬园路9号 (72)发明人 陈翔 郑炜 王通 陈雪骄 林浩  周彦琳 缪芸 苏展  (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) (54)发明名称 基于辅助翻译软件和双粒度替换的英中翻 译软件测试方法 (57)摘要 本发明属于机器翻译质量检测技术领域, 公 开了一种基于辅助翻译软件和双粒度替换的英 中翻译软件测试方法。 针对需要测试的一系 列英 文源句, 首先借助辅助翻译软件, 通过计算主英 中机器翻译软件和辅助英中机器翻译软件的翻 译结果间的余弦相似度, 识别出错误候选句子。 随后对英文源句进行双粒度替换, 以生成替换后 的英文源句。 并基于成分句法分析和依存句法分 析, 通过对比原始英文源句和替换后的英文源句 在主英中机器翻译软件的翻译结果的结构表征 来进一步识别出错误候选句子。 最后通过分析被 归为错误候选句子的英文源句, 尝试定位并修复 英中翻译软件测试方法的实现代码, 以提高英中 翻译软件的翻译质量。 权利要求书2页 说明书9页 附图1页 CN 115130480 A 2022.09.30 CN 115130480 A 1.一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法, 其特征在于, 包括 如下步骤: (1)将被测英中机器翻译软件视为主英中机器翻译软件, 其他三个英中机器翻译软件 视为辅助英中机器翻译软件, 针对需要测试的一系列英文源句, 依次分析每 个英文源句; 所述分析每个英文源句具体为: 给定一个英文源句, 将主英中机器翻译软件的翻译结 果, 即中文目标句A, 与辅助英中机器翻译软件的翻译结果进行对比, 在对比的时候主要基 于余弦相似度来计算翻译 结果之间的相似度, 将三个辅助英中机器翻译 软件生成的中文目 标句定义为A1、 A2、 A3。 首先将相似度阈值设置为0.85, 计算A1、 A2、 A3两两之间的余弦相似度, 若两句间的余弦相似度超过阈值0.85, 则认为这两个句子相似, 根据上述 结果, 可以将A1、 A2 和A3归到不同的集 合中, 使得处在同一 集合内的中文目标句两 两相似; 根据集合划分的结果, 存在两种情况: 情况1: A1、 A2、 A3被归到不同集合 内, 将该英文源句视为错误候选句子, 人工分析错误类 型, 并进行归类错误类型包括: 翻译不 足、 翻译过度、 逻辑不清、 单词误译、 单词歧义、 错误修 饰; 情况2: 有集合包含的中文目标句不少于2个, 将中文目标句A与该集合内的中文目标句 进行余弦相似度计算并取均值, 若均值低于相似度阈值0.85, 则将该英文源句视为错误候 选句子, 人工分析错 误类型。 针对剩余未被归为 错误候选句子的英文源句, 则进入步骤(2); (2)针对步骤(1)中剩余未被归为错误候选句子的英文源句, 依次分析每个英文源句, 具体来说: 对需要分析的英文源句进 行双粒度替换, 以生 成替换后的英文源句。 随后基于成 分句法分析和依存句法分析, 通过对比原始英文源句和替换后的英文源句在主英中机器翻 译软件的翻译 结果的结构表征, 以判断是否存在翻译错误, 并随后人工 分析错误类型, 并进 行归类; 具体包括如下步骤: 2‑1)选择英文源句中 需要替换的单词或者短语; 2‑2)基于BERT遮蔽语言模型, 完成单词粒度的替换或者短语粒度的替换, 以生成替换 后的英文源句; 其中, 单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文 源句中的一个单词, 以完成单词粒度的替换, 主要考虑名词、 形容词和 动词三个成分); 短语 粒度的替换 是在单词粒度的基础上, 组合出主谓短语和动宾短语进行替换; 具体包括以下步骤: 将需要替换的单词和短语用MASK进行标记, 随后将标记过的英文源句输入BERT遮蔽语 言模型, 该模型可以根据句 子的上下文预测被遮蔽位置的单词或短语, 最后用预测出 的单 词或短语替换英文源句中对应位置的单词或短语, 以得到基于单词粒度或短语粒度的替换 句; BERT模型的超参与超参取值设置如下: 所述BERT模型的一次训练所抓取的数据样本数量设置为16; 所述BERT模型的学习率设置为0.0 0002; 所述BERT模型的dropout设置为0.1; 所述BERT模型的训练轮次设置为3轮;权 利 要 求 书 1/2 页 2 CN 115130480 A 2所述BERT模型的每 个样本的最大长度, 即最大 单词数设置为128; 2‑3)基于成分句法分析和依存句法分析, 依次分析英文源句和生成的替换句; 具体包括以下步骤: 假设原始英文源句为s, 基于主英中机器翻译软件得到的中文目标句为t, 替换后的英 文源句为s ’, 基于主英中机器翻译软件得到的中文目标句为t ’; 通过成分句法分析 得到中文目标句t和中文目标句t ’的结构表征; 通过集合差的方式, 计算出中文目标句t的结构表征与中文目标句t ’的结构表征的差 值, 并将该差值包 含的元素数作为基于成分句法分析 得到的差异值dif f1; 通过依存句法分析得到中文目标句t和中文目标句t ’的结构表征, 通过集合差的方式, 计算出中文目标句t的结构表征与中文目标句t ’的结构表征的差值, 并将该差值包含的元 素数作为基于依存句法分析 得到的差异值dif f2; 将差异值diff1和差异值diff2相加, 最终可以得到针对原始英文源句s和英文源句s ’ 的最终差值; 若 该差值超过阈值6, 则将 英文源句s和英文源句s ’视为错误候选句子, 人工 分 析错误类型, 并进行归类。 (3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句, 尝试定位并修复英中 翻译软件测试 方法的实现代码, 以提高英中翻译软件的翻译质量。权 利 要 求 书 2/2 页 3 CN 115130480 A 3

.PDF文档 专利 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法 第 1 页 专利 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法 第 2 页 专利 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。