安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210405606.8 (22)申请日 2022.04.18 (71)申请人 南通大学 地址 226019 江苏省南 通市啬园路9号 (72)发明人 陈翔 郑炜 王通 陈雪骄 林浩 周彦琳 缪芸 苏展 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/211(2020.01) (54)发明名称 基于辅助翻译软件和双粒度替换的英中翻 译软件测试方法 (57)摘要 本发明属于机器翻译质量检测技术领域, 公 开了一种基于辅助翻译软件和双粒度替换的英 中翻译软件测试方法。 针对需要测试的一系 列英 文源句, 首先借助辅助翻译软件, 通过计算主英 中机器翻译软件和辅助英中机器翻译软件的翻 译结果间的余弦相似度, 识别出错误候选句子。 随后对英文源句进行双粒度替换, 以生成替换后 的英文源句。 并基于成分句法分析和依存句法分 析, 通过对比原始英文源句和替换后的英文源句 在主英中机器翻译软件的翻译结果的结构表征 来进一步识别出错误候选句子。 最后通过分析被 归为错误候选句子的英文源句, 尝试定位并修复 英中翻译软件测试方法的实现代码, 以提高英中 翻译软件的翻译质量。 权利要求书2页 说明书9页 附图1页 CN 115130480 A 2022.09.30 CN 115130480 A 1.一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法, 其特征在于, 包括 如下步骤: (1)将被测英中机器翻译软件视为主英中机器翻译软件, 其他三个英中机器翻译软件 视为辅助英中机器翻译软件, 针对需要测试的一系列英文源句, 依次分析每 个英文源句; 所述分析每个英文源句具体为: 给定一个英文源句, 将主英中机器翻译软件的翻译结 果, 即中文目标句A, 与辅助英中机器翻译软件的翻译结果进行对比, 在对比的时候主要基 于余弦相似度来计算翻译 结果之间的相似度, 将三个辅助英中机器翻译 软件生成的中文目 标句定义为A1、 A2、 A3。 首先将相似度阈值设置为0.85, 计算A1、 A2、 A3两两之间的余弦相似度, 若两句间的余弦相似度超过阈值0.85, 则认为这两个句子相似, 根据上述 结果, 可以将A1、 A2 和A3归到不同的集 合中, 使得处在同一 集合内的中文目标句两 两相似; 根据集合划分的结果, 存在两种情况: 情况1: A1、 A2、 A3被归到不同集合 内, 将该英文源句视为错误候选句子, 人工分析错误类 型, 并进行归类错误类型包括: 翻译不 足、 翻译过度、 逻辑不清、 单词误译、 单词歧义、 错误修 饰; 情况2: 有集合包含的中文目标句不少于2个, 将中文目标句A与该集合内的中文目标句 进行余弦相似度计算并取均值, 若均值低于相似度阈值0.85, 则将该英文源句视为错误候 选句子, 人工分析错 误类型。 针对剩余未被归为 错误候选句子的英文源句, 则进入步骤(2); (2)针对步骤(1)中剩余未被归为错误候选句子的英文源句, 依次分析每个英文源句, 具体来说: 对需要分析的英文源句进 行双粒度替换, 以生 成替换后的英文源句。 随后基于成 分句法分析和依存句法分析, 通过对比原始英文源句和替换后的英文源句在主英中机器翻 译软件的翻译 结果的结构表征, 以判断是否存在翻译错误, 并随后人工 分析错误类型, 并进 行归类; 具体包括如下步骤: 2‑1)选择英文源句中 需要替换的单词或者短语; 2‑2)基于BERT遮蔽语言模型, 完成单词粒度的替换或者短语粒度的替换, 以生成替换 后的英文源句; 其中, 单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文 源句中的一个单词, 以完成单词粒度的替换, 主要考虑名词、 形容词和 动词三个成分); 短语 粒度的替换 是在单词粒度的基础上, 组合出主谓短语和动宾短语进行替换; 具体包括以下步骤: 将需要替换的单词和短语用MASK进行标记, 随后将标记过的英文源句输入BERT遮蔽语 言模型, 该模型可以根据句 子的上下文预测被遮蔽位置的单词或短语, 最后用预测出 的单 词或短语替换英文源句中对应位置的单词或短语, 以得到基于单词粒度或短语粒度的替换 句; BERT模型的超参与超参取值设置如下: 所述BERT模型的一次训练所抓取的数据样本数量设置为16; 所述BERT模型的学习率设置为0.0 0002; 所述BERT模型的dropout设置为0.1; 所述BERT模型的训练轮次设置为3轮;权 利 要 求 书 1/2 页 2 CN 115130480 A 2所述BERT模型的每 个样本的最大长度, 即最大 单词数设置为128; 2‑3)基于成分句法分析和依存句法分析, 依次分析英文源句和生成的替换句; 具体包括以下步骤: 假设原始英文源句为s, 基于主英中机器翻译软件得到的中文目标句为t, 替换后的英 文源句为s ’, 基于主英中机器翻译软件得到的中文目标句为t ’; 通过成分句法分析 得到中文目标句t和中文目标句t ’的结构表征; 通过集合差的方式, 计算出中文目标句t的结构表征与中文目标句t ’的结构表征的差 值, 并将该差值包 含的元素数作为基于成分句法分析 得到的差异值dif f1; 通过依存句法分析得到中文目标句t和中文目标句t ’的结构表征, 通过集合差的方式, 计算出中文目标句t的结构表征与中文目标句t ’的结构表征的差值, 并将该差值包含的元 素数作为基于依存句法分析 得到的差异值dif f2; 将差异值diff1和差异值diff2相加, 最终可以得到针对原始英文源句s和英文源句s ’ 的最终差值; 若 该差值超过阈值6, 则将 英文源句s和英文源句s ’视为错误候选句子, 人工 分 析错误类型, 并进行归类。 (3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句, 尝试定位并修复英中 翻译软件测试 方法的实现代码, 以提高英中翻译软件的翻译质量。权 利 要 求 书 2/2 页 3 CN 115130480 A 3
专利 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:58
上传分享
举报
下载
原文档
(984.6 KB)
分享
友情链接
GB-T 28799.2-2020 冷热水用耐热聚乙烯(PE-RT)管道系统 第2部分:管材.pdf
T-CAMDI 095—2022 基于增材制造的皮肤修复产品的通用要求.pdf
GB-T 2965-2023 钛及钛合金棒材.pdf
NB-T 10354-2019 管束式集装箱.pdf
T-ZSA 37—2020 移动智能终端密码技术政企应用指南.pdf
AQ 3009-2007 危险场所电气防爆安全规范.pdf
T-JSQX 0011—2022 江苏省纯电动重型卡车换电电池包系统技术规范.pdf
GB-T 24354-2023 公共地理信息通用地图符号.pdf
GB-T 31989-2015 高压电力用户用电安全.pdf
GB 30510-2018 重型商用车辆燃料消耗量限值.pdf
GB-T 12688.5-2019 工业用苯乙烯试验方法 第5部分:总醛含量的测定 滴定法.pdf
GB-T 32831-2016 高能激光光束质量评价与测试方法.pdf
数据资产管理制度.pdf
DB4403-T 27-2019 城市轨道交通警用安全防范系统与通信系统技术规范 深圳市.pdf
DL-T 711-2019 汽轮机调节保安系统试验导则.pdf
GB-T 37539-2019 火电厂腐蚀控制工程全生命周期要求.pdf
T-SSITS 503—2022 工业应用移动机器人 复合机器人技术规范.pdf
T-CESA 1149—2021 人工智能芯片应用 面向病理图像分析辅助诊断系统的技术要求.pdf
GB-T 42381.130-2023 数据质量 第130部分:主数据:特征数据交换:准确性.pdf
SN-T 5415.4-2022 输“一带一路”沿线国家产品安全项目检验指南 纺织品 第4部分:东南亚.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(984.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。