专利 中日词语自动对齐方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210397055.5 (22)申请日 2022.04.15 (71)申请人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人李泽中　任福继　孙晓　 (74)专利代理机构北京久诚知识产权代理事务所(特殊普通合伙) 11542 专利代理师王云海 (51)Int.Cl. G06F 40/189(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称中日词语自动对齐方法和系统 (57)摘要本发明提供一种中日词语自动对齐方法、系统、存储介质和电子设备，涉及语言翻译处理技术领域。本发明中，省略计算子词对齐过程，计算二次切分获取的第二子词序列中，任意中文子词和日语子词的上下文表示向量之间的语义相似度，构建子词相似度矩阵；根据子词相似度矩阵，获取任意一对双语词之间的词对齐分数，确定原始平行语料的对齐关系。直接从子词相似度矩阵计算出双语之间的词对齐分数，更充分地利用子词相似度矩阵所包含的信息，得到更精准和健壮的词对齐结果。权利要求书3页说明书10页附图2页 CN 114896959 A 2022.08.12 CN 114896959 A 1.一种中日词语自动对齐方法，其特征在于，包括：将原始平行语料进行词语切分，获取词序列；将原始平行语料进行子词切分，获取第一子词序列；加载预训练好的mBert模型在切分子词后的平行语料上进行参数微调，获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量；进一步切分所述第一子词序列，获取第二子词序列，所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语，且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量；计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度，构建子词相似度矩阵；根据所述子词相似度矩阵，获取任意一对双语词之间的词对齐分数，确定原始平行语料的对齐关系。 2.如权利要求1所述的中日词语自动对齐方法，其特征在于，所述mBert模型在预训练过程的目标函数L表示如下： L＝LMLM+LTLM+λLCC 其中， LMLM表示基于掩码语言模型的子目标函数： LMLM＝‑logp(E|Emask)‑logp(F|Fmask) Emask表示中文句子 E掩码掉若干子词之后的子词序列； Fmask为日文句子F掩码掉若干子词之后的子词序列； p(E|Emask)表示Emask还原为原始句子E的概率； p(F|Fmask)表示Fmask还原为原始句子F的概率； LTLM表示基于翻译语言模型的子目标函数： LTLM＝‑logp([E； F]|[Emask； Fmask])‑logp([F； E]|[Fmask； Emask]) [E； F]、 [F； E]均表示句对拼接为一个句子，对应不同的拼接顺序； LCC表示基于共同汉字监督信号的子目标函数： i,j分别为满足中文子词ei和日语子词fj为共同汉字的所有双语词对的下标；表示的ei在mBERT模型中第k层的上下文表示向量；表示的fj在mBERT模型中第k层的上下文表示向量； λ表示权重。 3.如权利要求2所述的中日词语自动对齐方法，其特征在于，所述中文子词ei和日语子词fj为共同汉字的判断原则包括：两者字形完全等同，或者作为健值对存在于预先构建的同源汉字映射字典中；所述同源汉字映射字典中，健为日文汉字，值为中文汉字，且将中日汉字之间一对一、一对多或者多对一的映射关系均拆分为一对一的映射关系。 4.如权利要求1～3任一项所述的中日词语自动对齐方法，其特征在于，所述根据所述权　利　要　求　书 1/3 页 2 CN 114896959 A 2子词相似度矩阵，获取任意一对双语词之间的词对齐分数，确定原始平行语料的对齐关系，具体包括： S61、根据所述子词相似度矩阵，获取内部概率和外部概率；其中，定义中文词Ei由下标[i1,i2]范围内的子词序列组成，日语词Fj由下标[j1,j2]范围内的子词序列组成； in(i1,i2,j1,j2)表示所述子词相似度矩阵的内部区域， out(i1,i2,j1,j2)表示所述子词相似度矩阵的外部区域； α(i1,i2,j1,j2)记作内部概率，这个值越大表示中文词Ei和日语词Fj的互译概率越大，反之则越小； β(i1,i2,j1,j2)记作外部概率，这个值越大表示中文词Ei和除Fj外的其他日语词，或者除Ei外的其他中文词和日语词Fj的互译概率越小，反之则越大； S62、根据所述内部概率和外部概率，获取任意一对双语词之间的词对齐分数； Pij＝α(i1,i2,j1,j2)β(i1,i2,j1,j2) 词对齐分数矩阵中的元素Pij表示中文词Ei和日语词Fj之间的次相似度； S63、将所述词对齐分数Pij与预设阈值P ′进行比较，若Pij≥P′，则视为对应的中文词Ei 和日语词Fj之间存在对齐关系，最终确定原始平行语料的对齐关系。 5.如权利要求3所述的中日词语自动对齐方法，其特征在于，所述将原始平行语料进行子词切分的切分原则包括：中、日文中的所有汉字均独自成为一个子词，其余连续字符串采用Wordpiece算法进行子词切分。 6.一种中日词语自动对齐系统，其特征在于，包括：词序列获取模块，用于将原始平行语料进行词语切分，获取词序列；第一子词获取模块，用于将原始平行语料进行子词切分，获取第一子词序列；向量获取模块，用于加载预训练好的mBert模型在切分子词后的平行语料上进行参数微调，获取所述第一子词序列中的每一个中文子词、每一个日语子词的上下文表示向量；第二子词获取模块，用于进一步切分所述第一子词序列，获取第二子词序列，所述第二子词序列中每一个子词只隶属于所述词序列中的单个词语，且二次切分获取的子词复制对应的一次切分获取的子词的上下文向量；相似度计算模块，用于计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相似度，构建子词相似度矩阵；对齐关系确定模块，用于根据所述子词相似度矩阵，获取任意一对双语词之间的词对齐分数，确定原始平行语料的对齐关系。 7.一种存储介质，其特征在于，其存储有用于中日词语自动对齐的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～5任一项所述的中日词语自动对齐方法。 8.一种电子设备，其特征在于，包括：权　利　要　求　书 2/3 页 3 CN 114896959 A 3

专利 中日词语自动对齐方法和系统

专利中日词语自动对齐方法和系统