专利 一种基于预训练胶囊网络的蒙古语方面级情感分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210264289.2 (22)申请日 2022.03.17 (71)申请人内蒙古工业大学地址 010080 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区 (72)发明人苏依拉　杨佩恒　杨蕾　邱占杰　司赟　朱苏东　仁庆道尔吉　吉亚图　 (74)专利代理机构西安智大知识产权代理事务所 61215 专利代理师段俊涛 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/58(2020.01) G06F 40/126(2020.01)G06F 40/284(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于预训练胶囊网络的蒙古语方面级情感分析方法 (57)摘要一种基于预训练胶囊网络的蒙古语方面级情感分析方法，收集整理语料，构建汉蒙神经机器翻译模型，用汉蒙平行语料进行训练，将有标注的汉语情感语料翻译为蒙语情感语料；基于深度注意力胶囊网络构建用于预训练的模型，用无标注的蒙语文本语料对构建的模型进行预训练，得到预训练过的蒙语语言模型；用蒙语情感语料对蒙语语言模型进行情感增强预训练；最后利用方面级蒙语文本情感语料对情感增强后的模型进行微调，本发明可解决蒙古语有标注文本稀缺的问题，并提高了蒙古语情感分析结果的精度。权利要求书2页说明书5页附图4页 CN 114742064 A 2022.07.12 CN 114742064 A 1.一种基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，包括如下步骤：步骤1，收集整理语料，所述语料包括无标注的蒙语文本语料、有标注的汉语情感语料和汉蒙平行语料，所述有标注的汉语情感语料包括方面级汉语情感语料；步骤2，构建汉蒙神经机器翻译模型，用所述汉蒙平行语料对其进行训练；步骤3，用步骤2训练的汉蒙神经机器翻译模型将所述有标注的汉语情感语料翻译为蒙语情感语料；步骤4，构建用于预训练的模型，所述用于预训练的模型采用深度注意力胶囊网络；步骤5，用所述无标注的蒙语文本语料对步骤4中构建的模型进行预训练，得到预训练过的蒙语语言模型；步骤6，用所述蒙语情感语料对步骤5所得模型进行情感增强预训练；步骤7，利用方面级汉语情感语料翻译得到的方面级蒙语文本情感语料，对步骤6情感增强后的模型进行微调。 2.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤1中，收集整理语料包括文本数据爬取和文本预处理；所述文本预处理包括清洗、分词和构建蒙语词典；其中，清洗的内容包括：去掉无用的标签、特殊符号、标点符号；分词是将蒙语文本分割成由token组成的列表；构建蒙语词典是对所述列表进行词频统计并按照词频排序，将每个蒙语单词映射为词频排序的序号，构建出蒙语单词到自然数的词典。 3.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤2中，汉蒙神经机器翻译模型采用编码器 ‑解码器架构；其中，编码器采用ERNIE 预训练模型，解码器采用Transformer解码器。 4.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤4，在深度注意力胶囊网络中加入残差连接以增强模型的泛化能力和鲁棒性。 5.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤4，所述用于预训练的模型的结构如下： 1)模型的第一层为嵌入层，将输入的文本序列中的每个token转为实数向量，向量的长度为超参数d； 2)对嵌入后的序列进行位置编码； 3)对位置编码后的序列用多头自注意力机制提取文本内的依赖关系； 4)多头自注意力的输出送入胶囊网络模块，胶囊网络模块由两层胶囊组成，每层包含 20个胶囊，每个胶囊有10个神经元，两层胶囊之间的交互使用动态路由算法； 5)由3)和4)组成的多头自注意力加双层胶囊的结构作为一个模块，重叠n层； 6)之后加入最终的胶囊层用于分类，将模型提取到的文本语义特征和情感特征进行分类，从而判断文本的情感极性。 6.根据权利要求5所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，每个所述胶囊的输出均为一个向量，向量的方向代表某个特征的位置和姿态信息，向量的模长代表该特征存在的概率，模长为0到1之间的实数，低层胶囊的输出路由到高层胶囊后，通过挤压的方式将向量模长压缩到0到1之间，挤压公式为： u1＝W1v1,u2＝W2v2权　利　要　求　书 1/2 页 2 CN 114742064 A 2s＝c1u1+c2u2 其中， W1和W2为可学习的参数矩阵， v1和v2为低层胶囊输出的向量， c1和c2为低层特征向量的权重， s为u1和u2的加权求和， u1和u2为可学习参数Wi和输入向量vi相乘得到的向量，该向量被编码了低层特征与高层特征之间的相对位置关系， v3为高层胶囊根据v1和v2计算得到的输出向量， v3的模长代表更高级别特征存在的概率，向量的方向代表特征的位姿信息。 7.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤5进行预训练时，对部分单词进行遮蔽以及对下一句进行预测，方法如下： 1)随机选择第一比例的token进行遮蔽并使用来自上下文的token以自监督的方式预测遮蔽的to ken； 2)预测下一句话，以显示地建模文本对之间的逻辑关系，在为预训练任务生成句子对时，有50％的概率它们是标签为 “真”的连续句子；在另外50％的概率下，第二个句子是从语料库中随机抽取的，标记为 “假”。 8.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤5进行预训练时，同时输入两个句子，模型判断该两个句子是否为相邻的两个句子，然后根据与真实值的损失进行梯度下降，从而更新模型参数。 9.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤6，采用情感MASK 策略对模型进行情感增强，步骤如下： 1)MASK方面词‑情感词对，在一个句子中，最多只MASK两对，且是随机的； 2)MASK情感词，在一个句子中，被MASK的token个数，不能超过当前句子的token总数的 10％； 3)MASK通用字，其执行的先决条件是，所述MASK情感词所占的token比例没有达到 10％， MASK通用字的个数补充没有达到10％的剩余个数。 10.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法，其特征在于，所述步骤7，对模型进行方面级情感分类微调，使其收敛至任务的局部最优解处。权　利　要　求　书 2/2 页 3 CN 114742064 A 3

专利 一种基于预训练胶囊网络的蒙古语方面级情感分析方法

专利一种基于预训练胶囊网络的蒙古语方面级情感分析方法