安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210264289.2 (22)申请日 2022.03.17 (71)申请人 内蒙古工业大 学 地址 010080 内蒙古自治区呼和浩特市土 默特左旗内蒙古工业大 学金川校区 (72)发明人 苏依拉 杨佩恒 杨蕾 邱占杰 司赟 朱苏东 仁庆道尔吉 吉亚图 (74)专利代理 机构 西安智大知识产权代理事务 所 61215 专利代理师 段俊涛 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/58(2020.01) G06F 40/126(2020.01)G06F 40/284(2020.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于预训练胶囊网络的蒙古语方面级 情感分析方法 (57)摘要 一种基于预训练胶囊网络的蒙古语方面级 情感分析方法, 收集整理语料, 构建汉蒙神经机 器翻译模型, 用汉蒙平行语料进行训练, 将有标 注的汉语情感语料翻译为蒙语情感语料; 基于深 度注意力胶囊网络构建用于预训练的模型, 用无 标注的蒙语文本语料对构建的模 型进行预训练, 得到预训练过的蒙语语言模型; 用蒙语情感语料 对蒙语语言模 型进行情感增强预训练; 最后利用 方面级蒙语文本情感语料对情感增强后的模型 进行微调, 本发 明可解决蒙古语有标注文本稀缺 的问题, 并提高了蒙古语情感分析 结果的精度。 权利要求书2页 说明书5页 附图4页 CN 114742064 A 2022.07.12 CN 114742064 A 1.一种基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在于, 包括如下步 骤: 步骤1, 收集整理语料, 所述语料包括无标注 的蒙语文本语料、 有标注 的汉语情感语料 和汉蒙平行语料, 所述有标注的汉语情感语料包括方面级 汉语情感语料; 步骤2, 构建汉蒙神经机器翻译模型, 用所述汉蒙平行语料对其进行训练; 步骤3, 用步骤2训练的汉蒙神经机器翻译模型将所述有标注的汉语情 感语料翻译为蒙 语情感语料; 步骤4, 构建用于预训练的模型, 所述用于预训练的模型采用深度注意力胶囊网络; 步骤5, 用所述无标注 的蒙语文本语料对步骤4中构建的模型进行预训练, 得到预训练 过的蒙语 语言模型; 步骤6, 用所述 蒙语情感语料对步骤5所 得模型进行情感增强预训练; 步骤7, 利用方面级汉语情感语料翻译得到的方面级蒙语文本情感语料, 对步骤6情感 增强后的模型进行微调。 2.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤1中, 收集整理语料包括文本数据爬取和文本预处理; 所述文本预处理包括清 洗、 分词和构建蒙语词典; 其中, 清洗的内容包括: 去掉无用的标签、 特殊符号、 标点符号; 分 词是将蒙语文本分割成由token组成的列表; 构建蒙语词典是对所述列表进行词频统计并 按照词频排序, 将每 个蒙语单词映射 为词频排序的序号, 构建出蒙语单词到自然数的词典。 3.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤2中, 汉蒙神经机器翻译模 型采用编码器 ‑解码器架构; 其中, 编码器采用ERNIE 预训练模型, 解码器采用Transformer解码器。 4.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤4, 在深度注意力胶囊网络中加入残差连接以增强模型的泛化能力和鲁棒 性。 5.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤4, 所述用于预训练的模型的结构如下: 1)模型的第一层为嵌入层, 将输入的文本序列中的每个token转为实数向量, 向量的长 度为超参数d; 2)对嵌入后的序列进行位置编码; 3)对位置编码后的序列用多头自注意力机制提取文本内的依赖关系; 4)多头自注意力的输出送入胶囊网络模块, 胶囊网络模块由两层胶囊组成, 每层包含 20个胶囊, 每 个胶囊有10个神经 元, 两层胶囊之间的交 互使用动态路由算法; 5)由3)和4)组成的多头自注意力加双 层胶囊的结构作为 一个模块, 重 叠n层; 6)之后加入最终的胶囊层用于分类, 将模型提取到的文本语义特征和情 感特征进行分 类, 从而判断文本的情感极性。 6.根据权利要求5所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 每个所述胶 囊的输出均为一个向量, 向量的方向代表某个特征的位置和姿态信息, 向量 的模长代表该特征存在的概率, 模长为0到1之间的实数, 低层胶囊的输出路由到高层胶囊 后, 通过挤压的方式将向量模长 压缩到0到1之间, 挤压公式为: u1=W1v1,u2=W2v2权 利 要 求 书 1/2 页 2 CN 114742064 A 2s=c1u1+c2u2 其中, W1和W2为可学习的参数矩阵, v1和v2为低层胶囊输出的向量, c1和c2为低层特征向 量的权重, s为u1和u2的加权求和, u1和u2为可学习参数Wi和输入向量vi相乘得到的向量, 该 向量被编码了低层特征与高层特征之间的相 对位置关系, v3为高层胶囊根据v1和v2计算得 到的输出向量, v3的模长代 表更高级别特 征存在的概 率, 向量的方向代 表特征的位姿信息 。 7.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤5进行 预训练时, 对部分单词进行遮蔽以及对下一句进行 预测, 方法如下: 1)随机选择第一比例的token进行遮蔽并使用来自上下文的token以自监督的方式预 测遮蔽的to ken; 2)预测下一句话, 以显示地建模文本对之间的逻辑关系, 在为预训练任务生成句子对 时, 有50%的概率它们是标签为 “真”的连续句子; 在另外50%的概率下, 第二个句子是从语 料库中随机抽取的, 标记为 “假”。 8.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤5进行预训练时, 同时输入两个句子, 模型判断该两个句 子是否为相邻的两个 句子, 然后根据与真实值的损失进行梯度下降, 从而更新模型参数。 9.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤6, 采用情感MASK 策略对模型进行情感增强, 步骤如下: 1)MASK方面词‑情感词对, 在一个句子中, 最多只MASK两对, 且是随机的; 2)MASK情感词, 在一个句子中, 被MASK的token个数, 不能超过当前句子的token总数的 10%; 3)MASK通用字, 其执行的先决条件是, 所述MASK情感词所占的token比例没有达到 10%, MASK通用字的个数补充没有达 到10%的剩余个数。 10.根据权利要求1所述基于预训练胶囊 网络的蒙古语方面级情感分析方法, 其特征在 于, 所述步骤7, 对 模型进行 方面级情感分类微调, 使其收敛至任务的局部最优解处。权 利 要 求 书 2/2 页 3 CN 114742064 A 3
专利 一种基于预训练胶囊网络的蒙古语方面级情感分析方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:04
上传分享
举报
下载
原文档
(572.9 KB)
分享
友情链接
DB5104-T 54.1-2022 节能改造技术规范 第1部分:水泵系统 攀枝花市.pdf
ISO IEC IEEE FDIS 42010-2022(E) Software, systems and enterprise—Architecture description.pdf
GB-T 10001.1-2023 公共信息图形符号 第1部分:通用符号.pdf
DB50-T 1279-2022 民用醇基液体燃料应用技术规程 重庆市.pdf
T-ZLDX 001—2023 中国老年大学 学校 “游学养”建设与 评价规范.pdf
GB-T 34944-2017 Java语言源代码漏洞测试规范.pdf
GB-T 36568-2018 光伏方阵检修规程.pdf
GB-T 8013.1-2018 铝及铝合金阳极氧化膜与有机聚合物膜 第1部分:阳极氧化膜.pdf
GB-T 13061-2017 商用车空气悬架用空气弹簧技术规范.pdf
DB13-T 5945—2024 地面沉降监测分层标施工技术规程 河北省.pdf
DB42-T 1505-2019 湖北美丽乡村建设规范 湖北省.pdf
GB-T 18018-2019 信息安全技术 路由器安全技术要求.pdf
硅创社2024002-AIGC2023~2024书单截止1月 2024.pdf
T-CESA 1045—2019 智能音箱技术规范.pdf
T-GSA 2—2018 信息化项目软件开发费用测算规范.pdf
NY-T 3664-2020 手扶式茎叶类蔬菜收获机质量评价技术规范.pdf
GB-T 34608-2017 节水型企业 铁矿采选行业.pdf
GB-T 40659-2021 智能制造 机器视觉在线检测系统 通用要求.pdf
GB-T 25285.1-2021 爆炸性环境 爆炸预防和防护 第1部分:基本原则和方法.pdf
CISA考试复习手册第26版(中文版).pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(572.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。