安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210447516.5 (22)申请日 2022.04.26 (71)申请人 河海大学 地址 211100 江苏省南京市江宁区佛城西 路8号 (72)发明人 朱李玥 戴梦瑶 刘文强 邢莉娟 柏雪嫣 (74)专利代理 机构 南京乐羽知行专利代理事务 所(普通合伙) 32326 专利代理师 李玉平 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/163(2020.01) G06F 40/166(2020.01) G06F 40/151(2020.01) G06F 40/53(2020.01) (54)发明名称 基于LDA和BERT融合改进模型的文本情感识 别方法 (57)摘要 本发明公开一种基于LDA和BERT融合改进模 型的文本情感识别方法, 该方法包括以下步骤: (1)获取社交网络文本, 进行预处理; (2)融合文 本的语义特征和主题特征, 输 出词向量矩阵; (3) 将特征输入双向Transformer编码器, 连接以梯 度优化改进后的Softmax层, 输出分类模型; (4) 向分类模型 投入正式语料, 微调参数, 改良模型。 使用得到的最终分类模型, 对社交网络文本进行 情感识别, 得到更精准识别结果。 权利要求书2页 说明书7页 附图2页 CN 114722835 A 2022.07.08 CN 114722835 A 1.一种基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在于, 使用LDA主题 分析获取社交网络文本主题特征, 使用BERT模型获取文本语义特征, 将二者词向量拼接投 入情感分类模型, 使得模型对文本情感更精准识别, 输出优化的分类模型, 用于文本情感的 识别, 包括如下步骤: 步骤1: 获取 社交网络文本语料集, 并对文本预处 理; 步骤2: 将预处理后的文本语料集投入BERT预训练模型提取语义特征, 获得语义特征的 词向量矩阵; 步骤3: 将预处理后的文本语料集投入LDA模型提取主题特征扩展, 与步骤2中所得语义 特征的词向量进行拼接, 获得融合语义和主题特 征的词向量矩阵; 步骤4: 搭建情感分类器, 重新将融合语义和主题特征的词向量传入双向Transformer 编码器, 用梯度优化Softmax回归模 型连接Transformer输出的向量, 适配多种任务, 训练后 输出分类模型; 步骤5: 将用于深度测试的社交文本语料集投入分类器进行深度预训练, 评估模型性 能, 进行参数微调, 得到训练好的分类模型, 对文本的情感倾向分类。 2.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤1中对文本预处 理的具体步骤 包括: 步骤S11: 文本清洗; 步骤S12: 分词和去除停用词: 根据中文停用词表去除无意义词汇, 然后再用jieba对文 本进行分词处 理; 步骤S13: 文本过 滤: 删除社交网络文本语料集中文本 长度不在设定 长度范围的文本 。 3.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤2中, 通过BERT预训练模型对预处理后的文本语料集数据进行语义特征提取, 每个词被分别映射成3个向量和表示wij(ω+δ+ρ ), 3个向量即文本的词向量、 文本向量和位 置向量。 4.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤3中, 将预处理后的文本语料集投入LDA模型提取主题特征扩展, 与步骤2中所 得语义特征的词向量进行拼接, 获得融合语 义和主题特征的词向量矩阵wij(ω+δ +ρ + μ ′), μ′ 为主题向量, 下文将该矩阵统称为词向量; 具体步骤 包括: 步骤S31: 统计文本语料集中的单词, 生成词典; 步骤S32: 利用Gensim模块内的LDA模型对语料进行训练, 再将得到的矩阵用tf ‑idf算 法加权处 理, 得到扩展的主题特 征向量; 步骤S33: 得到扩展的主题特征向量后, 与步骤2中所得语义特征的词向量进行拼接, 使 用向量拼接的方式完成主题力度下对文本的扩充, 这样就融合了BERT提取的语义特征和 LDA提取的主题特 征。 5.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤4将步骤3中输出融合语义和主题特征的词向量传入Transformer编码器, 而 Transformer的输出则被梯度下降优化后的Softmax层连接, 用于适配多任务的执行, 具体 包括如下步骤: 步骤S1: 词向量 wij(ω+δ +ρ + μ ′)传入双向Transformer编码器;权 利 要 求 书 1/2 页 2 CN 114722835 A 2步骤S2: 词向量经 过Self‑Attention层, 首先计算Query、 Key、 Value矩阵; 步骤S3: 根据公式: 自注意力机制计算公式计算Attention, Softmax为归一化指数函 数, 使得输出的特 征元素和为1; 步骤S4: 设置注意力头he ad个数参数, 设置head=n, 则将n个S elf‑Attention矩阵横向 拼接, 最后使用附加的权 重矩阵与Self ‑Attention相乘使其压缩成一个矩阵。 步骤S5: 执行情感分类任务, 针对语料集中每个句子的词向量以及对应的样本类别, 接 入单层神经网络Softmax获取输出。 步骤S6: 执行Masked LM任务, 针对训练样本中的每个句子随机掩盖其中设定比例的词 用于预测, 按照设定比例用剩余的词预测被掩盖词部位的输出。 步骤S7: 执行NSP任务, 针对训练样本中的每个句子选取两个句子A和B, A为正确的下个 句子, B则为 错误的下个句子, 使用CLS令牌输出获取二进制 损失。 步骤S8: 输出初步的分类模型。 6.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤5中将正式的语料集投入步骤4中搭建的分类器进 行训练, 设置初始 参数, 计算 精确率和召回率, 同时采用F1分数寻找 正负情感分类的阈值, 计算Loss函数, 作为模 型评估 的指标。权 利 要 求 书 2/2 页 3 CN 114722835 A 3
专利 基于LDA和BERT融合改进模型的文本情感识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:48:38
上传分享
举报
下载
原文档
(532.4 KB)
分享
友情链接
T-CIIA 023—2022 科学数据 云平台运维流程与要求.pdf
GM-T 0014-2023 数字证书认证系统密码协议规范.pdf
T-UNP 22—2022 跨境电子商务 交易产品 知识产权侵权鉴定管理规范.pdf
GB-T 21219-2023 磁性材料 分类.pdf
T-CFA 0310021—2023 铸造企业规范条件.pdf
GB 25683-2010 钢液浇包 安全要求.pdf
TB-T 30001-2020 铁路接发列车作业.pdf
DB34-T 3041-2017 杨树大径级用材林培育技术规程 安徽省.pdf
GB-T 12409-2009 地理格网.pdf
GB-T 38699-2020 村级公共服务中心建设与管理规范.pdf
SN-T 5202-2020 梅花鹿物种鉴定技术规范—实时荧光PCR法.pdf
HS-T 15-2006 微化锆英砂的鉴定方法.pdf
T-NIFA 21—2023 金融数据安全技术防护规范.pdf
Web应用安全基线.doc
GB-T 17657-2022 人造板及饰面人造板理化性能试验方法.pdf
T-CCASC 1006—2023 氯乙烯生产企业安全风险隐患排查指南.pdf
T-CIECCPA 009—2020 工业企业节能诊断改造效果评估指南.pdf
SY-T 6586-2020 石油天然气钻采设备 钻机现场安装及检验.pdf
GB-T 20278-2022 信息安全技术 网络脆弱性扫描产品安全技术要求和测试评价方法.pdf
GB-T 10595-2017 带式输送机.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(532.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。