(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210477581.2
(22)申请日 2022.05.05
(65)同一申请的已公布的文献号
申请公布号 CN 114580433 A
(43)申请公布日 2022.06.03
(73)专利权人 北京大学
地址 100091 北京市海淀区颐和园路5号
(72)发明人 叶蔚 张世琨 谢睿 俞鼎耀
(74)专利代理 机构 北京华创智道知识产权代理
事务所(普通 合伙) 11888
专利代理师 彭随丽
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(56)对比文件
CN 113656581 A,2021.1 1.16
CN 110347839 A,2019.10.18
CN 112802568 A,2021.0 5.14
CN 111309910 A,2020.0 6.19
WO 2021047286 A1,2021.0 3.18
伍舒婷.基 于深度学习的政 府公文智能分类
技术研究. 《中国优秀硕士学位 论文全文数据
库》 .2021,第4 章.
汪鹏等.基 于迁移学习与多标签平 滑策略的
图像自动标注. 《计算机 应用》 .2018,(第1 1期),
全文.
审查员 胡一冰
(54)发明名称
基于动态权重对比学习的多标签文本分类
方法和系统
(57)摘要
本发明涉及信息检测技术领域, 提出一种基
于动态权重对比学习的多标签文本分类方法和
系统, 其中方法包括: 预处理, 得到训练集词向量
和标签序列; 采用基于 预训练语言模型Bert和双
向长短时记忆网络的分类模型对训练集多标签
文本进行编码, 得到包含语义信息的向量化表
示; 将标签序列和包含语义信息的向量化表示解
码, 得到预测的标签序列; 通过联合交叉熵概率
分布损失和对比学习损失计算预测的标签序列
和标签序列之间的损失, 根据损失优化分类模型
作为多标签文本分类模型; 将待分类的测试集多
标签文本输入 所述多标签文本分类模 型, 输出对
应的最终的标签序列。 根据该方法有效解决了多
标签语义混淆现象以及多标签分类数据集中存
在的长尾问题。
权利要求书4页 说明书12页 附图2页
CN 114580433 B
2022.08.02
CN 114580433 B
1.基于动态权 重对比学习的多标签文本分类方法, 其特 征在于, 包括:
对待分类的训练集多标签文本进行预处理, 得到训练集多标签文本的词向量和训练集
多标签文本的按序排布的标签序列;
根据所述词向量采用基于预训练语言模型Bert和双 向长短时记忆网络的分类模型对
训练集多标签文本进行编码, 得到包 含语义信息的向量 化表示;
将所述按序排布的标签序列和所述包含语义信 息的向量化表示解码, 得到预测的标签
序列;
计算所述预测的标签序列和所述按序排布的标签序列之间的损失, 根据损失优化所述
分类模型作为多标签文本分类模型;
将待分类的测试集多标签文本输入所述多标签文本分类模型, 输出对应的最终的标签
序列;
所述计算所述预测的标签序列和所述按序排布的标签序列之间的损失, 根据损失优化
所述分类模型作为多标签文本分类模型, 包括:
使用交叉熵对所述预测的标签序列和所述按序排布的标签序列之间的分布差异进行
计算:
其中,
表示第k时刻的真实标签,
表示基于交叉熵得到的预测损失;
在基于所述交叉熵得到损 失的基础上, 计算标签频率增强的对比学习损 失, 使用标签
频率作为对比损失的权 重, 频率越低, 权 重越高, 计算公式为:
其中,
表示对比损失, L表示所有的标签数量,
表示对比学习的目标标签 i对应
的解码层隐状态,
表示目标标签i的正样本相似度得分,
表示目标标签i的负
样本相似度得分,
表示目标标签i对应的正样本集合,
表示目标标签i对应的负
样本集合,
表示从正样本集合/负样本集合中采样的对比标签j,
表示
权 利 要 求 书 1/4 页
2
CN 114580433 B
2相似度,
表示对比标签j在训练集中的出现频率,
为用于控制对比学习收敛速度的超
参数。
2.根据权利要求1所述的基于动态权重对比学习的多标签文本分类方法, 其特征在于,
所述对待分类的训练集多标签文本进 行预处理, 得到训练集多标签文本的词向量和训练集
多标签文本的按序排布的标签序列, 包括:
利用BERT预训练模型提供的默认词表将待分类的训练集多标签文本处理成多个词向
量;
统计训练集多标签文本中的各 标签出现频率;
将训练集多标签文本的多标签标注转化为标签序列, 按照标签序列中各标签的由高到
低的出现频率调整各 标签的顺序后形成所述按序排布的标签序列。
3.根据权利要求2所述的基于动态权重对比学习的多标签文本分类方法, 其特征在于,
所述根据所述词向量采用基于预训练语言模型Bert和双向长短时记忆网络的分类模型对
训练集多标签文本进行编码, 得到包 含语义信息的向量 化表示的计算公式为:
其中, n表示输入的多标签文本的长度,
表示多标签文本中第m个词对应的词向量,
表示多标签文本中第m个词对应的预训练语言模型分布式表示,
表示多标签文本
中第m个词对应的最终的向量化表示, E表示预训练语言模型分布式表示
的集合, H表
示最终的向量化表示
的集合, 其 中, m取0, 1, ···, n,
为的双向长短时记
忆网络。
4.根据权利要求3所述的基于动态权重对比学习的多标签文本分类方法, 其特征在于,
使用Transformer网络作为分类模型的解码器, 将所述包含语义信息的向量化表示和所述
按序排布的标签序列解码为按频率由高到低的标签组成的预测的标签序列;
所述解码器按频率由高到低依次生成对应标签时采用的计算公式为:
其中,
表示第t时刻解码器的预测标签, t取0, 1, ···, k‑1;
表示预测时刻k之前所有的预测标签,
表示Transformer解码器解码后的隐状态,
表示第k时刻解码器的预测标签,
表示分类器, 所述分类器采用全连接网
络。
5.根据权利要求1至4中任一项所述的基于动态权重对比学习的多标签文本分类方法,权 利 要 求 书 2/4 页
3
CN 114580433 B
3
专利 基于动态权重对比学习的多标签文本分类方法和系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:55上传分享