(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111666661.4
(22)申请日 2021.12.3 0
(71)申请人 智慧芽信息科技 (苏州) 有限公司
地址 215000 江苏省苏州市苏州工业园区
金鸡湖大道88号人工智能产业园G3-
701、 G3-801、 G3-901、 G3-1001单元
(72)发明人 肖燕思 孙敏 任泽 陈林卿
陆剑平 王为磊 屠昶旸 张济徽
(74)专利代理 机构 北京布瑞知识产权代理有限
公司 11505
代理人 周达
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06K 9/62(2022.01)
(54)发明名称
文献资料文本分类方法、 分类模型构建方法
和分类装置
(57)摘要
本说明书实施方式提供了一种文献资料文
本分类方法、 分类模型构建方法和分类装置。 包
括: 基于类别标签树给文 献资料文本添加类别标
签, 所述类别标签树被划分为包括多个基础类别
标签的基础层级, 和从属于所述基础层级并包括
多个扩展类别标签的扩展层级; 所述方法包括:
确定文献资料文本在所述基础层级中对应的基
础类别标签, 所述基础类别标签作为目标基础类
别标签; 将所述文献资料文本与所述扩展层级中
的扩展类别标签执行相似度运算得到与所述文
献资料文本对应的目标扩展类别标签。 通过基于
类别标签树给文献资料文本添加具有层次关系
的类别标签, 以实现对文 献资料文本在不同研究
领域的分类、 统计和查询。
权利要求书4页 说明书12页 附图2页
CN 114254116 A
2022.03.29
CN 114254116 A
1.一种文献资料文本分类方法, 其特征在于, 基于类别标签树为文献资料文本添加类
别标签, 所述类别标签树被划分为包括多个基础类别标签的基础层级, 和从属于所述基础
层级并包括多个扩展类别标签的扩展层级; 其中, 所述基础层级至少包括基础根层级和基
础末端层级, 所述基础根层级包括所述类别标签树的根节点, 所述基础末端层级包括所述
基础层级中远离所述 根节点的基础类别标签; 所述方法包括:
确定文献资料文本在所述基础层级中对应的基础类别标签, 所述基础类别标签作为目
标基础类别标签; 其中, 处于所述根节点的基础类别标签至所述基础末端层级的目标基础
类别标签按照层级间从属关系形成第一基础标签路径;
将所述文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述
文献资料文本对应的目标扩展类别标签; 其中, 所述 目标基础类别标签和所述目标扩展类
别标签作为所述文献资料文本的类别标签。
2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
抽取所述文献资料文本的关键词, 所述关键词用于作为 新增的类别标签;
确定所述关键词处于所述类别标签树的父节点;
将所述关键词添加至所述类别标签树, 并作为所述父节点的子节点。
3.根据权利要求1所述的方法, 其特征在于, 确定文献资料文本在所述基础层级中对应
的目标基础类别标签的步骤, 包括:
生成文献资料文本的第一多维特征向量; 其中, 所述第一多维特征向量用于表征对应
的文献资料文本;
基于所述文献资料文本的第一多维特征向量与处于所述基础层级的类别标签构成的
向量进行匹配运 算, 得到所述文献资料文本处于所述基础 层级的目标基础类别标签。
4.根据权利要求3所述的方法, 所述文献资料文本包括专利文本, 其特征在于, 生成文
献资料文本的第一多维特 征向量的步骤, 包括:
使用所述文献资料文本的至少第一部分文本数据构建第一词向量; 其中, 所述第一部
分文本数据至少包括以下之一: 所述专利文本中的实施方式、 所述专利文本中的发 明内容、
所述专利文本中的权利要求书;
使用所述第一词向量和所述文献资料文本的第二部分文本数据生成所述第一多维特
征向量; 其中, 所述第二部 分文本数据至少包括以下之一: 所述专利文本中的分类号、 标题、
摘要、 独立权利要求。
5.根据权利要求3所述的方法, 其特征在于, 基于所述文献资料文本的第 一多维特征向
量与处于所述基础层级的类别标签构成的向量进 行匹配运算, 得到所述文献资料文本处于
所述基础 层级的目标基础类别标签的步骤, 包括:
计算所述基础末端层级包括的基础类别标签构成的向量与所述第一多维特征向量的
匹配度;
基于所述匹配度在基础类别标签中确定目标基础类别标签。
6.根据权利要求5所述的方法, 其特征在于, 所述类别标签树的数量为多棵; 基于所述
匹配度在所述基础类别标签中确定目标基础类别标签的步骤, 还 包括:
提取所述基础类别标签中, 所述匹配度大于预设阈值的基础类别标签作为初选基础类
别标签;权 利 要 求 书 1/4 页
2
CN 114254116 A
2分别求取所述初选基础类别标签从属于每棵类别标签树的规则融合权重; 其中, 所述
规则融合权 重表示所述初选基础类别标签属于类别标签树的子节点的概 率;
根据所述匹配度和所述规则融合权重, 选定所述初选基础类别标签中的目标基础类别
标签, 以及所述目标基础类别标签处于所述类别标签树的基础标签路径。
7.根据权利要求1所述的方法, 所述文献资料文本包括专利文本, 其特征在于, 将所述
文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述文献资料文
本对应的目标扩展类别标签的步骤, 包括:
至少使用所述文献资料文本的第三部分文本数据在所述扩展层级包括的扩展类别标
签中进行文本匹配得到候选扩展类别标签; 其中, 所述第三部分文本数据至少包括以下之
一: 所述文献资料文本的摘要、 标题、 技 术领域、 背景技 术、 发明内容、 实施方式、 权利要求;
生成表征 所述文献资料文本和所述 候选扩展类别标签的第二多维特 征向量;
计算所述 候选扩展类别标签与所述第二多维特 征向量的相似度;
基于所述相似度和从属于所述标签树根节点的规则权重在所述候选扩展类别标签中
确定目标扩展类别标签。
8.根据权利要求7所述的方法, 其特征在于, 至少使用所述文献资料文本的第 三部分文
本数据在所述扩展层级包括的扩展类别标签中进行文本匹配得到候选扩展类别标签, 包
括:
至少使用所述文献资料文本的第三部分文本数据在从属于所述目标基础类别标签的
扩展类别标签中进行文本匹配得到候选扩展类别标签;
相应的, 基于所述相似度在所述 候选扩展类别标签中确定目标扩展类别标签。
9.根据权利要求7所述的方法, 所述文献资料文本包括专利文本, 其特征在于, 生成表
征所述文献资料文本和所述 候选扩展类别标签的第二多维特 征向量的步骤, 包括:
使用所述文献资料文本的至少第 四部分文本数据构建第二词向量; 其中, 所述第 四部
分文本数据至少包括以下之一: 所述文献资料文本中的实施方式、 所述文献资料文本中的
发明内容、 所述文献资料文本中的权利要求书;
利用所述文献资料文本的第五部分文本数据和候选扩展类别标签的标签信息中至少
一个, 与所述第二词向量生 成所述第二多维特征向量; 其中, 所述第五部 分文本数据包括以
下至少之一: 分类号、 标题、 摘要或独立权利要求; 所述候选扩展类别标签的标签信息包括
以下至少之一: 候选扩展类别标签、 候选扩展类别标签的描述信息、 候选扩展类别标签处于
类别标签树中的父节点、 候选扩展类别标签处于类别标签树中的子节点、 候选扩展类别标
签处于类别标签树中对应的基础 层级的第二基础标签路径。
10.根据权利要求7所述的方法, 其特征在于, 计算所述候选扩展类别标签与所述第二
多维特征向量的相似度的步骤, 包括:
将所述候选扩展类别标签的产生方式和/或标签长度加入所述第 二多维特征向量得到
目标多维特 征向量;
计算所述候选扩展类别标签构成的向量与所述目标多维特征向量的相似度和所述候
选扩展类别标签属于所述类别标签树指定根节点的规则权重大于所设阈值的所述候选扩
展类别标签作为目标扩展类别标签。
11.一种文献资料文本分类模型构建方法, 其特征在于, 文献资料文本分类模型用于基权 利 要 求 书 2/4 页
3
CN 114254116 A
3
专利 文献资料文本分类方法、分类模型构建方法和分类装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 04:43:51上传分享