安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210498687.0 (22)申请日 2022.05.09 (71)申请人 济南大学 地址 250022 山东省济南市南 辛庄西路3 36 号 (72)发明人 马坤 李乐平 纪科 陈贞翔 杨波 (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 赵妍 (51)Int.Cl. G06V 30/416(2022.01) G06V 30/413(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06K 9/62(2022.01) G06F 40/30(2020.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种营销文本识别方法及系统 (57)摘要 本发明提供了一种营销文本识别方法及系 统, 包括: 获取待识别文本, 并进行预处理; 基于 预处理后的待识别文本, 构建待识别文本的文本 图; 基于待识别文本的文本图, 生成文本级单词 表示, 并结合所有标签的嵌入表示, 生成文本表 示; 基于文本表示, 采用分类器得到待识别文本 是否属于营销文本的结果; 其中, 标签的嵌入表 示的获取方法为: 基于训练集的文本图及其标 签, 生成主题单词概率分布, 将主题单词概率分 布映射到标签向量空间, 并在标签图的指导下学 习标签间的相关性关系和语义信息, 得到标签的 嵌入表示。 达到了生成完整标签嵌入的目的, 联 合学习单词与标签捕获更多与分类相关的信息, 提高了营销文本识别的精度。 权利要求书2页 说明书9页 附图1页 CN 114724167 A 2022.07.08 CN 114724167 A 1.一种营销文本识别方法, 其特 征在于, 包括: 获取待识别文本, 并进行 预处理; 基于预处 理后的待识别文本, 构建待识别文本的文本图; 基于待识别文本的文本图, 生成文本级单词表示, 并结合所有标签的嵌入表示, 生成文 本表示; 基于文本表示, 采用分类 器得到待识别文本是否属于营销文本的结果; 其中, 标签的嵌入表示的获取方法为: 基于训练集的文本图及其标签, 生成主题单词概 率分布, 将主题单词概率分布映射到标签向量空间, 并在标签图的指导下学习 标签间的相 关性关系和语义信息, 得到标签的嵌入表示。 2.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述预处理包括清理非文 本数据、 去除停用词、 移除低频词、 移除高频词和词形还原。 3.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述文本图的构建方法 为: 对于一个文本, 统计固定滑动窗口内单词的共现次数, 以每个单词为文本图顶点, 单词 之间的共现次数为文本图的边。 4.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述标签图的构建方法 为: 对于训练集中的所有标签, 统计固定滑动窗口内标签的共现次数, 以每个标签为顶点, 标签共现次数为 边。 5.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述主题单词概率分布的 生成方法为: 使用第一先验参数的狄利克雷函数为训练集单词集合中每一个单词生成对应于全部 主题的多 项式概率分布, 得到主题单词概 率分布; 对于训练集中的每个文本, 基于训练集的文本图和其对应的标签信 息生成第 二先验参 数, 使用第二先验参数 的狄利克雷函数生成主题分布, 将所述主题分布作为多项式分布的 参数, 得到每个文本中每个单词对应的主题编号, 将每个主题编号对应的词分布作为多项 式分布的参数生成单词; 基于生成的单词, 更新模型参数和主题单词概 率分布。 6.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述文本级单词表示的生 成方法为: 基于待识别文本的文本 图, 采用第一层门控图神经网络, 合并每个文本 图节点与一阶 邻居节点, 更新每 个单词的嵌入表示; 基于更新后的每个单词的嵌入表示, 采用第二层门控图神经网络, 得到每个单词的文 本级单词表示。 7.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述文本表示的生成方法 为: 基于所述文本级单词表示和所有标签的嵌入表示, 计算每个文本单词相对于每个标签 的注意力值; 采用所述注意力值对所有标签的嵌入表示进行加权求和, 得到每个单词的标签语义组 件; 基于每个单词的标签 语义组件, 采用双向长短期记 忆层, 得到每 个单词的标签表示;权 利 要 求 书 1/2 页 2 CN 114724167 A 2将单词的标签表示与文本级单词表示 拼接后进行加权, 得到加权特 征; 基于所述加权特 征, 进行最大池化、 求和 和取平均操作, 得到文本表示。 8.一种营销文本识别系统, 其特 征在于, 包括: 预处理模块, 其被 配置为: 获取待识别文本, 并进行 预处理; 图构建模块, 其被 配置为: 基于预处 理后的待识别文本, 构建待识别文本的文本图; 联合学习模块, 其被配置为: 基于待识别文本的文本图, 生成文本级单词表示, 并结合 所有标签的嵌入表示, 生成文本表示; 分类模块, 其被配置为: 基于文本表示, 采用分类器得到待识别文本是否属于营销文本 的结果; 其中, 标签的嵌入表示的获取方法为: 基于训练集的文本图及其标签, 生成主题单词概 率分布, 将主题单词概率分布映射到标签向量空间, 并在标签图的指导下学习 标签间的相 关性关系和语义信息, 得到标签的嵌入表示。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项所述的一种营销文本识别方法中的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的一 种营销文本识别方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114724167 A 3
专利 一种营销文本识别方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:18
上传分享
举报
下载
原文档
(463.8 KB)
分享
友情链接
SL-T782-2019 水利水电工程安全监测系统运行管理规范.pdf
GA 1800.4-2021 电力系统治安反恐防范要求 第4部分:风力发电企业.pdf
GB-T 39205-2020 信息安全技术 轻量级鉴别与访问控制机制.pdf
GB-T 1871.5-2022 磷矿石和磷精矿中氧化镁含量的测定 火焰原子吸收光谱法、容量法和电感耦合等离子体发射光谱法.pdf
GB-T 4625-2022 螺钉和螺母的装配工具 命名法.pdf
GB-T 17798-2007 地理空间数据交换格式.pdf
NY-T 5133-2002 无公害食品 肉兔饲养管理准则.pdf
GB-T 15162-2018 飞播造林技术规程.pdf
GB-T 22652-2019 阀门密封面堆焊工艺评定.pdf
GB-T 25285.1-2021 爆炸性环境 爆炸预防和防护 第1部分:基本原则和方法.pdf
T-CAGHP 016—2018 地质灾害监测仪器物理接口规定 试行.pdf
GM-T 0064-2018 限域通信(RCC)密码检测要求.pdf
GB-T 26507-2019 石油天然气钻采设备 地面油气混输泵.pdf
T-CAMA 01—2017 农机深松作业远程监测系统技术要求.pdf
T-QGCML 1698—2023 金属成分智能分析系统.pdf
GB-T 32922-2023 信息安全技术 IPSec VPN安全接入基本要求与实施指南.pdf
GB-T 20272-2019 信息安全技术 操作系统安全技术要求.pdf
GB-T 23851-2017 融雪剂.pdf
T-CPMA 016—2020 数字化预防接种门诊基本功能标准.pdf
GB-T 22240-2020 网络安全等级保护定级指南.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(463.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。