安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210181526.9 (22)申请日 2022.02.25 (71)申请人 新华智云科技有限公司 地址 310012 浙江省杭州市西湖区文一西 路460号文娱中心43 0室 (72)发明人 郭彦男 刘方然 (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 张解翠 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (54)发明名称 一种中文词语图谱的构建方法和系统 (57)摘要 本发明涉及 图谱构建技术领域中的一种中 文词语图谱的构建方法和系统, 包括以下步骤: 获取百万级的中文文本数据, 并对中文文本数据 进行预处理, 得到若干组基础词语和每组基础词 语对应的词性; 将所有基础词语以及对应的词性 输入词语表的基础属性字段, 并拆 分出每组基础 词语的主词根; 根据主词根构建词根关系组, 并 将主词根与词根关系组输入词语表的含义关系 字段, 其中词根关系组包括主词根含义关系、 同 位本体、 修饰、 限定对象和被动, 具有应用领域宽 泛的优点, 突破了传统的中文词语图谱的构建精 确度较低的瓶颈 。 权利要求书2页 说明书7页 附图1页 CN 114547341 A 2022.05.27 CN 114547341 A 1.一种中文词语图谱的构建方法, 其特 征在于, 包括以下步骤: 获取百万级的中文文本数据, 并对所述中文文本数据进行预处理, 得到若干组基础词 语和每组所述基础词语对应的词性; 将所有所述基础词语以及对应的所述词性输入词语表的基础属性字段, 并拆分出每组 基础词语的主词根; 根据所述主词根构建词根关系组, 并将所述主词根与词根关系组输入词语表的含义关 系字段, 其中所述词根关系组包括主词根含义关系 、 同位本体、 修饰、 限定对象和被动。 2.根据权利要求1所述的一种中文词语图谱的构建方法, 其特征在于, 还包括以下步 骤: 对所述中文文本数据进行词向量训练, 获取每组基础词语的词向量, 并根据所述词向 量获取若干组关联词语; 根据所述关联词语获取每组所述关联词语的相关度, 并提取相关度在前n位的关联词 语, 得到提取词语; 将所述提取词语输入词语表的含义关系字段, 并将所述基础词语根据词频进行排序。 3.根据权利要求1所述的一种中文词语图谱的构建方法, 其特征在于, 还包括以下步 骤: 构建词根表, 并根据所述主词根获取该主词根在词根表内的基础属性字段、 含义关系 字段和领域字段, 并将获取到的该主词根在词根表内的基础属 性字段、 含义字段和领域字 段输入词语表的含义关系字段。 4.根据权利要求3所述的一种中文词语图谱的构建方法, 其特征在于, 构建词根表包括 以下步骤: 获取百万级的中文文本数据, 并对所述中文文本数据进行预处理, 得到若干组基础词 语和每组所述基础词语对应的词性; 对所有所述基础词语进行切词聚类提取以及词根切词提取, 得到若干组基础词根, 并 将所有所述基础词根 根据词频进行排序。 5.根据权利要求4所述的一种中文词语图谱的构建方法, 其特征在于, 对所述中文文本 数据进行 预处理, 包括以下步骤: 将所述中文 文本数据依次通过切词处 理、 词性标注处 理以及词性融合处 理。 6.一种中文词语图谱的构建系统, 其特 征在于, 包括: 第一预处理模组, 用于获取百万级的中文文本数据, 并对所述中文文本数据进行预处 理, 得到若干组基础词语和每组所述基础词语对应的词性; 拆分模组, 用于将所有所述基础词语以及对应的所述词性输入词语表的基础属性字 段, 并拆分出每组基础词语的主词根; 第一构建模组, 用于根据所述主词根构建词根关系组并输入词语表的含义关系字段, 其中所述词根关系组包括主词根含义关系 、 同位本体、 修饰、 限定对象和被动。 7.根据权利要求6所述的一种中文词语图谱的构建系统, 其特 征在于, 还 包括: 训练模组, 用于对所述中文文本数据进行词向量训练, 获取每组基础词语的词向量, 并 根据所述词向量获取若干组关联词语; 提取模组, 用于根据所述关联词语获取每组所述关联词语的相关度, 并提取相关度在权 利 要 求 书 1/2 页 2 CN 114547341 A 2前n位的关联词语, 得到提取词语; 排序模组, 用于在所述提取词语输入词语表的含义关系字段后, 将所述基础词语根据 词频进行排序。 8.根据权利要求6所述的一种中文词语图谱的构建系统, 其特征在于, 包括第 二构建模 组, 所述第二构建模组用于构建词根表, 并根据所述主词根获取该主词根在词根表内的基 础属性字段、 含义关系字段和领域字段, 输入词语表的含义关系字段。 9.根据权利要求8所述的一种中文词语图谱的构建系统, 其特 征在于, 包括: 第二预处理模组, 用于获取百万级的中文文本数据, 并对所述中文文本数据进行预处 理, 得到若干组基础词语和每组所述基础词语对应的词性; 切词聚类模组, 用于对所有所述基础词语进行切词聚类提取以及词根切词提取, 得到 若干组基础词根, 并将所有所述基础词根 根据词频进行排序。 10.一种领域词典的构建方法, 其特 征在于, 包括以下步骤: 对业务领域进行定义并划定领域范畴; 根据领域范畴获取词语表中在该领域层级的基础词语以及该基础词语在词语表中的 含义关系字段, 得到词根汇集 集合; 根据获取的基础词语以及词根汇集 集合进行人工层级划分, 得到领域词典。权 利 要 求 书 2/2 页 3 CN 114547341 A 3
专利 一种中文词语图谱的构建方法和系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 08:51:16
上传分享
举报
下载
原文档
(377.3 KB)
分享
友情链接
GB-T 19670-2023 机械安全 防止意外启动.pdf
云原生安全白皮书中文版第二版.pdf
T-ACEF 109—2023 公民绿色低碳行为温室气体减排量化指南 行:混合动力汽车出行.pdf
GB 4793.1-2007 测量、控制和实验室用电气设备的安全要求 第1部分:通用要求.pdf
OWASP API安全-十大关键API安全风险 2019中文版.pdf
GB-T 25098-2010 绝缘体带电清洗剂使用导则.pdf
NY-T 1215-2006 水稻光、温敏雄性核不育系育性鉴定规程.pdf
DB13-T 5406-2021 耕地地力主要指标分级诊断 河北省.pdf
DB13-T 5181-2020 尾矿库溃坝泥石流数值模拟技术规程 河北省.pdf
GB-T 3714-2017 碳酸锰矿.pdf
GB-T 23672-2009 2-乙基蒽醌.pdf
GB-T 21709.1-2008 针灸技术操作规范 第1部分 艾灸.pdf
NB-T 10607—2021 水力发电厂门禁系统设计导则.pdf
T-ZGZS 0302—2021 钛石膏综合利用污染控制技术要求.pdf
GB-T 24561-2009 干燥窑与烘烤炉节能监测.pdf
GB-T 446-2023 全精炼石蜡.pdf
GB-T 12760-2018 圆柱蜗杆、蜗轮图样上应注明的尺寸数据.pdf
GB-T 28827.1-2022 信息技术服务 运行维护 第1部分:通用要求.pdf
GB-T 3880.3-2012 一般工业用铝及铝合金板、带材 第3部分:尺寸偏差.pdf
GB-T 24196-2009 金属和合金的腐蚀 电化学试验方法 恒电位和动电位极化测量导则.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(377.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。