安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210224702.2 (22)申请日 2022.03.07 (71)申请人 南京信息 工程大学 地址 224002 江苏省盐城市 盐南高新区新 河街道文港南路10 5号 (72)发明人 胡志臣 许小龙 胡祥奔 程勇  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 董建林 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于NLP与触发器的实体从属关系抽取 识别方法、 系统、 装置和存 储介质 (57)摘要 一种基于NLP与触发器的实体从属关系抽取 识别方法、 系统、 装置和存储介质, 本发明所述方 法在分析文档上下文语段, 构造实体和关系后, 通过聚类算法, 将松散的子类实体, 与父类实体 相互关联, 形成紧密的查询结构; 在文本实体识 别过程中, 采用构建触发器的方法进行触发要素 的选择, 提高文字识别准确率, 能够更快速、 便捷 地寻找到识别目标; 在数据集构建中, 采取了多 路匹配的方式, 有利于提升整体的数据集构建效 率, 减少人工标注所带来的时间成本。 在针对文 本关系进行抽取过程中, 采用双向长短期神经网 络并结合注 意力机制, 提升文本中抽取实体之间 关系的准确率。 权利要求书4页 说明书10页 附图1页 CN 114625885 A 2022.06.14 CN 114625885 A 1.一种基于N LP与触发器的实体从属关系抽取识别方法, 其特 征在于, 包括: 根据训练文本的上 下文语段, 获取训练文本中自定义多类实体及实体列表; 根据实体列表, 通过聚类处 理得到实体从属关系; 批量输入不同的训练文本到预构建的触发器中进行去重处理, 得到校正的实体和实体 列表; 对得到的校正实体分别进行多路匹配, 记录实体之间的关系标签属性, 生成样本数据 集; 根据样本数据集, 将待识别文本作为输入, 依次经过双 向长短期记忆神经网络模型和 注意机制进行关系抽取, 输出待识别文本的实体从属关系。 2.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在 于, 所述根据训练文本的上 下文语段, 获取文本中自定义多类实体及实体列表; 具体包括: 分析训练文本内容上 下文语段, 获取训练文本语句中自定义多类实体的实体列表: ER={er1,er2,...,erN} 式中, er1表示第一个种类 的实体列表, er2表示第二个种类的实体列表, erN表示第N个 种类的实体列表; ER中第n个种类的实体列表的元组表示 为 ern=(timn,geon,natn,orgn,pern), 1≤n≤N, 式中, timn代表实体存在时间, geon代表所发现实体的地理位置, natn代表ern中对应的 实体名称, orgn代表发现实体的组织, pern代表该实体的发现者; 对实体列表数据集进行关系定义: Relationship={ER1,R1,ER2,ER3,R2,ER4,...,ERn,ERn,ERn+1}, n>1, 式中, ERn代表实体列表数据集中第n个 实体, ERn+1代表实体数据集中第n+1个 实体, Rn代 表关联ERn和ERn+1的第n个关系, R中第n个关系的实体列表的元组表示为rn=(nat‑timn, nat‑includen,nat‑propertyn,nat‑unknown), 其中1≤n≤N, 其中nat ‑timn代表实体与实体 之间存在时间关系, nat ‑includn代表实体与实体之间存在从属关系, nat ‑propertyn代表实 体与实体之间存在属性 值关系, nat ‑unknown代表实体与实体之间没有任何关系。 3.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在 于, 所述根据实体列表, 通过聚类处 理得到实体从属关系; 具体包括: 通过实体列表来推断其父类节点, 并且推断出所有父类组合路线, 同时计算出多种父 类组合中最佳 的路径, 最终确定该父类实体; 利用实体列表中所含词语出现的频率进行加 权处理, 当输入实体组合中全部在实体列表中出现时则最大比值为1, 其最终词频F表达式 为: F=tf(d,w)*idf(w) tf(d,w)= w/d idf(w)= log(N/N(w) ) 式中, tf(d,w)是每一个实体列表子列d中词语w的词频; idf(w)是逆子列频次; w为在子 列中d中出现的次数, d为子列的总词语数; N是实体列表所有的总 列表数, N(w)是包含词语w 的列表数总和。 4.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在权 利 要 求 书 1/4 页 2 CN 114625885 A 2于, 触发器内嵌入 命名体识别中门循环单 元。 5.根据权利要求3所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在 于, 所述批量输入不同的训练文本到预构建的触发器中进行去重处理, 得到校正的实体和 实体列表; 具体包括: 触发器的构建首先确定事件触发词trigger=ern={t1,t2,t3,.....tn}, 还需要设置触 发词的对应事件触发要素argument={a1,a2,a3,.....an}; 所述触发要素包括单一句子中 同时至少包 含两类不同的ern以及相邻两句中至少含有两类不同的ern; 在触发要素下初步筛选 出含有实体句子中, 有 一个当前的输入xt, 和上一个节点传递下 来的隐状态ht‑1, 这个隐状态包含了之前节点的相关信息; 结合xt和ht‑1, 命名体识别中门循 环单元会得到当前隐藏节点的输出yt和传递给 下一个节点的隐状态ht; 通过上一个传输 下来的状态 ht‑1和当前节点的输入xt来获取两个门控状态,计算表 达式 如下: r= δ(wr[ht‑1,xt]) 式中r为控制重置门, δ为si gmoid函数, 通过这个函数将数据变换为0 ‑1范围内的数值, 从而来充当门控信号; ht‑1为上一个传输下来的状态, xt为当前输入的节点, wr为相应的权重 矩阵, [ht‑1, xt]将ht‑1和xt按行叠加起 来; 获得控制更新门Z, 计算表达式如下: z= δ(wz[ht‑1,xt]) 式中z为控制更新门, δ为si gmoid函数, 通过这个函数将数据变换为0 ‑1范围内的数值, 从而来充当门控信号; ht‑1为上一个传输下来的状态, xt为当前输入的节点, wz为相应的权重 矩阵, [ht‑1, xt]将ht‑1和xt按行叠加起 来; 当得到门控信号之后, 首 先使用重 置门控来得到 重置之后的数据, 计算表达式如下: 式中ht‑1′为在将要传递到一下时刻上含有的信息, ht‑1为上一个传输下来的状态, 为 Hadamard  Product, 也就是操作矩阵中对应的元素相 乘, 因此要求两个相 乘矩阵是同型, r 为重置门; 将存储信息进行更新数据, 在这个阶段, 同时进行了遗忘和记忆两个步骤, 使用先前得 到的控制更新门z, 更新数据表达式如下: 式中ht表示时间t时隐藏层的状态, z为控制更新门, ht‑1为上一个传输 下来的状态, 为 操作矩阵中对应的元素相乘, (1 ‑z)代表输入门, h ′为传递到下一时刻存储的状态信息; 表示对原本隐藏状态的选择性遗忘, 表示对包含当前节点信息的h ′进行 选择性记 忆; 批量输入不同的训练文本, 通过所述触发器识别出实体, 加上聚类传递将关系列举到 实体之后, 并去除形重复的实体节点, 输出 得到校正的实体及关系表。 6.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在 于, 所述对得到的校正 实体分别进行多路 匹配, 记录实体之间的关系标签属性, 生成样 本数 据集; 具体包括:权 利 要 求 书 2/4 页 3 CN 114625885 A 3

.PDF文档 专利 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质 第 1 页 专利 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质 第 2 页 专利 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。