(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210374608.5
(22)申请日 2022.04.11
(71)申请人 北京合立春天科技发展 有限公司
地址 100000 北京市石景山区实兴东 街11
号二层56室
(72)发明人 王剑 双锴 马利川 谭逸佳
(74)专利代理 机构 洛阳公信知识产权事务所
(普通合伙) 41120
专利代理师 逯雪峰
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于隐式句法结构依赖的关系抽取方法以
及可读存 储介质
(57)摘要
本发明提供一种基于隐式句法结构依赖的
关系抽取方法以及可读存储介质, 本发明的关系
抽取方法在不加入任何人为先验信息的前提下,
通过神经网络自适应地学习输入文本中单词之
间地依赖, 隐式引入句法树地结构, 提高模型对
语义的理解能力; 而且, 本发明使用了Relation ‑
Aware的细粒度注意力机制, 对于关系抽取中的
每个关系都分配一个向量, 与文本中的单词通过
注意力机制生成最后的表征, 避免了已有注意力
机制对多个关系标签向量的混淆。
权利要求书1页 说明书5页 附图2页
CN 114676680 A
2022.06.28
CN 114676680 A
1.基于隐式句法结构依赖的关系抽取 方法, 其特 征在于, 包括以下步骤:
步骤1: 使用LSTM神经网络对输入的单词进行编码, 并利用卷积神经网络对输入文本中
相邻的单词之间抽取 得到相对句法距离;
步骤2: 将相对句法距离与 LSTM神经网络中的门控机制相结合, 控制信息在不同时间步
中的依赖程度, 预训练得到一个能隐式解析文本语义的RS D—LSTM语言模型;
步骤3: 对于经过RSD—LSTM语言模型向量化处理后的文本, 使用Reletion ‑Aware注意
力机制来对输入的文本进行 特征抽取, 对每一个关系都建立 一个特定的向量表征;
步骤4: 基于文本特征和标注的标签, 进行有监督的训练, 得到关系抽取模型, 其中
Realtion ‑Aware注意力机制加权输出的特征向量作为全 连接层的输入, 对全连接层的输出
与每一个关系向量之间做内积, 采用Softmax分类 器进行关系类别的分类。
2.根据权利要求1所述的基于隐式句法结构依赖的关系抽取方法, 其特征在于, 步骤1
在计算相对句法距离时, 由卷积神经网络的卷积层和完全连接层进行计算;
其中, 卷积层, 在文本序列的垂直方向做卷积, 卷积核的宽度固定为词向量的维度, 高
度是2, 代表只对两个相 邻的单词做卷积得到句法距离; 依次对每个可能的窗口做卷积操作
得到句法距离的集 合;
完全连接层, 计算抽取到的句法距离与全局语义向量的相似度, 将归一化后的相似度
作为两个相邻单词之间的依赖程度。
3.根据权利要求2所述的基于隐式句法结构依赖的关系抽取方法, 其特征在于, 相对句
法距离的计算公式为:
Dt=sigmoid(dt*E)
其中dt表示从xt‑1和xt两个输入单词之间抽取得到的句法距离, E代表全局的语义向量,
Dt表示从xt‑1和xt两个输入单词之间抽取 得到的相对句法距离 。
4.根据权利要求1所述的基于隐式句法结构依赖的关系抽取方法, 其特征在于, 步骤2
具体包括: 把两个相邻单词得到的相对句法距离融入到LSTM网络的遗忘门和输入门当中,
根据句法树中两个相 邻单词之 间的语义依赖程度来控制单词之 间信息传递的程度, 然后预
训练得到一个能隐式解析文本语义的RS D—LSTM语言模型。
5.根据权利要求1所述的基于隐式句法结构依赖的关系抽取方法, 其特征在于, 步骤3
中, 所述的Reletion ‑Aware注意力机制在对输入的文本进行处理时, 赋予每个类别标签一
个特定的向量, 通过标签向量计算句子中每个单词对应的注 意力权重, 加权生成文本表征,
对于每一个标签都采用该注意力机制进行计算, 最后得到K个不同的文本表征, 对应K个关
系类别。
6.根据权利要求5所述的基于隐式句法结构依赖的关系抽取方法, 其特征在于, 所述注
意力权重的计算公式为:
其中dk代表第k个关系标签, ei代表输入文本中的第i个单词。
7.可读存储介质, 其存储有计算机程序, 其特征在于, 该程序被处理器执行时实现权利
要求1至6任意一项所述方法的步骤。权 利 要 求 书 1/1 页
2
CN 114676680 A
2基于隐式句法 结构依赖的关系抽取方 法以及可读存储介质
技术领域
[0001]本发明涉及自然语言处理领域, 具体涉及 一种基于隐式句法结构依赖的关系抽取
方法以及可读存 储介质。
背景技术
[0002]自然语言中, 句子成分之间的关系通常是树状的: 单词、 短语和从句按层次构成一
个句子, 不同成分之间的依赖性决定了句 子的句法结构。 这种复杂的树状结构对理解自然
语言至关重要。 然而, 循环神经网络(RNN)对语言进行了顺序建模, 未能对层次结构的句法
依赖进行全面编码, 导 致网络在基于理解的任务上表现不佳。
[0003]此外, 随着网络信息 的飞速增长, 关系抽 取任务已经逐渐成为自然语言处理领域
的关键任务之一, 关系抽取任务的核心就是根据给定的文本和文本中的两个实体, 得到实
体之间的关系, 现有关系抽取任务使用的注意力机制使用一个 向量来表示所有的关系, 这
种方式会混淆不同关系的表征, 导 致准确率较低。
发明内容
[0004]有鉴于此, 本发明的目的是提供一种基于隐式句法结构依赖的关系抽取方法以及
可读存储介质, 以解决背景技 术中提到的技 术问题。
[0005]为了达到上述目的, 本发明所采用的技术方案是: 基于隐式句法结构依赖 的关系
抽取方法, 其特 征在于, 包括以下步骤:
步骤1: 使用LSTM神经 网络对输入的单词进行编码, 并利用卷积神经 网络对输入文
本中相邻的单词之间抽取 得到相对句法距离;
步骤2: 将相对句法距离与LSTM神经 网络中的门控机制相结合, 控制信息在不同时
间步中的依赖程度, 预训练得到一个能隐式解析文本语义的RS D—LSTM语言模型;
步骤3: 对于经过RSD—LSTM语言模型向量化处理后的文本, 使用Reletion ‑Aware
注意力机制来对输入的文本进行特征抽取, 对每一个关系都建立一个特定的向量表征, 从
而改进已有注意力机制只设置一个关系向量的缺陷;
步骤4: 基于文本特征和标注的标签, 进行有监督的训练, 得到关系抽取模型, 其中
Realtion ‑Aware注意力机制加权输出的特征向量作为全 连接层的输入, 对全连接层的输出
与每一个关系向量之间做内积, 采用Softmax分类 器进行关系类别的分类。
[0006]进一步的, 步骤1在 计算相对句法距离时, 由卷积神经网络的卷积层和完全连接层
进行计算;
其中, 卷积层, 在文本序列的垂直方向做卷积, 卷积核的宽度固定为词向量的维
度, 高度是2, 代表只对两个相邻的单词做卷积得到句法距离; 依次对每个可能的窗口做卷
积操作得到句法距离的集 合;
完全连接层, 计算抽 取到的句法距离与全局语义向量的相似度, 将归一化后的相
似度作为两个相邻单词之间的依赖程度。说 明 书 1/5 页
3
CN 114676680 A
3
专利 基于隐式句法结构依赖的关系抽取方法以及可读存储介质
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:02上传分享