(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221046959 2.6
(22)申请日 2022.04.28
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 纪守领 杜扬恺 伍一鸣 张旭鸿
祝羽艳 陈建海
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 郑海峰
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于长尾数据分布的文档级关系抽取
方法
(57)摘要
本发明公开了一种基于长尾数据分布的文
档级关系抽取方法, 属于信息抽取和机器学习领
域。 包括文档预处理、 文档编码、 关系编码、 数据
增广和关系预测。 在数据增广方面, 本发明针对
带标签的三元向量组集合, 随机选取或者预设需
要进行增广的关系类型, 设计掩码向量, 对待进
行数据增广的原始三元向量组中的池化上下文
表示进行扰动, 生成新的三元向量组; 可 以有效
提升文档级关系抽取模型预测尾部关系类型的
准确率。 同时, 相比于传统的基于文本的数据增
广方法, 本发明不需要进行额外的文本编码过
程, 提高了模型训练的计算效率。 此外, 本发明提
出的基于 数据增广的对比学习预训练框架, 能够
在长尾数据分布场景下有效提升文档级关系抽
取的准确率。
权利要求书4页 说明书9页 附图2页
CN 114861645 A
2022.08.05
CN 114861645 A
1.一种基于 长尾数据分布的文档级关系抽取 方法, 其特 征在于, 包括以下步骤:
步骤1: 文档预处 理
在给定文档中标注所有实体, 并在实体边界标注特殊字符作为该实体在文档中的一 次
提及;
步骤2: 文档编码
将预处理后的文档作为预训练Transformer模型的输入, 获取文档中所有字符的上下
文语义表示作为向量编码, 以及获取实体之间的自注意力矩阵;
步骤3: 关系编码
遍历两两实体构 成实体对; 根据文档编码结果, 计算文档中每一个实体的向量表示, 以
及实体对的池化上下文表示, 构成三元向量组; 在 模型训练阶段, 需要 标注每一个实体对的
所属关系标签, 并执 行步骤4; 在实际预测阶段, 直接执 行步骤5;
步骤4: 数据增广
针对带标签的三元向量组集合, 随机选取或者预设需要进行增广的关系类型, 设计掩
码向量, 对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动, 生成新的三
元向量组; 将原始三元向量组集合与数据增广得到的三元向量组集合作为训练集, 训练得
到文档级关系抽取模型;
步骤5: 关系预测
采用步骤1 ‑3中的方法对给定文档进行预处理、 文档编码和关系编码, 利用训练好的文
档级关系抽取模型对得到的三元向量组进 行关系预测, 输出存在有效关系的实体对及其所
属关系。
2.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法, 其特征在于, 所述
的预训练Transformer模型采用BERT模型。
3.根据权利要求2所述的基于长尾数据分布的文档级关系抽取方法, 其特征在于, 所述
的步骤2具体为:
将已标注实体及提及的文档输入BERT模型中, 获得文档中所有字符的上下文语义表示
H, 以及自注意力矩阵A; 表示 为:
其中,
表示词序列长度为l的文档, wl表示文档中的第l个字符; Ptr
(.)代表预训练的BERT模型, H为BERT模型最后一层输出的词向量, 为文档中所有字符的上
下文语义表示; A为BERT模型最后一层中的自注意力矩阵。
4.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法, 其特征在于, 所述
的步骤3具体为:
3.1)遍历两 两实体构成实体对;
3.2)根据文档编码结果, 计算文档中每一个实体的向量表示:
其中, ei表示第i个实体的向量表示, mij表示第i个实体在文档中第j次提及的向量表
示, 即该提及左边界的特殊字符对应的词向量, 通过索引步骤2中的文档中所有字符的上下权 利 要 求 书 1/4 页
2
CN 114861645 A
2文语义表示获得; m表示第i个实体在文档中提及的次数;
将实体对中的第一个实体称为头实体e_h, 将头实体向量记为eh, 实体对中的第二个实
体称为尾实体e_t, 将尾实体向量记为et;
3.3)计算实体对的池化上 下文表示:
针对实体对(e_h,e_t), 通过 下两式得到该实体对的池化上 下文表示ch,t:
Ah,t=Ah*At
其中, Ah,t是头实体e_h和尾实体e_t对文档中所有词的注意力分数的乘积; Ah是头实体
e_h对文档中所有词的注意力分数, At是尾实体e_t对文档中所有词的注意力分数, H是文档
中所有字符的上 下文语义表示;
3.4)对于实体对(e_h,e_t), 其三元 向量组表示为Th,t=(eh,ch,t,et), 得到所有三元 向
量组表示 集合
ε表示实体集 合。
5.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法, 其特征在于, 所述
的步骤4具体为:
4.1)设定需要 进行数据增强的关系类型集 合
R为所有的关系类型集 合;
4.2)给定一个实体对(e_h,e_t), 若其关系
从
中索引原始 三元向量组表
示(eh,ch,t,et);
首先随机生成一个掩码向量p, 该掩码向量的每一个维度由参数为p的伯努力分布生
成; 然后将该掩码向量p与Ah,t点乘, 对其施加掩码 操作, 公式为:
A′h,t=p*Ah,t
其中, Ah,t是头实体e_h和尾实体e_t对文档中所有词的注意力分数的乘积, A ′h,t是掩码
后的注意力分数;
经过扰动后的上下文表示向量c ′h,t的计算公式为:
其中, 上角标T表示 转置;
生成新的三元向量组表示(eh,c′h,t,et); 将所有通过扰动后生成的三元向量组表示集
合与原始三元向量组表示 集合取并集, 作为训练集
其中, ε表示实体集 合。
6.根据权利要求5所述的基于长尾数据分布的文档级关系抽取方法, 其特征在于, 在步
骤4.2)中, 设置数据增广的次数α, 同时生成α 个随机掩码, 能够生成α 个经过扰动的上下文
表示向量
即生成α 个新的三元向量组表示。权 利 要 求 书 2/4 页
3
CN 114861645 A
3
专利 一种基于长尾数据分布的文档级关系抽取方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:02上传分享