专利 一种基于长尾数据分布的文档级关系抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221046959 2.6 (22)申请日 2022.04.28 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人纪守领　杜扬恺　伍一鸣　张旭鸿　祝羽艳　陈建海　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于长尾数据分布的文档级关系抽取方法 (57)摘要本发明公开了一种基于长尾数据分布的文档级关系抽取方法，属于信息抽取和机器学习领域。包括文档预处理、文档编码、关系编码、数据增广和关系预测。在数据增广方面，本发明针对带标签的三元向量组集合，随机选取或者预设需要进行增广的关系类型，设计掩码向量，对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动，生成新的三元向量组；可以有效提升文档级关系抽取模型预测尾部关系类型的准确率。同时，相比于传统的基于文本的数据增广方法，本发明不需要进行额外的文本编码过程，提高了模型训练的计算效率。此外，本发明提出的基于数据增广的对比学习预训练框架，能够在长尾数据分布场景下有效提升文档级关系抽取的准确率。权利要求书4页说明书9页附图2页 CN 114861645 A 2022.08.05 CN 114861645 A 1.一种基于长尾数据分布的文档级关系抽取方法，其特征在于，包括以下步骤：步骤1：文档预处理在给定文档中标注所有实体，并在实体边界标注特殊字符作为该实体在文档中的一次提及；步骤2：文档编码将预处理后的文档作为预训练Transformer模型的输入，获取文档中所有字符的上下文语义表示作为向量编码，以及获取实体之间的自注意力矩阵；步骤3：关系编码遍历两两实体构成实体对；根据文档编码结果，计算文档中每一个实体的向量表示，以及实体对的池化上下文表示，构成三元向量组；在模型训练阶段，需要标注每一个实体对的所属关系标签，并执行步骤4；在实际预测阶段，直接执行步骤5；步骤4：数据增广针对带标签的三元向量组集合，随机选取或者预设需要进行增广的关系类型，设计掩码向量，对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动，生成新的三元向量组；将原始三元向量组集合与数据增广得到的三元向量组集合作为训练集，训练得到文档级关系抽取模型；步骤5：关系预测采用步骤1 ‑3中的方法对给定文档进行预处理、文档编码和关系编码，利用训练好的文档级关系抽取模型对得到的三元向量组进行关系预测，输出存在有效关系的实体对及其所属关系。 2.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法，其特征在于，所述的预训练Transformer模型采用BERT模型。 3.根据权利要求2所述的基于长尾数据分布的文档级关系抽取方法，其特征在于，所述的步骤2具体为：将已标注实体及提及的文档输入BERT模型中，获得文档中所有字符的上下文语义表示 H，以及自注意力矩阵A；表示为：其中，表示词序列长度为l的文档， wl表示文档中的第l个字符； Ptr (.)代表预训练的BERT模型， H为BERT模型最后一层输出的词向量，为文档中所有字符的上下文语义表示； A为BERT模型最后一层中的自注意力矩阵。 4.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法，其特征在于，所述的步骤3具体为： 3.1)遍历两两实体构成实体对； 3.2)根据文档编码结果，计算文档中每一个实体的向量表示：其中， ei表示第i个实体的向量表示， mij表示第i个实体在文档中第j次提及的向量表示，即该提及左边界的特殊字符对应的词向量，通过索引步骤2中的文档中所有字符的上下权　利　要　求　书 1/4 页 2 CN 114861645 A 2文语义表示获得； m表示第i个实体在文档中提及的次数；将实体对中的第一个实体称为头实体e_h，将头实体向量记为eh，实体对中的第二个实体称为尾实体e_t，将尾实体向量记为et； 3.3)计算实体对的池化上下文表示：针对实体对(e_h,e_t)，通过下两式得到该实体对的池化上下文表示ch,t： Ah,t＝Ah*At 其中， Ah,t是头实体e_h和尾实体e_t对文档中所有词的注意力分数的乘积； Ah是头实体 e_h对文档中所有词的注意力分数， At是尾实体e_t对文档中所有词的注意力分数， H是文档中所有字符的上下文语义表示； 3.4)对于实体对(e_h,e_t)，其三元向量组表示为Th,t＝(eh,ch,t,et)，得到所有三元向量组表示集合 ε表示实体集合。 5.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法，其特征在于，所述的步骤4具体为： 4.1)设定需要进行数据增强的关系类型集合 R为所有的关系类型集合； 4.2)给定一个实体对(e_h,e_t)，若其关系从中索引原始三元向量组表示(eh,ch,t,et)；首先随机生成一个掩码向量p，该掩码向量的每一个维度由参数为p的伯努力分布生成；然后将该掩码向量p与Ah,t点乘，对其施加掩码操作，公式为： A′h,t＝p*Ah,t 其中， Ah,t是头实体e_h和尾实体e_t对文档中所有词的注意力分数的乘积， A ′h,t是掩码后的注意力分数；经过扰动后的上下文表示向量c ′h,t的计算公式为：其中，上角标T表示转置；生成新的三元向量组表示(eh,c′h,t,et)；将所有通过扰动后生成的三元向量组表示集合与原始三元向量组表示集合取并集，作为训练集其中， ε表示实体集合。 6.根据权利要求5所述的基于长尾数据分布的文档级关系抽取方法，其特征在于，在步骤4.2)中，设置数据增广的次数α，同时生成α 个随机掩码，能够生成α 个经过扰动的上下文表示向量即生成α 个新的三元向量组表示。权　利　要　求　书 2/4 页 3 CN 114861645 A 3

专利 一种基于长尾数据分布的文档级关系抽取方法

专利一种基于长尾数据分布的文档级关系抽取方法