安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210503511.X (22)申请日 2022.05.09 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区张江高科技 园区碧波路518号3 02室 (72)发明人 连明杰 刘嘉伟 鞠建勋 李健  (74)专利代理 机构 上海弼兴律师事务所 31283 专利代理师 罗朗 林嵩 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 关系抽取联合模型训练方法、 关系抽取方 法、 设备及 介质 (57)摘要 本发明公开了一种关系抽取联合模型训练 方法、 关系抽取方法、 设备及介质, 包括以下步 骤: 获取公告文本信息, 将文本信息预处理以得 到文本序列, 利用预训练模型提取文本序列的特 征向量, 特征向量包括训练向量; 利用训练向量 训练得到文本二分类模型、 关系抽取模型, 联合 文本二分类模型与关系抽取模型以得到联合模 型, 联合模 型以分类结果及 主语语义结果为中间 输出, 将分类结果与主语语义结果相乘以得到主 语结果, 以主语结果为条件, 对输入的文本信息 进行条件层归一化, 得到第二关系结果及第二客 体结果, 联合模型以主语结果、 第二关系结果、 第 二客体结果为最终输出。 可以减少抽取结果中与 目标关键信息无关的信息, 提升关系抽取结果的 精确性。 权利要求书2页 说明书7页 附图4页 CN 114781398 A 2022.07.22 CN 114781398 A 1.一种关系抽取 联合模型训练方法, 其特 征在于, 具体包括以下步骤: 获取公告文本信息, 将所述文本信息预处理以得到文本序列, 所述文本序列包括有效 文本序列与无效文本序列, 所述有效文本序列包括有效标记与指定关系标记, 所述无效文 本序列包括无效标记; 利用预训练模型提取 所述文本序列的特 征向量, 所述特 征向量包括训练向量; 利用所述训练向量分别对第一模型、 第二模型进行训练以得到文本二分类模型、 关系 抽取模型, 所述文本二分类模型以文本信息为输入, 以分类结果为输出, 所述分类结果包括 有效结果与无效结果; 所述关系抽取模 型以文本信息为输入, 得到主语语义结果, 以所述主 语语义结果为条件, 对输入的文本信息进行条件层归一化, 得到第一关系 结果及第一客体 结果, 所述关系抽取模型以所述主语语义结果、 所述第一关系结果、 所述第一客体结果为输 出; 联合所述文本二分类模型与 所述关系抽取模型以得到联合模型, 所述联合模型以文本 信息为输入, 以分类结果及主语语义结果为中间输出, 将所述分类结果与所述主语语义结 果相乘以得到主语结果, 以所述主语结果为条件, 对输入的文本信息进 行条件层 归一化, 得 到第二关系结果及第二客体结果, 所述联合模型以所述主语结果、 所述第二关系结果、 所述 第二客体结果 为最终输出。 2.如权利要求1所述的一种关系抽取联合模型训练方法, 其特征在于, 所述将所述分类 结果与所述主语 语义结果相乘以得到所述主语结果的具体步骤 包括: 将每个所述主语语义结果与对应的所述分类结果相乘以得到所述主语结果, 当所述主 语结果大于主语预设阈值时, 输入的文本信息与有效文本信息相对应, 所述有效文本信息 包含目标关系, 且所述有效文本信息中对应位置的文本为文本信息的主语。 3.如权利要求1所述的一种关系抽取联合模型训练方法, 其特征在于, 所述将所述文本 信息预处 理的具体步骤 包括: 将英文字母进行 大小写转化; 将中文的字体进行繁简体转 化。 4.如权利要求1所述的一种关系抽取联合模型训练方法, 其特征在于, 所述将所述文本 信息预处 理的具体步骤 包括: 将所述文本信 息按照预设长度进行截断 以得到所述文本序列, 所述预设长度不超过所 述预训练模型适配的最大长度。 5.如权利要求4所述的一种关系抽取联合模型训练方法, 其特征在于, 所述将所述文本 信息按照预设长度进行截断以得到所述文本序列的具体步骤 包括: 所述关系抽取模型预期抽取的关系为目标关系, 筛取所述文本信 息中与所述目标关系 相关联的关键词, 以所述关键词的位置为中间位置对所述文本信息进 行截断以得到所述文 本序列; 和/或, 对于截断后不满足所述预设长度的文本序列, 提取前一文本序列的相邻 字符至 符合所述预设长度。 6.如权利要求1所述的一种关系抽取联合模型训练方法, 其特征在于, 所述第 一模型的 输出设置有第一评估指标, 所述第二模型 的输出设置有第二评估指标, 所述特征向量包括 测试向量, 所述测试向量与所述训练向量皆由所述特征向量 随机分配得到, 所述利用所述权 利 要 求 书 1/2 页 2 CN 114781398 A 2训练向量分别对第一模型、 第二模型进行训练以得到文本二分类模型、 关系抽取模型 的具 体步骤包括: 利用所述测试向量对经过训练的所述第一模型、 所述第二模型进行测试, 若所述第一 模型的测试 结果没有达 到所述第一评估指标, 则调整所述第一模型的参数, 进行 再训练; 若所述第二模型的测试结果没有达到所述第二评估指标, 则调整所述第二模型的参 数, 进行再训练。 7.如权利要求2所述的一种关系抽取联合模型训练方法, 其特征在于, 所述主语预设阈 值的设定步骤 包括: 设定一个主语初始阈值, 依照所述文本信 息记载对应的联合模型输出的主语结果中应 当大于所述主语初始阈值或小于所述主语初始阈值的位置以得到预期位置序列, 将所述预 期位置序列与对应的主语结果进 行比较以得到误差位置与误差数量, 记 载所述误差位置对 应的主语结果 为误差结果; 将所述主语初始阈值向所述误差结果的平均数方向进行逐级调整, 并重复测试主语结 果所对应的误差数量, 当所述误差数量最小时, 以对应的主语初始阈值为所述主语预设阈 值。 8.一种关系抽取方法, 其特征在于, 所述关系抽取方法基于权利要求1 ‑7中任一项所述 的关系抽取 联合模型训练方法训练得到的联合模型实现, 所述关系抽取 方法包括: 输入公告 文本信息 至联合模型; 所述联合模型识别所述文本信 息并输出分类结果, 所述分类结果包括有 效结果与 无效 结果, 所述有效结果所对应的文本信息存在目标关系; 所述联合模型识别所述文本信 息并输出主语语义结果, 所述主语语义结果与文本信 息 的主语相对应, 将所述分类结果与所述主语 语义结果相乘以得到主语结果; 所述联合模型以所述主语结果为条件, 向对应的所述文本信息进行条件层归一化, 得 到第二关系结果和第二 客体结果。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求 1‑7中任一项 所述的 关系抽取 联合模型训练方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1 ‑7中任一项所述的关系抽取 联合模型训练方法。权 利 要 求 书 2/2 页 3 CN 114781398 A 3

.PDF文档 专利 关系抽取联合模型训练方法、关系抽取方法、设备及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 关系抽取联合模型训练方法、关系抽取方法、设备及介质 第 1 页 专利 关系抽取联合模型训练方法、关系抽取方法、设备及介质 第 2 页 专利 关系抽取联合模型训练方法、关系抽取方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。