安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111650470.9 (22)申请日 2021.12.3 0 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 薛宇 张玮之 王晨玮  (74)专利代理 机构 华中科技大 学专利中心 42201 代理人 许恒恒 (51)Int.Cl. G06Q 10/04(2012.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 16/36(2019.01) (54)发明名称 基于知识图谱的分子调控关系预测方法及 系统 (57)摘要 本发明属于图论学习、 深度学习分析领域, 具体涉及一种基于知识 图谱的分子调控关系预 测方法及系统, 其中的预测方法包括以下步骤: (1)训练数据集的准备; (2)有向图模型的构建与 训练; (3)神经网络的构建与训练; (4)实际预测。 本发明通过对 预测方法整体流程 设计进行改进, 首先结合图学习将有向图中的有向调控关系和 各调控分子节点(即各调控分子实例)进行最优 特征编码, 接着在获得各节点与关系的特征编码 后, 利用深度神经网络框架进一步加强有向图的 预测能力, 经过迭代训练后提升有向调控的预测 准确度。 权利要求书3页 说明书6页 附图2页 CN 114154758 A 2022.03.08 CN 114154758 A 1.一种基于知识图谱的分子调控关系预测方法, 其特 征在于, 包括以下步骤: (1)训练数据集的准备: 以某种基因或某种代谢物分子为节点, 两两节点之间的关系构成分子调控关系, 每一 个分子调控关系对应一组头节点 ‑关系‑尾节点的组合; 其中, 所述关系选自: 激活、 抑制和 相互作用, 所述激活和所述抑制对应单向关系, 所述相互作用对应双向关系; 从分子相互作用数据库中提取分子间有向调控关系, 获得多个节点所对应的已知分子 调控关系构建阳性数据集; 并且, 在所述阳性数据集的全部数据中, 至少存在一个数据其头 节点或尾节点为预测所针对的待 预测节点; 所述待预测节点具体为预先选定的基因或代谢 物分子; 在所述阳性数据集已有节点的范围内, 随机变化头节点、 关系和尾节点, 得到的不在阳 性数据集内的分子调控关系记为伪调控关系, 用于构建阴性数据集; (2)有向图模型的构建与训练: 构建图学习模型, 按预先设定的迭代次数要求, 利用所述步骤(1)得到的所述阳性数据 集, 以阳性数据作为输入, 对该图学习模型进行训练; 训练后的图学习模型, 能够针对每 个节点和每 个关系分别赋予目标维度的特 征向量; (3)神经网络的构建与训练: 构建神经网络, 按预先设定的迭代次数要求, 针对所述步骤(1)得到的所述阳性数据集 和所述阴性数据集中的数据, 将每个数据中的头节点、 关系和尾节点, 依据所述训练后的图 学习模型, 从中找到对应的特征向量, 接着将头节点对应的特征向量、 关系对应的特征向 量、 尾节点的特征向量按照预先设定的运算规则进行处理, 得到的结果作为神经网络的输 入, 从而对该神经网络进行训练; 训练后的神经网络, 能够针对头节点 ‑关系‑尾节点输出它为阳性的概 率值; (4)实际预测: 以待预测节点为头节点或尾节点, 并随机变化头节点、 关系和尾节点得到与该待预测 节点相关的、 多个待测试的分子调控关系; 对于每一个待测试的分子调控关系: 依据所述训 练后的图学习模型, 从中找到该待测试 的分子调控关系中头节点、 关系和尾节点所对应的 特征向量, 然后按照预先设定的运算规则对该待测试 的分子调控关系中头节点、 关系和尾 节点的特征向量进行运算处理, 得到的结果再输入至训练后的神经网络, 即可得到与该待 测试的分子调控关系相对应的阳性概率值; 当所述阳性概率值满足根据预先设定的概率阈 值要求, 则预测该待测试的分子调控关系成立, 否则预测该待测试的分子调控关系不成立; 如此即可 预测得到与所述预 先选定的基因或代谢物分子相关且成立的分子调控关系。 2.如权利要求1所述预测方法, 其特征在于, 所述步骤(3)中, 所述神经网络包括至少2 个并行的子神经网络, 针对某个头节点 ‑关系‑尾节点, 每个子神经网络得到的概率值还经 过了逻辑回归进行综合, 综合后得到的结果即为神经网络整体输出的阳性 概率值。 3.如权利要求2所述预测方法, 其特征在于, 所述步骤(3)中, 所述神经网络包括卷积神 经网络和深度学习网络这2个并行的子神经网络 。 4.如权利要求1所述预测方法, 其特征在于, 所述步骤(3)中, 所述训练是以二值交叉熵 作为损失函数, ROC工作性能曲线面积作为模型的评价指标, 训练过程中以ROC工作性能曲 线面积最大的模式保存最佳模型;权 利 要 求 书 1/3 页 2 CN 114154758 A 2所述步骤(3)中, 所述预先设定的运算规则具体为将3个特征向量首尾拼接由此形成新 的一维向量, 或者 为以3个特 征向量为行向量或列向量由此 形成的二维矩阵。 5.如权利 要求1所述预测方法, 其特征在于, 所述图学习模型具体基于DGL ‑KE框架中的 ComplEx方法构建得到的。 6.一种基于知识图谱的分子调控关系预测系统, 其特征在于, 包括训练数据集准备功 能模块、 有向图模型功能模块、 神经网络功能模块和预测功能模块, 其中: 训练数据集准备功能模块, 用于: 以某种基因或某种代谢物分子为节点, 两两节点之间 的关系构成分子调控关系, 每一个分子调控关系对应一组头节点 ‑关系‑尾节点的组合; 其 中, 所述关系选自: 激活、 抑制和相互作用, 所述激活和所述抑制对应单向关系, 所述相互作 用对应双向关系; 从分子相互作用数据库中提取分子间有向调控关系, 获得多个节点所对应的已知分子 调控关系构建阳性数据集; 并且, 在所述阳性数据集的全部数据中, 至少存在一个数据其头 节点或尾节点为预测所针对的待 预测节点; 所述待预测节点具体为预先选定的基因或代谢 物分子; 在所述阳性数据集已有节点的范围内, 随机变化头节点、 关系和尾节点, 得到的不在阳 性数据集内的分子调控关系记为伪调控关系, 用于构建阴性数据集; 有向图模型功能模块, 包括训练后的图学习模型, 用于: 针对每个节点和每个关系分别 赋予目标维度的特 征向量; 所述图学习模型的训练, 具体是按预先设定的迭代次数要求, 利用所述阳性数据集, 以 阳性数据作为输入, 对所述图学习模型进行训练; 神经网络功能模块, 包括训练后的神经网络, 用于: 针对头节点 ‑关系‑尾节点输出它为 阳性的概 率值; 所述神经网络的训练, 具体是按预先设定的迭代次数要求, 针对所述阳性数据集和所 述阴性数据集中的数据, 将 每个数据中的头节点、 关系和尾节点, 依据所述训练后的图学习 模型, 从中找到对应的特征向量, 接着将头节点对应的特征向量、 关系对应的特征向量、 尾 节点的特征向量按照预先设定的运算规则进行处理, 得到的结果作为神经网络的输入, 从 而对该神经网络进行训练; 预测功能模块, 用于: 以待预测节点为头节点或尾节点, 并随机变化头节点、 关系和尾 节点得到与该待预测节点相关的、 多个待测试 的分子调控关系; 对于每一个待测试 的分子 调控关系: 依据所述训练后的图学习模 型, 从中找到该待测试的分子调控关系中头节点、 关 系和尾节点所对应的特征向量, 然后按照预先设定的运算规则对该待测试的分子调控关系 中头节点、 关系和尾节点的特征向量进行运算处理, 得到的结果再输入至训练后的神经网 络, 即可得到与该待测试 的分子调控关系相对应的阳性概率值; 当所述阳性概率值满足根 据预先设定的概率阈值要求, 则预测该待测试 的分子调控关系成立, 否则预测该待测试 的 分子调控关系不成立; 如此即可预测得到与所述预先选定的基因或代谢物分子相关且成立 的分子调控关系。 7.如权利要求6所述预测系统, 其特征在于, 所述神经网络功能模块中, 所述神经网络 包括至少2个并行的子神经网络, 针对某个头节点 ‑关系‑尾节点, 每个子神经网络得到的概 率值还经过了逻辑回归进行综合, 综合后得到的结果即为神经网络整体输出的阳性概率权 利 要 求 书 2/3 页 3 CN 114154758 A 3

.PDF文档 专利 基于知识图谱的分子调控关系预测方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的分子调控关系预测方法及系统 第 1 页 专利 基于知识图谱的分子调控关系预测方法及系统 第 2 页 专利 基于知识图谱的分子调控关系预测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:29:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。