(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111650470.9
(22)申请日 2021.12.3 0
(71)申请人 华中科技大 学
地址 430074 湖北省武汉市洪山区珞喻路
1037号
(72)发明人 薛宇 张玮之 王晨玮
(74)专利代理 机构 华中科技大 学专利中心
42201
代理人 许恒恒
(51)Int.Cl.
G06Q 10/04(2012.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06F 16/36(2019.01)
(54)发明名称
基于知识图谱的分子调控关系预测方法及
系统
(57)摘要
本发明属于图论学习、 深度学习分析领域,
具体涉及一种基于知识 图谱的分子调控关系预
测方法及系统, 其中的预测方法包括以下步骤:
(1)训练数据集的准备; (2)有向图模型的构建与
训练; (3)神经网络的构建与训练; (4)实际预测。
本发明通过对 预测方法整体流程 设计进行改进,
首先结合图学习将有向图中的有向调控关系和
各调控分子节点(即各调控分子实例)进行最优
特征编码, 接着在获得各节点与关系的特征编码
后, 利用深度神经网络框架进一步加强有向图的
预测能力, 经过迭代训练后提升有向调控的预测
准确度。
权利要求书3页 说明书6页 附图2页
CN 114154758 A
2022.03.08
CN 114154758 A
1.一种基于知识图谱的分子调控关系预测方法, 其特 征在于, 包括以下步骤:
(1)训练数据集的准备:
以某种基因或某种代谢物分子为节点, 两两节点之间的关系构成分子调控关系, 每一
个分子调控关系对应一组头节点 ‑关系‑尾节点的组合; 其中, 所述关系选自: 激活、 抑制和
相互作用, 所述激活和所述抑制对应单向关系, 所述相互作用对应双向关系;
从分子相互作用数据库中提取分子间有向调控关系, 获得多个节点所对应的已知分子
调控关系构建阳性数据集; 并且, 在所述阳性数据集的全部数据中, 至少存在一个数据其头
节点或尾节点为预测所针对的待 预测节点; 所述待预测节点具体为预先选定的基因或代谢
物分子;
在所述阳性数据集已有节点的范围内, 随机变化头节点、 关系和尾节点, 得到的不在阳
性数据集内的分子调控关系记为伪调控关系, 用于构建阴性数据集;
(2)有向图模型的构建与训练:
构建图学习模型, 按预先设定的迭代次数要求, 利用所述步骤(1)得到的所述阳性数据
集, 以阳性数据作为输入, 对该图学习模型进行训练;
训练后的图学习模型, 能够针对每 个节点和每 个关系分别赋予目标维度的特 征向量;
(3)神经网络的构建与训练:
构建神经网络, 按预先设定的迭代次数要求, 针对所述步骤(1)得到的所述阳性数据集
和所述阴性数据集中的数据, 将每个数据中的头节点、 关系和尾节点, 依据所述训练后的图
学习模型, 从中找到对应的特征向量, 接着将头节点对应的特征向量、 关系对应的特征向
量、 尾节点的特征向量按照预先设定的运算规则进行处理, 得到的结果作为神经网络的输
入, 从而对该神经网络进行训练;
训练后的神经网络, 能够针对头节点 ‑关系‑尾节点输出它为阳性的概 率值;
(4)实际预测:
以待预测节点为头节点或尾节点, 并随机变化头节点、 关系和尾节点得到与该待预测
节点相关的、 多个待测试的分子调控关系; 对于每一个待测试的分子调控关系: 依据所述训
练后的图学习模型, 从中找到该待测试 的分子调控关系中头节点、 关系和尾节点所对应的
特征向量, 然后按照预先设定的运算规则对该待测试 的分子调控关系中头节点、 关系和尾
节点的特征向量进行运算处理, 得到的结果再输入至训练后的神经网络, 即可得到与该待
测试的分子调控关系相对应的阳性概率值; 当所述阳性概率值满足根据预先设定的概率阈
值要求, 则预测该待测试的分子调控关系成立, 否则预测该待测试的分子调控关系不成立;
如此即可 预测得到与所述预 先选定的基因或代谢物分子相关且成立的分子调控关系。
2.如权利要求1所述预测方法, 其特征在于, 所述步骤(3)中, 所述神经网络包括至少2
个并行的子神经网络, 针对某个头节点 ‑关系‑尾节点, 每个子神经网络得到的概率值还经
过了逻辑回归进行综合, 综合后得到的结果即为神经网络整体输出的阳性 概率值。
3.如权利要求2所述预测方法, 其特征在于, 所述步骤(3)中, 所述神经网络包括卷积神
经网络和深度学习网络这2个并行的子神经网络 。
4.如权利要求1所述预测方法, 其特征在于, 所述步骤(3)中, 所述训练是以二值交叉熵
作为损失函数, ROC工作性能曲线面积作为模型的评价指标, 训练过程中以ROC工作性能曲
线面积最大的模式保存最佳模型;权 利 要 求 书 1/3 页
2
CN 114154758 A
2所述步骤(3)中, 所述预先设定的运算规则具体为将3个特征向量首尾拼接由此形成新
的一维向量, 或者 为以3个特 征向量为行向量或列向量由此 形成的二维矩阵。
5.如权利 要求1所述预测方法, 其特征在于, 所述图学习模型具体基于DGL ‑KE框架中的
ComplEx方法构建得到的。
6.一种基于知识图谱的分子调控关系预测系统, 其特征在于, 包括训练数据集准备功
能模块、 有向图模型功能模块、 神经网络功能模块和预测功能模块, 其中:
训练数据集准备功能模块, 用于: 以某种基因或某种代谢物分子为节点, 两两节点之间
的关系构成分子调控关系, 每一个分子调控关系对应一组头节点 ‑关系‑尾节点的组合; 其
中, 所述关系选自: 激活、 抑制和相互作用, 所述激活和所述抑制对应单向关系, 所述相互作
用对应双向关系;
从分子相互作用数据库中提取分子间有向调控关系, 获得多个节点所对应的已知分子
调控关系构建阳性数据集; 并且, 在所述阳性数据集的全部数据中, 至少存在一个数据其头
节点或尾节点为预测所针对的待 预测节点; 所述待预测节点具体为预先选定的基因或代谢
物分子;
在所述阳性数据集已有节点的范围内, 随机变化头节点、 关系和尾节点, 得到的不在阳
性数据集内的分子调控关系记为伪调控关系, 用于构建阴性数据集;
有向图模型功能模块, 包括训练后的图学习模型, 用于: 针对每个节点和每个关系分别
赋予目标维度的特 征向量;
所述图学习模型的训练, 具体是按预先设定的迭代次数要求, 利用所述阳性数据集, 以
阳性数据作为输入, 对所述图学习模型进行训练;
神经网络功能模块, 包括训练后的神经网络, 用于: 针对头节点 ‑关系‑尾节点输出它为
阳性的概 率值;
所述神经网络的训练, 具体是按预先设定的迭代次数要求, 针对所述阳性数据集和所
述阴性数据集中的数据, 将 每个数据中的头节点、 关系和尾节点, 依据所述训练后的图学习
模型, 从中找到对应的特征向量, 接着将头节点对应的特征向量、 关系对应的特征向量、 尾
节点的特征向量按照预先设定的运算规则进行处理, 得到的结果作为神经网络的输入, 从
而对该神经网络进行训练;
预测功能模块, 用于: 以待预测节点为头节点或尾节点, 并随机变化头节点、 关系和尾
节点得到与该待预测节点相关的、 多个待测试 的分子调控关系; 对于每一个待测试 的分子
调控关系: 依据所述训练后的图学习模 型, 从中找到该待测试的分子调控关系中头节点、 关
系和尾节点所对应的特征向量, 然后按照预先设定的运算规则对该待测试的分子调控关系
中头节点、 关系和尾节点的特征向量进行运算处理, 得到的结果再输入至训练后的神经网
络, 即可得到与该待测试 的分子调控关系相对应的阳性概率值; 当所述阳性概率值满足根
据预先设定的概率阈值要求, 则预测该待测试 的分子调控关系成立, 否则预测该待测试 的
分子调控关系不成立; 如此即可预测得到与所述预先选定的基因或代谢物分子相关且成立
的分子调控关系。
7.如权利要求6所述预测系统, 其特征在于, 所述神经网络功能模块中, 所述神经网络
包括至少2个并行的子神经网络, 针对某个头节点 ‑关系‑尾节点, 每个子神经网络得到的概
率值还经过了逻辑回归进行综合, 综合后得到的结果即为神经网络整体输出的阳性概率权 利 要 求 书 2/3 页
3
CN 114154758 A
3
专利 基于知识图谱的分子调控关系预测方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:29:42上传分享