(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210206029.X
(22)申请日 2022.03.03
(71)申请人 四川大学
地址 610015 四川省成 都市武侯区一环路
南一段24号
(72)发明人 孙群 蒋中华 于中华 陈黎
卢永美 刘卓翀
(74)专利代理 机构 成都天嘉专利事务所(普通
合伙) 5121 1
专利代理师 王朋飞
(51)Int.Cl.
G16B 40/20(2019.01)
G06F 40/20(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于层次注意力神经网络的结核分枝杆菌
耐药性预测方法及装置
(57)摘要
本发明公开了一种基于层次注意力神经网
络的结核分枝杆菌耐药性预测方法及装置, 涉及
生物信息学、 深度学习与计算机应用技术领域。
本发明利用自然语言处理 (NLP) 技术解决耐药性
预测的问题, 将菌株基因上的突变视为词、 相应
基因中所有 突变视为句子、 将一个菌株 (或样本)
视为由这种句子组成的文档。 通过使用全基因组
突变及其位置信息作为输入, 从而预测耐药性以
及识别耐药性相关基因和突变。 本发 明对结核分
枝杆菌耐药性预测方法克服了以往大多数研究
无法有效处理全基因组数据进行耐药性预测的
缺陷, 显示了发现新型耐药性相关基因和突变的
可能性。 本发明方法可以作为一种通用方法, 以
高效率和 高精确度探索基于全基因组突变的其
他细菌耐药 预测的问题。
权利要求书7页 说明书21页 附图15页
CN 114582429 A
2022.06.03
CN 114582429 A
1.基于层次注意力神经网络的结核分支杆菌耐药性预测方法, 其特征在于, 该方法包
括以下步骤:
S1、 从离体的样本 中分离出结核分枝杆菌临床分离株, 对分离株进行培养, 提取菌株核
酸;
S2、 对菌株核酸进行全基因 组测序, 获得菌株的全基因 组测序数据;
S3、 全基因组测序数据被传输到基因数据质控工具中进行数据质控处理, 处理完成后
形成质控合格的全基因 组测序数据;
S4、 质控合格的全基因组测序数据被传输到比对工具中, 将质控合格的全基因组测序
数据比对到参 考基因组上, 每个样本生成一个比对结果数据文件;
S5、 比对结果数据文件被传输到排序工具中, 根据比对坐标, 对比对结果数据进行排
序;
S6、 排序后的比对结果数据被传输到去除重复工具中, 进行去PCR重复处理, 处理完成
后得到去除PCR重复的数据;
S7、 去除PCR重复的数据被传输到基因突变点识别工具中, 对去除PCR重复的数据进行
突变点位识别及硬过 滤, 生成突变点 位识别结果数据;
S8、 突变点位识别结果数据被传输到过滤工具中, 以去除高变异的PE/PPE基因家族、 重
复区域和移动原件中的突变; 得到过 滤后的突变点 位识别结果数据;
S9、 过滤后的突变点位识别结果数据被传输到注释工具中, 对过滤后的突变点位识别
结果数据中的突变点位进行突变类型注释, 剔除同义突变的突变, 得到注释的突变点位识
别结果数据;
S10、 从S9步骤中得到的注释的突变点位识别结果数据中构建用于根据突变位置关系
进行耐药性预测的突变位置嵌入向量和突变嵌入向量;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基
因在全基因 组的位置信息;
所述突变嵌入向量包括发生突变点位的核苷酸替代信息, 当变异类型是插入或缺失
时, 所述突变嵌入向量还包括插入类型标识和插入的序列, 以及缺失类型标识和缺失的序
列;
所述用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量的
构建过程是:
根据参考基因组的注释文件中基因的出现顺序, 为各基因进行编号, 从注释文件中提
取各基因的起始 位置; 从步骤S9得到的突变点位识别结果数据中把每个突变转换为词并定
位到相应的基因上, 具体为: 将每个突变的参考碱基和替代碱基提取出来组合为突变词, 若
突变类型为插入时, 突变词由插入类型标识和插入的序列 表示; 若突变类型为缺失时, 突变
词由缺失类型标识和缺失的序列 表示; 将该突变在 全基因组的位置信息减去其所在基因的
起始位置, 获得 该突变在相应 基因的相对位置和该基因相对于全基因 组的位置信息;
S11、 以S10步骤得到的突变嵌入向量和突变位置嵌入向量作为输入, 分别传输到结核
分枝杆菌的耐药性预测模型工具中, 结核分枝杆菌的耐药性预测模型工具根据输入的突变
嵌入向量和突变位置嵌入向量进行 预测计算, 输出 预测结果;
所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物权 利 要 求 书 1/7 页
2
CN 114582429 A
2的耐药性预测模型, 其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物; 结核分
枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌
入向量和突变位置嵌入向量进 行预测计算, 输出该结核分枝杆菌对多种抗结核药物的耐药
性预测结果; 所述结核分枝杆菌耐药性预测模型 是基于层次注意力神经网络训练得到的。
2.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法, 其
特征在于: 结核分支杆菌的耐药性预测模型工具中, 封装有结核分枝杆菌对异烟肼、 利福
平、 乙胺丁醇、 吡嗪酰胺、 链霉素、 乙硫异烟胺、 阿米卡星、 卷曲霉素、 环丙沙星、 左氧氟沙星、
贝达喹啉、 对氨基水杨酸、 卡那霉素、 莫西沙星和/或氧氟沙星中一种或多种抗结核药物的
耐药性预测模型。
3.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法, 其
特征在于: 基于层次注意力神经网络训练结核分枝杆菌耐药性预测模型的训练过程包括:
A、 获取已知对某种抗结核药物的药敏测试结果的结核分枝杆菌菌株的全基因组测序
数据, 作为结核分枝杆菌 菌株对该种抗结核药物的耐药性预测模型训练的样本原 始数据;
B、 对样本原始数据中每一株结核分枝杆菌菌株的全基因测序 数据, 分别进行上述S3步
骤至S9步骤的处理, 得到每一株结核分枝杆菌全基因组测序数据中注释的突变点位识别结
果数据;
C、 从B步骤得到的注释的突变点位识别结果数据中, 构建每一株结核分枝杆菌的突变
位置嵌入向量和突变嵌入向量; 将每一株结核分枝杆菌的突变位置嵌入向量、 突变嵌入向
量和药敏测试结果进行对应, 并将样本原始数据中所有结核分枝杆菌的突变位置嵌入向
量、 突变嵌入向量和药 敏测试结果汇总在一 起, 形成训练样本集;
D、 从得到的训练样本集中随机选出一部分作为训练子集, 一部分作为验证子集, 一部
分作为测试子集; 训练子集、 验证子集和 测试子集 三者之间的比例为8 :1:1;
E、 将训练子集作为数据输入, 输入到层次注意力神经网络中进行训练, 得到菌株的嵌
入表达
; 将获得的菌株的嵌入表达
输入到前馈神经网络中, 得到菌株是否耐药的概率
; 使用二分类交叉熵损失函数作为损失函数来训练模型, 训练得到结核分枝杆菌的耐药
性预测模型;
F、 将验证子集作为输入, 输入到E步骤中得到的结核分枝杆菌的耐药性预测模型中, 对
耐药性预测模型的模型参数进行调整;
G、 将测试子集作为输入, 对F步骤调整模型参数后的耐药性预测模型进行测试。
4.如权利要求1 ‑3任意一项所述的基于层次注意力神经网络的结核分枝杆菌耐药性预
测方法, 其特 征在于:
所述层次注意力神经网络包括突变编码器和基因编码器, 突变编码器通过编码每个突
变的上下文信息来捕捉突变基因中的突变之间的关系, 并通过突变级的注意力机制将突变
的表示进一步聚合到突变基因的嵌入中; 基因编码器捕捉菌株中基因的上下文信息, 利用
基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中。
5.如权利要求4所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法, 其
特征在于: 所述突变级的注意力机制是指根据突变的权重将突变嵌入到突变基因的编码
中。权 利 要 求 书 2/7 页
3
CN 114582429 A
3
专利 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
文档预览
中文文档
44 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共44页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:22上传分享