安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111645179.2 (22)申请日 2021.12.3 0 (71)申请人 上海应用技 术大学 地址 201418 上海市奉贤区海泉路10 0号 (72)发明人 邓菲 赵琳 于宁  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 代理人 蔡彭君 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/12(2006.01) (54)发明名称 一种基于XGBoost的结直肠癌检测系统 (57)摘要 本发明涉及一种基于XGBoost的结直肠癌检 测系统, 包括数据采集模块、 数据预处理模块、 特 征选择模块、 模型构建模块和结果预测模块, 分 别用于: 构建结直肠癌数据集; 数据预处理; 使用 RFE递归特征选择进行特征选择, 得到多个子数 据集; 构建XGBoo st模型, 使用子 数据集对其进行 训练, 通过遗传算 法优化XGBoo st模型参数, 得到 检测模型; 使用检测模型预测结直肠癌的死亡类 型。 与现有 技术相比, 本发明通过RFE递归特征选 择对数据进行特征选择, 结合机器学习算法 XGBoost实现结直肠癌死亡类别的智能检测, 并 使用遗传算法优化模型参数, 能够较快且有效地 分析并预测结直肠癌的死亡类型, 能够更加准确 地识别出多类别当中的少数类, 具有较高的准确 率, 精确率, 召回率和F1值。 权利要求书2页 说明书12页 附图3页 CN 114358169 A 2022.04.15 CN 114358169 A 1.一种基于XGBoost的结直肠癌检测系 统, 其特征在于, 包括数据采集模块、 数据预处 理模块、 特 征选择模块、 模型构建模块和结果预测模块; 所述数据采集模块用于: 获取 数据, 构建多特 征、 多类别的结直肠癌数据集; 所述数据预处 理模块用于: 对构建的结直肠癌数据集进行 数据预处 理; 所述特征选择模块用于: 使用RFE递归特征选择进行特征选择, 得到多个子数据集, 每 个子数据集含有不同数量的特 征; 所述模型构建模块用于: 构建XGBoost模型, 分别使用各个子数据集对其进行训练, 设 计优化目标, 通过遗传算法优化XGBoost模型中的参数, 得到最优的XGBoost模型作为检测 模型; 所述结果预测模块用于: 将结直肠癌数据的特征处理为检测模型所对应的特征, 使用 检测模型对进行 预测。 2.根据权利要求1所述的一种基于XGBoost的结直肠癌检测系 统, 其特征在于, 数据预 处理模块中, 所述数据预处 理包括以下步骤: S1、 对于结直肠癌数据集中的每一个数据样本, 将其标签进行 数值化处理; S2、 对于结直肠癌数据集中的每一个数据样本, 对其进行独热编码处理, 将其特征转换 为二值化数据; S3、 进行空缺 值和异常值检查, 并剔除含有空缺 值和异常值的数据样本; S4、 将结直肠癌数据集划分为训练用数据集和 测试用数据集。 3.根据权利要求2所述的一种基于XGBoost的结直肠癌检测系统, 其特征在于, 步骤S4 中, 使用strat ify实现分层 采样, 将结直肠癌数据集划分为训练用数据集和测试集, 使 得训 练用数据集、 测试集中各类标签的样本数据的比例与结直肠癌数据集中的比例 相同。 4.根据权利要求1所述的一种基于XGBoost的结直肠癌检测系 统, 其特征在于, 特征选 择模块中, 进行 特征选择包括以下步骤: T1、 获取预处理后的结直肠癌数据集, 数据集中每个数据样本的特征数量为Num, 设计 目标特征数量K1、 K2、 …、 Kn, 且K1> K2>…>Kn, 令i=1; T2、 将特征数量为Num的数据集送入设计的基分类器, 基分类器计算每个特征的重要性 并进行排序; T3、 若Num ‑Ki≥P, 则执 行步骤T4, 否则, 执 行步骤T5, 其中, P为预设置的步长; T4、 删除重要性最低的P个特征, 重新构建数据 集, 数据集的特征数量Num更新为Num ‑P, 执行步骤T2; T5、 删除重要性最低的(Num ‑Ki)个特征, 重新构建数据集并保存, 数据集的特征数量 Num更新为Ki, 令i+1, 若i≤n, 则执行步骤T2, 否则, 结束, 得到特征数量分别为K1、 K2、 …、 Kn 的子数据集。 5.根据权利要求4所述的一种基于XGBoost的结直肠癌检测系 统, 其特征在于, 所述基 分类器为含有coef_或feature_impor tances属性的分类 器。 6.根据权利要求3所述的一种基于XGBoost的结直肠癌检测系 统, 其特征在于, 模型构 建模块中执 行以下步骤: P1、 按照步骤S4中的划分, 每个子数据集包括训练用数据集和测试集, 再次使用 stratify实现分层采样, 将训练用数据集划分为训练集和验证集, 构建XGBoost模型, 设置权 利 要 求 书 1/2 页 2 CN 114358169 A 2模型参数; P2、 使用训练集训练XGBoost模型, 使用验证集进一步提高XGBoost模型的分类性能, 使 用测试集测试 XGBoost模型的性能, 包括 准确率、 召回率、 精确率和F1值; P3、 计算XGBoost模型在测 试集上的准确率和 F1值之和, 以XGBoost模型在测 试集上的 准确率和F1值之和为优化目标, 使用遗传算法优化XGBoost模型中的参数, 得到由不同子数 据集训练得到的XGBo ost模型; P4、 对各个XGBo ost模型在测试集上进行评估, 得到最优的XGBo ost模型作为检测模型。 7.根据权利要求6所述的一种基于XGBoost的结直肠癌检测系统, 其特征在于, 步骤S4 中, 按照9:1的比例将结直肠癌数据集划分为训练用数据集和测试集, 步骤P1 中, 按照8:2的 比例将训练用数据集划分为训练集和验证集。 8.根据权利要求6所述的一种基于XGBoost的结直肠癌检测系统, 其特征在于, 步骤P2 中, 准确率、 召回率、 精确率和F1值的计算公式如下: 其中, Accuracy表示准确率, Recall表示召回率, Precision表示精确率, TP表示测试集 上真实类别为 “positive”、 XGBoost模型预测的类别也是 “positive”的样本个数, FN表示测 试集上真实类别为 “positive”、 XGBoost模型错误预测成类别 “negative ”的样本个数, FP表 示表示测试集上真实类别为 “negative ”、 XGBoost模型错误预测成类别 “positive ”的样本 个数, TN表示测试集上真实类别为 “negative ”、 XGBoost模型预测的类别也为 “negative ”的 样本个数。 9.根据权利要求6所述的一种基于XGBoost的结直肠癌检测系统, 其特征在于, 步骤P3 中, 使用遗传算法优化XGBo ost模型中的参数 具体为: Step1、 将XGBoost模型中的待优化的参数进行编码作为个体, 设置遗传算法的参数, 生 成包含多个个体的初始种群, 初始化 一个为空的全局最优解; Step2、 选取XGBoost模型在测试集上的准确率和F1值之和作为遗传算法的适应度函 数, 计算种群中每 个个体的适应度值, 得到当前种群中的最优解, 并更新全局最优解; Step3、 采用轮盘赌的方法从种群中选择适应度好的个体进行交叉、 变异, 得到新的种 群; Step4、 判断种群是否收敛, 若收敛, 则将全局最优解输出, 否则, 执 行步骤Step2。 10.根据权利 要求9所述的一种基于XGBoost的结直肠癌检测系统, 其特征在于, 遗传算 法的参数包括: XGBoost模 型中的待优化的参数的取值范围、 种群规模、 迭代次数、 适应度函 数、 选择方式、 交叉 方式及交叉概 率、 变异方式及变异概 率。权 利 要 求 书 2/2 页 3 CN 114358169 A 3

.PDF文档 专利 一种基于XGBoost的结直肠癌检测系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于XGBoost的结直肠癌检测系统 第 1 页 专利 一种基于XGBoost的结直肠癌检测系统 第 2 页 专利 一种基于XGBoost的结直肠癌检测系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:42:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。