安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111485486.9 (22)申请日 2021.12.07 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区南 山街道崇文 路2号 (72)发明人 张清华 吴鹏 胡峰 高满  彭一航 周靖鹏  (74)专利代理 机构 重庆辉腾律师事务所 5 0215 代理人 卢胜斌 (51)Int.Cl. G06Q 50/22(2018.01) G16H 50/30(2018.01) G06Q 10/04(2012.01) G06K 9/62(2022.01) (54)发明名称 一种基于标准差和交互信息的慢性疾病特 征选择方法 (57)摘要 本发明属于计算机科学技术领域, 具体涉及 一种基于标准差和交互信息的慢性疾病特征选 择方法; 该方法包括: 实时获取用户的身体检查 数据, 对数据进行预处理, 将预处理后的数据输 入到基于标准差和交互信息的慢性疾病特征选 择模型中, 预测用户患有的慢性疾病类型; 本发 明可以有效地对高血压、 糖尿病等慢 性疾病的影 响因素进行筛选并标记, 通过对影 响因素的分析 统计来预防或预测慢性疾病, 本发 明为慢性疾病 的预警提供帮助, 克服了 现有慢性疾病预测需要 较多特征并且精确度不高的缺陷, 具有良好的经 济效益。 权利要求书2页 说明书8页 附图2页 CN 114358989 A 2022.04.15 CN 114358989 A 1.一种基于标准差和 交互信息的慢性疾病特征选择方法, 其特征在于, 实时获取用户 的身体检查数据, 对数据进行预处理, 将预处理后的数据输入到基于标准差和交互信息的 慢性疾病特 征选择模型中, 得到慢性疾病影响因素并对影响因素进行 标记; 基于标准差和交 互信息的慢性疾病特 征选择模型的训练过程包括: S1: 获取原 始数据; S2: 将原始数据划分为10个集合, 在10个集合 中随机选取9个集合作 为训练集, 剩余1个 集合作为测试集; S3: 将训练集作为 候选特征集; 初始化目标 特征集为空, 设置初始选择 特征个数K; S4: 计算候选特征集中每 个特征与类别的互信息值; S5: 筛选与类别具有最大互信息值的特征, 将该特征添加到目标特征集S中, 并在候选 特征集中删除该 特征, 得到筛选后的候选特 征集; S6: 采用评估函数计算筛选后的候选特征集中每个特征的分数, 根据各个特征的分数 对特征进行筛选, 将筛选的特征添加到目标特征集S中, 并在候选特征集中删除对应的特 征; S7: 重复执 行步骤S5~S6, 直到目标 特征集S中的特 征数量为K; S8: 根据目标 特征集S计算平均分类精度; S9: 迭代执行步骤S2~S8, 当平均分类精度最 高时停止迭代, 得到最优分类精度的分类 模型; 根据当前的分类模型对测试集中的特征进 行分类, 完成模型的训练, 并得到慢性疾病 的影响因素。 2.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 对数据进行预处理的过程包括: 对数据进行清洗, 得到清洗后的数据; 对清洗后的 数据进行离散化处理, 得到离散化的数据; 对离散化的数据进 行归一化处理, 得到预 处理好 的数据。 3.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 对数据进 行清洗包括: 删除变量、 填充变量以及处理异常值; 其中删除的变量包括: 缺失值大于30%变量, 高度不平衡的类别变量, 慢性疾病以外的所有体检信息变量, 版本时 间家庭住址变量。 4.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 归一 化处理公式为: 其中, F*表示归一化处理后 数据, F为未归一化处理的数据, Fmax为原始特征集中的最大 值, Fmin为原始特征集中最小值。 5.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 评估函数为: 其中, Fm表示第m个候选特征, Fj表示第j个目标特征, C表示类别, S表示已选候选集, J (Fm)表示特征分数; I(Fm; C|Fj)是条件互信息, 表示给定目标特征Fj的条件下候选特征Fm为权 利 要 求 书 1/2 页 2 CN 114358989 A 2类别C提供 的信息量; I(Fj; C|Fm)是条件互信息, 表示给定目标特征Fj的条件下候选特征Fm 为类别C提供的信息量; I(Fm; Fj; C)表示候选特征Fm和目标特征Fj为类别C提供的交互信息, I(Fj; Fm)表示候选特征Fm和目标特征Fj的互信息 。 6.根据权利要求5所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 交 互信息的计算公式为: I(Fm; Fj; C)=I(Fm,Fj; C)‑[I(Fm; C)+I(Fj; C)] 其中, I(Fm,Fj; C)表示候选特征Fm和目标特征Fj的联合互信息, I(Fm; C)表示候选特征Fm 为类别C提供的信息量, I(Fj; C)表示目标 特征Fj为类别提供的信息量。 7.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 根据各个特 征的分数对特 征进行筛 选的过程 为: 若最大分数只有一个, 则选择最大分数的特 征添加到目标 特征集S中; 若最大分数至少有2个, 则计算分数对应特征的标准差, 选择最小标准差对应的特征添 加到目标 特征集S中。 8.根据权利要求7所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特 征在于, 标准差的计算公式为: 其中, μ表示Fm可以提供的额外信息量的平均值, δ表示标准差, I(Fm; C|Fj)是条件互信 息, 表示给定目标特征Fj的条件下, 候选特征Fm为类别C提供的信息量; I(Fj; C|Fm)是条件互 信息, 表示给定候选特征Fm的条件下, 目标特征Fj为类别C提供的信息量; I(Fm; Fj; C)表示候 选特征Fm和目标特征Fj为类别C提供的交互信息, I(Fj; Fm)表示候选特征Fm和目标特征Fj的 冗余信息量。权 利 要 求 书 2/2 页 3 CN 114358989 A 3

.PDF文档 专利 一种基于标准差和交互信息的慢性疾病特征选择方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于标准差和交互信息的慢性疾病特征选择方法 第 1 页 专利 一种基于标准差和交互信息的慢性疾病特征选择方法 第 2 页 专利 一种基于标准差和交互信息的慢性疾病特征选择方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:41:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。