(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111485486.9
(22)申请日 2021.12.07
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 张清华 吴鹏 胡峰 高满
彭一航 周靖鹏
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
代理人 卢胜斌
(51)Int.Cl.
G06Q 50/22(2018.01)
G16H 50/30(2018.01)
G06Q 10/04(2012.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于标准差和交互信息的慢性疾病特
征选择方法
(57)摘要
本发明属于计算机科学技术领域, 具体涉及
一种基于标准差和交互信息的慢性疾病特征选
择方法; 该方法包括: 实时获取用户的身体检查
数据, 对数据进行预处理, 将预处理后的数据输
入到基于标准差和交互信息的慢性疾病特征选
择模型中, 预测用户患有的慢性疾病类型; 本发
明可以有效地对高血压、 糖尿病等慢 性疾病的影
响因素进行筛选并标记, 通过对影 响因素的分析
统计来预防或预测慢性疾病, 本发 明为慢性疾病
的预警提供帮助, 克服了 现有慢性疾病预测需要
较多特征并且精确度不高的缺陷, 具有良好的经
济效益。
权利要求书2页 说明书8页 附图2页
CN 114358989 A
2022.04.15
CN 114358989 A
1.一种基于标准差和 交互信息的慢性疾病特征选择方法, 其特征在于, 实时获取用户
的身体检查数据, 对数据进行预处理, 将预处理后的数据输入到基于标准差和交互信息的
慢性疾病特 征选择模型中, 得到慢性疾病影响因素并对影响因素进行 标记;
基于标准差和交 互信息的慢性疾病特 征选择模型的训练过程包括:
S1: 获取原 始数据;
S2: 将原始数据划分为10个集合, 在10个集合 中随机选取9个集合作 为训练集, 剩余1个
集合作为测试集;
S3: 将训练集作为 候选特征集; 初始化目标 特征集为空, 设置初始选择 特征个数K;
S4: 计算候选特征集中每 个特征与类别的互信息值;
S5: 筛选与类别具有最大互信息值的特征, 将该特征添加到目标特征集S中, 并在候选
特征集中删除该 特征, 得到筛选后的候选特 征集;
S6: 采用评估函数计算筛选后的候选特征集中每个特征的分数, 根据各个特征的分数
对特征进行筛选, 将筛选的特征添加到目标特征集S中, 并在候选特征集中删除对应的特
征;
S7: 重复执 行步骤S5~S6, 直到目标 特征集S中的特 征数量为K;
S8: 根据目标 特征集S计算平均分类精度;
S9: 迭代执行步骤S2~S8, 当平均分类精度最 高时停止迭代, 得到最优分类精度的分类
模型; 根据当前的分类模型对测试集中的特征进 行分类, 完成模型的训练, 并得到慢性疾病
的影响因素。
2.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 对数据进行预处理的过程包括: 对数据进行清洗, 得到清洗后的数据; 对清洗后的
数据进行离散化处理, 得到离散化的数据; 对离散化的数据进 行归一化处理, 得到预 处理好
的数据。
3.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 对数据进 行清洗包括: 删除变量、 填充变量以及处理异常值; 其中删除的变量包括:
缺失值大于30%变量, 高度不平衡的类别变量, 慢性疾病以外的所有体检信息变量, 版本时
间家庭住址变量。
4.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 归一 化处理公式为:
其中, F*表示归一化处理后 数据, F为未归一化处理的数据, Fmax为原始特征集中的最大
值, Fmin为原始特征集中最小值。
5.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 评估函数为:
其中, Fm表示第m个候选特征, Fj表示第j个目标特征, C表示类别, S表示已选候选集, J
(Fm)表示特征分数; I(Fm; C|Fj)是条件互信息, 表示给定目标特征Fj的条件下候选特征Fm为权 利 要 求 书 1/2 页
2
CN 114358989 A
2类别C提供 的信息量; I(Fj; C|Fm)是条件互信息, 表示给定目标特征Fj的条件下候选特征Fm
为类别C提供的信息量; I(Fm; Fj; C)表示候选特征Fm和目标特征Fj为类别C提供的交互信息,
I(Fj; Fm)表示候选特征Fm和目标特征Fj的互信息 。
6.根据权利要求5所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 交 互信息的计算公式为:
I(Fm; Fj; C)=I(Fm,Fj; C)‑[I(Fm; C)+I(Fj; C)]
其中, I(Fm,Fj; C)表示候选特征Fm和目标特征Fj的联合互信息, I(Fm; C)表示候选特征Fm
为类别C提供的信息量, I(Fj; C)表示目标 特征Fj为类别提供的信息量。
7.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 根据各个特 征的分数对特 征进行筛 选的过程 为:
若最大分数只有一个, 则选择最大分数的特 征添加到目标 特征集S中;
若最大分数至少有2个, 则计算分数对应特征的标准差, 选择最小标准差对应的特征添
加到目标 特征集S中。
8.根据权利要求7所述的一种基于标准差和交互信息的慢性疾病特征选择方法, 其特
征在于, 标准差的计算公式为:
其中, μ表示Fm可以提供的额外信息量的平均值, δ表示标准差, I(Fm; C|Fj)是条件互信
息, 表示给定目标特征Fj的条件下, 候选特征Fm为类别C提供的信息量; I(Fj; C|Fm)是条件互
信息, 表示给定候选特征Fm的条件下, 目标特征Fj为类别C提供的信息量; I(Fm; Fj; C)表示候
选特征Fm和目标特征Fj为类别C提供的交互信息, I(Fj; Fm)表示候选特征Fm和目标特征Fj的
冗余信息量。权 利 要 求 书 2/2 页
3
CN 114358989 A
3
专利 一种基于标准差和交互信息的慢性疾病特征选择方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:41:45上传分享