糖尿病概述
糖尿病有一型和二型,是由于胰腺分泌胰岛素紊乱或人体无法有效利用其产生的胰岛素而发生的一种慢性疾病,是21世纪人类面临的健康问题之一.糖尿病伴有弥漫性并发症,其包括心血管病变、肾脏疾病、高血压、中风等、眼部疾病、下肢截肢上百种,由此增加了过早死亡的风险.因此,糖尿病防治形势十分严峻.
下右图为糖尿病视网膜病变
2019年估算中国糖尿病患病率排名世界第二
中国糖尿病患者数量位居世界第一。中国是糖尿病最大药物研发市场。越来越多年轻人也加入糖尿病市场,成为药企摇钱树。
下图为中国糖尿病患病率历史数据
糖尿病给经济带来巨大负担
糖尿病也给经济带来了巨大的负担,每年诊断出的糖尿病成本约为 3270 亿美元,而未确诊的糖尿病和前驱糖尿病的总成本接近 4000 亿美元。
糖尿病可预防
虽然糖尿病无法治愈,但减肥、健康饮食、积极运动和接受药物治疗等策略可以减轻这种疾病对许多患者的危害。早期诊断可以改变生活方式和更有效的治疗,使糖尿病风险预测模型成为公共和公共卫生官员的重要工具。
糖尿病致病因子多样化
虽然有不同类型的糖尿病,但 II 型糖尿病是最常见的形式,其患病率因年龄、教育程度、收入、地点、种族和其他健康的社会决定因素而异。这种疾病的大部分负担也落在社会经济地位较低的人身上。
本实验就是通过建立人工智能机器学习模型,预测糖尿病概率和挖掘糖尿病重要致病因子。
糖尿病建模数据集介绍
糖尿病数据集来源美国疾控中心CDC糖尿病数据集。数据集包含25万条数据,21个变量。变量包括:实验者综合健康状态,性别,年龄,是否吸烟,是否心脏病,是否中风,是否高血压,是否高胆固醇,身体锻炼情况,蔬菜水果摄入情况,BMI指数等等。
美国疾控中心CDC糖尿病数据集一览
模型价值和意义
通过我们建立的人工智能机器学习预测模型,可实现以下一些研究问题:
1.模型能准确预测个人是否患有糖尿病。
2.模型能挖掘哪些风险因素最能预测糖尿病风险。
3.我们能使用风险因素的一个子集来准确预测一个人是否患有糖尿病。
4.我们可以使用筛选几个重要糖尿病致病特征,然后组合创建为一个简短的问题,以准确预测某人是否可能患有糖尿病或是否有糖尿病的高风险。
传统集成树算法虽然比决策树性能更优,但性能仍有改进空间。
型采用新一代对称树算法,有效降低过度拟合,提高模型预测速度和预测能力。
糖尿病预测模型性能优秀,ROC大于0.8,accuracy准确率高于0.866。
美国疾控中心糖尿病数据描述性统计如下
通过模型得出综合健康评级指数,年龄,BMI指数,高血压,高胆固醇是影响糖尿病的5个重要因素。
部分变量数据挖掘结果:GenHlth综合健康分数:数值越大,糖尿病风险越大;数值越小,糖尿病风险越小
年龄:年龄越大,糖尿病风险越大;年龄越小,糖尿病风险越小。
BMI指数:BMI越大,糖尿病风险越大;BMI越小,糖尿病风险越小。左边有少量红色点,每个变量有少数例外,但大趋势不变。
高血压:如果有高血压,糖尿病风险越大;如果没有高血压,糖尿病风险越小。
通过对美国疾控中心CDC糖尿病建模和数据挖掘后,我们得到很多高价值信息。
模型启示录1
血糖-控制含糖量高的食品摄入,例如白糖,奶茶,糖果,零食。
模型启示录2
BMI-控制体重,适当锻炼
模型启示录3-积极防控高血压
模型启示录4-积极防控高胆固醇
糖尿病可防可控,从预防做起,可限制降低糖尿病患病概率,减少政府医疗开支负担。
欢迎商务合作
如果您们对糖尿病模型项目感兴趣,欢迎各大医疗机构,科研机构,生物医药企业联系。
人工智能让生活更美好!