Lancet子刊:探讨影响因素,加入SHAP法解析关键影响因子。这个思路不错

健康   2025-01-09 11:50   美国  

【欢迎阅读浙中大郑老师撰写的统计科普文】
看了这么多基于机器学习构建预测模型的文章,相信大家现在对SHAP法已经不再陌生。
老郑最近又看到一篇有意思的文章,在常规logistic回归构建预测模型的基础上,进一步用SHAP法解释预测因子的重要性,让我们一起来看看他们是怎么做的

原文阅读

2025年1月,顶级期刊Lancet子刊eClinicalMedicine(医学一区top,IF=9.6)发表了一篇题为:“The impact of war on people with type 2 diabetes in Ukraine: a survey study”的研究论文,研究团队旨在通过logistic回归和机器学习工具评估内在因素和战争相关因素对乌克兰2型糖尿病(T2D)患者的影响。
研究结果表明,战争对乌克兰T2D患者的健康产生了显著的负面影响,特别是在血糖控制方面。

如果你需要全文,请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,来看看我们的临床预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665

在该研究中,数据收集工作于2022年6月至2024年2月间进行,覆盖了乌克兰持续两年的战争期。
  • 通过计算战前与调查时HbA1c水平的差异(Δ值),并根据HbA1c变化幅度将所有受访者分为进展者(HbA1c水平较初始值增加超过5%)和稳定者(HbA1c水平稳定)两组,以全面评估各种因素对血糖控制的影响。
√单变量logistic回归评估影响因素
研究团队首先使用了单变量logistic回归分析来评估每个潜在影响因素与T2D进展之间的关联。

研究结果表明,战争相关因素显著影响了T2D患者的健康状况。具体体现在:

  • 军事行动、占领时长、国内流离失所和家庭成员受伤或死亡的经历增加了T2D患者HbA1c水平;

  • 缺乏定期血糖监测、内分泌学家咨询、不合理的饮食和缺乏体力活动也导致了T2D患者病程的恶化。
√多变量logistic回归构建预测模型
在进行构建多变量logistic回归模型之前,研究团队首先使用逐步回归纳入标准为p< 0. 1,p >0. 2的变量被排除)筛选影响因素。
最终,研究团队纳入四个主要影响因素HbA 1c的初始水平、战争相关因素暴露的持续时间、超过1个月的占领和缺乏定期血糖监测用于构建多变量logistic回归预测模型。
该预测模型的卡方值为112.4(p < 0.001),AUC为0.69 (95% CІ 0.66–0.72),表明上述的影响因素对T2D进展风险的影响令人满意。
  • 同时,研究团队在根据约登指数(判别标准>0.464)选择模型阈值时,敏感性为85.4% (95% CI 82.1% ~ 88.4%),特异性为45.4% (95% CI 40.6% ~ 50.3%)。

老郑有话说:AUC小于0.70还能说满意?让我们具体情况具体分析。

卡方值为112.4(p < 0.001),表明模型整体上是显著有效的。这说明模型在区分T2D进展和非进展患者方面具有统计学上的显著性。

虽然AUC为0.69确实不算非常强的区分能力,但在特定的应用场景下,特别是考虑到其高敏感性和对早期筛查的重要性,这个模型仍然可以被认为是具有一定实用价值的。

它为后续研究和改进提供了一个基础,并在当前背景下展示了合理的预测性能。



机器学习构建预测模型

√特征筛选

基于单变量和多变量逻辑回归的结果,初步筛选了对T2D(2型糖尿病)进展有显著影响的因素作为模型输入特征。
  • 这些因素包括:初始HbA1c水平、BMI(及体重)、患者年龄、战争相关因素暴露持续时间、T2D持续时间、血糖监测情况,以及区域、战争相关经历(涵盖占领时长、家庭受影响情况和流离失所)
  • 在模型训练前,为确保特征间的可比性和模型稳定性,首先对连续变量(年龄、BMI、HbA1c)进行了分位数变换的归一化处理。
√模型构建

为进行模型训练和交叉验证,研究团队选择了H2O.ai的autoML库,用该库训练并交叉验证了多种算法,包括:梯度提升机(GBM)、极端梯度提升(XGBoost)、广义线性模型、极度随机树、分布式随机森林和深度学习。

√模型性能评估
经过10折交叉验证和AUC值评估,最终确定GBM模型表现最佳,在验证集中AUC达到0.69。
√模型可解释性

使用SHAP法生成条形图和蜂群图可视化特征的重要性及其对模型输出的影响。

综上所述,基于对乌克兰所有地区的调查,研究团队得出战争对糖尿病患者健康有显著的负面影响。其中,战争相关经历(涵盖占领时长、家庭受影响情况和流离失所)、无法监测血糖、不合理的饮食和缺乏体力活动以及缺少内分泌学家支持是T2D病程恶化的最重要因素。
【感谢阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号 


大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍
联系助教小董咨询(微信号aq566665





医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章