一区Top8.5分杂志发表中国学者机器学习论文,用“森林之神”方法筛选变量

文摘   科学   2025-01-13 17:52   浙江  

引言

“森林之神”——Boruta算法,是基于随机森林的一种特征选择方法,可以从众多特征中筛选出最重要的部分。今天分享的这篇一区top(IF 8.5文章,学者就通过Boruta算法筛选变,并通过四种机器学习算法构建了预测模型

慢性心力衰竭(CHF)是导致心血管相关死亡的主要原因之一,对人类健康构成重大威胁。应激性高血糖比(SHR)作为一种评估患者在急性医疗事件中体内血糖水平变化的指标,与多种重症疾病的不良结局相关。

然而,目前尚不清楚SHR是否与先前患有CHF且入住重症监护病房(ICU)患者的死亡风险相关。

2024年12月7日,中国学者MIMIC-IV 数据库,在期刊Cardiovascular Diabetology(医学top一区,IF=8.5发表题为Predicting 28-day all-cause mortality in patients admitted to intensive care units with pre-existing chronic heart failure using the stress hyperglycemia ratio: a machine learning-driven retrospective cohort analysis究论文旨在探究SHR水平与先前患有CHF的ICU患者的28天住院死亡率的关联,并通过四种机器学习算法(ML)构建预测模型。

研究结果表明,对于先前患有慢性心力衰竭的ICU患者,SHR可作为预测其28天住院死亡的独立因素。此外,在构建的四种预测模型中,神经网络算法的预测性能最佳。

本公号回复“ 原文”即可获得文献PDF等资料


研究团队基于MIMIC-IV数据库2008年~2019年的数据,经过纳排,最终纳入了913名年龄≥18岁患有CHF且入住ICU的患者,59%为男性。并且在28天的随访中,有488名患者在住院期间死亡。

图1 研究流程



SHR可有效预测患者28天住院死亡率

首先,研究团队通过RCS曲线探究SHR水平与患者28天住院死亡率的关联,结果显示,患者28天死亡风险随着SHR水平的升高而增加。



图2 SHR水平与患者28天住院死亡率关联的RCS 
调整了年龄、合并症败血症、肺炎和充血性心力衰竭、生命体征、OASIS评分、实验室检测指标和药物等
同时,Cox比例风险回归模型结果表明,SHR与28天住院死亡率独立相关。并且,亚组分析结果与其一致。
表1 COX比例风险回归和亚组分析
研究团队还通过绘制SHR、入院血糖(ABG)和糖化血红蛋白(HbA1c)的ROC曲线来预测患者28天的住院死亡率。结果表明,SHR(AUC=0.924)的预测能力优于ABG(AUC=0.910)HbA1c(AUC=0.917 )其截断值为0.57。
图3 ROC曲线
此外,研究团队根据SHR的截断值(0.57)将所有患者分为两组,并绘制了两组的Kaplan-Meier生存曲线。
结果表明,与SHR<0.57组相比,SHR≥0.57组患者的28天住院生存率显著降低。

图4 Kaplan-Meier生存曲线

预测模型的构建与评估

√变量筛选

研究团队通过“森林之神”—Boruta算法,筛选出15个重要预测因子。其中,SHR是预测患者28天住院死亡率的关键预测因子之一。

图5 Boruta算法

绿色框表示重要变量,红色框表示不重要的变量,黄色框表示可能重要的变量
√数据处理

研究团队将从MIMIC-IV数据库收集的数据以7:3的比例随机分为训练集(n=640)和验证集(n=273)。 

模型构建和评估

团队通过四种机器学习算法预测患者的28天住院死亡率,包括Coxph 、K-最近邻算法(KNN)朴素贝叶斯(Bayes)和神经网络算法。

同时,通ROC曲线、决策曲线(DCA)和校准曲线评估模型的预测性能。结果表明,神经网络算法模型的预测性能最佳。

图6 机器学习模型的ROC曲线













综上所述,研究团队认为,对于先前患有慢性心力衰竭的ICU患者,SHR是预测其28天住院死亡率的独立因素,且其性能优于HbA1c和血糖。此外,在基于机器学习算法构建的预测模型中,神经网络算法预测性能最佳。

亮点小结

其实基于机器学习构建预测模型的套路非常类似,基本上都是数据收集、特征筛选、模型构建以及模型评估。

想要在常规思路上有所亮点,不如尝试本文用“森林之神”—Boruta算法筛选变量的思路,让研究的统计方法更加高级。
如果你想在其他公共数据库尝试,可以看看郑老师的NHANES和GBD一对一课程!数据库挖掘教学+文章复现+选题建议+R代码报错指导,从零到一,足以满足你的发文需求, 让你不再为SCI文章焦头烂额!
请关注“公共数据库与孟德尔随机化众号,今后我们也会分享更多公共数据库联合机器学习发高分的优秀文章,大家敬请期待!

关于郑老师团队及公众号

大型医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

郑老师团队开设的医学统计培训课程,各类发文需求都可以满足:


GBD公共数据库挖掘NHANES公共数据库挖掘孟德尔随机化方法

真实世界临床研究(临床回顾性数据分析)临床预测模型

临床试验设计与数据分析重复测量资料分析R语言

量表与中介数据分析Meta分析


(目前购买统计课程还可参与发表SCI注明我们平台退课程费用的活动,详情扫描下方二维码添加助教微信咨询详情)

郑老师开发的超便捷免费统计工具了解一下:

www.medsta.cn/software(详情介绍)


详情联系助教小董咨询(微信号aq566665



公共数据库与孟德尔随机化
我们专门介绍公共数据库与孟德尔随机化,每周文献周报,呈现精品文献阅读
 最新文章