基于LASSO回归筛选变量建立预测模型(IF 22.5)|文献解读

企业   2024-11-11 10:56   中国  

前段时间我们分享了预测模型的相关文献解读,今天仍然是预测模型,但是其风险因素是基于LASSO回归筛选得出。LASSO回归高效解决了筛选变量的难题:区别于传统的逐步回归stepwise前进、后退变量筛选方法,LASSO回归可以利用较少样本量,高效筛选较多变量。我们先前详细介绍了LASSO回归,有兴趣的小伙伴可以点击看看哦!(1.无需代码,一键完成LASSO回归分析,超简易教程;2.什么是LASSO回归,怎么看懂LASSO回归的结果

不知道各位小伙伴在构建预测模型时是不是都希望包含尽可能多的相关指标以提高模型的精确度。但是在实际诊疗时,医生不可能对每位新入院的患者都进行全面的检查,因此这就要求在减少所需指标数量的同时,保持预测模型的准确性,实现成本效益和操作效率的最优化。在这种情况下,LASSO回归作为一种强大的工具,能够从众多变量中筛选出关键变量,用于构建高效且准确的预测模型。本期将用一篇文章详细探讨如何利用LASSO回归构建预测模型。

这篇文章是发表在《JAMA Internal Medicine》(IF 22.5)的“Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19”。


数据来源及潜在预测因素

研究采用了2019年11月21日至2020年1月31日期间向中国国家卫生健康委员会报告的经实验室确诊的COVID-19住院病例的医疗记录。并将病例分为开发队列和验证队列,开发队列包含1590名因 COVID-19住院的患者用于变量选择和预测模型的开发。验证队列纳入了开发队列中未包括的医院的数据,包括710名患者。

由于需要构建预测模型,需要先确定潜在预测因素,包括患者入院时的以下特征:临床体征和症状、影像学结果、实验室检查结果、人口统计学变量和病史,总共包括72个临床因素。

开发队列基线特征

开发队列纳入了中1590名患者,入院时,有1.5%患者被认为是重症,共有131名患者最终发展为危重疾病(8.2%),总死亡率为3.2%。399名(25.1%)至少患有1种共患疾病,其中高血压、糖尿病和心血管疾病位列前三大共患疾病。

表1 开发队列中患或未患危重疾病的患者的人口统计学和临床特征

表2 发展为或未发展为危重疾病的患者的实验室检查结果

预测因素选择

研究人员锁定了72个因素用于患者结局的预测,但是因素数量太大,并且这些因素之间可能存在共线性,也可能会出现过度拟合的情况,因此使用LASSO回归分析的方法筛选预测因素。

LASSO回归通过引入L1正则化项来减少模型复杂度。LASSO回归中的正则化参数λ控制了模型的稀疏程度。λ的值越大,对系数的惩罚越强,更多的系数会被压缩至零。通过调整λ的值,可以在模型的复杂度和拟合优度之间找到一个平衡点

那如何选择合适的λ值?可以采用交叉验证,通过比较不同λ值下的模型性能,可以选择一个既能保持模型简洁性又能获得良好预测性能的λ值。

72个因素被纳入LASSO回归分析,得出19个因素是危重疾病的重要预测因素。

附录图1 72个预测因素的LASSO系数分布(B) 使用10重交叉验证调整参数λ

随后将这19个因素纳入逻辑回归模型,最终得到10个因素,这些因素是独立的、具有统计学意义的重大疾病预测因子,得到最终的临床预测模型。

表3 住院患者危重疾病发展的多变量Logistic回归模型

模型构建

根据每个风险因子的权重,构建了多因素预测模型,并开发了一个在线模型,允许临床医生输入风险评分所需的10个变量的值,并自动计算住院的COVID-19患者发展为危重疾病的可能性。

图1 用于预测COVID-19患者危重病情的在线预测模型

模型内部验证

AUC即ROC曲线下的面积,是一种常用的评估分类模型性能的指标。ROC曲线的横轴是False Positive Rate(假阳性率,FPR),纵轴是True Positive Rate(真阳性率,TPR),因此ROC曲线越陡越好,即AUC越接近1,模型的性能越好。

经内部自举验证,基于开发队列数据的平均AUC为0.88。

附录图2 预测模型内部验证的ROC曲线

模型外部验证

验证队列包括710名患者,平均年龄为48.2岁,172 名(24.2%)患有至少一种共存疾病。结果显示,验证队列验证的预测模型的准确度与开发队列相似,验证队列的AUC为0.88。

附录图3 预测模型外部验证的ROC曲线

总结

虽然COVID-19已经逐渐远去了,但是这篇文章的统计分析方法还是非常值得借鉴学习的:

LASSO回归分析筛选因素:使用LASSO回归分析筛选72个潜在预测因素,并使用10重交叉验证调整参数λ,这种方法可以减少共线性问题和过拟合,提高了模型的稳定性和预测准确性。

内、外部验证:通过开发队列的内部举证的方法进行内部验证,AUC达0.88。并使用710名患者的数据进行外部验证,这有助于确认模型的泛化能力和在不同人群中的适用性。经过内外部验证,增加模型预测准确性和可信度。

如果你自己不会构建LASSO模型,可以看看这篇文章,3分钟零代码构建LASSO回归模型

以上就是文献解读的全部内容啦,觉得还不错的小伙伴可以点击一下在看哦,我们下期再见吧!

往期推荐



1.一篇文章搞懂什么是C-RCT集群随机对照试验|附SCI真实案例
2.利用UKB公开数据库也能发JAMA?他们是如何做到的|文献解读
3.NHANES公开数据库+中介效应分析|文献解读
4.临床预测模型遇到Meta分析,能擦出怎么样的火花|文献解读
关于易侕科研
易侕科研隶属于斯录欣(上海)信息科技有限公司,公司成立2014年,是一家高新科技企业。斯录欣由临床研究专家、统计学家组建,公司聚焦于临床研究、数据服务,欢迎和我们联系。
电话:15007152536 (同微信)
邮箱:bp@yunedc.com
官网:http://www.siluxintech.com
👇点击阅读原文查看文献

易侕科研
专注于临床科研数据管理+数据分析。定期分享一些研究设计、数据分析的内容,也会推荐一些好用的科研工具和网站。每天10min,让科研更简单!(本账号原名为:易侕统计。本账号为斯录欣公司旗下产品,2018年更名为:易侕科研)
 最新文章