基于LASSO回归筛选变量建立预测模型（IF 22.5）|文献解读

企业 2024-11-11 10:56 中国

前段时间我们分享了预测模型的相关文献解读，今天仍然是预测模型，但是其风险因素是基于LASSO回归筛选得出。LASSO回归高效解决了筛选变量的难题：区别于传统的逐步回归stepwise前进、后退变量筛选方法，LASSO回归可以利用较少样本量，高效筛选较多变量。我们先前详细介绍了LASSO回归，有兴趣的小伙伴可以点击看看哦！（1.无需代码，一键完成LASSO回归分析，超简易教程；2.什么是LASSO回归，怎么看懂LASSO回归的结果）

不知道各位小伙伴在构建预测模型时是不是都希望包含尽可能多的相关指标以提高模型的精确度。但是在实际诊疗时，医生不可能对每位新入院的患者都进行全面的检查，因此这就要求在减少所需指标数量的同时，保持预测模型的准确性，实现成本效益和操作效率的最优化。在这种情况下，LASSO回归作为一种强大的工具，能够从众多变量中筛选出关键变量，用于构建高效且准确的预测模型。本期将用一篇文章详细探讨如何利用LASSO回归构建预测模型。

这篇文章是发表在《JAMA Internal Medicine》（IF 22.5）的“Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19”。

数据来源及潜在预测因素

研究采用了2019年11月21日至2020年1月31日期间向中国国家卫生健康委员会报告的经实验室确诊的COVID-19住院病例的医疗记录。并将病例分为开发队列和验证队列，开发队列包含1590名因 COVID-19住院的患者用于变量选择和预测模型的开发。验证队列纳入了开发队列中未包括的医院的数据，包括710名患者。

由于需要构建预测模型，需要先确定潜在预测因素，包括患者入院时的以下特征：临床体征和症状、影像学结果、实验室检查结果、人口统计学变量和病史，总共包括72个临床因素。

开发队列基线特征

开发队列纳入了中1590名患者，入院时，有1.5%患者被认为是重症，共有131名患者最终发展为危重疾病（8.2%），总死亡率为3.2%。399名（25.1%）至少患有1种共患疾病，其中高血压、糖尿病和心血管疾病位列前三大共患疾病。

表1 开发队列中患或未患危重疾病的患者的人口统计学和临床特征

表2 发展为或未发展为危重疾病的患者的实验室检查结果

预测因素选择

研究人员锁定了72个因素用于患者结局的预测，但是因素数量太大，并且这些因素之间可能存在共线性，也可能会出现过度拟合的情况，因此使用LASSO回归分析的方法筛选预测因素。
LASSO回归通过引入L1正则化项来减少模型复杂度。LASSO回归中的正则化参数λ控制了模型的稀疏程度。λ的值越大，对系数的惩罚越强，更多的系数会被压缩至零。通过调整λ的值，可以在模型的复杂度和拟合优度之间找到一个平衡点。
那如何选择合适的λ值？可以采用交叉验证，通过比较不同λ值下的模型性能，可以选择一个既能保持模型简洁性又能获得良好预测性能的λ值。

72个因素被纳入LASSO回归分析，得出19个因素是危重疾病的重要预测因素。

附录图1 72个预测因素的LASSO系数分布(B) 使用10重交叉验证调整参数λ

随后将这19个因素纳入逻辑回归模型，最终得到10个因素，这些因素是独立的、具有统计学意义的重大疾病预测因子，得到最终的临床预测模型。

表3 住院患者危重疾病发展的多变量Logistic回归模型

模型构建

根据每个风险因子的权重，构建了多因素预测模型，并开发了一个在线模型，允许临床医生输入风险评分所需的10个变量的值，并自动计算住院的COVID-19患者发展为危重疾病的可能性。

图1 用于预测COVID-19患者危重病情的在线预测模型

模型内部验证

AUC即ROC曲线下的面积，是一种常用的评估分类模型性能的指标。ROC曲线的横轴是False Positive Rate（假阳性率，FPR），纵轴是True Positive Rate（真阳性率，TPR），因此ROC曲线越陡越好，即AUC越接近1，模型的性能越好。

经内部自举验证，基于开发队列数据的平均AUC为0.88。

附录图2 预测模型内部验证的ROC曲线

模型外部验证

验证队列包括710名患者，平均年龄为48.2岁，172 名（24.2%）患有至少一种共存疾病。结果显示，验证队列验证的预测模型的准确度与开发队列相似，验证队列的AUC为0.88。

附录图3 预测模型外部验证的ROC曲线

总结

虽然COVID-19已经逐渐远去了，但是这篇文章的统计分析方法还是非常值得借鉴学习的：

LASSO回归分析筛选因素：使用LASSO回归分析筛选72个潜在预测因素，并使用10重交叉验证调整参数λ，这种方法可以减少共线性问题和过拟合，提高了模型的稳定性和预测准确性。

内、外部验证：通过开发队列的内部举证的方法进行内部验证，AUC达0.88。并使用710名患者的数据进行外部验证，这有助于确认模型的泛化能力和在不同人群中的适用性。经过内外部验证，增加模型预测准确性和可信度。

如果你自己不会构建LASSO模型，可以看看这篇文章，3分钟零代码构建LASSO回归模型。

以上就是文献解读的全部内容啦，觉得还不错的小伙伴可以点击一下在看哦，我们下期再见吧！

往期推荐

1.一篇文章搞懂什么是C-RCT集群随机对照试验|附SCI真实案例

2.利用UKB公开数据库也能发JAMA？他们是如何做到的|文献解读

3.NHANES公开数据库+中介效应分析|文献解读

4.临床预测模型遇到Meta分析，能擦出怎么样的火花|文献解读

关于易侕科研

易侕科研隶属于斯录欣（上海）信息科技有限公司，公司成立2014年，是一家高新科技企业。斯录欣由临床研究专家、统计学家组建，公司聚焦于临床研究、数据服务，欢迎和我们联系。

电话：15007152536 （同微信）

邮箱：bp@yunedc.com

官网：http://www.siluxintech.com

👇点击阅读原文查看文献

http://mp.weixin.qq.com/s?__biz=MzA3OTE5MTc2Ng==&mid=2247491472&idx=1&sn=dcebed3f2d98d34bf9443c559631746f

易侕科研

专注于临床科研数据管理+数据分析。定期分享一些研究设计、数据分析的内容，也会推荐一些好用的科研工具和网站。每天10min，让科研更简单！（本账号原名为：易侕统计。本账号为斯录欣公司旗下产品，2018年更名为：易侕科研）

最新文章

重复测量数据该如何分析？IF10.5分文献解读

基于LASSO回归筛选变量建立预测模型（IF 22.5）|文献解读

临床预测模型遇到Meta分析，能擦出怎么样的火花|文献解读

NHANES公开数据库+中介效应分析|文献解读

学科带头人的科研规划：构建专病数据库的策略与执行工具

UKB公开数据库+非线性孟德尔随机化（IF9.6）文献解读

SCI发文的敲门砖，写好一篇Cover Letter|附示例

一篇文章搞懂什么是C-RCT集群随机对照试验|附SCI真实案例

易侕eTMF文件管理系统介绍|药物试验

SCI被退稿，了解十大原因不犯错|选刊工具助力投稿（下篇）

SCI被退稿，了解十大原因不犯错|选刊工具助力投稿（上篇）

BMJ上的高分Meta分析：传统与网状相结合|文献解读

传统Meta没新意了，要不试试网状Meta分析？|文献解读

如何建立一个靠谱的专病数据库？微信随访|OCR识别|临床研究

对于临床数据缺失，顶级论文是如何处理的？|文献解读

无需代码，一键完成LASSO回归分析，超简易教程

SEER公共数据库、没有花哨的统计学方法|一篇IF12.5的文献解读

中医针灸RCT研究，如何发表在19.6分的SCI期刊上？|文献解读

面向GCP室/临床研究中心的全院EDC平台搭建

推荐一款100W医学人都在用的医学文献检索、阅读、AI学术搜索工具

临床科研一体化平台建设现状与方案|易侕科研

什么是中央随机化系统|易侕CRS系统介绍

599例患者数据发表28篇SCI论文 | 如何基于数据库开展二次研究？

大型人群队列的开展和数据聚合平台的构建

如何建立一个靠谱的专病数据库？微信随访|OCR识别|医患沟通

斯录欣公司（易侕科研）荣获上海交大和上海健康医学院联合颁发“数字医疗研究中心应用示范基地”

利用UKB公开数据库也能发JAMA？他们是如何做到的|文献解读

斯录欣公司（易侕科研）荣获ISO27001与9001双认证，塑造医疗信息化安全与质量的新典范

2024年JCR最新影响因子发布啦-免费查询！

浅谈随机对照研究 | 附36篇高分文献

基于专病数据库的临床科研平台构建和实施| 易侕科研

科室负责人的科研规划：构建科室数据库的策略与执行工具

我们用GPT做了一个SCI文章选刊工具，让SCI选刊变得超级简单！

大型人群队列的开展和数据聚合平台的构建

【首发】PubMed手机端APP上线啦！

横断面研究：IF=10分文章分析思路解析 | 易侕科研

pubmedpro文献合集 | 横断面研究热门高分文献

易侕EDC眼科专病数据库的应用

如何开展诊断试验研究 | 附24篇高分文献

《NEJM》2023年度最佳文献合集

10分钟搞懂分层区组和动态随机 | 易侕中央随机系统

文献合集 | 《JAMA》2023年度热门文献合集

祝贺斯录欣（易侕科研）成功入选2023年“上海市创新型中小企业”

生存分析研究的方法与应用 | 附32篇SCI

易侕EDC数据库在临床研究中的应用：微信随访|OCR识别|多中心

回顾性真实世界研究分析思路 | 文献解读

阜外医院“心论坛”临床研究方法与实践公开课-第四讲今晚6点开课 | 易侕科研

阜外医院“心论坛”临床研究方法与实践公开课-第四讲 | 易侕科研

基于专病数据库的全院科研平台 | 易侕科研

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉