首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

健康 2024-12-12 07:49 浙江

引言

从统计学和构建预测模型的基本原理来看，预测模型的核心在于使用已知的信息、预测未知的事件。

“已知”指的是在预测事件发生之前就已经存在并且可以获取的数据或特征，它们构成了模型训练的基础；
而“未知”则指的是我们想要通过模型进行预测的目标或结局，它通常是基于已知信息来推断或估计的。

对于我们想要构建的预测模型来说，筛选出的变量对最后的预测性能至关重要。

今天分享一篇基于机器学习构建预测模型的二区Top的文章，研究团队想要构建预测模型来预测患者住院死亡率，却将住院时间作为关键预测因子纳入模型。这一变量的获取时间恰好与患者是否发生院内死亡这一预测结局的时间点相同。

在预测因子的获取与预测结局的发生在时间上完全重合，甚至晚于预测结局，这样的变量可以纳入构建预测模型吗？老郑带大家一起探讨一下。

首先让我们按照常规套路，简单看一下这篇文章！

研究设计流程

在该项研究中，研究团队使用了去身份化电子健康记录（EHR）数据，纳入老年患者。

本研究旨在基于8种机器学习法和SHAP法，构建可解释机器学习预测模型，以评估风险因素并预测老年心合并高血压患者的住院死亡率。

√缺失数据的处理

研究中所有变量的缺失数据比例均保持在30%以下，使用K-最近邻（KNN）分类算法对缺失数据进行处理。

√变量筛选

使用LASSO法在44个变量中筛选出9个最佳预测因子，包括年龄、住院时间（LOS）、中性粒细胞（Neu）、尿素、Cl、活化部分凝血活酶时间（APTT）、白细胞（LEU）、白蛋白和HDL胆固醇。

√模型的构建

在处理完缺失数据后，使用随机分层抽样将数据集分为训练集（70%）和测试集（30%）。

对于训练集，采用随机欠采样和SMOTE（合成少数过采样技术）混合处理，以解决正负样本不平衡的问题；
同时进行五次交叉验证，以确定八个ML模型的最佳超参数。

基于LASSO法筛选出的9个关键预测因子，用8种机器学习法（随机森林[RF]，外部梯度提升[XGBoost]，分类提升[CatBoost]，光梯度提升机[LightGBM]，支持向量机[SVM]，决策树，梯度提升分类器和人工神经网络[ANN]）构建预测模型。

√模型的评估

采用多个指标评估模型的最佳性能，包括准确性、受试者工作特征（ROC）曲线的曲线下面积（AUC）、召回率、特异性和Brier评分。

研究结果表明，RF模型的预测性能最佳，其AUC值为0.850（95% CI 0.789-0.897）。

图1 四种ML模型预测HF和高血压患者住院死亡率的ROC曲线

√模型的解释

使用SHAP法绘制条形图，可视化每个特征对预测模型的重要性；使用LIME局部分析最有效的模型。

研究结果表明，在这8个模型中，与住院死亡率最相关的因素是尿素、LOS、Neu、白蛋白、高密度脂蛋白胆固醇（重要性排序略有差异）。

而相似RF模型测试集的SHAP解释力图中，研究团队发现，随尿素、Neu、LOS、APTT、年龄、LEU增加，患者的死亡风险增加；而当白蛋白、高密度脂蛋白胆固醇和氯离子升高时，死亡的风险却下降。

图2 四种ML模型预测HF和高血压患者住院死亡率的ROC曲线

老郑有话说

临床预测模型包括诊断模型和预后模型。

诊断模型的预测目标是人群在当前时间点患有某种特定结果或疾病的概率，其重点关注当前状态。
预后模型估计个体在将来特定时间内（可以是今后几小时甚至几年）发生某种结局的概率。预后模型不仅限于特定疾病患者的结局，也可以是非患病人群发生某种结果的风险预测。

显然，本文通过机器学习构建了预后预测模型。

对于预后模型，特别注意不能纳入结局的结局，我们必须仅包括在结局事件发生之前以及研究开始的基线预测因子，即做出预测时可获得的信息。

而在本文中，研究团队基于临床经验与相关的前沿文献，结合纳入和排除标准，得到44个相关变量。

使用LASSO法筛选预测因子，得到9个最佳预测因子，包括年龄、住院时间（LOS）、中性粒细胞（Neu）、尿素、Cl、活化部分凝血活酶时间（APTT）、白细胞（LEU）、白蛋白和HDL胆固醇。

值得注意的是，研究团队把住院时长（LOS）作为预测变量纳入模型，来预测患者住院的死亡率，相信各位能看出这是不合理的。

“住院时长LOS”是在患者办理出院时获取，而并非在基线时获得；另外，办理出院时就是获得患者是否发生院内死亡的时间点。

老郑已经看到好多文章，将住院时长作为预测因子。

预测变量与预测结局在同一时间点获得，在这样的临床场景下，死亡结局的事件获得，随着变量的获得而自然呈现，住院时长是临床结局的结局，不需要该文章提出的预测模型进行额外的预测，也不应该纳入模型。

一定要明确：我们的科研数据不是为了建机器学习模型，而是为了有一定的临床应用，没有临床意义的模型，是没有价值的。

参考文献：

[1]莫航沣,陈亚萍,韩慧,等.临床预测模型研究方法与步骤[J].中国循证医学杂志,2024,24(02):228-236.

[2]Efthimiou O, Seo M et al. Developing clinical prediction models: a step-by-step guide BMJ 2024; 386.

更多关于临床预测模型与机器学习统计服务，请联系郑老师团队陈老师微信：sas555777

关于郑老师团队及公众号

全国较大的线上医学统计公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是统计助理！

我们提供以下临床试验全流程服务：

①随机对照研究方案设计指导

②撰写统计分析计划

③规范靠谱的数据分析

④论文写作指导与统计修回

详情链接：

临床试验项目设计与数据分析，我们是可靠的合作伙伴

联系陈老师咨询（微信号sas555777）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉