这篇二区Top文章的临床预测模型,虽然用了8种机器学习方法,但它不靠谱,原因是住院时长不应作为预测因子

健康   2024-12-12 07:49   浙江  

引言

从统计学和构建预测模型的基本原理来看,预测模型的核心在于使用已知的信息、预测未知的事件。

  • “已知”指的是在预测事件发生之前就已经存在并且可以获取的数据或特征,它们构成了模型训练的基础;
  • “未知”则指的是我们想要通过模型进行预测的目标或结局,它通常是基于已知信息来推断或估计的。
对于我们想要构建的预测模型来说,筛选出的变量对最后的预测性能至关重要。
今天分享一篇基于机器学习构建预测模型的二区Top的文章,研究团队想要构建预测模型来预测患者住院死亡率,却将住院时间作为关键预测因子纳入模型。这一变量的获取时间恰好与患者是否发生院内死亡这一预测结局的时间点相同。
在预测因子的获取与预测结局的发生在时间上完全重合,甚至晚于预测结局,这样的变量可以纳入构建预测模型吗?老郑带大家一起探讨一下。

首先让我们按照常规套路,简单看一下这篇文章!

研究设计流程

在该项研究中,研究团队使用了去身份化电子健康记录(EHR)数据,纳入老年患者。
本研究旨在基于8种机器学习法和SHAP法,构建可解释机器学习预测模型,以评估风险因素并预测老年心合并高血压患者的住院死亡率。
√缺失数据的处理
研究中所有变量的缺失数据比例均保持在30%以下,使用K-最近邻(KNN)分类算法对缺失数据进行处理。
√变量筛选
使用LASSO法在44个变量中筛选出9个最佳预测因子,包括年龄、住院时间(LOS)、中性粒细胞(Neu)、尿素、Cl、活化部分凝血活酶时间(APTT)、白细胞(LEU)、白蛋白和HDL胆固醇。
√模型的构建

在处理完缺失数据后,使用随机分层抽样将数据集分为训练集(70%)和测试集(30%)。

  • 对于训练集,采用随机欠采样和SMOTE(合成少数过采样技术混合处理,以解决正负样本不平衡的问题;

  • 同时进行五次交叉验证,以确定八个ML模型的最佳超参数。
基于LASSO法筛选出的9个关键预测因子,用8种机器学习法随机森林[RF],外部梯度提升[XGBoost],分类提升[CatBoost],光梯度提升机[LightGBM],支持向量机[SVM],决策树,梯度提升分类器和人工神经网络[ANN]构建预测模型。
√模型的评估
采用多个指标评估模型的最佳性能,包括准确性、受试者工作特征(ROC)曲线的曲线下面积(AUC)、召回率、特异性和Brier评分。
研究结果表明,RF模型的预测性能最佳,其AUC值为0.850(95% CI 0.789-0.897)。

图1 四种ML模型预测HF和高血压患者住院死亡率的ROC曲线
√模型的解释
使用SHAP法绘制条形图,可视化每个特征对预测模型的重要性;使用LIME部分析最有效的模型。
研究结果表明,在这8个模型中,与住院死亡率最相关的因素是尿素、LOS、Neu、白蛋白、高密度脂蛋白胆固醇(重要性排序略有差异)。
而相似RF模型测试集的SHAP解释力图中,研究团队发现,随尿素、Neu、LOS、APTT、年龄、LEU增加,患者的死亡风险增加;而当白蛋白、高密度脂蛋白胆固醇和氯离子升高时,死亡的风险却下降。

图2 四种ML模型预测HF和高血压患者住院死亡率的ROC曲线

老郑有话说

临床预测模型包括诊断模型和预后模型。

  • 诊断模型的预测目标是人群在当前时间点患有某种特定结果或疾病的概率,其重点关注当前状态。

  • 预后模型估计个体在将来特定时间内(可以是今后几小时甚至几年)发生某种结局的概率。预后模型不仅限于特定疾病患者的结局,也可以是非患病人群发生某种结果的风险预测。
显然,本文通过机器学习构建了预后预测模型。
对于预后模型,特别注意不能纳入结局的结局我们必须仅包括在结局事件发生之前以及研究开始的基线预测因子,即做出预测时可获得的信息。
而在本文中,研究团队基于临床经验与相关的前沿文献,结合纳入和排除标准,得到44个相关变量。

使用LASSO法筛选预测因子,得到9个最佳预测因子,包括年龄、住院时间(LOS)、中性粒细胞(Neu)、尿素、Cl、活化部分凝血活酶时间(APTT)、白细胞(LEU)、白蛋白和HDL胆固醇。

值得注意的是,研究团队把住院时长(LOS)作为预测变量纳入模型,来预测患者住院的死亡率,相信各位能看出这是不合理的。

“住院时长LOS”是在患者办理出院时获取,而并非在基线时获得;另外,办理出院时就是获得患者是否发生院内死亡的时间点。

老郑已经看到好多文章,将住院时长作为预测因子。

预测变量与预测结局在同一时间点获得,在这样的临床场景下,死亡结局的事件获得,随着变量的获得而自然呈现,住院时长是临床结局的结局,不需要该文章提出的预测模型进行额外的预测,也不应该纳入模型。

一定要明确:我们的科研数据不是为了建机器学习模型,而是为了有一定的临床应用,没有临床意义的模型,是没有价值的。

参考文献:
[1]莫航沣,陈亚萍,韩慧,等.临床预测模型研究方法与步骤[J].中国循证医学杂志,2024,24(02):228-236.

[2]Efthimiou O, Seo M et al. Developing clinical prediction models: a step-by-step guide BMJ 2024; 386.

更多关于临床预测模型与机器学习统计服务,请联系郑老师团队陈老师微信:sas555777

关于郑老师团队及公众号 

全国较大的线上医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是统计助理!


我们提供以下临床试验全流程服务:

①随机对照研究方案设计指导
②撰写统计分析计划
③规范靠谱的数据分析
④论文写作指导与统计修回
详情链接:
临床试验项目设计与数据分析,我们是可靠的合作伙伴
联系陈老师咨询(微信号sas555777)




医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章