引言
从统计学和构建预测模型的基本原理来看,预测模型的核心在于使用已知的信息、预测未知的事件。
“已知”指的是在预测事件发生之前就已经存在并且可以获取的数据或特征,它们构成了模型训练的基础; 而“未知”则指的是我们想要通过模型进行预测的目标或结局,它通常是基于已知信息来推断或估计的。
首先让我们按照常规套路,简单看一下这篇文章!
研究设计流程
在处理完缺失数据后,使用随机分层抽样将数据集分为训练集(70%)和测试集(30%)。
对于训练集,采用随机欠采样和SMOTE(合成少数过采样技术)混合处理,以解决正负样本不平衡的问题;
同时进行五次交叉验证,以确定八个ML模型的最佳超参数。
老郑有话说
临床预测模型包括诊断模型和预后模型。
诊断模型的预测目标是人群在当前时间点患有某种特定结果或疾病的概率,其重点关注当前状态。
预后模型估计个体在将来特定时间内(可以是今后几小时甚至几年)发生某种结局的概率。预后模型不仅限于特定疾病患者的结局,也可以是非患病人群发生某种结果的风险预测。
使用LASSO法筛选预测因子,得到9个最佳预测因子,包括年龄、住院时间(LOS)、中性粒细胞(Neu)、尿素、Cl、活化部分凝血活酶时间(APTT)、白细胞(LEU)、白蛋白和HDL胆固醇。
值得注意的是,研究团队把住院时长(LOS)作为预测变量纳入模型,来预测患者住院的死亡率,相信各位能看出这是不合理的。
“住院时长LOS”是在患者办理出院时获取,而并非在基线时获得;另外,办理出院时就是获得患者是否发生院内死亡的时间点。
老郑已经看到好多文章,将住院时长作为预测因子。
预测变量与预测结局在同一时间点获得,在这样的临床场景下,死亡结局的事件获得,随着变量的获得而自然呈现,住院时长是临床结局的结局,不需要该文章提出的预测模型进行额外的预测,也不应该纳入模型。
一定要明确:我们的科研数据不是为了建机器学习模型,而是为了有一定的临床应用,没有临床意义的模型,是没有价值的。
[2]Efthimiou O, Seo M et al. Developing clinical prediction models: a step-by-step guide BMJ 2024; 386.
更多关于临床预测模型与机器学习统计服务,请联系郑老师团队陈老师微信:sas555777
关于郑老师团队及公众号
全国较大的线上医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是统计助理!
我们提供以下临床试验全流程服务: