就在11月13日,Web of Science 运营方科睿唯安(Clarivate)宣布,将不再赋予中科院一区期刊 eLife 影响因子。不过,该期刊的部分论文仍然会被 Web of Science 收录。
今天我们将分享一篇发表在该期刊的机器学习临床预测模型文章,我们先来看一下它的研究设计与分析过程!
1.数据收集与处理: - 使用合成少数过采样技术结合编辑最近邻 (SMOTEENN)处理不平衡数据。
- 使用LASSO回归方法从众多特征中选择了最重要的20个特征;
- 基于九种常用的机器学习法构建预测模型,包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升、多层感知器、XGBoost、LightGBM和K-最近邻。
- 通过准确率、灵敏度、特异度、F1分数、阳性预测值和阴性预测值等指标来评估模型的性能;
- 使用ROC曲线、校准曲线和决策曲线(DCA)等图形工具直观地展示模型的性能;
- 通过网格搜索来优化模型的超参数,以提高其预测性能。
|
目前,卒中已成为世界范围内致死的第二大原因。卒中后癫痫(PSE)作为其常见并发症,发病率达3-30%,尤其在卒中后第一年内最高,近50%患者发病。在先前的研究中,研究团队大多基于传统临床预测模型和特定的风险因素预测卒中后癫痫(PSE)发病率,预测效果并不理想。因此,研究者们认为需要用更为准确、可靠的预测模型进行深入研究。
11月14日,重庆大学的学者在期刊《eLife》(中科院一区top,IF=6.4)发表了一篇题为:“Predictive models for secondary epilepsy in patients with acute ischemic stroke within one year”的研究论文。在该项研究中,研究团队使用缺血性卒中患者的数据,基于9种机器学习法构建了卒中后癫痫(PSE)的预测模型。并用SHAP来解释模型并评估不同特征的贡献。如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不用错过本月底的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665
在该项研究中,研究团队使用2017年6月至2022年6月重庆市急救中心收治的所有脑卒中患者的临床诊断数据(包括患者的病历、影像学报告和实验室检查结果),以建立预测模型。研究团队从患者入院后进行的第一次检查中收集实验室检查指标。数据缺失超过10%的指标被排除,剩余缺失值指标则采用随机森林算法,采用默认参数进行估算。使用随机森林(RF)法插补缺失值,每次处理一个特征:- 特征按缺失数据增加的顺序进行处理,以降低输入复杂度;
- 在插值过程中,将其他特征中的缺失值临时替换为0,并将预测值插入到原始特征矩阵中,然后再移动到下一个特征;
这个过程一直持续到所有的插补都完成。
最终纳入了21,459名年龄18~90岁的急性脑卒中患者,用于构建和验证预测模型。在填补缺失数据后,研究团队将患者以7:3的比例分为训练集(n=15,021)和验证集(n=6,438),两个数据集中,PSE的发生率均为4.3%。由于PSE的发生率较低且阳性病例比例较小,因此使用合成少数过采样技术结合编辑最近邻(SMOTEENN)处理不平衡数据,扩充了训练集中的阳性数据。
- 具体操作为使用默认参数应用imblearn Python包中的SMOTEENN方法,并将随机种子设置为42以确保结果可以重复。
在特征选择部分,研究者首先采用了单变量回归来分析每个特征与目标变量(即PSE的发生)之间的单独关系。结果显示,脑积水、脑疝、深静脉血栓形成(DVT)等并发症,以及额叶、顶叶和颞叶等特定大脑区域的受损情况,均与PSE的发生显著关联。此外,年龄、性别、NIH卒中量表(NIHSS)评分,以及包括白细胞(WBC)计数和D-二聚体水平在内的实验室检查结果等因素,也与PSE风险增加相关。随后,基于单变量回归的分析结果,研究团队采用LASSO回归方法对特征进行了进一步的筛选,从而确定了用于构建预测模型的20个关键特征。基于九种广泛使用的机器学习方法构建预测模型(包括朴素贝叶斯,逻辑回归,决策树,随机森林,梯度提升,多层感知器,XGBoost,LightGBM和K最近邻),并通过网格搜索优化超参数,以提高模型性能。使用ROC曲线、校准曲线和决策曲线(DCA)等图形工具直观展示模型性能。使用准确度、灵敏度、特异度、F1评分、阳性预测值和阴性预测值等评估指标进行模型性能评估,由于各个模型AUC 面积普遍较高,阳性预测值(PPV)是本研究中最重要的指标。研究团队发现,在所有机器学习算法中,RF,XGBoost和LightGBM的AUC指数最佳,显著优于其他模型。其中,RF达到了最高的阳性预测值(PPV),为0.864。图2 训练集和测试集的六个部分(左侧为A1,A2,A3;右侧为B1,B2,B3)的模型性能曲线为评估模型的泛化能力,研究团队从三家外部验证中心--黔江区中心医院、璧山区人民医院、渝北区中医院纳入了536例符合条件的急性脑卒中患者,用于模型的外部验证和评估。而在外部验证队列中,RF达到0.91的灵敏度和0.95的PPV,这同样说明RF模型的预测能力最佳。研究团队将SHAP算法应用于性能最佳的RF模型,以解释特征贡献及其临床相关性。最终得出APTT时间延长对PSE的贡献最大,其次是AST水平升高,而NIHSS较低对最终结果产生负面影响。图3 SHapley加性解释(SHAP)值和特征重要性的描述本研究中使用的所有代码可在https://github.com/conanan/lasso-ml上获取(副本存档于conanan, 2024)。综上所述,研究团队使用重庆市大型医疗记录数据集,开发了一种可解释的机器学习模型来预测缺血性卒中住院患者的PSE风险,该模型对PSE表现出较强的预测性能。通过该预测模型,研究团队确定了PSE的关键预测指标,包括NIHSS、d -二聚体、乳酸、WBC以及肝功能和心肌酶谱指标。值得一提的是,该模型的AUC高于0.95,较传统临床预测模型,预测更加准确。eLife 杂志部分不再有影响因子,很重要的原因它现在的策略是来稿不拒,科睿唯安在最新决定中表示,在 eLife 提供的内容中,被认为“不完整”或“不足”文章之外的合规论文会继续被 ESCI 合集收录,但是这类被部分索引的期刊无法获得期刊影响因子或其他任何期刊层面的引文指标。现在机器学习模型看起来都是高大上的方法,其实我觉得并不见得加了SHAP可解释法,它就是一个好的方法。
像这篇文章,它用的随机森林方法是好方法吗?也不见得,所有方法AUC面积都挺大,而所有数据分析方法的校准度检验P值均小于0.05,所以校准度不行,显然该预测模型并非理想的模型,机器学习虽然能够通过调参让模型看起来美好,但是校准度不好,模型也并非好模型,而显然随机森林具有最差的校准度曲线。
不过有一点,很值得称赞,那就是作者构建的预测模型是预后模型,预后模型应该具有时间维度,这一点作者在标题中就明确了:One Year;这使得模型就有一定的应用价值。公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:sas555777