郑老师团队的2025年培训课
如果你需要全文,请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,不妨看看我们的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665
模型开发与验证
√变量筛选
数据集被分为70%训练集(n =3568)和30%验证集(n =1530),用于开发并验证风险预测模型。
由于复杂的高维数据会影响ML算法的性能,因此,在构建ML模型之前,首先使用Boruta算法,在训练集中识别预测模型所需要的关键因素。
Boruta算法作为一种基于随机森林分类算法的包装器算法,经过多次实时迭代后能够使重要变量更加清晰,其过滤结果比传统特征选择方法更可靠。
最终得到了21个预测因素,用于训练和构建ML模型(包括高血压、年龄、SBP、DBP、性别、PIR、BMI、T2 MHA、T34_MHA、AAMA、AMCC、ATCA、SBMA、CEMA、T3 HPMA、CYMA、DHBMA、T2 HPMA、MHBMA 3、PGA、MA和HMPMA)。
在完成变量选择后,使用合成少数过采样技术(SMOTE)预处理算法来实现训练集中CVD和非CVD人群之间的样本平衡。
√ML预测模型构建
在训练集的基础上,总共使用了六种ML方法进行模型构建。
包括随机森林(RF),光梯度提升机(LightGBM),决策树(DT),极端梯度提升(XGBoost),多层感知器(MLP)和支持向量机(SVM)。
每个模型都有独特的优点。并对每个ML模型进行超参数调优和五重交叉验证,以确保模型的最佳性能和可靠性。
√模型验证
在模型验证中,使用一系列指标评价模型的预测性能。
包括ROC曲线下面积(AUROC)、准确度、平衡准确度、F1评分、J指数、kappa、Matthew相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、灵敏度(sens)、特异度(spec)。
AUROC的范围为0.5至1.0,AUROC在该范围内越大,预测能力越好。
√模型可解释性
使用SHAP算法阐明具有最佳性能的模型,该算法为每个变量分配了相应的属性值(SHAP值),可定量测量每个特征对预测准确性的影响。
为了可视化每个特征对模型的贡献,生成了SHAP摘要图;
此外,SHAP依赖图用于检验特征之间的相互作用。
本研究中,统计学显著性设定为P<0.05(双尾),所有分析均使用R 4.3.0和Python 3.9.0进行。
RF模型预测性能最好
在测试集上,RF模型具有最好的预测性能和模型拟合,AUROC达到了0.8143 (95% CI: 0.7789-0.8497),代表了模型优秀的预测能力。
其次,最重要的mVOCs组分是ATCA,仅次于年龄,对CVD的发展具有保护作用。
具体而言,随着年龄的增长,发生CVD的风险增加;
而较高的ATCA水平则与CVD风险降低相关,特别是在高血压患者和老年人中。
闲来郑语
Boruta算法,
SHAP算法
合成少数过采样技术(SMOTE)预处理算法
六种ML方法
公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:aq566665。
关于郑老师团队及公众号
大型医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
2025年将新增R、python机器学习与预测模型、全球老年人纵向健康数据库挖掘、轨迹增长模型课程等。
详情联系助教小董咨询(微信号aq566665)