【欢迎你阅读浙中大郑老师团队撰写的统计科普文章】
今天分享的两篇文章,同一天发表在同一个一区杂志,统计学方法具有很高的相似性。两篇文章均使用了Cox回归和RCS分析暴露因素与结果之间的关系,并用森林之神Boruta算法筛选关键特征变量,构建并评估机器学习预测模型。
文章一
如果你需要全文,请公众号后台回复关键词“pdf”。如果你想了解临床预测模型相关课程,请联系郑老师团队,助教微信:aq566665
SHR的计算公式为:SHR = ABG /(28.7 × HbA 1c − 46.7),其中入院血糖(ABG)以mg/dL表示,糖化血红蛋白(HbA 1c)以百分比表示。
结果显示,SHR与围手术期MACE的风险之间存在显著关联,随着SHR的增加,围手术期MACE风险也相应增加; 在调整了多个协变量后,这种关联仍然显著。
MACE的拐点出现在SHR=0.81,而心脏死亡的拐点则为SHR=0.97。
√数据处理
√共线性
√特征筛选
在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%),使用10机器学习算法构建预测模型,并用网格搜索和随机搜索方法进行超参数调整,优化模型性能。
√模型性能评估
研究团队使用AUC值、DCA和校准曲线评估预测模型的性能,结果显示,纳入SHR后,模型的预测性能显著提升,AUC值有所增加。
决策树的准确性比logistic回归(AUC = 0.547)提高了63.3%,比SVM(AUC = 0.628)提高了42.2%;
而随机森林的准确性分别提高了62.5%和41.5%。
SHR作为连续变量纳入RCRI模型后:
模型判别的关键指标c统计量从0.777提高到0.813(ΔC-statistic = 0.008, p<0.001),表明预测性能的提高具有统计学意义和临床意义;
模型拟合也有显著改善,连续NRI为0.067 (p<0.001),IDI为0.305(P < 0.001),强调了这些增强的实际价值。
当SHR作为分类变量(> 0.81)加入时:
c统计量增加到0.785,ΔC-statistic为0.035 (P = 0.009);
NRI为0.007 (P = 0.016),IDI为0.076(P = 0.092)。
文章二
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析