引言
虽说机器学习的文章我们已经看过不少了,但今天这篇文章还是让老郑眼前一亮。研究团队用随机森林(RF)、Lasso、Boruta和极端梯度提升(XGBoost)识别预测因素,并用8种机器学习法构建预测模型。
使用mice和Vim软件包处理缺失数据; RF算法的辅助下,对原始缺失数据进行了5次插补,50次迭代。
首先,根据系统评价、Meta分析和专家临床意见,确定了20个影响剖宫产瘢痕异位妊娠(CSEP)术中大出血的因素; 接着,用RF、Lasso、Boruta和XGBoost确定了9个最佳预测变量。
数据集被分为70%训练集和30%验证集;
使用8种机器学习法预测CSEP期间的大出血,包括:朴素贝叶斯(Bayes)、多层感知(MLP)、决策树(DT)、K-最近邻算法(KNN)、逻辑回归(LR)、RF、支持向量机(SVM)和XGBoost;
使用准确性、AUC和决策曲线(DCA)评估和比较基于机器学习法构建的八个模型;
使用灵敏度、特异性、马修斯相关系数和F1评分对最佳模型进行内部和外部验证。
使用"iBreakDown"包解释预测模型,并生成部分依赖图(PDP)可视化变量的重要性; 用Shiny软件包将9个选定的预测变量和最佳建模集成到交互式Web应用程序中。
剖宫产子宫瘢痕异位妊娠(CSEP)是剖宫产术后妊娠的一种潜在致命的并发症,可能导致孕妇大出血或死亡。手术中的出血量直接影响手术的成功率。
近年来,基于电子病历(EMR)数据构建的机器学习(ML)预测模型研究日益增多。本研究团队开发的最佳预测模型已被集成到一个网络应用程序中,使临床医生无需掌握R语言或编程技能即可预测CSEP患者的术中风险。
2024年12月,中国学者在医学顶级期刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“Risk of intraoperative hemorrhage during cesarean scar ectopic pregnancy surgery: development and validation of an interpretable machine learning prediction model”的研究论文。
如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过我们的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665
数据收集与处理
该研究是一项多中心回顾性研究,纳入了四家三级医疗机构的EMR数据,分别用于构建预测模型、内部验证和外部验证。
√数据收集
在模型构建阶段,研究团队纳入了2008年1月1日至2023年12月31日期间,在全国三家三级医疗机构就诊1680名、25~40岁的CSEP患者的EMR数据,包括:
在山东大学齐鲁医院治疗的1118例CSEP患者; 在重庆市妇幼保健院治疗的189例CSEP患者; 在德州市妇幼保健院治疗的373例CSEP患者。
√数据处理
研究团队首先需要对数据进行处理,将类别变量视为虚拟变量,消除接近零方差的变量,并对数值变量进行标准化以减轻过拟合。
在纳入的1680例患者中,19例出现部分变量数据缺失,总缺失率达1.13%。
筛选变量
最初,研究团队通过系统综述、Meta分析和专家临床意见确定了20个造成CSEP患者术中大出血的因素。
包括人口统计学特征、生育史、医学背景、临床症状和超声检查特征。
接着,根据变量减少原则,采用RF,Lasso,Boruta和XGBoost四种方法对20个候选变量进行额外筛选,最终确定了9个最佳的预测变量。
包括:孕龄、术前阴道出血持续时间、孕囊或妊娠包块的平均直径、子宫前肌层厚度、血清HGB水平、血清β-hCG水平、子宫动静脉瘘、早孕胎盘植入频谱疾病和超声成像血流分级。
图2 基于四种方法筛选出的9种共同预测变量
模型的构建与评估
在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%)。
图4 内外部验证集中,朴素贝叶斯(Bayes)模型的ROC曲线
模型解释与网络应用
研究团队将该程序向所有用户开放(https://cnsdql.shinyapps.io/csep-prediction-model/,测试账户:SuperManagerr,密码:QiLuhospitalall);
新用户也可以使用个人电子邮件免费注册。
综上所述,研究团队基于多个中心医院的EMR数据开发了一个ML模型,在预测CSEP患者术中出血风险方面表现出较强的区分能力和临床实用性。
老郑小评
公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:sas555777
郑老师统计团队及公众号
全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!