杀疯了！中国学者联合8种机器学习法＋MIMIC多数据集，发文一区top（IF=8.8）

文摘科学 2024-11-27 17:59 浙江

引言

要想构建临床预测模型，机器学习绝对是不二选择！

今天分享一篇公共数据库+机器学习的高分文章，中国学者用8种机器学习算法构建可解释性临床预测模型，研究设计流畅、统计分析规范，想做机器学习的朋友们可以借鉴一下这篇文章！

新发房颤(NOAF)是心脏手术后患者最常见的并发症，总体发病率为31%至74%。先前的研究发现，NOAF的发生可能会增加患者的中风、心力衰竭（HF）以及死亡风险。

近年来，机器学习（ML）在医学领域的应用越来越广泛，尤其在构建患者的生存和预后预测模型方面取得了不少成果。因此，本研究同样使用ML方法构建危重患者NOAF风险人群识别模型，并利用SHAP法对模型进行可视化解读。

2024年10月29日，中国学者用MIMIC-IV、MIMIC-III两个数据集，在期刊《Critical Care》（医学一区top，IF=8.8）发表题为：“Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study”的研究论文，旨在使用机器学习（ML）创建并验证危重患者的NOAF预测模型，同时使用SHAP法对模型结果进行解释。

本公号回复“ 原文”即可获得文献PDF等资料。就在本周末，我们的基于R语言构建机器学习课程开课啦！如感兴趣请联系郑老师团队，微信号：aq566665

在该项研究中，研究团队使用MIMIC数据库的两个非重叠数据集：

MIMIC-IV用于构建模型，经过纳排，最终纳入16,528名年龄≥18岁，入住ICU超过2天、未接受心脏手术切无AF病史的参与者（对于多次入住ICU的患者，仅纳入患者首次入住ICU时的入住记录）；
MIMIC-III的子集用作外部验证，最终纳入6,037名符合条件的参与者。

图1 研究设计

√数据收集

研究团队使用PostgreSQL中的结构化查询语言（SQL），从两个数据库中提取前24小时内入住ICU的患者的数据，包括人口学信息、合并症、实验室指标、生命体征及治疗措施等。由于提取的变量较多，本文就不一一展示了。

除变量经皮动脉血氧饱和度（SpO 2）外，其余变量都取第一天的最大值和最小值进行多次测量。

√数据处理

为减少缺失数据对模型构建的影响，使用KNNImputer（KNN）方法插补缺失小于20%的数据，并丢弃缺失大于20%的数据。

由于因变量中的类别不平衡，采用欠采样的方式对数据进行重采样，使数据达到平衡。

主要结局：患者在ICU入院后第一天发生NOAF。

Lasso法筛选特征

在特征较多的情况下，研究者采用lasso方法进行特征筛选。

引入L1正则化，通过压缩系数、筛选贡献较大的特征、剔除冗余特征等方法进行特征选择和降维。

最终，纳入了与NOAF密切相关的23个变量（包括入院年龄、种族、体重、尿量、WBC_max（白色细胞）、BUN_min（血尿素氮）、钾_min、HR_min（心率）、HR_max、SBP_min（收缩压）、DBP_max（舒张压）、MBP_min、RR_min、temperature_min、temperature_max、SpO2_min、慢性肝病、HFrEF、HFpEF、脓毒症、机械通气、CRRT、血管加压药）。

图2 基于Lasso回归的变量筛选

（A）变系数的变化特征；（B）用交叉验证对Lasso回归模型中参数λ最优值进行选择

模型性能比较

使用8种机器学习（ML）法构建预测模型（包括极限梯度提升（XGBoost）、支持向量机（SVM）、自适应提升（Adaboost）、多层感知器（MLP）、神经网络（NN）、朴素贝叶斯（NB）、逻辑回归（LR）和梯度提升机（GBM））。