IF-8.8/Q1 | 基于MIMIC数据库的可解释机器学习模型预测ICU非心脏手术患者中新发房颤的风险

文摘 2024-11-03 19:04 美国

✦

医学科研新动向

✦

Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study

Critical Care

<2024年11月03日>

研

究

背

景

新发房颤（NOAF）是重症监护病房（ICU）中非心脏手术患者常见的并发症之一，且具有显著的不良预后。NOAF的发生率因研究对象不同而波动，约为1.7%至43.9%，其发病率的高度不一致反映了患者病理生理条件的异质性。在病理生理层面上，NOAF会导致心房失去有效收缩功能，并伴随心室率增快，进一步引起心排出量下降和血流动力学不稳定。对于感染性休克或急性肾损伤等危重疾病患者，NOAF更被认为是疾病严重程度的标志，可能与多器官功能障碍相关。NOAF不仅会增加ICU住院患者的卒中风险，还显著提高了心衰发作率和院内外死亡率。然而，现有关于NOAF的研究多集中于心脏手术患者的术后管理，针对ICU非心脏手术患者的研究相对较少。尽早识别ICU中NOAF的高风险人群并进行针对性干预成为亟需解决的问题，这为NOAF的预测模型开发提供了科学和临床价值。随着机器学习在医学领域的应用增多，具有高解释性和临床适用性的模型可能为NOAF的早期预测提供新思路。

研究设计

数据来源：本研究数据来自MIMIC-IV数据库，并使用MIMIC-III子集作为外部验证数据集。MIMIC-IV数据集包含2008年至2020年期间的ICU数据，MIMIC-III则包含2001年至2008年期间的数据。
研究对象：纳入标准包括年龄大于18岁、ICU住院超过两天、无既往房颤病史和无心脏手术史的患者。数据筛选后共计纳入16528例患者用于训练和内部验证，另有6037例患者用于外部验证。
特征选择：采用LASSO回归进行特征选择，从多种临床变量中筛选出与NOAF相关的特征，包括人口学信息、合并症、实验室指标、生命体征及治疗措施等。最终筛选出23个特征作为模型输入变量。
机器学习模型：构建了八种ML模型，包括XGBoost、支持向量机（SVM）、Adaboost、多层感知器（MLP）、神经网络（NN）、朴素贝叶斯（NB）、逻辑回归（LR）和梯度提升机（GBM），并通过十折交叉验证确定最佳模型参数。
模型性能评估：使用ROC曲线、AUC值、敏感性、特异性、F1分数、准确性等指标评估模型性能，并绘制校准曲线和决策曲线（DCA）分析模型的临床适用性。
可解释性分析：通过SHAP方法分析XGBoost模型的特征贡献，以SHAP力图和群体图形式可视化模型的可解释性。

核心结果

1：特征选择（Fig 2）

变量选择：使用LASSO回归筛选出23个变量，包括：
人口学特征：年龄、体重。
实验室指标：白细胞最大值（WBC_max）、血尿素氮最小值（BUN_min）、钾最小值（potassium_min）。
生命体征：心率最小值（HR_min）和最大值（HR_max）、收缩压最小值（SBP_min）、舒张压最大值（DBP_max）、体温最小值（temperature_min）和最大值（temperature_max）、血氧饱和度（SpO2_min）。
临床干预：机械通气、连续肾脏替代治疗（CRRT）、血管加压药的使用。
变量重要性：年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT、体重在模型中贡献最大，这些特征的LASSO回归系数见图2A。

2. 模型性能比较（Fig 3）

模型AUC值：XGBoost在内部验证中的AUC为0.891（95% CI: 0.873–0.888），在外部验证中的AUC为0.769（95% CI: 0.756–0.782），表现最佳。其他模型的AUC值分别为：GBM (0.877), Adaboost (0.859), NN (0.825), MLP (0.807), NB (0.792), SVM (0.788)和LR (0.786)。
敏感性与特异性：XGBoost模型的敏感性为0.826，特异性为0.775，均高于其他模型。（Table 2）
F1分数和准确性：XGBoost模型的F1分数为0.805，准确率为0.801，同样优于其他模型的表现。

3. 校准和临床收益分析（Fig 4）

校准曲线：六种模型（XGBoost、GBM、SVM、LR、MLP和NN）在校准曲线中表现出较好的预测一致性，而NB和Adaboost的校准性能较弱。
决策曲线分析（DCA）：除Adaboost外，其他模型在不同阈值范围内均显示出较高的净收益，其中XGBoost模型在绝大多数阈值范围内的净收益最高。
临床影响曲线（CIC）：在0.6的风险阈值下，XGBoost模型的阳性预测接近实际阳性数，且假阳性率适中，符合临床风险平衡要求。

4. 模型可解释性分析（Fig 5）

SHAP特征贡献图（Fig 5A）：XGBoost模型中SHAP值最大的特征为年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT和体重，说明这些变量对NOAF预测有最显著的影响。

年龄：是NOAF最强的预测因素，随着年龄的增加，NOAF的风险显著上升。
机械通气和尿量：与急性病情严重程度相关的干预手段，机械通气和尿量的变化均显著影响NOAF的风险。
BUN和SpO2：分别反映肾功能和氧合状态，对预测NOAF具有较高权重。

个例分析（Fig 5B）：SHAP力图对一个具体患者的NOAF风险预测进行了可解释。该患者的高风险主要由HFrEF、脓毒症、体重增加和年龄等变量推动，图中黄色代表对高风险的正向贡献，紫色代表负向贡献

小

结

研究目标：本研究旨在通过机器学习模型预测ICU非心脏手术患者中新发房颤（NOAF）的风险，以便于早期识别高危患者并进行干预。
数据来源与对象：使用了MIMIC-IV数据库作为训练数据，MIMIC-III子集作为外部验证数据。共计纳入16528例符合标准的ICU患者，其中1520例发生了NOAF，另有6037例患者用于外部验证。
特征选择：通过LASSO回归从众多临床变量中筛选出23个关键变量，主要包括人口学特征、实验室指标、生命体征和干预措施等。
模型构建与选择：比较了八种机器学习模型的预测效果，最终选择XGBoost模型作为最佳模型，其在内外部验证中的AUC分别为0.891和0.769，表现优于其他模型。
模型性能与临床应用：XGBoost模型在敏感性、特异性、F1分数和准确性上均表现良好，并在校准和决策曲线分析中显示出较高的临床适用性。研究确定0.6为NOAF高风险的最佳阈值。
解释性分析：使用SHAP方法揭示了模型关键变量对NOAF预测的影响。年龄、机械通气、尿量、BUN、SpO2等变量在模型中占据重要角色。
研究意义：本研究提供了一个基于机器学习的NOAF风险预测工具，具备较高的预测准确性和良好的临床应用前景。
局限性：由于研究为回顾性设计，数据可能存在遗漏或信息偏倚；另外，由于数据来源单一，还需进一步通过多中心前瞻性研究验证模型的广泛适用性。

-END-

文字丨本人点滴积累，如有补充，下方留言即可

（左下角点击“阅读原文”即可获取全文）

http://mp.weixin.qq.com/s?__biz=MzkzOTcyMzUyNQ==&mid=2247486445&idx=1&sn=a808b2b70ad3a3d0f79acb6921269ca3

医学科研新动向

每日分享-相关领域包括：MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。

IF-10.5 | NVSS数据库-肝癌相关死亡率的病因转变：非病毒性驱动因素ALD与MASLD成为未来关键挑战

IF-9.6/Q1 | UK Biobank血浆蛋白质组分析阿尔茨海默病早期病理变化及潜在治疗靶点识别

IF-14.7 | 基于蛋白质组学的胶质瘤免疫与代谢驱动亚型研究及抗核苷酸代谢治疗的潜力

IF-21.4 | 破解孤独与抑郁：互联网在全球老龄化人群心理健康中的潜在转变：跨国纵向研究

Uk biobank | 基于多组学的癌症筛查诊断价值评估与血液标志物与肿瘤组织比较

单细胞与空间转录组联合多组学分析揭示肝细胞癌异质性及时空动态特征

整合蛋白质组与单细胞RNA测序解析卵巢癌分子亚型相关细胞及免疫治疗靶点

胖子更易打呼？青少年打鼾显著增加内化问题（如焦虑、抑郁）和外化问题（如攻击行为、规则破坏）的风险

Uk biobank | 长期低浓度环境苯暴露通过炎症和糖脂代谢紊乱影响脑疾病风险

IF-23.5 | 单细胞转录组学解析嗅觉神经母细胞瘤的分子亚型、肿瘤微环境异质性及精准治疗潜在靶点

Nature | 基于多维蛋白质组学的PDGFR–PTPN11–ERK信号轴与AXL剪切在胰腺导管腺癌细胞间信号传导及作用机制

Nature子刊 | UK Biobank全外显子组联合孟德尔揭示神经质罕见基因变异及其在神经精神疾病中的潜在作用

IF-21.4/Q1 | 单细胞多组学cis-孟德尔随机化饮酒行为研究：皮层蛋白质组和细胞特异性转录组因果靶标筛选

IF-9.5/Q1 | 基于NHANES数据的慢性肾病筛查成本效益优化：筛查起始年龄与频率的决策分析

IF-7.5/Q1 | 术前抑郁患者重大手术后谵妄的发生率与相对风险：系统综述及荟萃分析

IF-10.5/Q1 | SHAP可解释深度神经网络-脓毒症患者革兰阴性杆菌耐药风险预测模型

IF-12.9 | 多组学分析揭示多发性骨髓瘤及其前驱阶段的免疫微环境改变与进展机制

IF-14.7 | 特应性湿疹与系统性健康风险：基于英国大型初级保健数据库的71项健康结局纵向队列研究

IF-24.7/JAMA子刊 | GBD研究中的儿童和青少年极端温度暴露健康负担时间趋势分析：1990-2019年

IF-21.4/Nature子刊 | 婚姻状况与抑郁症风险关联及因果中介分析：基于多国数据的酒精与吸烟行为影响验证

IF-14.7/Q1 | 胃肠道间质瘤的基因组特征与亚型分类：YLPM1突变的功能解析

IF-9.6/Q1 | 全外显子组测序与多组学整合分析抑郁相关基因及其潜在生物学机制解析

IF-8.8/Q1 | 基于MIMIC数据库的可解释机器学习模型预测ICU非心脏手术患者中新发房颤的风险

IF-23.5 | 单细胞多组学整合揭示乳腺癌亚型分子调控机制

IF-21.2 | 脑功能连接、蛋白组与影像组数据整合揭示上额回与下颞回间分子网络在脑区功能连接中的调控机制

Nature Genetics | 炎症新靶点-CRISPR筛选揭示TNF mRNA的m6A修饰在巨噬细胞炎症调控中的关键作用

Nature Genetics | 肿瘤新靶点-基因组负担分析揭示肿瘤易感基因及稀有变异新靶点

IF-14.7/Q1 基于多组学整合分析的鸡腹部脂肪沉积及其肥胖与代谢相关遗传调控机制研究

IF-58.7/Q1 儿童与青少年肥胖相关脂质谱特征及其在心血管代谢风险中的潜在干预作用

Q1/14.4 | 深度生成模型预测新化学扰动对转录响应的影响以加速药物发现

Nature Medicine | 基于肥胖亚型划分的心血管代谢疾病精准风险预测：一种BMI-生物标记不一致性分析

2024新版TCGA转录组+临床数据R语言下载和整理

R语言完整代码下载2024新版TCGA数据库 miRNA数据

Nature正刊 | 单细胞多组学染色质重塑研究：BRD4在Cx3cr1+巨噬细胞与纤维母细胞非细胞自主通讯中对心力衰竭的调控

IF-14.7/Q1 血浆蛋白质组学与多基因风险评分结合提高结直肠癌个性化筛查和风险预测

IF-14.7/Q1 整合多组学与深度学习解析食管鳞状细胞癌的分子亚型及其预后关联

IF-14.7/Q1 多组学整合揭示脓毒性休克亚群差异：开发基于蛋白组学的个体化液体管理策略预测模型

IF-27.7/Q1 炎症性肠病中抗肿瘤坏死因子治疗的单细胞纵向图谱：细胞异质性、炎症机制及治疗反应的关键预测

IF-40.8/Q1 基于组学的研究揭示C. parakroppenstedtii分泌新型糖脂促进肉芽肿性小叶乳腺炎的发展

IF-31.7/Q1 赤松（Pinus densiflora）基因组组装及重测序揭示基因组进化与等位基因失衡机制

IF-14.7/Q1 多组学整合揭示脓毒性休克亚群差异：开发基于蛋白组学的个体化液体管理策略预测模型

IF-14.7/Q1 整合多组学与深度学习解析食管鳞状细胞癌的分子亚型及其预后关联

IF-8.5/Q1 MIMIC-IV-应激性高血糖比值与重症心房颤动患者全因死亡率关联的回顾性研

IF-21.2/Q1 基于单细胞RNA测序的人类小胶质细胞异质性分析-跨疾病亚型识别及其功能调控潜力

IF-14.7/Q1 血浆蛋白质组学与多基因风险评分结合提高结直肠癌个性化筛查和风险预测

IF-14.7/Q1 中国2010-2018年高空腹血糖相关心血管疾病负担的区域和年龄差异分析

IF-9.6/Q1 纯生信分析 | 酒精使用障碍对人类大脑基因表达的影响及潜在治疗靶点发现

顶刊级别的科研绘图技巧：配色如何提高科研影响力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

IF-8.8/Q1 | 基于MIMIC数据库的可解释机器学习模型预测ICU非心脏手术患者中新发房颤的风险

1： 特征选择（Fig 2）

2. 模型性能比较（Fig 3）

3. 校准和临床收益分析（Fig 4）

4. 模型可解释性分析（Fig 5）

1：特征选择（Fig 2）