RFE特征筛选+SHAP模型解释+在线预测模型=sICH患者的短期预后结局（IF=6.1）

文摘 2024-12-27 20:05 江西

点击蓝字 关注我们

本次解读的是发表在Journal of Translational Medicine(IF=6.1)上的一篇文章《Development and validation of a machine learning‑based predictive model for assessingthe 90‑day prognostic outcome of patients with spontaneous intracerebral hemorrhage》，本研究旨在开发和验证一种基于机器学习 (ML) 的预测模型，以评估自发性脑出血 (sICH) 患者的短期预后结局。

01背景介绍

自发性脑出血 (sICH) 是由大脑动脉、静脉和毛细血管破裂引起的，是一种灾难性的卒中亚型，通常与显著的死亡率和发病率有关。大约 10% 到 20% 的卒中患者是 SICH，并且其是全世界第二大常见的卒中死亡原因。sICH 的预后仍然是不确定的，这给临床决策带来了挑战。由于 SICH 相关的临床预后具有高度的异质性，因此为特定患者识别并量化其不良结局风险成为一个迫切的需求。

现有的研究已证实，多种因素会影响 sICH 的预后，包括人口统计学因素、血肿体积、出血部位和严重程度、炎症反应和药物治疗等。然而，传统的统计方法通常难以捕获这些复杂因素之间的非线性关系和相互作用。

而机器学习 (ML) 方法，由于其强大的数据挖掘和模式识别能力，在预测复杂的医学事件方面显示出巨大的潜力。ML 算法可以分析大量数据以识别隐藏的模式和关联，而无需预先假设哪些因素与不良结局相关，从而为临床实践提供有价值的信息。因此，本研究旨在利用 ML 技术开发一个可靠的风险预测模型，以便更准确地预测 sICH 患者的短期预后。

研究旨在比较多种 ML 模型并确定最优模型，并开发一个可供临床实践使用的风险评估工具。此外，还旨在通过 SHAP 方法来解释 ML 模型的预测结果，以确定 sICH 预后的关键预测因子。

02材料与方法

1. 研究人群和数据收集

这项回顾性研究纳入了2018年1月至2022年3月期间在合肥某医院神经科入院的413例自发性脑出血(sICH)患者，这些患者被用作训练队列。2022年3月至2023年5月在安徽某医院神经科入院的74例sICH患者作为外部验证队列。

纳入标准：年龄>18岁；符合中国神经病学学会脑血管病组发布的sICH诊断标准；发病24小时内首次进行颅脑CT检查。

排除标准：外伤性脑出血，脑梗塞出血转化，脑血管畸形和脑肿瘤，以及脑出血前曾接受过手术干预的患者，以及随访时间不足一年的患者。

2. 统计分析

数据预处理: 将连续变量标准化，将分类变量进行独热编码。使用递归特征消除(RFE)方法选择与 sICH 短期预后最相关的特征子集。RFE是机器学习特征筛选的主流筛选方法。RFE去除了对结束变量不重要的特征，并最终获得了模型最佳性能的最佳变量组合。RFE有助于提高预测模型的性能，特别是避免过拟合，有利于提高模型的泛化能力。RFE减少了特征的数量，使模型更简单，更易于解释，有利于临床应用。在此基础上，将改进后的最优子集特征表集成到我们的机器学习模型五元组中，用于并行训练和测试。

模型构建: 使用五种机器学习算法构建预测模型，支持向量机(SVM)、逻辑回归(LR)、随机森林(RF)、XGBoost、LightGBM。使用 7:3的比例将训练集随机分为训练集和测试集，70%用于模型训练，30%用于内部验证。然后，使用内部五折交叉验证来寻找每个模型的最佳超参数。然后，选择平均性能最佳的模型进行外部验证。使用外部验证队列（来自BWH的74例sICH患者）评估模型的泛化能力。

评估指标：包括AUC和准确性，用于评估每个模型的性能。SHAP方法用于显示每个变量的重要权重，从而深入了解它们在模型中的相对重要性。最后，通过对变量重要性权重和组合的整合，确定了预测变量的最优组合，最终建立了综合预测平台。

统计分析:使用SPSS(版本24.0)、Python (版本3.10.10)和R(版本4.1.3)进行统计分析。正态分布的连续变量使用平均值±标准差 (mean±SD) 表示，非正态分布的连续变量使用中位数(M)和四分位数间距(IQR)表示。分类变量用计数和百分比表示。连续变量的组间比较使用Student's t检验或Mann-Whitney U检验，分类变量的组间比较使用卡方检验或 Fisher精确检验。所有分析的双尾P值<0.05 被认为具有统计学意义。

03结果

01 基线分析

表1提供了训练集和外部测试集数据之间基线特征的比较。在训练集和外部测试集之间，在大多数特征上未观察到实质性差异。高血压患者比例在外部测试组明显高于培训组（91.89%VS72.64%，P<0.001）。相反，与外部测试集相比，训练集中饮酒的患者比例显著升高（28.57%VS13.51%，P=0.007）。训练组脑室出血的发生率明显高于外部测试组（24.32%VS9.2%，P<0.001）。此外，训练组的尿酸水平明显高于对照组（351.04± 123.55VS266.43±105.84，P=0.00）。在外部测试集中，与训练集相比，AST显著升高（32.31±21.13VS26.42±12.17，P= 0.022）。此外，在训练集中，GCS评分显著更低（12.86±3.42VS13.70±3.08，P = 0.047），而NIHSS评分显著更高（10.08± 9.73VS7.59±8.56，P=0.04）

表2描述了训练集中sICH患者不同预后的组间差异。在预后不良组中，老年患者所占比例明显高于预后良好组（56.1%VS44.2%，P =0.016）。预后不良组脑室出血发生率明显高于预后良好组（48.9%VS11.2%，P=0.000，P<0.05）。此外，两组之间的血肿体积存在显著差异（P=0.000）。

2 预测因子的选择

采用RFE策略进行特征筛选。根据递归特征消除法确定的最佳子集的合并包括：NIHSS评分、AST、年龄、白色血细胞、血肿体积、尿氮、中性粒细胞、葡萄糖、肌酐、收缩压、ALT、淋巴细胞、舒张压、尿酸、GCS评分。

3 多机器学习模型性能

我们基于上述选定的特征进行模型训练和测试。内部测试集上所有模型的AUC范围为0.85 - 0.95，RF模型最有效[AUC：0.916，95% CI（0.859-0.972）]（图1）。

在外部五重交叉验证期间，RF的平均性能持续排名为上级（AUC：0.906 ± 0.029）（图2）。

表3示出了不同机器学习预测模型之间的常见性能指标的比较。

基于这些结果，我们选择RF模型作为我们的结论性风险预测模型。如所述训练的RF模型的性能在外部测试集中保持稳定（AUC：0.817，95%CI（0.705-0.928））（图3）。

4 变量重要性和变量解释

基于SHAP图可视化预测变量对结果的影响。具体而言，变量对结果的影响可以通过SHAP值的大小（由颜色变化表示）和变量水平轴上的趋势（发展不良结果的概率）进行直观解释。例如，在NIHSS评分的情况下，与NIHSS评分较低的个体（以蓝色表示）相比，评分较高的个体（以红色表示）更容易出现不良预后（右侧）。同样，对于AST水平升高的个体（红色），sICH患者的预后可能不利（右侧）。对于血肿体积不是血肿体积_1（血肿体积> 20 ml，用蓝色表示）（位于右侧）的个体，sICH患者的预后可能是不利的（图4）。

5 Web计算器的实现

此外，我们还绘制了组合AUC和变量重要性线图，使用了由RF模型的变量重要性和变量组合构成的模型预测数据。如图所示，很明显，包括NIHSS评分、AST水平、年龄、白色细胞和血肿体积在内的变量的合并能够达到优化和简化的预测疗效（图5）。

基于这五个指标构建了一个网络计算器，促进了sICH患者预后风险的个体化预测(https://surgeustc.shinyapps.io/hemorrhage_progn osis/)。

04总结

结论

当然，本研究也有一些局限性。

首先，白细胞计数可能受到许多因素的影响，例如药物的使用。

其次，本研究是一项回顾性配对队列研究，研究结果可能存在一定偏倚。

此外，外部验证中心的病例数量有限，可能会限制当前结果的可靠性。未来的研究工作应该进行多中心验证并开始大规模前瞻性研究，以增强我们发现的稳健性。

总之，已经建立了预测模型，利用RF模型的结果并整合了四个临床可达到的预测因子。该模型对sICH患者的短期预后具有可靠的预测效果。同时，外部验证集的性能也更稳定，可用于准确预测sICH患者的短期预后。

小编总结

本研究开发了一个基于 ML 的预测模型，能够根据入院时可获得的临床参数（包括 NIHSS 评分、AST 水平、年龄、白细胞计数和血肿体积）来预测 sICH 患者的短期预后。RF 模型在内部和外部验证中都表现出了良好的性能。同时，该研究也强调了运用可解释 ML 方法揭示潜在预后因子的重要性。未来，我们应进行多中心、前瞻性研究，以进一步评估和验证该模型的临床应用价值，同时对模型做进一步的优化，使得临床医生更好地做出个体化的治疗决策。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题，同时，为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧！

往期精彩回顾

【1】LANCET子刊：Lasso回归+机器学习+生存分析=肝硬化患者经颈静脉肝内门体分流术后的生存率（IF=9.6）

【2】eClinicalMedicine (IF=9.6)：模型可视化-15年数据构建预测模型评估女性CSEP术中出血的风险

【3】预测模型特征太多？LANCET子刊教你从249个特征中筛出11个

【4】Nature子刊：蛋白组+代谢组=构建心肌病调控功能网络并提供在线应用程序

【5】Nature子刊：基于蛋白质的机器学习预后模型用于对儿童乳头状甲状腺癌患者进行分层

扫二维码

关注我们

公众号｜极智分析

知乎｜极致分析

B站｜极智分析

极智分析

为临床、科研人员提供一站式临床研究在线分析建模平台；提供医学统计咨询服务；提供临床数据分析服务；提供医疗大数据建模服务；分享研究进展、临床研究设计方案、询证医学案例。

【放假通知】蛇年快乐，吉祥圆满！

【更新公告】年末大更新，多种实用发文算法上线

一项回顾性单中心研究（IF=6）：机器学习+模型解释+在线预测模型=坏疽性胆囊炎可解释的预测机器学习模型

Nature子刊：机器学习+多模态数据+mRMR特征筛选=pLGG全面的放射基因组学分析

不用实验室数据，LANCET子刊教你使用生命体征和症状数据更早的检测出脓毒症

发文没思路？ GBD数据库+流行病学分析=深度剖析全球胃食管反流病负担

最强发文工具-极智分析荣获江西省数据大赛二等奖

极智分析团队联手南昌大学第二附属医院获省金奖

【今晚18点开播】2025年最新发文思路讲解，GBD数据库给你答案

多元回归模型如何预测疾病进展？一文便知！

【直播倒计时1天】2025年最新发文思路讲解，GBD数据库给你答案

【直播倒计时2天】2025年最新发文思路讲解，GBD数据库给你答案

《Cardiovascular Diabetology》IF=8.5，预测老年心力衰竭合并高血压患者死亡率？机器学习模型给出结果

【直播倒计时3天】2025年最新发文思路讲解，GBD数据库给你答案

【直播预告】2025年最新发文思路讲解，GBD数据库给你答案

突破临床瓶颈冲刺顶刊文章，公共数据库＋分层分析＋解释模型=SLE患者的亚群(IF10.4)

解锁临床预后诊断新高度，机器学习助力突破9+

《CARDIOVASC DIABETOL》（IF=8.5），探索甘油三酯-葡萄糖指数对首次中风危重患者的预后影响

《CARDIOVASC DIABETOL》（IF=8.5），非糖尿病人群TyG水平与生活方式评分对缺血性卒中风险的影响

RFE特征筛选+SHAP模型解释+在线预测模型=sICH患者的短期预后结局（IF=6.1）

《CARDIOVASC DIABETOL》（IF=8.5），TyG 指数与外科重症监护患者预后的相关性

《eClinicalMedicine》IF=9.6，如何预测肺CT自动分割和急性呼吸窘迫综合征？深度学习给出答案。

LANCET子刊：Lasso回归+机器学习+生存分析=肝硬化患者经颈静脉肝内门体分流术后的生存率（IF=9.6）

【直播今日开讲】没有数据又想发高分期刊可以学习起来了，挖掘Nhanes数据解锁更多发文新思路

eClinicalMedicine (IF=9.6)：模型可视化-15年数据构建预测模型评估女性CSEP术中出血的风险

【直播倒计时1天】没有数据又想发高分期刊可以学习起来了，挖掘Nhanes数据解锁更多发文新思路

预测模型特征太多？LANCET子刊教你从249个特征中筛出11个

【直播倒计时2天】没有数据又想发高分期刊可以学习起来了，挖掘Nhanes数据解锁更多发文新思路

Nature子刊：蛋白组+代谢组=构建心肌病调控功能网络并提供在线应用程序

【直播倒计时3天】旧指标也能变废为宝，MR联合Nhanes解锁发文新思路

【直播预告】旧指标也能变废为宝，MR联合Nhanes解锁发文新思路

Nature子刊：基于蛋白质的机器学习预后模型用于对儿童乳头状甲状腺癌患者进行分层

CARDIOVASCULAR IMAGING(IF=12.8)：基线分析+模型解释性+生成分析=NICM右心室功能障碍的预后意义

《Eur J Heart Fail》IF=16.9，如何识别高危糖尿病心肌病表型？新开发和验证的机器学习的方法帮助解决！

归因分析与GBD数据库如何完美交织？这一篇就够了！

Joinpoint回归也能结合GBD数据库？瞧瞧高手们的做法

《eClinicalMedicine》IF=9.6，饮酒者饮酒与痴呆发病率之间有何关系？孟德尔随机化给出答案！

《CARDIOVASC DIABETOL》（IF=8.5），TyG与心血管疾病风险中内脏肥胖之间的相互作用

European Respiratory Review（IF=9.0），如何预测儿童哮喘的恶化？机器学习模型给出解决方法。

Critical Care（IF=8.8）危重患者新发心房颤动可以预测？机器学习模型给出解决。

零实验照样高分，公共数据库+机器学习+预后模型助力发文

LANCET(IF=90+):机器学习+SHAP+风险分层=非ST段抬高急性冠状动脉综合征患者GRACE评分的性别特异性评估

《Molecular Therapy-Nucleic Acids》(IF=8.8): 组学分析+机器学习 =子宫内膜癌分型系统

《CARDIOVASC DIABETOL》（IF=8.5），糖尿病前期和肝脂肪变性对年轻人心脏代谢结局的综合影响

《CARDIOVASC DIABETOL》（IF=8.5），估计葡萄糖处理率和心血管疾病发病率的变化

LANCET子刊(IF = 9.6)：深度学习使用磁共振血管造影数据构建烟雾病自动诊断模型

【今晚18点开播】零基础入门孟德尔随机化及GWAS Catalog公共数据库（IF=5.8）

Advanced Science（IF=14.3）：LASSO+模型融合+生存分析=多模态标志物高尿酸血症的早期检测和预后预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉