本次解读的是发表在Journal of Translational Medicine(IF=6.1)上的一篇文章《Development and validation of a machine learning‑based predictive model for assessingthe 90‑day prognostic outcome of patients with spontaneous intracerebral hemorrhage》,本研究旨在开发和验证一种基于机器学习 (ML) 的预测模型,以评估自发性脑出血 (sICH) 患者的短期预后结局。
01背景介绍
自发性脑出血 (sICH) 是由大脑动脉、静脉和毛细血管破裂引起的,是一种灾难性的卒中亚型,通常与显著的死亡率和发病率有关。大约 10% 到 20% 的卒中患者是 SICH,并且其是全世界第二大常见的卒中死亡原因。sICH 的预后仍然是不确定的,这给临床决策带来了挑战。由于 SICH 相关的临床预后具有高度的异质性,因此为特定患者识别并量化其不良结局风险成为一个迫切的需求。
现有的研究已证实,多种因素会影响 sICH 的预后,包括人口统计学因素、血肿体积、出血部位和严重程度、炎症反应和药物治疗等。然而,传统的统计方法通常难以捕获这些复杂因素之间的非线性关系和相互作用。
而机器学习 (ML) 方法,由于其强大的数据挖掘和模式识别能力,在预测复杂的医学事件方面显示出巨大的潜力。ML 算法可以分析大量数据以识别隐藏的模式和关联,而无需预先假设哪些因素与不良结局相关,从而为临床实践提供有价值的信息。 因此,本研究旨在利用 ML 技术开发一个可靠的风险预测模型,以便更准确地预测 sICH 患者的短期预后。
研究旨在比较多种 ML 模型并确定最优模型,并开发一个可供临床实践使用的风险评估工具。此外,还旨在通过 SHAP 方法来解释 ML 模型的预测结果,以确定 sICH 预后的关键预测因子。
02材料与方法
1. 研究人群和数据收集
这项回顾性研究纳入了2018年1月至2022年3月期间在合肥某医院神经科入院的413例自发性脑出血(sICH)患者,这些患者被用作训练队列。2022年3月至2023年5月在安徽某医院神经科入院的74例sICH患者作为外部验证队列。
纳入标准:年龄>18岁;符合中国神经病学学会脑血管病组发布的sICH诊断标准;发病24小时内首次进行颅脑CT检查。
排除标准:外伤性脑出血,脑梗塞出血转化,脑血管畸形和脑肿瘤,以及脑出血前曾接受过手术干预的患者,以及随访时间不足一年的患者。
2. 统计分析
数据预处理: 将连续变量标准化,将分类变量进行独热编码。使用递归特征消除(RFE)方法选择与 sICH 短期预后最相关的特征子集。RFE是机器学习特征筛选的主流筛选方法。RFE去除了对结束变量不重要的特征,并最终获得了模型最佳性能的最佳变量组合。RFE有助于提高预测模型的性能,特别是避免过拟合,有利于提高模型的泛化能力。RFE减少了特征的数量,使模型更简单,更易于解释,有利于临床应用。在此基础上,将改进后的最优子集特征表集成到我们的机器学习模型五元组中,用于并行训练和测试。
模型构建: 使用五种机器学习算法构建预测模型,支持向量机(SVM)、逻辑回归(LR)、随机森林(RF)、XGBoost、LightGBM。使用 7:3的比例将训练集随机分为训练集和测试集,70%用于模型训练,30%用于内部验证。然后,使用内部五折交叉验证来寻找每个模型的最佳超参数。然后,选择平均性能最佳的模型进行外部验证。使用外部验证队列(来自BWH的74例sICH患者)评估模型的泛化能力。
评估指标:包括AUC和准确性,用于评估每个模型的性能。SHAP方法用于显示每个变量的重要权重,从而深入了解它们在模型中的相对重要性。最后,通过对变量重要性权重和组合的整合,确定了预测变量的最优组合,最终建立了综合预测平台。
统计分析:使用SPSS(版本24.0)、Python (版本3.10.10)和R(版本4.1.3)进行统计分析。正态分布的连续变量使用平均值±标准差 (mean±SD) 表示,非正态分布的连续变量使用中位数(M)和四分位数间距(IQR)表示。分类变量用计数和百分比表示。 连续变量的组间比较使用Student's t检验或Mann-Whitney U检验,分类变量的组间比较使用卡方检验或 Fisher精确检验。所有分析的双尾P值<0.05 被认为具有统计学意义。
03结果
01 基线分析
表1提供了训练集和外部测试集数据之间基线特征的比较。在训练集和外部测试集之间,在大多数特征上未观察到实质性差异。高血压患者比例在外部测试组明显高于培训组(91.89%VS72.64%,P<0.001)。相反,与外部测试集相比,训练集中饮酒的患者比例显著升高(28.57%VS13.51%,P=0.007)。训练组脑室出血的发生率明显高于外部测试组(24.32%VS9.2%,P<0.001)。此外,训练组的尿酸水平明显高于对照组(351.04± 123.55VS266.43±105.84,P=0.00)。在外部测试集中,与训练集相比,AST显著升高(32.31±21.13VS26.42±12.17,P= 0.022)。此外,在训练集中,GCS评分显著更低(12.86±3.42VS13.70±3.08,P = 0.047),而NIHSS评分显著更高(10.08± 9.73VS7.59±8.56,P=0.04)
表2描述了训练集中sICH患者不同预后的组间差异。在预后不良组中,老年患者所占比例明显高于预后良好组(56.1%VS44.2%,P =0.016)。预后不良组脑室出血发生率明显高于预后良好组(48.9%VS11.2%,P=0.000,P<0.05)。此外,两组之间的血肿体积存在显著差异(P=0.000)。
2 预测因子的选择
采用RFE策略进行特征筛选。根据递归特征消除法确定的最佳子集的合并包括:NIHSS评分、AST、年龄、白色血细胞、血肿体积、尿氮、中性粒细胞、葡萄糖、肌酐、收缩压、ALT、淋巴细胞、舒张压、尿酸、GCS评分。
3 多机器学习模型性能
我们基于上述选定的特征进行模型训练和测试。内部测试集上所有模型的AUC范围为0.85 - 0.95,RF模型最有效[AUC:0.916,95% CI(0.859-0.972)](图1)。
在外部五重交叉验证期间,RF的平均性能持续排名为上级(AUC:0.906 ± 0.029)(图2)。
表3示出了不同机器学习预测模型之间的常见性能指标的比较。
基于这些结果,我们选择RF模型作为我们的结论性风险预测模型。如所述训练的RF模型的性能在外部测试集中保持稳定(AUC:0.817,95%CI(0.705-0.928))(图3)。
4 变量重要性和变量解释
基于SHAP图可视化预测变量对结果的影响。具体而言,变量对结果的影响可以通过SHAP值的大小(由颜色变化表示)和变量水平轴上的趋势(发展不良结果的概率)进行直观解释。例如,在NIHSS评分的情况下,与NIHSS评分较低的个体(以蓝色表示)相比,评分较高的个体(以红色表示)更容易出现不良预后(右侧)。同样,对于AST水平升高的个体(红色),sICH患者的预后可能不利(右侧)。对于血肿体积不是血肿体积_1(血肿体积> 20 ml,用蓝色表示)(位于右侧)的个体,sICH患者的预后可能是不利的(图4)。
5 Web计算器的实现
此外,我们还绘制了组合AUC和变量重要性线图,使用了由RF模型的变量重要性和变量组合构成的模型预测数据。如图所示,很明显,包括NIHSS评分、AST水平、年龄、白色细胞和血肿体积在内的变量的合并能够达到优化和简化的预测疗效(图5)。
基于这五个指标构建了一个网络计算器,促进了sICH患者预后风险的个体化预测(https://surgeustc.shinyapps.io/hemorrhage_progn osis/)。
04总结
结论
当然,本研究也有一些局限性。
首先,白细胞计数可能受到许多因素的影响,例如药物的使用。
其次,本研究是一项回顾性配对队列研究,研究结果可能存在一定偏倚。
此外,外部验证中心的病例数量有限,可能会限制当前结果的可靠性。未来的研究工作应该进行多中心验证并开始大规模前瞻性研究,以增强我们发现的稳健性。
总之,已经建立了预测模型,利用RF模型的结果并整合了四个临床可达到的预测因子。该模型对sICH患者的短期预后具有可靠的预测效果。同时,外部验证集的性能也更稳定,可用于准确预测sICH患者的短期预后。
小编总结
本研究开发了一个基于 ML 的预测模型,能够根据入院时可获得的临床参数(包括 NIHSS 评分、AST 水平、年龄、白细胞计数和血肿体积)来预测 sICH 患者的短期预后。RF 模型在内部和外部验证中都表现出了良好的性能。同时,该研究也强调了运用可解释 ML 方法揭示潜在预后因子的重要性。未来,我们应进行多中心、前瞻性研究,以进一步评估和验证该模型的临床应用价值,同时对模型做进一步的优化,使得临床医生更好地做出个体化的治疗决策。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【2】eClinicalMedicine (IF=9.6):模型可视化-15年数据构建预测模型评估女性CSEP术中出血的风险
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析