本次解读的是发表在World Journal of Emergency Surgery(IF=6)上的一篇文章《An explainable predictive machine learningmodel of gangrenous cholecystitis basedon clinical data: a retrospective single centerstudy》,本研究聚焦于坏疽性胆囊炎(GC),旨在利用机器学习技术与Shapley Additive explanation(SHAP)算法构建一个具有成本效益且可解释的预测模型。
01背景介绍
坏疽性胆囊炎(GC)作为复杂胆囊炎的常见类型,病情凶险,其胆囊壁渐进性缺血、坏死甚至穿孔,在临床诊疗中极具挑战性。据报道,其发病率在急性胆囊炎中占比达10- 40%,发病率和死亡率分别处于15-50%的较高区间。由于确诊依赖病理证据,术前诊断难度极大,仅有约9%的患者能在术前准确诊断。
当前临床指南虽对急性胆囊炎进行了分级,但对GC的诊断和治疗缺乏针对性指导。以往研究多采用传统逻辑回归模型,不仅样本量有限,还普遍忽视了临床数据实际存在的缺失、不平衡等问题,严重制约了有效预测模型的开发。在此背景下,ML 技术凭借强大的计算能力脱颖而出,其能够深度挖掘多变量与疾病结果间的复杂关联,突破传统模型局限,为本研究开辟了新路径。
02材料与方法
1.数据来源
本研究经大连医科大学附属第二医院伦理委员会批准,遵循赫尔辛基宣言,采用回顾性单中心研究设计。以2015年1月至2023年5月间通过ICD-9编码识别并接受胆囊切除术的胆囊炎患者为研究对象,其中2015年1月至2022 年12月数据用于模型训练,2023年1月至5月数据作为未知外部测试集。经严格筛选,最终纳入1006例患者,其中 109例用于外部测试。
2.数据处理
用于构建ML模型的数据必须具有数据完整性,没有缺失值,并且在数据方面具有标准化。针对数据中的缺失值问题,鉴于缺失变量产生原因的随机性和多样性,不适合使用均值插值或众插值,使用多重插值进行插补。
多重插值是目前广泛应用的主要方法之一,其利用多链方程来插值缺失值通过生成多个完整数据集并计算各缺失变量的NRMSE均值,挑选出与原始数据集差异最小的版本用于后续建模。随后,运用 -score标准化方法对数据进行标准化处理,有效消除变量间尺度差异,促进模型计算收敛。
3.模型构建与验证
本研究采用分层5折交叉验证来验证训练集和验证集中数据的分布与原始数据的分布是否一致。构建决策树、SVM、随机森林、XGBoost、AdaBoost等模型时,先依据相关性分析排除部分协变,再运用网格搜索和手动参数化相结合,用于优化模型的参数,并绘制模型的学习曲线以评估模型的拟合。借助RFECV算法对特征变量进行排序,同时利用SHAP模块(可解释 RF、XGBoost 等树模型)生成XGBoost模型的SHAP 值,综合确定变量重要性排名,进而筛选出关键特征子集。
在处理数据不平衡问题上,构建了随机欠采样、随机过采样和合成少数过采样技术(SMOTE)及其变体Borderline-SMOTE、SVMSMOTE等算法进行数据重采样,并采用 用于评价的召回率、精确度、F1评分及PR曲线等指标全面评估模型性能,鉴于研究重点为准确检测GC阳性样本,故着重关注召回率值。此外,还通过计算准确性、特异性、灵敏度和AUROC等指标实现与术前诊断的对比分析。
在统计分析方面,运用Shapiro检验判断连续数值变量分布,依此选择合适描述方式(正态分布用均值±标准差,非正态用中位数[四分位间距]),对分类变量采用卡方检验,连续数值变量依分布选用两尾t检验或Kruskal-Wallis秩和检验,变量间相关性检验则分别采用 spearman、Cramer’s V、point-biserial相关系数,确保研究结果的统计显著性(p<0.05)。
03结果
01 患者的临床特征
897例患者入组研究,分为无GC组(n= 689)GC组(n=208),共468例(52.2%)男性患者和429例(47.8%)女性患者。在GC组中,发现患者年龄较大,(64岁与56岁,p<0.001),主要为男性(68.3%vs.31.7%),且WBC较高(13.49 vs. 6.82,p<0.001)和NLR(13.01 vs.2.56,p<0.001);D-二聚体升高(1.02vs. 0.54,p<0.001)和更高的NLR(13.01vs. 2.56,p<0.001)和纤维蛋白原增加(5.61 vs.3.71,p<0.001),表明凝血也受到影响;肝功能也升高,但只有总胆红素的差异具有统计学意义(24.30vs.15.28,p<0.001);入院时更可能伴有低钾血症或低钠血症(58.1%vs. 41.9%,p<0.001);入院时更可能与低钾血症相关(58.1%vs.41.9%,p<0.001);此外,胆囊可能整体增大,成像显示胆囊壁增厚(0.50vs 0.30cm,p<0.001)。既往病史显示,无GC组既往发生心血管疾病且目前正在使用抗凝药物的患者比例更高。此外,我们收集的与结局相关的其他变量显示,GC组的手术时间更长(110vs.75min,p<0.001),术中失血量更多(10vs.5mL,p<0.001),住院时间更长(8vs.7d,p<0.001)。这些发现强调了及时准确预测GC发生的重要性。
02 相关性分析
模型预测变量包括年龄、WBC、NEU、LYM、NLR、PLT、PLR、ALT、AST、GGT、总胆红素、d-二聚体、纤维蛋白原、BMI、体温、心率、胆囊长度、胆囊宽度、胆囊壁厚、性别、高血压、糖尿病、心脑血管疾病、抗凝药物、全麻手术、低钾血症或低钠血症及依变量坏脉性。结果显示WBC与NEU、NLR、ALT和AST之间以及心血管疾病与抗凝药物史之间存在很强的相关性。 考虑到NLR在前人多项研究中具有较高的研究价值,且与因变量高度相关,基于前人统计分析的p值大小,我们决定保留NLR,去除NEU、ALT、PLR、胆囊长度、抗凝药物。剩余变量之间的相关性也通过热图得到证实。
3 模型的性能
模型的平衡准确率范围为77.49%(95% CI:70.67-85.78%)至83.20%(95%CI:76.31-90.14%),召回值为59.63%(95% CI:47.22-75.02%)-88.00%(95%CI:84.00-100.00%)。这些模型分别在不同的指标上表现优异,SVM达到最高的平均准确率,RF具有最高的召回值,XGBoost模型在多个指标上具有较强的性能。
RF模型具有中等性能,PR曲线和AUPRC为(75.51%,95%CI:62.42-86.02%),另一方面,SVM在训练集和验证集之间表现出最小的差异(79.24%vs.78.48%)。这表明SVM模型可能不会受到过拟合或欠拟合的影响。XGBoost和AdaBoost模型在训练集上表现出良好的性能,但与验证集相比,性能存在明显差异(83.71%vs.77.99%,83.25%vs. 77.34%),这表明模型可能存在过拟合的危险。因此,我们绘制了上述几个模型的学习曲线,以检测模型拟合的当前水平。为了避免过多的误报,我们使用F1分数作为学习曲线分数,大多数模型都表现出良好的拟合,除了AdaBoost模型,它表现出轻微的过度拟合。
4 构造并验证特征子集
在本研究中,我们对每个模型实现了RFECV算法,并合并了从RF和SVM模型中获得的特征变量的重要性,以及从XGBoost模型中获得的SHAP值。我们确定了以下七个变量作为最终构建决策工具的特征子集:WBC、NLR、D-二聚体、胆囊宽度、纤维蛋白原、胆囊壁厚度、低钾血症或低钠血症。
为了测试特征子集的有效性,使用表3中列出的上述变量重新评估了模型,各种指标的评估显示出轻微下降或无变化,这证实了特征子集的有效性,PR曲线的结果进一步支持了这一结论。在外部测试集中,指标有所下降但仍表现良好,除RF外,其他型号的AUPRC均大幅下降。另一方面,XGBoost依然表现出色,在五款车型中最高,为77.87%(95%CI:53.11-92.55%)。
5 与术前诊断比较
此外,我们将模型与我中心临床医生的术前诊断进行了比较。由于术前诊断仅提供最终的预测标签,我们生成相应的混杂矩阵并计算相应的指标。与术前诊断相比,XGBoost具有更高的准确性和特异性。 此外,XGBoost的AUROC达到了94.40%,表明该模型的预测能力优于传统的诊断方法。
04总结
结论
综上所述,我们的研究成功开发了用于GC早期诊断的XGBoost机器学习模型,与传统诊断方法相比,该模型的分类准确率高达81.50%,AUROC高达94.40%。利用SHAP值来解释模型,并开发了一个方便的在线预测应用程序,包括WBC、NLR、d-二聚体、胆囊宽度、纤维蛋白原、胆囊壁厚、低钾血症或低钠血症。总的来说,我们的研究强调了ML在推进GC早期检测策略、倡导及时手术干预以及为医疗保健专业人员优化患者护理和结果提供宝贵支持方面的潜力。
小编说明
本研究在 GC 预测领域取得了重要突破,通过严谨的数据处理流程和科学的模型构建、评估方法,成功开发出性能优异且具有可解释性的XGBoost 模型,并转化为便捷的在线预测应用(https://gangrenous-cholecystitis-prediction-model.streamlit.app/),极大地提升了临床实用性。尽管存在一定局限性,但为后续研究提供了极具价值的参考和坚实的基础,有望推动GC早期诊断和精准治疗的发展进程。未来研究可围绕上述局限性展开深入探索,不断完善模型,为临床决策提供更可靠的支持。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【1】发文没思路?GBD数据库+流行病学分析=深度剖析全球胃食管反流病负担
【4】《Cardiovascular Diabetology》IF=8.5,预测老年心力衰竭合并高血压患者死亡率?机器学习模型给出结果
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析