医脉通编译整理,未经授权请勿转载。传统观点认为阑尾炎会不可避免地发展为穿孔,但现有数据显示,阑尾炎可以自发消退,且延迟治疗并不增加穿孔风险。大型阑尾切除术登记处的数据也表明,尽管穿孔与死亡率增加有关,但因非特异性腹痛接受手术的患者,阴性阑尾切除术的死亡率也增加。机器学习(ML)作为一种新兴工具,通过分析大量数据来提高预测能力,已被用于改进医学领域的管理策略。ML模型的有效性取决于训练数据的量和质量,以及模型准确性的适当设置。近日,Sci Rep.发表一项研究,旨在开发一种ML模型,从而减少临床可能性高的急性阑尾炎儿科患者中阴性阑尾切除术的数量,并区分复杂性急性阑尾炎和无并发症阑尾炎患者。研究发现,ML模型能够避免17%的高危患者接受不必要的手术,同时保持较低的漏诊率(0.3%)。
本研究共纳入551例患者进行模型训练和评估,其中,252例为单纯性阑尾炎,252例为复杂性阑尾炎,47例为PHD阴性。研究中,考虑到假阴性诊断的影响远高于假阳性的成本,模型构建时特别关注减少假阴性的数量。为此,研究者选择自定义指标来调整模型超参数和阈值,以实现高特异性分数的同时保持最大的灵敏度。在测试集上,采用内部交叉验证获得的第二低阈值,以保持高灵敏度。值得注意的是,假阴性结果实际上都是无并发症的阑尾炎病例,而非复杂(坏疽性)病例。模型在检测单纯性和复杂性阑尾炎的灵敏度分别为0.995 ± 0.002和0.9996 ± 0.0004。为理解模型学到的内容,研究者计算其中一个外折叠模型的Shapley值以确定特征重要性。为验证模型的有效性,研究者对50个外部折叠的值进行平均,以评估模型在不同敏感性和特异性阈值下的表现,并与阑尾炎炎症反应(AIR)评分进行比较。结果显示,当AIR评分阈值设定为大于0时,其敏感性与模型相似,但特异性为0。而当AIR评分阈值设定为大于1时,特异性与模型相当,但敏感性显著降低(P = 5.674×10−14,配对t检验)。在高灵敏度区域之外,模型在大多数其他灵敏度-特异性组合中的表现均优于AIR评分。这表明模型在区分不同类型阑尾炎方面具有较高的准确性和可靠性(图1)。图1. (a) AIR 评分平均 ROC 曲线(红色)和每个外折叠的 ROC 曲线(灰色);(b) 随机森林模型(全线,蓝色)和 AIR 评分(虚线,红色)ROC 曲线的比较为探讨保守抗生素治疗作为阑尾炎治疗的可能性,研究者开发另一种分类模型,将阴性阑尾炎病例与无并发症病例合并标记为零,而仅将复杂性病例标记为1。在这一模型中,随机森林算法再次展现了最佳的预测性能,达到0.994 ± 0.002的灵敏度和0.129 ± 0.009的联合平均特异性。在考虑保守治疗策略时,该模型建议仅对复杂性阑尾炎患者立即进行手术。研究者进一步区分阴性和无并发症阑尾炎病例的特异性,发现阴性PHD的特异性为0.25 ± 0.02,无并发症阑尾炎病例的特异性为0.107 ± 0.008。本研究结果表明,ML模型能够避免17%的高危患者接受不必要的手术,同时保持较低的漏诊率(0.3%)。尽管如此,为验证这些模型在实际临床诊断中的益处,仍需在大型队列中进行外部验证。这些模型的潜在用途在于辅助临床医生做出更准确的诊断决策,优化治疗方案,并改善患者的治疗效果。Males I, Boban Z, Kumric M, et al. Applying an explainable machine learning model might reduce the number of negative appendectomies in pediatric patients with a high probability of acute appendicitis. Sci Rep. 2024 Jun 4;14(1):12772.