目标:评估在风险特定队列上训练时风险预测模型的性能。
设计、设置和参与者:这项横断面研究从2024年2月进行到2024年7月,部署了一个深度学习模型,该模型为常见的术后并发症生成风险评分。研究检查了2014年6月1日至2021年5月5日在佛罗里达大学健康医院进行的109,445例住院手术。
暴露:该模型针对高风险、中风险和低风险的常用程序术语代码分别从头开始训练,这些代码通过5种术后并发症的发生率经验性定义:(1)住院死亡率;(2)延长的重症监护病房(ICU)住院时间(≥48小时);(3)延长的机械通气时间(≥48小时);(4)败血症;和(5)急性肾损伤(AKI)。并发症的低风险和高风险截止值由数据集中的下三分之一和上三分之一的流行率定义,死亡率的截止值分别设定为1%或更少和大于3%。
主要结果和措施:对每个风险特定队列的模型性能指标进行了评估,并与基线模型进行了比较。指标包括接收者操作特征曲线下面积(AUROC)、精确度-召回曲线下面积(AUPRC)、F1分数和每个模型的准确性。
结果:在盖恩斯维尔(77,921例手术[71.2%])和杰克逊维尔(31,524例手术[28.8%])的佛罗里达大学健康医院接受治疗的患者中,共检查了109,445例住院手术。患者年龄中位数(IQR)为58岁(43-68岁),Charlson共病指数得分中位数(IQR)为2(0-4)。在109,445例手术中,有55,646名患者为男性(50.8%),66,495名患者(60.8%)接受了非紧急的住院手术。在高风险队列上的训练对AUROC有不同程度的影响,但显著提高了预测死亡率(0.53;95% CI,0.43-0.64)、AKI(0.61;95% CI,0.58-0.65)和延长ICU住院时间(0.91;95% CI,0.89-0.92)的AUPRC。它还显著提高了死亡率(0.42;95% CI,0.36-0.49)、延长机械通气(0.55;95% CI,0.52-0.58)、败血症(0.46;95% CI,0.43-0.49)和AKI(0.57;95% CI,0.54-0.59)的F1分数。在控制了高风险队列的基线模型性能后,仅对住院死亡率的AUPRC有显著增加(0.53;95% CI,0.42-0.65 vs 0.29;95% CI,0.21-0.40)。
本横断面研究使用了来自佛罗里达大学健康系统的两家医院(盖恩斯维尔的医院共进行77,921例手术,占71.2%;杰克逊维尔的医院共进行31,524例手术,占28.8%)的所有18岁及以上患者的纵向回顾性队列,时间范围为2014年6月1日至2021年5月5日,总计109,445例手术。这两家医院均为一级创伤中心。该研究获得了佛罗里达大学机构审查委员会的批准(编号:201600262),并对回顾性研究授予了豁免知情同意。使用主要的当前程序术语(CPT)编码,将住院手术分类为低风险、中风险或高风险,并针对特定并发症进行评估。以往研究定义的住院死亡率高风险的切点为3%或5%,而我们选择了不同的切点(≤1%、>1%至<3%、≥3%),以捕捉高风险队列中更多的死亡实例。由于缺乏有关其他并发症的外科风险分类文献,本研究使用了研究机构内每种并发症的发生率来建立高风险、中风险和低风险CPT编码的三分位数切点值。个别并发症发生率的低风险和高风险三分位数切点分别为:重症监护病房(ICU)逗留时间延长(≥48小时)为15.6%和46.9%;机械通气时间延长(≥48小时)为2.7%和8.3%;脓毒症按国际疾病分类第九版(ICD-9)和国际疾病分类第十版(ICD-10)编码定义;急性肾损伤(AKI)基于可计算的表型算法;以及住院死亡率。由于研究机构ICU床位的可用性(占医院总床位的25%)和相应的宽松使用,ICU入院率较高。机械通气的发生率也可能因当地的实践模式而升高。
研究工作流程如图1所示。并发症的定义在以往研究中如下:重症监护病房逗留时间延长(≥48小时);机械通气时间延长(≥48小时);脓毒症按国际疾病分类第九版(ICD-9)和国际疾病分类第十版(ICD-10)编码定义;急性肾损伤(AKI)基于可计算的表型算法;以及住院死亡率。在初始实验中,每个模型使用各个风险特定队列的所有可用实例进行训练,同时将基线的训练规模限制为高风险队列的规模(例如,住院死亡的手术为14,641例)。这样做是为了消除数据集规模作为混杂因素,因为基线模型将包含与风险特定队列相同的训练集,因此预计性能相当。后续实验使用整个数据集作为对照(n=93,765)以确认这一假设。限制训练队列的规模对于在局部环境中使用机器学习工具的研究也具有相关性,特别是在样本量较小的情况下。
佛罗里达大学综合数据仓库作为诚实的中介,负责组建研究队列,该队列包括2014年6月1日至2021年5月5日期间的住院外科手术住院记录。人口统计信息包括年龄、性别、种族、民族和基于邮政编码的区域贫困指数。种族和性别为患者在医院入院表格中自我报告,并记录以捕捉与健康结果相关的所有变量。所有住院外科手术住院记录均被纳入研究,但器官捐献手术、手术室外麻醉及持续时间少于24小时的住院(通常仅被分类为观察)则被排除。手术后24小时内的死亡也被排除,以避免过于狭窄的估计窗口。
本研究采用了深度学习模型,利用来自电子健康记录的实时数据生成8种常见术后并发症的风险评分。该专有模型可应请求提供用于外部验证研究。该模型已应用于多个不同的用例,并在多个机构的异质数据集中,表现出与这些并发症相关的强大性能。模型输入来自术前、术中和术后护理阶段的详细信息,包括患者的人口统计信息、社会经济状况、医院分级、诊断、手术、生命体征、实验室数值、药物和输血。在每个训练周期开始时,权重是随机分配的。在8种术后结果中,选择了5种结果进行研究,基于数据的可靠性,并为了获得从低发生率并发症(如住院死亡)到高发生率并发症(如重症监护病房逗留时间延长)的类别不平衡的光谱。
研究队列按时间顺序分为开发队列(93,765例手术,占85%)和测试队列(15,680例手术,占15%),以减轻与数据集漂移相关的潜在不良结果。通过网格搜索找到了最佳模型学习率、批量大小、丢弃率和隐藏层维度。
通过计算受试者工作特征曲线下面积(AUROC)、精准率-召回率曲线下面积(AUPRC)、F1分数以及计算Youden指数以推导出评估敏感性和特异性的最佳分类阈值,评估模型在验证队列中的表现。使用DeLong检验比较AUROC曲线,使用自助法比较AUPRC和F1分数。P值检验为双尾检验,P ≤ .05被视为统计学显著。我们计算了AUROC、AUPRC和F1分数估计值的95%置信区间。模型使用Jupyter Colaboratory(Google)和Python 3.11版本(Python软件基金会)进行训练。模型开发符合《个体预后或诊断的多变量预测模型透明报告指南》(TRIPOD)的报告标准建议,属于2b类型分析类别。
本研究的数据集包含109,439例手术。患者的中位数年龄为58岁(四分位数范围43-68岁),Charlson合并症指数的中位数为2(四分位数范围0-4)。在109,439例手术中,55,646名患者(50.8%)为男性,22,841名(20.9%)自报种族为非裔美国人,78,535名(71.8%)为白人,6878名(6.3%)为其他(包括自报为美洲原住民或阿拉斯加原住民、亚裔美国人和夏威夷原住民或其他太平洋岛民的个体,以及未说明种族的个体)。
大多数手术(66,495例,占60.8%)为非紧急手术,剩余的手术(42,944例,占39.2%)被标记为紧急手术。表1显示了训练数据中各组的个体结果发生率。低风险CPT编码的发生率范围为0.2%到5.5%,中风险CPT编码为1.9%到26.2%,高风险CPT编码为8.5%到71.8%,总体发生率范围为1.8%到26.7%。住院死亡率的类别不平衡最高,占整体数据集的不到2%,但在高风险队列中为8.5%。总体发生率通常介于中风险和高风险队列之间,直观上与仅包含住院外科入院的数据显示一致。
根据上述针对每种个别并发症的分类,低风险、中风险和高风险手术的选择与分类通常与临床直觉相符。像气管切开术这样的技术性较低的手术,有时被归类为高风险,因为它们通常是在重病患者身上进行的。
每个模型首先在其特定的匹配队列上进行测试(例如,训练高风险模型并将其应用于高风险患者)。各个并发症的模型性能见表2,图2展示了最低发生率(住院死亡)和最高发生率(重症监护病房逗留时间延长)并发症的示例。基于CPT的方法在最低发生率的结果(住院死亡)方面表现得最为有效。在AUROC方面(图2A和B),表现最佳的模型通常是基线模型,值范围从0.84(95% CI,0.83-0.86)用于脓毒症到0.89(95% CI,0.89-0.90)用于重症监护病房逗留时间延长。对于死亡率,最高AUROC在低风险、高风险和基线模型中重叠,置信区间也重叠。低风险模型通过持续预测几乎没有并发症的队列,达到了较高的AUROC和准确率。
在高风险队列上训练显著提升了AUPRC(图2C 、D),在所有并发症中均优于其他模型,范围从0.45(95% CI,0.41-0.50)用于脓毒症到0.91(95% CI,0.89-0.92)用于重症监护病房逗留时间延长。我们观察到死亡率、急性肾损伤(AKI)和重症监护病房逗留时间延长的置信区间不重叠。相反,低风险模型的表现较差,死亡率和AKI的AUPRC接近0。
在F1分数方面(图3A),高风险模型再次在所有并发症中表现优于其他模型,范围从0.42(95% CI,0.35-0.49)用于死亡率到0.79(95% CI,0.77-0.80)用于重症监护病房逗留时间延长,且死亡率、重症机械通气、AKI和重症监护病房逗留时间延长的置信区间不重叠。
接下来,我们展示了基线模型在不同风险队列上的表现(即基线模型在高风险队列上的表现)。查看AUROC的性能差异时,我们发现风险特定模型与基线模型在大多数情况下没有显著差异,只有少数例外:低风险住院死亡(AUROC,0.92对0.74;P < .001),高风险住院死亡(AUROC,0.88对0.84;P = .01),高风险脓毒症(AUROC,0.78对0.79;P = .01),高风险重症监护病房逗留(AUROC,0.81对0.83;P = .004),以及高风险重症监护病房逗留(AUROC,0.80对0.83;P < .001)。基线模型性能的差异反映了训练规模的变化,急性肾损伤的性能显著下降(AUROC,0.79对0.82;P < .001)以及重症监护病房逗留的性能下降(AUROC,0.89对0.91;P < .001)。在AUPRC和F1分数方面,没有置信区间不重叠的情况。F1分数可在图3B中查看。这一结果是合理的,因为基线模型在未限制样本量时可以访问相同的数据集。然而,我们确实注意到模型在低风险和中风险队列中的表现较差。
接下来,我们评估了限制模型在高风险手术中的表现。我们发现高风险死亡的AUROC较好(0.88对0.81;P = .001),但机械通气的AUROC较差(0.81对0.83;P = .01)。只有高风险住院死亡的AUPRC具有不重叠的置信区间(AUPRC,0.53;95% CI,0.42-0.65),与基线模型(AUPRC,0.29;95% CI,0.21-0.40)相比。F1分数没有不重叠的置信区间(图3C)。
文字 | 王倩倩
排版 | 王倩倩