【神麻人智】机器学习模型对临床医生术后并发症预测的影响：围术期ORACLE随机临床试验

健康教育 2024-12-20 06:04 福建

折现分割线

背景：准确识别术后并发症高风险患者，可能有助于减轻这些风险，为此，本试验评估了机器学习模型对临床医生风险评估的影响。

方法：这项单中心、前瞻性、随机临床试验招募年龄≥18岁的外科患者。在远程医疗支持下，麻醉医生和麻醉护士分别在有（辅助组）或无（非辅助组）机器学习模型预测的情况下审查患者的电子健康记录（EHR）。临床医生预测术后30天全因死亡率和术后7天内急性肾损伤（AKI）的可能性。主要结果为临床医生预测死亡率和AKI的接受者操作特征曲线下面积（AUROC），并比较辅助评估组和非辅助评估组之间的AUROC。

结果： 研究共分析5071名患者（平均(范围)年龄：58岁（18-100）岁；52%为女性），由89名临床医生进行评估。98名患者（2.2%）在术后30天内死亡，450名患者（11.1%）发生AKI。与非辅助组相比，辅助组的临床医生预测更符合模型(死亡率：加权kappa 0.75 vs 0.62，均值差异为0.13 [95%CI 0.10-0.17]；AKI：0.79 vs 0.54，均值差异为0.25 [95%CI 0.21-0.29])。死亡率预测在辅助组（AUROC 0.793）和非辅助组（AUROC 0.780）之间相似（均值差异：0.013 [95% CI -0.070至0.097]；P=0.76）。AKI预测在辅助组的AUROC为0.734，非辅助组为0.688（均值差异0.046 [95% CI -0.003至0.091]；P=0.06）。

结论： 机器学习辅助并未提高临床医生的预测表现。未来仍需要进一步研究以阐明机器学习在实时围术期风险分层中的作用。

临床试验注册： NCT05042804

关键词：急性肾损伤；麻醉学风险评估；人工智能；临床试验；机器学习；术后并发症；术后死亡

引言

术后死亡仍然是全球范围内的重大问题，每年有超过400万人在手术后30天内死亡。死亡通常由AKI、呼吸衰竭或心血管事件等并发症引发。早期识别相关术后风险能够有助于优化术中或术后管理，以预防并发症或尽快识别并发症。

尽管现有数据能够识别术后并发症的高危患者，但准确的实时风险评估仍然很困难。首先，手术期间可用的数据量常常超过人类的信息处理能力，尤其是考虑到麻醉医生需要同时完成多项临床护理任务。其次，麻醉医生在综合可用数据作出临床决策时，往往受到偏见和其他认知错误的影响。风险评估的难度对同时负责多台手术患者的主治麻醉医生来说尤为明显。

研究人员提出使用机器学习（ML）模型来减轻麻醉医生在风险评估中面临的已知局限。目前已有ML模型可以预测术后死亡、AKI以及其他术后并发症，且具有中到高水平的区分能力。然而，目前尚不清楚麻醉医生是否会将这些模型的预测结果整合到其临床实践中，以识别高风险患者并制定风险缓解策略或加强监测。

本研究的主要目标是确定在有ML模型支持的情况下，麻醉医生是否能够更准确地预测术后并发症。次要目标为量化临床医生在其风险评估中整合ML预测信息的程度。

方法

研究设计

本研究符合CONSORT-AI指南的要求，并遵循《医学器械开发中的机器学习规范》。本研究为一项围术期预后风险评估与计算机学习增强（Perioperative ORACLE）的单中心随机试验（临床试验注册号：NCT05042804，注册日期为2021年9月13日）。该试验嵌套在手术室远程控制塔——导航信息、护理与安全（TECTONICS）随机临床试验（NCT03923699）中。TECTONICS试验评估一个由麻醉师组成的远程术中远程医疗干预（麻醉控制塔，ACT）对术后30天死亡、谵妄、呼吸衰竭和急性肾损伤（AKI）的影响。ACT干预包括对基于规则的生理警报反应性支持，并通过全面的患者案例审查向手术室麻醉科团队传达风险评估和治疗建议。对于共同招募的围术期ORACLE患者，全部患者案例审查随机分配到有（辅助组）或无（非辅助组）使用机器学习模型预测术后并发症的两组（见图1）。

图1. TECTONICS试验与ORACLE试验的关系。ORACLE包括了一个TECTONICS子集中患者。CA3，临床麻醉第三年（住院医师培训的最后一年）；CRNA，注册麻醉护士；ML，机器学习。

设置和参与者

该试验在美国密苏里州圣路易斯市的巴恩斯-犹太医院进行。

ORACLE试验纳入标准：1.同时参与了TECTONICS试验；2.在2021年9月13日至2022年9月30日期间接受了全面的患者案例审查。

TECTONICS试验纳入标准：年龄≥18岁；在巴恩斯-犹太医院接受麻醉服务的外科手术患者；手术时间安排在每周一至周五的07:00至16:00之间。

ACT临床医生是TECTONICS研究团队的成员，包括麻醉科主治医生、住院医生和麻醉护士。

机器学习模型干预

该干预包括预测术后30天内任何原因导致的死亡和AKI的机器学习模型。简言之，使用来自同一机构的回顾性外科患者队列训练了不同架构的模型，并选择出在验证集中表现最好的模型。根据预先指定的计划，定期更新模型，并于2022年2月推出了新版本。预测的信息包括每种并发症的预测风险（0-100%）、预测风险随时间的变化图表以及每个输入特征对风险的贡献比例。

程序

作为TECTONICS试验的一部分，ACT临床医生通常在术后60分钟内进行患者案例审查。临床医生审查电子健康记录中的相关数据，如术前记录、实验室结果、诊断研究和当前麻醉记录的起始数据，然后在定制版AlertWatch:OR软件上填写一个电子病例审查表单。该表单中包括（但不限于）用五点Likert量表评分患者发生每项并发症的可能性：非常低风险、低风险、一般风险、高风险、非常高风险。

随机分配

病例审查进行1:1（辅助组：非辅助组）的随机分配。当ACT临床医生打开AlertWatch:OR填写病例审查表单时，随机分配结果显示。如果随机分配到机器学习辅助组，临床医生在完成病例审查表单之前查看机器学习模型输出的预测结果。如果随机分配到非辅助组，临床医生直接开始填写病例审查表单。为了评估随机化遵从性，临床医生自报在病例审查过程中是否使用了机器学习模型输出。如果临床医生使用了机器学习模型输出，他们还需回答是否认为模型预测结果令人惊讶，以及是否赞同机器学习的预测。

主要结果

共同主要结果是临床医生对术后30天全因死亡率和AKI预测的准确性。真实并发症状态通过电子健康记录（EHR）查询定义。术后30天全因死亡率定义为通过EHR记录的生命状态，包括住院期间死亡和任何出院后死亡。AKI的定义为术后48小时内肌酐增加≥0.3 mg/dl，或者术后7天内肌酐增加≥基线的1.5倍。如果术前未检测肌酐，则使用实验室参考范围的上限作为基线值。如果术后未测量肌酐（n=1095），则假定无AKI。如果患者术前肌酐值>4.0 mg/dl，或患者已满足术前AKI的肌酐标准，或术前已接受透析，或正在进行透析通路手术或肾移植，则排除这些患者用于AKI分析。

统计方法

所有分析均使用R语言4.2.3版本进行。

描述性统计包括类别变量的频率（百分比），以及连续变量的均值（标准差）或中位数（四分位数范围），具体取决于数据的分布情况。临床医生预测与机器学习预测的一致性通过加权Kappa系数（使用二次权重）量化。对于每个共同主要结果，构建了两个逻辑回归模型：一个模型使用机器学习辅助组的病例审查数据，另一个模型使用非辅助组的病例审查数据。每个逻辑回归模型将临床医生的预测（五级类别变量）作为自变量，真实的并发症状态作为因变量。使用DeLong检验比较机器学习辅助组和非辅助组模型的AUROC。主分析遵循意向治疗原则，包含所有可获得临床医生预测和真实并发症状态的患者数据。

结果

参与者特征

在2021年9月13日至2022年9月30日之间，研究共纳入5071名患者（见图2），其中2536名患者被随机分配到机器学习辅助组，2535名患者被分配到非辅助组（表1）。总共有89名不同的麻醉科临床医生参与试验。

图2. CONSORT流程图。AKI，急性肾损伤；ML，机器学习。

表1. 随机病例回顾的患者和临床医生特征。ACT，麻醉控制塔；CRNA，注册麻醉护士；ML，机器学习；SRNA，注册学生麻醉护士；TECTONICS，手术室远程控制塔——导航信息、护理与安全。

机器学习模型的前瞻性表现

预测死亡的机器学习模型的AUROC为0.807（95%CI 0.768-0.847），预测AKI的模型的AUROC为0.766（95% CI 0.746-0.787）。这两个模型在表现上有月度波动，但在2022年2月实施新模型版本后有所改善。

临床医生预测模式

当预测死亡时，在机器学习辅助组中临床医生的预测结果与机器学习模型的预测更为一致（即落在相同的五点Likert量表风险类别中），相比之下，非辅助组中的一致性较低（加权Kappa：辅助组0.75 vs 非辅助组0.62，均值差异：0.13 [95%CI 0.10-0.17]；AKI：辅助组0.79 vs 非辅助组0.54，均值差异：0.25 [95% CI 0.21-0.29]）（见图3和图4）。

图3. 临床医生对术后死亡预测的分布。通过治疗分配（辅助组vs 非辅助组）和ML预测进行分层。蓝条表示临床医生预测与分类ML预测相匹配的病例。ML，机器学习。

图4. 临床医生对术后AKI预测的分布。通过治疗分配（辅助组vs 非辅助组）和ML预测进行分层。蓝条表示临床医生预测与分类ML预测相匹配的病例。ML，机器学习。

主要结果：死亡预测

关于死亡的主要分析包括4459名患者，其中98名（2.2%）在术后30天内死亡。机器学习辅助组的临床医生预测死亡的AUROC为0.793（95%CI 0.735-0.851），而非辅助组的临床医生预测死亡的AUROC为0.780（95%CI 0.717-0.842）（见图5a）。两组之间的AUROC差异为0.013（95%CI -0.070至0.097，P=0.76）。

主要结果：AKI预测

关于AKI的主要分析包括4055名患者，其中450名（11.1%）发生了AKI。机器学习辅助组的临床医生预测AKI的AUROC为0.734（95%CI 0.703-0.766），而非辅助组的临床医生预测AKI的AUROC为0.688（95%CI 0.652-0.725）（见图5b）。两组之间的AUROC差异为0.046（95% CI -0.003至0.091，P=0.06）。

图5. 接受者操作特征曲线下面积。(a)术后30天内死亡预测。(b)术后AKI预测。曲线下面积AUC；ML，机器学习。

讨论

在这项单中心随机临床试验中，临床医生在有无机器学习模型预测算法辅助的情况下，对术后死亡率的预测均表现出较高的区分度。对于急性肾损伤（AKI）的预测，临床医生表现出中等的区分度，并且机器学习辅助组和非辅助组之间的区分度差异没有统计学意义。对于这两个模型，前瞻性预测中的表现较回顾性验证数据集中的表现有所下降。

既往有研究表明机器学习与临床医生在围术期预测任务中的表现。在一项模拟研究中，20名重症监护医生在审查MySurgeryRisk工具后，对于150名患者的六项术后并发症预测表现更为准确。然而，在该工具的实时部署中，外科医生的预测准确性并未发生改变。在另一项模拟研究中，5名麻醉医生在使用机器学习模型预测术中低氧血症时，比未使用时表现出了更高的区分度。最后，68名患者参与的HYPE试验报告显示，在选择性非心脏手术中使用早期警告系统减少了加权平均低血压时间，但在后续的不同研究者评估中未发现差异。这些试验没有明确测量临床医生的预测，但观察到的效果可能是由于临床医生对低血压的预测发生了变化。

本试验与这些先前研究存在一些关键差异。在类似研究中，临床医生除了预测外没有其他任务，而在ORACLE试验中，临床医生在进行术中远程支持的同时，也需要进行病例审查。在一些使用回顾性病例的研究中，通过对阳性病例进行过度抽样，可能人为提高了结果的并发症发生率，从而影响了临床医生的表现。一些试验包含的临床医生较少，他们可能随着时间的推移对机器学习模型输出的使用更加熟练，而ORACLE试验包含了众多具有不同背景和经验的临床医生。总体来看，围术期结果预测的文献与医学其他领域的文献类似，大约50%的研究报告称机器学习辅助的临床医生比非辅助的临床医生表现更好。

重要的是，ORACLE试验中的临床医生在机器学习辅助组中的预测结果更容易与机器学习模型的输出一致。这表明机器学习模型确实影响了临床医生的预测。然而，这种影响无论机器学习预测是否正确都会发生，这引发了“自动化偏差”的担忧，即机器学习的输出很快被接受，而没有经过充分的批判性审查。因此，组间区分度没有统计学显著差异，可能部分源于机器学习模型在前瞻性预测中的表现较回顾性评估差。性能下降的原因可能包括数据漂移或概念漂移。这两种漂移可能会改变输入特征与预测目标之间的关系，导致模型性能下降。前瞻性预测中表现较差也可能是算法开发过程中由于多次实验而无意中过拟合的迹象。

本试验创新点主要如下：首先，嵌套在TECTONICS试验中，使得许多患者案例可以高效审查。其次，患者案例由许多具有不同背景的麻醉科临床医生进行审查，包括麻醉科主治医生、住院医生和麻醉护士。第三，病例审查是在手术过程中实时进行的，并且机器学习模型利用来自电子健康记录（EHR）的实时数据流进行预测。使用实时病例审查使得本试验能够更真实地反映机器学习模型在临床即时使用时的表现。第四，机器学习模型的用户界面是根据麻醉医生的需求设计的。第五，机器学习模型在性能上与临床专家医生相当，甚至更好，尽管它访问的输入特征较少。这表明机器学习在数据审查中可能发挥作用，特别是在团队成员中有些人经验较少或在不同的领域中具备不同的专业知识时。

尽管如此，本试验也存有局限性。首先，机器学习模型在前瞻性预测中的区分度较回顾性测试时有所下降。如前所述，可能限制机器学习模型在辅助组中的预测改善。其次，病例审查是在远程医疗干预的背景下进行的，而不是在患者床边进行的。但是临床医生报告在ACT中使用的评估工作流程与他们在术前为患者提供面对面麻醉护理时使用的工作流程非常相似。第三，研究中无法测量临床医生在审查每个病例时花费的时间。如果机器学习模型可以帮助临床医生更快速地得出相同的风险评估，即使准确度不变，也可能带来价值。第四，临床医生使用五点Likert量表评估风险，而不是连续量表，这可能减少了我们检测组间区分度差异的能力。然而，我们认为五点量表捕捉了最具临床意义的风险评估。第五，可能有一些出院后死亡未被记录，尽管两组可能都会受到同样的影响。第六，本试验在单一的研究医学中心进行，因此结果可能在其他场景中有所不同。第七，机器学习辅助组的区分度稍微低于非辅助组，这可能表明对ML模型的信任不足。第八，结果只是表明使用ML辨别的差异，而不是校准的差异，对临床决策也很重要。第九，如果术后未测量肌酐，则假定AKI不存在。然而，在排除这些患者的敏感性分析中，结果相似。第十，虽然研究规模很大，但区分度差异的置信区间相对较宽，特别是对于死亡，事件数量较少。

总之，这项单中心随机临床试验评估了机器学习模型对临床医生术后死亡率和AKI预测的影响。研究发现机器学习模型在辅助组中未能显著提高临床医生的预测表现。尽管机器学习对临床医生预测结果有影响，但这并未转化为死亡率或AKI预测的准确性提升，表明机器学习在实时围术期风险评估中的作用仍需进一步研究。

未来研究应关注如何提高机器学习模型的前瞻性表现，特别是在多中心设置中进一步验证机器学习辅助预测的有效性。此外，应探索如何设计能更好支持临床医生决策过程的机器学习系统，特别是在考虑到数据漂移和概念漂移的情况下，如何提升机器学习模型的适应性和可靠性。

原文链接：

Fritz BA, King CR, Abdelhack M，et al. Effect of machine learning models on clinician prediction of postoperative complications: the Perioperative ORACLE randomised clinical trial. Br J Anaesth. 2024 Nov;133(5):1042-1050. doi: 10.1016/j.bja.2024.08.004. PMID: 39261226; PMCID: PMC11488162.

声明：古麻今醉公众号为舒医汇旗下，古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可，禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用，亦须注明来源。欢迎转发、分享。

古麻今醉网

古麻今醉网是舒医汇旗下麻醉学科的专属学术平台。云集国内外知名麻醉学专家，及时将麻醉学科的新动向、新知识、新技术进行传播，呈现我们麻醉医生的美------“志存高远，佑护生命”。

【智启梦想高校行】今日举办！群贤毕至，与福建医科大学共赴麻醉之约

【麻海新知】通过胃超声评估残留胃内容物与围术期使用司美格鲁肽之间的关系：一项前瞻性观察研究

【神麻人智】机器学习模型对临床医生术后并发症预测的影响：围术期ORACLE随机临床试验

12月27日-29日·上海 | 中国医药教育协会围术期医学专业委员会2024学术年会暨麻醉与围手术期医学峰会

明日19:00直播！合并肥厚型梗阻性心肌病老年患者行急诊小肠部分切除术的麻醉一例 |《醉翁之艺》第45期

上海中医药大学附属曙光医院2025年度麻醉医生招聘通知

【论肿道麻】STTT：饮食干预对人类疾病的影响：分子机制和治疗潜力

【中西合璧】针刺对慢性神经性疼痛的调节及其与脑功能特性的关系—针刺对神经性疼痛的影响

医学家黄宇光：点亮生命之光

年末倾情呈现 | 上海六院麻醉大讲堂2024年终庆典线上见面会

12月21日19:00直播！合并肥厚型梗阻性心肌病老年患者行急诊小肠部分切除术的麻醉一例 |《醉翁之艺》第45期

重磅！麻醉类医疗服务价格迎来新变革

中国医师协会第二届“渐入佳境”围术期麻醉方案优化大赛-全国总决赛成功举办！

【骨麻征途】甲氧氟烷联合局麻——GNB的优选？

【醉仁心胸】房颤消融术中运用高频喷射通气对全麻苏醒和安全性的影响：一项来自新英格兰地区医疗保健网的医院登记研究

什么是好医生？什么是大医生？韩启德院士有话说

医保局重磅出手，重塑“麻醉”价格新纪元，为手术患者安全筑起铜墙铁壁

奇怪的肌无力，背后是何作祟？今日19:00直播天总重症第三十二期

妊娠合并胎盘植入产妇行剖宫产围手术期麻醉多学科管理分析

《我国麻醉学科高质量发展论坛》第二次会议顺利召开

七氟醚暴露通过抑制终纹床核中的胞外信号调节激酶缓解幼年小鼠创伤后应激障碍

个体化呼气末正压对胸外科手术术后肺部并发症影响的Meta分析

线粒体质量控制在缺血再灌注损伤发生、发展及治疗中的作用研究进展

【麻海新知】清醒气管插管时，应该如何进行镇静？

【话险危夷】低剂量氯胺酮输注对接受心脏直视手术的儿童阿片类药物消耗的影响：一项随机对照双盲研究

12月20日·厦门｜2024年全国麻醉与围手术期医学科主任培训班

天总重症进修培训项目（超声）招生简章

今日19:00直播！术后疼痛干预新探索/人工股骨头术后22小时转ICU患者麻醉复盘 | 云凯讲第118期

周二19:00直播！王立伟教授《VV-ECMO在重度气管狭窄患者气道管理中的应用》| 醉智汇第113期

【智启梦想高校行】12月20日，群贤毕至，与福建医科大学共赴麻醉之约

【爱儿小醉】儿科患者使用不同麻醉药深度镇静后的早期认知功能：一项前瞻性随机对照试验

【醉翁之艺】围术期疼痛管理的研究方法优化与展望

【胸科晨课】第32期：武思尹医师《BLUE-方案和肺栓塞》

周二19:00直播！王立伟教授《VV-ECMO在重度气管狭窄患者气道管理中的应用》| 醉智汇第113期

武汉大学中南医院2025年麻醉医生岗位应届毕业生招聘公告

“我国麻醉学科高质量发展研讨会”征文通知

【华西之声】右室双出口与嗜铬细胞瘤的碰撞—— 一例先心病患者的非心脏手术麻醉

【产麻新谭】择期剖宫产孕妇术前焦虑对脊髓麻醉后寒颤的影响:一项前瞻性观察研究

【醉智汇】支气管镜手术麻醉安全之道，童珊珊教授带来深度思考

天津医科大学总医院2025年博士后研究人员招聘公告（含麻醉科、重症医学科）

脊椎保养与除痛 | 颈部夹肌筋膜痛点与处理点

【神麻人智】脑卒中血管内血栓切除术后的临床结果：与再灌注前血压的相关性

【麻海新知】麻醉类型对肾切除术后急性肾损伤的影响：随机对照试验

吴阶平医学基金会麻醉学科管理高级研修班第四期学员招生简章

12月22日·上海 | 中国人体健康科技促进会麻醉与围术期科技专业委员会老年患者麻醉与围术期管理研讨会

术后残余神经肌肉阻滞的发生率：葡萄牙的多中心观察研究（INSPIRE2）

【论肿道麻】Nat Rev Mol Cell Biol：抗氧化在健康和疾病中的作用机制

【中西合璧】针刺对慢性神经性疼痛的调节及其与脑功能特性的关系—针刺对神经性疼痛的影响

上海市区域医疗中心暨二级医院麻醉科主任例会第三次会议顺利召开

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉