本次解读的是发表在LANCET子刊eClinicalMedicine(IF=9.6)上的一篇文章《Development and validation of a screening tool for sepsis without laboratory results in the emergency department: a machine learning study》,本研究旨在旨在开发一种基于急诊科回顾性队列的快速脓毒症筛查工具(qSepsis),这种模型不需要等待实验室结果,因此可以更早地检测出脓毒症,甚至可以用于分诊。
01背景介绍
脓毒症是死亡的主要原因之一,每年导致1100万人死亡,占全球死亡总数的19.7%。早期识别和及时治疗可以改善患者的预后,降低死亡率。然而,脓毒症的早期检测可能是具有挑战性的,因为它的非特异性症状和缺乏明确的诊断测试。几个因素导致了脓毒症的延迟识别,包括医生缺乏意识,未能及早识别患者病情的严重性,以及延迟获得实验室检查或开始治疗。
电子健康记录(EHR)系统中先进模型的发明和应用提高了急诊科(ED)中脓毒症检测的及时性和准确性。Tarabichi Y的团队开发了一种称为“脓毒症早期检测认知计算模型”的脓毒症早期预警系统,该系统缩短了脓毒症患者服用抗生素的时间,并增加了他们住院后的存活天数。然而,在这种模式中需要实验室结果可能导致更长的等待时间,并可能延迟抗生素的给药。
在这项研究中,旨在开发一种快速脓毒症筛查工具(qSepsis),符合Sepsis-3标准,但不依赖于实验室结果。本研究的EHR系统提供了大量的患者病历和临床数据,有助于快速整合qSepsis模型。这项回顾性研究有望建立一个坚实的基础,并证明随后的前瞻性验证。
02材料与方法
01 研究人群
本研究使用来自武汉大学中南医院(中国武汉)急诊科的患者的回顾性数据开发了一个机器学习模型。作为急诊科和湖北省急救医疗服务的质量控制中心,本研究的急诊科拥有一支由32名医生和70名护士组成的团队,每年接待近80000名患者。本研究由武汉大学中南医院伦理委员会批准,由于本研究的回顾性,放弃知情同意(编号2022248)。这项研究是按照《个体预后或诊断预测模型研究透明报告指南》(TRIPOD)报告的。包括2015年1月1日至2022年5月31日之间的所有急诊就诊。未满18岁的患者、到达急诊室时已发生心肺停止的患者或病历数据缺失或异常的患者均被排除在分析之外(如所示图一)。只有每个病人的第一次入院被纳入数据分析。
02 败血症的定义
根据Sepsis-3中概述的诊断标准,脓毒症由感染导致的总顺序器官衰竭评估(SOFA)评分急性增加2分或更多分来指示。在本研究中,感染或疑似感染是通过诊断中关键词“感染”的存在来确定的。在急诊缺乏实验室结果的情况下,使用患者入院后24小时内获得的结果来确保败血症诊断的准确性。
03 数据收集和预处理
该队列的回顾性数据集是通过结构化的ED EHRs收集的。考虑到等待实验室结果的固有延迟,为了确保qSepsis工具在ED患者早期风险分层中保持临床相关性和可靠性,本研究排除了这些实验室检查。
临床变量的选择分为四个步骤。首先,参照感染性疾病的特点(如重症肺炎的发热、咳嗽,急性胆囊炎的恶心、呕吐、腹痛等)总结了可能的相关症状和体征。).由数据人员标记涉及上述49种症状和体征的病例数据,并计算这些指标在病例数据中的比例。其次,邀请5位专家对明显的体征和症状进行评估。所有参与的专家都是从我院急诊科招聘的主任医师,每个人都有10年以上的临床经验。他们同意删除阳性症状和体征比例小于2%的9个指标,因为他们认为这些指标很少指示临床感染。然后,在添加包括年龄、生命体征和格拉斯哥昏迷量表(GCS)评分在内的11个数值变量后,有51个候选变量。第三,排除了缺失率大于30%的变量和高度相关(> 80%)的变量。总共从候选变量中筛选出40个候选变量(见表1),包括患者的年龄、性别、到达方式、分诊时的生命体征(体温、收缩压(SBP)和舒张压(DBP)、脉率、外周毛细血管氧饱和度(SpO2)、呼吸频率(RR))、紧急分类级别、可能与感染相关的症状和体征,例如发烧、腹痛、呼吸急促、噼啪声等。最后,进行3轮递归特征消除,通过对特征的重要性进行排序,丢弃最不重要的特征,并重新拟合模型,来选择具有接收器工作特性曲线(AUROC)下最佳面积的12个特征的最终子集。一旦选择了特征子集,临床专家将再次审查特征列表,并确保不排除具有更大临床意义的特征。
04 模型开发和评估
所有40个候选变量首先用于拟合qSepsis模型,并考虑一系列机器学习分类器,包括逻辑回归(LR)、随机森林(RF)和极端梯度提升(XGB)。进行5重交叉验证以避免在所选的训练数据集中过度拟合,其中20%的测试数据集不用于训练模型,而另外80%的数据集被连接以在每一重中形成相应的训练集和验证集,用于进一步微调。由于有或没有脓毒症的患者数量之间的极端不平衡,使用分层的过采样方法来确保均匀的类别分布。使用AUROC对每个褶皱的性能进行评估。并且通过使用模型的权重或增益来列出特征重要性,增益是通过将给定特征作为决策树中的分支点而带来的准确性的增加。应用递归特征消除,通过按重要性对特征进行排序,将特征从40个减少到20个,然后减少到12个,丢弃最不重要的特征,并重新拟合模型。一旦选择了特征子集,临床专家将再次审查特征列表,并确保不排除具有更大临床意义的特征。这样,可以引入更少的指标来构建qSepsis模型。最后,12个变量包含在qSepsis模型中,该模型基于具有最佳性能的模型以及急救和危重护理专家的建议。
03结果
01 患者特征
在排除至少符合以下标准之一的患者后,即18岁以下(6.68%),到达急诊室时经历心肺停止(0.14%),缺少分流信息(19.97%),异常病历数据(0.03%)和重复就诊(6.30%),总共包括414864名患者,记录了7972例(1.92%)败血症病例。在这些患者中,212134名(51.13%)为男性,他们的中位(IQR)年龄为43 (29-60)岁。17831例(4.30%)患者由救护车运送至医院。在模型开发中使用的比例最高的五种症状是发热(11.35%)、胃痛(17.41%)、意识改变(4.59%)、手足疼痛(4.06%)和恶心呕吐(13.86%)。4463名(1.08%)患者的分流级别为1级(完整列表见表1)。EHR和模型开发中预测值的表示如所示表3。内部和外部模拟静脉注射队列的基线特征如所示表1。模拟IV-ED队列包括总共200089名患者,其中5065例(2.53%)为败血症。在这些患者中,92662名(46.31%)为男性,他们的中位(IQR)年龄为57 (39-71)岁。71368例(35.67%)患者由救护车运送至医院。
02 模型开发
LR、RF和XGB用于开发qSepsis预测模型。在五重交叉验证期间,三个模型的每一重中所有特性的性能如表4所示,它们的总体性能列于表5。qSepsis模型开发包括选择与结果最密切相关的特征。通过对特征的重要性进行排序,丢弃最不重要的特征,并重新拟合模型,进行几轮递归特征消除,以选择具有最佳AUROC的最终子集特征。通过评估各种指标,如AUROC,选择了性能最好的ML算法,即LR。图2显示了qSepsis模型中12个特征的权重,所选特征被合并到LR算法中。在五重交叉验证过程中,三个模型的每一重都有12个特征的qSepsis模型的性能如所示表6。
03 qSepsis模型的性能
与RF和XGB模型相比,LR算法表现出最佳性能,其证据是更高的AUROC值0.862 (95% CI: 0.855–0.869)(图3a)。RF和XGB模型的AUROC值分别为0.857 (95% CI: 0.848–0.865)和0.853 (95% CI: 0.844–0.863)。表2证明了除了AUROC之外,LR在灵敏度(0.763)和NPV (0.994)方面比其他两个ML模型表现更好。三个模型的准确度和特异性相似,约为0.800。但是所有三个模型的PPV值都很低,大约为0.067-0.072。图2显示了qSepsis模型中12个特征的权重,将之前选择的特征合并到LR算法中。此外,所有三个基于ML的模型都优于那些已建立的临床脓毒症筛查评分,包括qSOFA、SIRS和MEWS。进一步评估了qSepsis和qSOFA之间正面和负面事件的净表现。qSepsis和qSOFA之间净重新分类改善(NRI = 0.462)的阳性结果表明qSepsis比qSOFA对阳性和阴性事件有更好的区分。qSepsis模型的AUPRC为0.213 (95%CI:0.204–0.222)(图3c)。其他得分的AUPRC值如下:SIRS:0.071(95% CI:0.013–0.099);qSOFA:0.096 (95% CI:0.003–0.186);和MEWS:0.083 (95% CI:0.063–0.111)。
qSepsis模型的外部验证使用MIMIC-IV-ED数据集进行。来自外部验证群组的AUROC值在中报告表3。外部验证队列中的AUROC值(0.766,95% CI:0.758–0.774)低于从内部测试队列中获得的值(0.862,95% CI:0.855–0.869)。类似地,其他评估指标,包括准确性(0.745,95%CI:0.721–0.769)、特异性(0.744,95%CI:0.716–0.772)、敏感性(0.766,95%CI:0.734–0.798)、PPV (0.052,95%CI:0.043–0.061)和NPV (0.862,95%CI:0.846–0.878)。与其他模型相比,LR模型始终保持最佳性能,具有更高的AUROC值0.766(95% CI 0.758–0.774)。在内部测试和外部验证队列中,观察到所有模型都具有比PPV更高的NPV。用于比较测试和外部验证性能的校准图如所示eFig。七。此外,外部验证队列中qSOFA、MEWS和SIRS得分的AUROC分别为0.579 (95% CI:0.563-0.596)、0.600 (95% CI:0.578-0.622)和0.704 (95% CI:0.683-0.725)。值得注意的是,结果低于本研究的数据集。
04局限性
第一,所有的数据都来自现实世界。考虑到护士对具有不同症状的患者的生命体征和GCS的各种关注,一些患者可能经历对其生命体征的选择性测量。这种方法可能会导致数据丢失。因此,根据脓毒症-3指南,脓毒症的诊断标准包括一些在ED中并不总是可用的指标。第二,以前的电子病历中的患者共病指标以非结构化文本的形式存在。它们无法通过结构化数据字典提取,缺少这一关键指标可能会对模型的准确性产生不利影响。第三,研究中的ML模型是使用大型数据集开发和训练的,但它们是基于单个医疗机构的数据。第四,这项研究涵盖了所有急诊病人。在分析中包括未感染的患者可能会导致关于工具性能的误导性结论,因为它不能公平地将qSepsis与qSOFA等其他评分工具进行比较。Song等人报告了他们在确认感染前使用qSOFA的临床实践。
小编说明:分析结果表明,基于最大似然的预测工具显示出比那些已建立的临床评分更好的预测性能,这与以前的证据一致。大量研究表明,ML算法优于SIRS、SOFA、qSOFA和MEWS评分。这些发现表明,最大似然算法有潜力改善早期检测和管理的脓毒症在急诊。传统的评分系统依赖于有限数量的变量和预定义的阈值(例如,qSOFA仅需要三个容易获得的临床参数),这可能无法捕捉脓毒症的复杂性,并且可能受到混杂因素的影响。相比之下,ML模型可以分析大量的变量及其相互作用,包括非线性关系,并适应不同的患者群体和环境。这允许对患者发展败血症的风险进行更准确和个体化的评估。此外,ML模型有可能随着时间的推移用额外的数据来适应和改进,而传统的分数保持不变。有证据表明,在数据输入丰富且复杂变量交互潜力很大的情况下,机器学习算法优于传统替代方法。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【1】发文没思路?GBD数据库+流行病学分析=深度剖析全球胃食管反流病负担
【4】《Cardiovascular Diabetology》IF=8.5,预测老年心力衰竭合并高血压患者死亡率?机器学习模型给出结果
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析