点击上方 蓝字 关注我们 了解更多资讯
郑萍,刘宁
遵义医科大学护理学系(广东珠海 519041)
通信作者:刘宁,Email:761066906@qq.com
关键词:机器学习;院外心脏骤停;预测模型;神经系统;系统评价
引用本文:郑萍, 刘宁. 机器学习应用于院外心脏骤停神经系统预后预测模型的系统评价. 中国胸心血管外科临床杂志, 2022, 29(9): 1172-1180. doi: 10.7507/1007-4848.202201044
Zheng P, Liu N. Application of machine learning to prediction model of nervous system prognosis in out-of-hospital cardiac arrest patients: A systematic review. Chin J Clin Thorac Cardiovasc Surg, 2022, 29(9): 1172-1180. doi: 10.7507/1007-4848.202201044
摘 要
目的 系统评价机器学习(machine learning,ML)用于预测院外心脏骤停(out-of-hospital cardiac arrest,OHCA)神经系统结局,并研制预测模型。方法 计算机检索PubMed、Web of Science、EMbase、中国知网、万方数据库。搜集关于ML用于预测OHCA 神经系统结局的研究,检索时限为2011年1月1日—2021年11月24日。由两名研究者独立筛查文献、提取资料并评价纳入文献的偏倚,评价不同模型的准确性,比较受试者工作特征曲线下面积(area under the receiver operating characteristic curve,AUC)。结果 共纳入20篇研究,其中11篇研究来自开源数据库,9篇来自回顾性研究,16篇直接预测OHCA后神经系统结局,4篇预测OHCA后进行目标体温管理治疗后神经系统预后情况。共采用了7种ML算法,其中使用频率最高的是神经网络(n=5),其次为支持向量机和随机森林(n=4),有3篇文章运用了多种算法。使用频次最高的输入特征为年龄(n=19),其次为初始心率(n=17)和性别(n=13)。共有4个研究比较了ML 与其它经典统计学模型的预测价值,认为ML模型的AUC值高于经典统计学模型。结论 现有证据表明,ML 可更准确地预测OHCA 后神经系统结局,在特定情况下ML的预测性能优于传统统计学模型。
1
资料与方法
1.1 纳入与排除标准
1.1.1 纳入标准
① 近10年ML用于预测OHCA后神经系统的研究;② 研究对象为OHCA患者;③ 文中清晰描述ML模型的AUC与准确度;④ 患者符合我国2019年版心脏骤停诊断标准[8]。
1.1.2 排除标准
① 未提供明确的数据来源或者使用虚拟数据;② 未说明具体ML算法;③ 动物实验;④ 会议摘要、综述类文献;⑤ 无法获取全文。
1.2 文献检索策略
计算机检索PubMed、Web of Science、EMbase、中国知网、万方数据库。搜集关于ML用于OHCA后神经系统结果预测的研究,检索时限从2011年1月1日—2021年11月24日。中文检索词为:人工智能、机器学习、院外心脏骤停、预测模型、神经系统;英文检索词:artificial intelligence、machine learning、out-of-hospital cardiac arrest、predictive modeling、nervous system。
1.3 文献筛选与资料提取
由2名研究者独立筛选文献、提取资料,如有分歧,咨询第3名研究人员。文献筛选时根据题目与摘要,排除不相关文献。选择是否进一步阅读全文,以决定是否纳入。文献内容不全的,与作者进行电子邮件沟通。资料提取内容为:① 第一作者与发表年份;② 样本量;③ 运用的算法;④ 数据来源;⑤ 结局指标;⑥ 模型准确度与AUC;⑦ 用于偏倚风险评价的关键要素;⑧ 预测因子。
1.4 纳入文献的偏倚风险评估
目前尚无专门评估ML类文献偏倚风险的工具,因此,本文参考以往研究,选用QUADAS-2标准[9]评估纳入文献的偏倚分险。该标准是诊断试验中的偏倚评估工具,它包括4个方面:纳入的患者、待评价试验、金标准、诊断过程和试验与金标准之间时间间隔。由2名研究者独立评估,如遇分歧,咨询第3名研究人员。
1.5 统计学分析
本研究从AUC与准确度2个方面评价纳入的文献。若预测模型在不同时间段多次预测,将采用均数报告指标,评估模型综合情况。
2
结果
2.1 文献筛选流程及结果
初检出2 813篇文献,经过逐层筛查,最终纳入20个研究[10-30],文献筛选过程见图1。
图1 文献筛选流程及结果
2.2 纳入研究的基本特征和偏倚风险评价结果
纳入研究的基本特征见表1,纳入研究的偏倚评价结果见图2。20篇文献均报告了模型预测的准确性,14篇文献[11,14-20,22-23,25,27-28,30]记录了AUC。11篇[14-16,18-19,21-23,26-29]来自开源数据库,9篇[10-13,17,20,24-25]来自回顾性研究,2篇[20,30,30,]进行了外部验证。有15篇[10-11,14,16-18,20-27,30]文献直接预测OHCA后神经系统结局、4篇[19,28-30]预测OHCA后进行TTM的神经系统预后。在最终纳入的20篇研究中,均使用了脑功能分类量表(cerebral performance category scales,CPC)作为结局指标之一,有5篇[11,16,18,26-27]以生存率为结局指标之一,有1篇[25]以脑钠肽预测神经系统结局。ML方面,共采用了7种算法,其中使用频率最高的为神经网络(n=5),其次为支持向量机和随机森林(n=4);见图3。纳入的预测模型中共有50个输入特征,使用频次最高的输入特征为年龄(n=19,38%),其次为初始心率(n=17,34%)和性别(n=13,26%);见图4。共有4篇文献[14-15,26,30]比较了ML与其它经典统计学模型的预测价值,且ML模型的AUC值普遍高于经典统计学模型。
图2 纳入研究的偏倚风险评价结果
图3 机器学习算法使用频率
NN:神经网络;RF:随机森林;SVM:支持向量机;XGB:极限梯度提升;CART:分类与回归树;DL:深度学习
图4 神经系统结局预测模型输入特征
CPR:心脏复苏术
选用QUADAS-2标准[9]评估纳入文献的偏倚风险,在Review Manager 5.2中绘制偏倚风险图;见图2。在“病例选择”领域,每篇文献均有明确的纳入和排除标准,但有些文献的病例排除过程不透明;在“待评价的诊断试验”领域,每篇文献均有明确的结局指标,但有些文献没有制定阈值;在“金标准”领域,每篇文献均报告了预测模型的准确度,但只有少部分文献进行了外部验证;在“流程和诊断与金标准的时间间隔”领域,尚无权威文献明确提出适当的时间间隔为多久,在纳入的文献中多以1个月为时间间隔,以患者出院后1个月的CPC值作为结局指标之一,有些研究还在出院后3个月再次随访评估患者CPC值。因此,总体而言,本次研究纳入的20篇文献偏倚风险较低。
2.3 机器学习模型表现
在纳入的文献中,患者突发OHCA后接受了不同的治疗方式,ML模型根据不同情况预测患者神经系统结局。因此,本研究将从患者是否接受TTM治疗的视角出发,从模型的准确性和AUC角度评价模型的临床价值。
2.3.1 ML用于TTM治疗后的预测
共有4篇文献[19,28-30]利用ML预测TTM治疗后患者的神经系统预后情况,均来自开源数据库,其中有2篇文献[19,29]报道了模型的准确性,分别为90.78%、100%;有4篇文献[15,19,28,30]报告了AUC值,分别为0.90、0.911、0.95和0.90。Kim等[19]将单一的模型进行组合后,开发了一款序贯模型。该模型利用分类与回归树算法从脑部CT、血清神经元特异性烯醇化酶、电生理检查情况、神经功能检查情况和脑部增强核磁共振图片5个方面预测神经系统结局,发现其预测效果比单一模型更好。Pareek等[15]开发了一款名为“MIRACLE2”的预测模型。该模型有7个独立因素:无人目击发生OHCA、最初的非休克性节律、瞳孔无反应、高龄、心律改变、pH值<7.20、使用肾上腺素。在患者入院时使用该模型,能简单方便地预测OHCA术后早期不良神经预后的风险。
2.3.2 ML用于常规治疗后的预测
共有15篇文献[10-12,14,16-18,20-27]利用ML预测常规治疗后神经系统预后情况,其中有8篇[11,14,16,18,21-23,26]来自开源数据库,7篇[10,12,17,20,24-25,27]来自医院回顾性收集患者数据。有8篇[12,16-17,20,22,24,26-27]报道了准确性,为78%~100%。有12篇[10-12,14,16-18,20-23,25]报道了AUC值,为0.797~0.950。Cheong等[26]利用逻辑回归对比了基础生命支持(basic life support,BLS)与高级生命支持(advanced life support,ALS)之间的差异。Dutta等[25]以血清中脑钠肽水平预测患者神经系统预后;Heo等[20]运用随机森林、支持向量机、神经网络和极限梯度提升4种算法,测得内部验证准确度为0.9620,AUC为0.9800;外部验证准确度为0.8509,AUC为0.9301。Park等[14]运用逻辑回归、极限梯度提升、支持向量机、随机森林和神经网络5种算法,比较得出逻辑回归、极限梯度提升和神经网络3个模型均显示出最高的分辨能力,AUC为0.949。且3个模型均经过良好校正,极限梯度提升模型优于逻辑回归模型,而神经网络模型优于逻辑回归模型。Pérez-Castellanos等[12]运用逻辑回归算法,在多家医院间进行了内部与外部验证,测得内部验证特异性0.846,AUC为0.90,外部验证的特异性为0.786,AUC为0.82。Shih等[10]研究的数据来自国内中国医科大学附属医院,具有本土特征,测得AUC为0.8213。
2.4 机器学习算法与其它经典算法的比较
有4个研究[12,14-15,26]将不同算法进行对比;见图5。其中ML算法包括极限梯度提升、支持向量机、随机森林和神经网络。经典模型有逻辑回归、OHCA预后评分表、医院心脏骤停预后评分表和TTM风险模型等[31]。Cheong等[26]比较了不同研究中BLS、ALS终止复苏试验的特点,发现均具有较高的特异性,但该研究没有报道AUC值。Pareek等[15]将MIRACLE2与OHCA预后评分表、医院心脏骤停预后评分表和TTM风险模型进行对比,发现OHCA预后评分表、医院心脏骤停预后评分表和TTM风险模型AUC均低于MIRACLE2,中位AUC分别为0.83(0.818,0.840),校正为0.797(P<0.001);0.87(0.860,0.870)(P=0.001);0.88(0.876,0.887)(P=0.092)。Pérez-Castellanos等[12]比较了适用于心脏骤停患者预后评估的不同预测模型,发现许多模型没有经过外部验证,在推广没有经过外部验证的模型时应小心。除了考虑模型的预测能力外,还应该考虑其在临床中的易用性。Pérez-Castellanos团队发明了一个公式,只要通过简单计算分数就能达到预测结果,适用于ICU高强度的工作环境。预测模型包括5个变量:休克节律、年龄、乳酸水平、恢复自发性循环所需时间和糖尿病。内部验证时敏感性为0.796,特异性为0.846,假阳性率为0.125,AUC为0.90;在外部验证时,预测模型的敏感性为0.735,特异性为0.786,AUC为0.82。
图5 机器学习与其它经典统计学统计模型的比较
a:准确度比较;b:AUC比较;NN:神经网络;LR:逻辑回归;GRACE:全球急性冠状动脉事件登记处;C-GRApH:目标温度管理治疗后神经系统预后;AUC:曲线下面积;BLS:基础生命支持;ALS:高级生命支持;TTM:目标体温管理;OHCA:院外心脏骤停
3
讨论
本系统评价纳入了20个研究,分别报告了ML预测OHCA后TTM治疗后神经系统结局与常规治疗后神经系统结局的准确性和AUC。在数据来源方面,9篇研究是来自医院的病历数据库,有11篇来自各个国家与地区的开源数据库。在特征层面,研究者使用频率最高的变量是年龄、抢救时初始心率、性别。在众多ML算法中,使用频率最高的是神经网络。神经网络是一种模拟人体神经系统结构的数学模型,它由多个神经元组成,每个神经元代表一种数学关系,各个神经元之间通过函数关系间的权重链接,可用于输入量与结果之间的相关性,广泛应用于医学影像的诊断试验[32]。与传统算法相比,ML能更高效地处理大量且复杂的数据,提高了模型预测的效率与准确性[33]。通过ML,以CPC评分作为结局指标,预测神经系统预后情况,CPC评分<2表明神经系统功能良好,使用ML预测OHCA患者神经系统预后的准确度更高。能合理分配医疗资源,患者得到及时有效的治疗,CPC评分<2的患者增多。
此外,与既往研究不同,本次系统评价还发现,虽然逻辑回归、极限梯度提升和神经网络3个模型均显示出最高的分辨能力且3个模型均经过良好校正,但极限梯度提升和神经网络模型优于逻辑回归模型。OHCA的预后与多种因素有关,传统预测模型,因计算能力有限,只能选用个别因素进行预测,而ML可以利用人工智能纳入多个因素[34],如Seki等[11]用随机森林的算法开发预测模型,输入特征为35个变量时,AUC为0.943;输入特征为53个变量时,AUC为0.958,认为输入特征的数量与预测的准确性呈正相关关系。
人工智能和ML的商业应用近年来取得了显著的进展,特别是在图像识别、自然语音处理、语言翻译、文本分析和自学习等领域[35]。然而医学领域与其它领域不同,因为医学的特殊性,对ML的准确性要求更高[36]。大数据时代下,临床数据呈现出数据量大、更新周期短的特点[37]。ML模型在选择特征时,可以先通过正则化系数(least absolute shrinkage and selection operator,LASSO)回归、岭回归和弹性网络、聚类分析方法[K均值聚类、PAM(partitioning around medoids)法、层次聚类]、主成分分析等方法筛查变量,提高算法的准确率和使用效率[38]。但这些办法只能从单个变量的角度筛查,忽略了各变量之间的交互作用与实际的临床意义。在ML快速发展的近10年,其弊端也不断显现,其中讨论最多的是“黑盒效应”[39],即虽然ML能利用计算机及大数据,验算大量数据,且算法的准确性、AUC值高于传统算法,但临床不仅需要运算的结果,还需要知道各个变量之间的关系、对结果影响的权重、如何正确解释结果、如何准确运用于具体实践中,在这些方面ML不如真人判断。ML无法做到创新、不能个性化分析临床数据、做不到举一反三。虽然近年来,人工智能与可视化技术交互发展,这在一定程度上提高了ML的可解释性,但这项技术还不成熟[40]。另外,ML还存在一个令人担忧的问题,即数据安全问题[41]。若模型后台遭到恶意攻击,患者及其家属的隐私会被泄漏,对他们的生活造成困扰。
本研究的局限性:① 影响神经系统预后的一个重要因素是OHCA患者是否在第一时间接受心肺复苏。在纳入分析的研究中,对此记录存在很多的差异:一部分研究完整记录了患者接受心肺复苏的情况,而一部分研究完全没有提及此方面的内容;② 假阳性率是反映预测模型准确性的重要指标,但本次纳入的20篇文献中,只有4篇(20%)完整报告了假阳性率。没有计算假阳性率会增加AUC值计算出现偏倚的风险;③ 外部验证是验证预测模型准确性的重要途径,但本次纳入的20个研究中只有3篇(15%)报告了外部验证,缺少外部验证降低了模型的外推性;④ 本次研究进行的偏移风险评估中缺少发表偏倚与结果偏倚评估。
现今有许多团队制作了OHCA患者进行TTM治疗后的预测模型,在OHCA预后预测模型上进行了细化,这增加了模型的准确性,也更适用于接受TTM治疗的患者[42]。但针对其它治疗手段的结果预测模型较少,希望在未来能有针对其它治疗手段的结果预测模型。综上所述,ML 在预测 OHCA患者神经系统预后结局方面有很大的潜力,ML 的整体性能优于传统统计学模型,它强大的计算能力与极高的准确性能指导临床工作。但还需强化模型的外部验证与可解释性,增强外推性。
利益冲突:无。
作者贡献:郑萍负责论文设计,数据整理与分析,论文初稿撰写;刘宁负责论文审阅与修改。
参考文献略。
本文编辑:董敏,刘雪梅
审校:雷芳
排版:张洪雪
推荐阅读
《中国胸心血管外科临床杂志》人工智能论文集
人工智能一体化三维重建应用于胸外科的中国专家共识
《人工智能在肺结节诊治中的应用专家共识(2022年版)》解读
人工智能驱动的科学研究(AI4S)在药物研发与临床实践中的应用进展
经验性与人工智能指导下精准肺段切除术效果比较的回顾性队列研究
长按或扫描二维码关注我们!