随机森林的集成分类算法对心胸外科ICU患者谵妄风险的预测分析

学术   2024-09-26 17:33   四川  

 点击上方 蓝字 关注我们  了解更多资讯


陈苗,陈青,尹晓清

湖南中医药大学第一附属医院(长沙  410007)

通信作者:陈青,Email:3124617441@qq.com;尹晓清,Email:xiaoqingyin62@163.com


关键词随机森林;集成分类算法;谵妄;预测效能;人工智能

引用本文:陈苗, 陈青, 尹晓清. 随机森林的集成分类算法对心胸外科ICU患者谵妄风险的预测分析. 中国胸心血管外科临床杂志, 2022, 29(7): 886-891. doi: 10.7507/1007-4848.202105058

Chen M, Chen Q, Yin XQ. Predictive analysis of delirium risk in ICU patients with cardiothoracic surgery by ensemble classification algorithm of random forest. Chin J Clin Thorac Cardiovasc Surg, 2022, 29(7): 886-891. doi: 10.7507/1007-4848.202105058



 摘  要 


目的    分析随机森林的集成分类算法对心胸外科ICU患者谵妄风险的预测效能。方法    回顾性分析2019年6月—2020年12月于湖南中医药大学第一附属医院心胸外科ICU 治疗360例患者的临床资料,其中男193例、女167例,年龄18~80(56.45±9.33)岁。根据患者住院期间是否发生谵妄分为谵妄组和对照组。比较两组的临床资料,分别通过多因素logistic回归分析模型和随机森林的集成分类算法对影响心胸外科ICU患者发生谵妄风险的相关因素进行预测,并比较两者间预测效能的差异。结果    纳入研究的患者中有19例脱落,剩余患者中有165例发生了ICU谵妄列为谵妄组,ICU 谵妄发生率为48.39%;176例未发生ICU 谵妄者列为对照组。两组性别、文化水平等一般资料差异无统计学意义(P>0.05);但相比于对照组,谵妄组年龄较大,住院时间长,急性生理学和慢性健康状况评分系统Ⅱ(acute physiology and chronic health evaluationⅡ,APACHEⅡ)得分、机械辅助通气所占比例、身体约束所占比例和使用镇静药物所占比例均较高(P<0.05)。多因素logistic回归分析显示:年龄(OR=1.162)、住院时间(OR=1.238)、APACHEⅡ得分(OR=1.057)、机械辅助通气(OR=1.329)、身体约束(OR=1.345)和使用镇静药物(OR=1.630)是心胸外科ICU患者发生谵妄风险的独立危险因素。对随机森林模型各变量的重要程度进行排序,排名在前的重要预测变量为:年龄、住院时间、APACHEⅡ得分、机械辅助通气、身体约束和使用镇静药物。随机森林的集成分类算法的诊断效能明显高于多因素logistic回归分析的诊断效能,其中随机森林的集成分类算法受试者工作特征曲线下面积为0.87,多因素logistic回归分析模型曲线下面积为0.79。结论    随机森林的集成分类算法分析预测心胸外科ICU患者发生谵妄的诊断效能更高,可于临床推广应用,有助于早期识别和加强护理高危患者。


正  文

由于ICU患者在治疗过程中需面对封闭环境、被动依从和死亡恐惧等情况,会产生一系列的心理精神综合征[1],其中发生在认知和注意力方面的急性障碍称为ICU谵妄[2],特别是在心胸外科ICU,有很多患者会出现ICU谵妄。国外的一项调查研究[3]发现,在ICU内住院的老年患者发生谵妄的风险约为49%,其中一半以上的患者会发展成永久性谵妄。这不仅延长住院时间和增加住院费用,还对患者的康复和以后生活造成不良影响[4]。因此有效预防ICU谵妄发生具有重大的意义,目前国内外常用多因素回归分析预测ICU谵妄发生风险[5],这种方法对ICU谵妄的发生有一定预测作用,但由于特异度偏低会影响预测结果[6],而且容易剔除一些与病情严重程度有关的因素导致结果偏差[7]。随机森林是一种比较新的机器学习模型,主要是利用多棵树对样本进行训练并预测的一种分类器[8]。目前广泛应用在疾病风险预测及预后中,它在处理数据过程中可混合多种因素分析处理,提高预测精度[9],但在预测心胸外科ICU患者发生谵妄风险中应用较少。本研究分析和对比了随机森林的集成分类算法和多因素回归分析模型下对心胸外科ICU发生谵妄风险的预测效能,现报道如下。



 1 

资料与方法


1.1   临床资料





纳入标准:(1)年龄18~80岁;(2)住ICU治疗>24 h;(3)患者家属知情同意并能配合整个试验。排除标准:(1)合并有精神病史或严重心理疾病者;(2)合并有急性脑血管疾病或脑肿瘤等其它影响脑功能的疾病;(3)严重的听力障碍或病情严重无法进行谵妄评估者;(4)临床资料和结局缺失。


纳入2019年6月—2020年12月于我院心胸外科ICU住院的360例患者为研究对象,其中男 193 例、女 167 例,年龄 18~80(56.45±9.33)岁。根据患者住院期间是否发生谵妄分为谵妄组和对照组。


1.2   方法





1.2.1   多因素 logistic回归分析模型构建

通过分析比较两组患者的临床资料,包括年龄、性别、住院时间、文化程度、心率、血压、吸烟饮酒史、伴随疾病(糖尿病、高血压、高脂血症等)、急性生理学和慢性健康状况评分系统Ⅱ(acute physiology and chronic health evaluationⅡ,APACHEⅡ)得分[10]、是否有身体约束、是否有机械辅助通气等之间的差异。以P≤0.05的单因素分析结果作为自变量,以结局作为因变量(0=无ICU谵妄,1=有ICU谵妄),把自变量和因变量进行二分类的逐步多因素logistic回归分析,构建出模型。


1.2.2   随机森林的集成分类算法模型的构建

随机森林的集成分类算法采集了住院患者疾病临床资料,包括年龄、性别、住院时间等数据集,将其随机分割为80%和20%分别用于构建及验证预测模型。本研究样本量总数为360个,分为结局变量和解释变量。其中结局变量是指研究对象是否发生ICU谵妄,这是决策进行分类的最终目的,解释变量选用的是可引起患者发生ICU谵妄的一系列相关危险因素,包括年龄、住院时间、APACHEⅡ得分、是否行机械辅助通气、是否有身体约束和使用镇静药物情况,用于对结局变量进行分类。本研究建立随机森林模型的步骤分为:(1)用Bootstrap自助法在原始数据中有放回的抽取出n个训练样本后建立出n棵树,这n棵树组成一个随机森林,用来进行数据综合判别及分类;(2)在生成树过程中,从每棵树的节点处在所有变量中随机抽取m个变量,通过此m个变量选择出分类能力最强的变量进行数据分类;(3)在Bootstrap中剩余的未被抽取的数据为测试样本,主要用来验证每棵树的性能。


1.3   两种模型的对比





采用受试者工作特征(receiver operating characteristic,ROC)曲线分别计算下多因素logistic回归分析模型和随机森林的集成分类算法模型两种模型的曲线下面积(area under the curve,AUC)和Hosmer-Lemeshow拟合优度来检验评估模型的分辨力及校准度。根据约登指数,确定预测模型的灵敏度、特异度等。


1.4   观察指标和结局





(1)两组临床资料:包括年龄、性别、住院时间、文化程度、心率、血压、吸烟饮酒史、伴随疾病(糖尿病、高血压、高脂血症等);(2)结局:观察患者在心胸外科ICU治疗过程中是否发生谵妄,符合ICU谵妄的诊断标准[11]。主要根据ICU意识模糊评估法(confusion assessment method for the intensive care unit,CAM-ICU)进行谵妄的评估,2次/d(分别在上午8~10点和下午6~8点进行),每次评估时间约为2 min。CAM-ICU可分4方面,包括意识状态的急性改变或反复波动、注意缺损、思维混乱和意识清晰度改变。阳性标准是患者同时存在急性改变或反复波动和注意缺损,如果再出现思维混乱或意识清晰度改变的任意一条,表示患者有ICU谵妄。


1.5   统计学分析





所有数据均用SPSS 22.0进行分析。正态分布的计量资料用均数±标准差(±s)表示,组间比较采用独立样本t检验;不服从正态分布的计量资料采用中位数(上下四分位数)[M(P25,P75)]表示,组间比较用Wilcoxon秩和检验。计数资料用例数(%)表示,组间比较采用χ2检验,等级资料用Spearman相关分析检验。影响心胸外科ICU患者发生谵妄的各相关因素用多因素logistic回归分析,进行了向前有条件法比较。用Python(3.7.3)语言ScikitLearn机器学习库中Random Forsest Classifier算法建立预测ICU谵妄的随机森林模型;用ROC曲线进行预测效能比较,其中AUC采用Z检验。P≤0.05为差异有统计学意义。


1.6   伦理审查





本研究经湖南中医药大学第一附属医院伦理委员会审批,批准号:HN-LL-LW-2022-014。经患者家属同意后签署知情同意书。


 2 

结果


2.1   结局观察





纳入研究360例患者中有19例患者在治疗过程中间出现转院或死亡,按病例脱落计算,剩余341例患者中有165例住院过程中发生了ICU谵妄,发生率为48.39%(165/341),为谵妄组;176例未发生ICU谵妄,为对照组。


2.2   两组临床资料对比





两组性别、文化水平等一般资料差异无统计学意义(P>0.05);但谵妄组年龄大、住院时间长,APACHEⅡ得分、机械辅助通气所占比例、身体约束所占比例和使用镇静药物所占比例均高于对照组(P<0.05);见表1。



2.3   影响心胸外科ICU患者谵妄发生风险的多因素logistic回归分析





多因素logistic回归分析显示,年龄(OR=1.162)、住院时间(OR=1.238)、APACHEⅡ得分(OR=1.057)、机械辅助通气(OR=1.329)、身体约束(OR=1.345)和使用镇静药物(OR=1.630)是心胸外科ICU患者谵妄发生风险的独立危险因素;见表2。共线性分析显示,纳入多因素Logistic回归的因素间无显著共线性(拟合优度检验χ2=5.464 ,P=0.707),提示模型拟优度较高。



2.4   随机森林模型的变量重要性分析






根据随机森林模型预测精度平均下降量对随机森林模型各变量的重要程度进行排序,排名在前的重要预测变量为:年龄、住院时间、APACHEⅡ得分、机械辅助通气、身体约束和使用镇静药物;见图1~2。


图1 模型中各特征的重要程度

APACHEⅡ:急性生理学和慢性健康状况评分系统Ⅱ


图2 模型中各特征的累积重要程度(虚线为95%)

APACHEⅡ:急性生理学和慢性健康状况评分系统Ⅱ


2.5   预测心胸外科 ICU 患者发生谵妄风险的随机森林的集成分类算法模型构建






使用梯度提升回归树算法对随机森林模型进行调参,随着决策树数目的不断增大,从20棵决策树开始,扩展的随机森林算法的误差(均方差)逐渐趋于平缓,表明随机森林算法的泛化能力逐渐增强,而决策树数目过大后误差呈升高趋势。所以设置每片森林的决策树数目为20棵,即在训练每片随机森林时,构建20棵不同的决策树;见图3。


图3 决策树数目与袋外(OOB)估计平均值之间关系


2.6   两种预测模型诊断效能对比





随机森林的集成分类算法其诊断效能明显高于多因素logistic回归分析的诊断效能,其中随机森林的集成分类算法AUC为0.87,多因素logistic回归分析模型下AUC为0.79。其中,随机森林模型的F1-score为0.874,准确率为88.24%,敏感度为90.91%,特异度为85.71%,阳性预测值为85.71%,阴性预测值为90.91%;见图4。


图 4     随机森林算法与 logistic 回归模型预测患者谵妄风险的受试者工作特征曲线


 3 

讨论


临床上将发生在ICU住院患者中的谵妄称为ICU谵妄,多发生在危重症患者和老年患者中[12],严重影响了患者心理和生理健康,延缓了预后[13]。如何改善预后、提高患者生活质量是改善和预防ICU谵妄的重点,特别是早期预防对ICU谵妄患者预后意义重大。


在本试验中,纳入研究患者中有165例发生了ICU谵妄,发生率为48.39%,符合流行病学规律[3],也说明了在我院心胸外科ICU中,患者谵妄的发生率很高,对患者预后和出院后生活质量均有很大的不良影响。因此,早期预测对ICU患者意义重大。观察两组的临床资料,性别、文化水平等差异无统计学意义,但谵妄组患者年龄大,住院时间长,APACHEⅡ得分、机械辅助通气所占比例、身体约束所占比例和使用镇静药物所占比例均高于对照组。说明了上述因素在ICU谵妄的发生过程中起了重要的作用。ICU谵妄主要是大脑功能改变引起的一种意识障碍的表现[14]。年龄越大的患者脑功能减退越多、脑血流量越少,且容易合并脑梗死、冠心病等慢性病病史[15],当入住心胸外科ICU时,受到周围环境和病情等多种因素刺激后发生ICU谵妄的比例越高。国外的一项研究[16]也证明了ICU中年龄越大的患者ICU谵妄发病率越高。而随着住院时间延长,患者受ICU中的环境影响越大,对自身疾病可能引起死亡的恐惧越高[17],越容易导致患者发生ICU谵妄。特别是心胸外科ICU中,患者术前身体状况一般较好、意识清楚,受心胸外科ICU内环境的影响较大。APACHEⅡ得分在ICU中应用广泛,主要是用来评估患者疾病严重程度的一项评分,分数越高,病情越严重, 越容易引起多器官功能减退甚至衰竭,引起ICU谵妄[18]。有研究[19]证明:APACHEⅡ得分、感染是ICU谵妄发生的独立危险因素,和本文结果相符。而应用了机械辅助通气的患者其肺通气功能受损,血中氧气及二氧化碳等多种物质含量均发生变化,导致了脑供氧减少,容易损伤脑细胞,引起脑功能退化[20],导致ICU谵妄的发生。身体约束会增加患者对周围环境的恐惧感,引起患者心理变化,进而影响脑功能,引起ICU谵妄。镇静药物是精神类药物,通过作用于脑神经,抑制中枢神经的活性,起到镇静催眠的作用,有时会大量应用于心胸外科ICU患者身上,容易损伤患者的脑神经功能,引起脑功能的退化[21],导致ICU谵妄。


将各因素分别纳入多因素logistic回归分析和随机森林的集成分类算法,可见年龄、住院时间、APACHEⅡ得分、机械辅助通气、身体约束和使用镇静药物是心胸外科ICU患者发生谵妄风险的独立危险因素。而对随机森林模型各变量的重要程度排序上,年龄、住院时间、APACHEⅡ得分、机械辅助通气、身体约束和使用镇静药物排名最靠前。证明了年龄、住院时间、APACHEⅡ得分、机械辅助通气、身体约束和使用镇静药物是导致ICU谵妄发生的重要因素。通过ROC曲线对比两种分析方法的诊断效能,可见随机森林的集成分类算法的诊断效能明显高于多因素logistic回归分析。主要是随机森林算法能对医学数据中的混杂数据、缺失值或离群值及较高维度的数据进行有效地处理,然后通过多个决策树对数据进行综合分类,并进行关联性检验、预测和解释,这些处理过程不易出现过拟合,使得预测的精度更加准确[22],提高了疾病的诊断效能。现今临床上常用的预测风险分析多为多因素logistic回归分析,可通过探讨引发疾病的相关危险因素,分析出各危险因素预测疾病发生的风险,对早期诊断疾病有一定价值,但是当候选的风险因素较多且出现部分因子缺失时会引起预测结果的偏差。而随机森林算法是随着计算机功能的发展以及大数据应用和分析逐渐健全而新发展出的机器学习模型[23]。在诊断疾病的基本概念、应用场景、研究思路、大数据背景下的建模与验证、性能评价及报告规范等方面均有不同程度的的探索,提高了诊断效能,较传统的神经网络模型又减少了数据计算量,有良好的应用价值[24]。隋伟静等[25]的研究也证明了在分析ICU谵妄风险的相关预测模型中,随机森林算法显示出高度的准确性,而包含有年龄、机械辅助通气等危险因素的预测模型与发生ICU谵妄风险有密切关系,有助于临床提供早期干预。


综上所述,随机森林的集成分类算法分析预测心胸外科ICU患者发生谵妄的诊断效能更高,可于临床推广应用,有助于早期识别和加强护理高危患者。但本研究还存在单中心、小样本的局限性,还需要多中心、大样本数据对模型进行进一步优化,并应用外部数据进一步验证模型的效果。


利益冲突:无。


作者贡献:陈苗负责数据收集,文章撰写、修改;陈青负责研究设计、文章修改;尹晓清负责数据收集、文章修改。


参考文献略。


本文编辑:董敏,刘雪梅

审校:雷芳

排版:张洪雪



推荐阅读

《中国胸心血管外科临床杂志》人工智能论文集

人工智能一体化三维重建应用于胸外科的中国专家共识

《人工智能在肺结节诊治中的应用专家共识(2022年版)》解读

人工智能驱动的科学研究(AI4S)在药物研发与临床实践中的应用进展

经验性与人工智能指导下精准肺段切除术效果比较的回顾性队列研究


长按或扫描二维码关注我们!



 最新文章