✦
深度学习辣汤小组文献阅读学习之一百五十五篇
✦
深度学习在脓毒症相关急性肾损伤亚型识别中的应用
DeepLearning 深度学习辣汤小组
2024/2/5
2020年纽约西奈山伊坎医学院遗传学和基因组科学系的Kumardeep Chaudhary等人使用深度学习法利用电子健康记录中常规收集的数据识别脓毒症相关的急性肾损伤(Acute Kidney Injury, AKI)亚型,并在期刊CJASN ePress(IF=9.8,1区)上发表题为“Utilization of Deep Learning for Subphenotype Identification in Sepsis-Associated Acute Kidney Injury”的文章。
DOI:
https://doi.org/10.2215/CJN.09330819
一、研究背景
AKI通常与重症监护室(intensive care units, ICU)患者的脓毒症相关。最初认为脓毒症相关AKI是由于全身性低血压导致肾脏灌注减少,引起缺血和急性肾小管坏死( acute tubular necrosis , ATN)。然而,越来越多的证据表明脓毒症相关AKI具有的不同临床特征和结局。AKI是由几种不同亚型组成的临床综合征。既往研究一般通过精心策划和前瞻性收集的数据和生物标志物而不是常规临床护理生成的电子健康记录(electronic health record, EHR)数据识别出AKI中具有不同结局和治疗反应的亚型。
深度学习技术是人工智能领域的一个子集,计算机编程使用多个层从原始输入中逐步提取更高级别的特征,可以利用这些数据来识别复杂疾病的模式,揭示疾病的亚型。据我们所知,目前还没有任何研究利用深度学习的常规EHR数据来识别脓毒症相关AKI的亚型。
因此,本研究目的是确定是否可以利用患者常规护理的一部分信息来识别脓毒症相关AKI的亚型,通过整合EHR中常规收集的数百个数据特征,以确定因脓毒症入住ICU的患者中AKI的亚型,并探索患者结局的差异。
二、数据集
本研究使用了重症监护医学信息市场III(MIMIC III)数据库,该数据库由美国三级医院重症监护病房的电子健康记录数据组成,包含2001年至2012年期间患者人口统计学、生命体征、实验室结果等结果。本研究最终纳入4001例(10%)入住重症监护室后48小时内发生AKI脓毒症且符合纳排标准的患者(图1)。患者的平均年龄为66岁;57%为男性,73%为白种人。入院类型以急诊为主。高血压(49%)、充血性心力衰竭(37%)和糖尿病(31%)的患病率较高。
三、方法
本研究利用实验室测量值和生命体征测量值来确定聚类,包括从入院到诊断AKI后48小时内所有实验室检测值和生命体征测量值。特征空间是放入深度学习架构中的所有特征,使其能够识别模式。本研究计算了实验室测量值和生命体征测量值衍生的特征,如中位数、变异性和测量次数,最终生命体征测量值的特征空间为52,实验室测量值为2464。本研究仅纳入在70%以上患者中出现的特征,将特征空间减少到188个特征。此外,考虑了伴发疾病、血液和尿液培养结果、机械通气和升压药的使用,最终特征空间为225。使用K-最近邻插补对缺失值进行插补。在此之后,对结果数据执行MinMax缩放,以使特征空间中的所有值具有可比性。自动编码器是一种非线性维度分解深度学习架构,它采用许多特征并将它们组合成更低维度的更少生成的特征。本研究使用了一个五层深度的自动编码器,每个隐藏层分别有32、8、2、8和32个神经元,同时,考虑了自动编码器中间层之前的层的输出,以进一步分析(图1)。
利用所有的实验室测量值、生命体征测量值和合并症的最终降维特征矩阵,进行因子分析,以进一步分解数据框架,提升聚类算法的性能。然后,进行无监督的K-means聚类结果的数据测试,聚类大小从K52到K55不等。本研究计算了轮廓分数(衡量样本与其自身聚类的相似程度)、Davies-Bouldin分数(衡量每个聚类与其最相似聚类的平均相似性)和Calinski-Harabasz分数(聚类内和聚类间离散度的比率),以验证所发现的亚型的稳定性。获得亚型标签后,使用t分布随机邻居嵌入技术将数据减少到三维,以便更好地可视化。本研究使用scikit-learn的t分布随机邻居嵌入将8维自动编码器输出(瓶颈层的潜在特征)分解为三维。最后,使用Python中的matplotlib包在三维空间中可视化集群。
为了确保这些聚类不完全由已知的肾脏疾病病理生理学(肾前型与ATN型)驱动,本研究从每个亚型中随机选择了30例患者(约占总人群的2%)进行医生临床审查。两名独立的医生,对亚型分配不知情,在对所有可用的病程记录和出院总结进行审查后,将患者分为ATN、肾前型和其他病因型。
为了评估亚表型的差异是否由AKI持续时间驱动,本研究检查了持续性的差异。如果最后一次测定的肌酐大于ICU入院前7天的最低肌酐水平,则定义为持续性。该分析仅对符合肌酐KDIGO标准的患者进行。聚类识别后,本研究进行分析,探讨聚类之间的差异。结局指标为透析需求和AKI后28天死亡率。本研究使用logistic回归来确定聚类与死亡率之间的关联,使用卡方检验来评估AKI分期和持续性的差异。
四、结果与总结
无监督聚类识别子表型结果显示:从这些具有变换值的组合特征中,本研究实现了K52到K55的K均值聚类。K53聚类的轮廓系数为0.61,Davies-Bouldin得分为0.53,Calinski-Harabasz得分为6939。(轮廓系数从-1接近1的值越好;Davies-Bouldin评分从0开始测量,越接近0的值越好;Calinski-Harabasz分数是从0开始测量的,越高的值对数据集越好)。亚型1有1443例(36%)患者,亚型2有1898例(47%)患者,亚型3有660例(16%)患者(图2)。
三个聚类的基线特征见表1。亚型3的患者年龄最小。虽然亚型3的高血压、充血性心力衰竭和糖尿病患者比例较低,但肝病患者比例明显较高(p<0.001),2型慢性肾病患者比例最高(p<0.001)。简化急性生理学评分ii(SAPSii)在亚型3中最高(p<0.001)。三种亚型的血压差异虽小但显著,且需要升压药作用的患者比例有显著差异(p<0.001)。三种亚型的几个实验室测量值的差异显著(表1)。本研究计算了亚型1和3之间差异最大的前18个特征(图3)。亚型3胆红素水平明显较高(p<0.001),与亚型2和1相比,具有较高的天冬氨酸转氨酶和更高的丙氨酸氨基转移酶(p<0.001)。
在三种亚型中,AKI的主要病因是ATN,且在三种亚型之间存在显著差异(表2)。与亚型2和1相比,亚型3患者的死亡率显著更高(49% vs 35% vs 23%; P<0.001),更多患者接受透析(26% vs 7% vs 4%; P<0.001)(图4)。
综上所述,使用深度学习技术来分析常规测量的实验室测量值和生命体征,本研究在脓毒症相关AKI的综合征中确定了三种不同的患者亚型,本研究发现,在共病、实验室测量和生命体征方面,聚类有显著差异;还发现,这些亚型死亡率方面有显著差异,即使在调整人口统计学、共病以及AKI的阶段和定义后,这种差异仍然存在。EHRs的广泛使用允许通过临床决策支持系统实现机器学习模型。这种系统已用于急性肾损伤的预测和预警,从而改善了住院时间和死亡率。在重症监护室早期进行准确的风险评估将使提供者能够分配稀缺的资源,如持续RRT,并帮助与患者及其家人讨论护理目标。然而,在考虑临床实施之前,这里提出的模型需要额外的测试和外部验证。
图1:数据处理和亚型鉴定流程图
图2:t-分布随机邻域嵌入(t-SNE)视觉表示亚型1为蓝色,亚型2为橙色,亚型3为绿色,表明亚型之间的分布
表1:MIMIC III数据库中4001例脓毒症相关AKI患者的特征
图3:亚型1和亚型3之间具有最大差异的前18个特征(包括肾功能和肝功能的实验测试值)
表2:每个亚型AKI的病因分布
图4:不同AKI亚型之间透析和死亡率存在较大差异
Pepper soup transformed by: Zhang Bo
//
深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成,欢迎大家跟我们交流学习!
扫码关注我们
欢迎加入我们!
成员微信号:cy2011mcu
添加好友时请备注:
您的 单位-科室-姓名-研究方向