本期【护理文献一起读】分享发表在International Journal of Nursing Studies上的一篇文章[1],文章内容主要是采用深度神经网络模型构建了ICU患者出院后死亡风险的预测模型。
我们带着以下5个关键问题阅读这篇文献。
① 作者想做什么?
② 作者做了什么?
③ 作者发现了什么?
④ 作者获得了什么?
重症监护病房的患者再入院和出院后死亡率较高,带来沉重负担。 既往研究使用电子健康记录和机器学习模型,主要利用了结构化数据进行学习和预测,忽视了非结构化数据的潜能。
护理记录包含着关键的非结构化信息,既往研究也表明,分析重症监护病房入院24小时内患者的非结构化临床记录可以有效地预测患者入院短期、中期和长期的死亡率。然而,让计算机读取非结构化信息比较困难和复杂。
采用自然语言处理(NLP)技术可以从非结构化的临床文本中提取结构化特征。但是常用的自然语言处理模型BERT存在最大字符数的限制(512字),这一点限制了模型的学习能力。
二、作者想做什么?
1、数据提取与样本纳排
数据提取自美国麻省理工学院计算生理学实验室开发的免费电子健康记录数据库MIMIC-III v1.4,时间为2001年至2012年。所提取的信息包括患者基本信息、入院出院状态、住院期间的护理记录等。 采用回顾性队列和系统开发设计,主要结局指标是出院后6个月、2年的死亡率。 患者纳入排除标准:使用MIMIC数据集中的入院时间和出生日期来计算患者年龄。排除了18岁以下或89岁以上的患者,或死于医院的患者。【见图2,在这一段,作者详细解释了制定年龄限制的原因,我们可以参考借鉴到自己的研究中,主要是:①排除与纳入部分患者在生理、病理、护理治疗需求上差异较大,可能带来混杂因素;②排除部分在实际数据库中占比很少,可能造成统计学偏差】
纳入排除过程见图3,约200万数据,最终纳入为16973份。这些记录根据出院后的生存率分为两组:存活时间少于6个月和少于2年。6个月内死亡2415人(14.23%),两年内死亡4111人(24.22%),生存率分别为85.77%和75.78%。 护理记录平均为2003字,中位数为910字,超过512字的文本占总数的73.14 %。【512字是自然语言处理模型BERT的输入字符限制。】
四、作者发现了什么?
该研究分析了16973例ICU住院病人的护理记录。
将关键词的个数设置为10~100,见图9,患者出院6个月和2年内死亡率的预测模型的有效性比较。很明显,相较于预测6个月的死亡率,该模型对2年死亡率的预测,在所有指标上都表现出更大的稳定性,即受到使用的LLR关键词数量的影响更小。【研究者初步得到的启示是关键词选择对模型的有效性有显著影响,特别是在预测短期死亡率时】
基于上述结果,本研究重点优化了关键字的选择。首先确定了前80个与出院后6个月和2年内的患者死亡率有强相关的LLR关键词。再对关键字加权后,纳入NurnaNet深度神经网络框架。
在图10中,展示了各个模型分别预测6个月、2年死亡率的效能指标,综合来看,NurnaNet在预测短期和长期死亡风险方面具备一致性和平衡能力。
研究结果表明,NurnaNet在六个月和两年内取得了良好的F1成绩(0.67030,0.70874)。与单独使用BioClinicalBERT相比,六个月和两年内的预测性能分别提高了2.05%和1.08% 。
在图11中,比较了NurnaNet与其他模型分别预测6个月和2年死亡率的性能。虽然不是每项指标都是最佳的,NurnaNet仍表现稳定,对于长期死亡率预测相当有效,在精度和召回率方面都具有平衡的表现。
图11 多个模型在预测6个月、2年死亡率上ROC曲线、PR曲线的比较
CNDE技术可以应用于从冗长的临床记录中提取重要信息,克服了BERT的输入字数限制。
本研究构建了一个基于监督式学习的预测模型(NurnaNet),该模型在预测6个月和2年的死亡风险方面表现出高灵敏度和F1评分。 使用CNDE和机器学习模型,结合电子健康记录数据可以有效地预测重症监护病房患者出院后的死亡率,识别出可能会计划外再入院的高危患者。 本研究的局限性:所纳入的患者群体以白人为主,来自不同类型的重症监护科室(医疗ICU、外科ICU、心脏康复ICU等),来自一个数据库,这些都限制了该结果推广至更广泛的全球医疗环境,还需要更多元化样本数据的验证。
六、从这篇文章中可以收获什么启示?
本研究的出发点:基于患者住院期间的护理记录文本数据来预测重症监护室患者出院6个月、2年的死亡风险。
所阐述的gap是:
①既往这类预测研究利用的数据以结构化数据为主,即从电子医疗记录中获取的年龄、性别、婚姻、疾病分类、用药种类、生命体征、实验室结果等等,可以直接用数字或符号表示。非结构数据中蕴含的大量信息未能发挥充分作用。护理记录是非结构化的自由文本,不仅包含患者的健康状况和接受的护理措施,而且还包括了护理人员在整个患者住院过程中的见解和行动。
②这种非结构化自由文本由医疗专业人员撰写,没有统一标准,如何才能有效利用这些大量数据?这涉及到自然语言处理,想方法让计算机能理解我们的日常交流语言,在回顾了既往研究的做法后,存在两个问题,一是尚无研究预测患者出院后的死亡风险,二是采用的自然语言处理模型BERT存在最大字符数的限制(512字),这一点限制了模型的学习能力。
这是一篇跨学科合作的文章,方法部分涉及到较多优化算法、模型的内容,但其中最核心的部分如何转化护理记录为结构数据,是借鉴于重症监护室临床护士的工作思路。 利用非结构化数据进行预测既是文章的亮点,也增加了结果的解释难度。
在我们自己的研究中,根据需求和临床意义,也可以尝试多样化的数据结构挖掘更多信息。
[1]Huang, Y. Z., Chen, Y. M., Lin, C. C., Chiu, H. Y., & Chang, Y. C. (2024). A nursing note-aware deep neural network for predicting mortality risk after hospital discharge.International journal of nursing studies,156, 104797. Advance online publication.
[2] Alsentzer, E., Murphy, J.R., Boag, W., Weng, W.-H., Jin, D., Naumann, T., McDermott, M., 2019. Publicly available clinical BERT embeddings. ArXiv Prepr. ArXiv190403323.
👇偷偷进步,惊艳他人👇