护理文献一起读丨一种用于预测出院后死亡风险的护理记录感知深度神经网络

职场   2025-01-09 19:31   北京  

本期【护理文献一起读】分享发表在International Journal of Nursing Studies上的一篇文章[1]文章内容主要是采用深度神经网络模型构建了ICU患者出院后死亡风险的预测模型。

我们带着以下5个关键问题阅读这篇文献。

① 作者想做什么?

② 作者做了什么?

③ 作者发现了什么?

④ 作者获得了什么?

⑤ 从这篇文章中可以收获什么启示?
图1 文章的摘要部分
这篇文章的关键词:Bidirectional Encoder Representations from Transformers; Electronic health records; Mortality; MIMIC-III; Natural language processing; Neural networks; Computer; Nursing records; Supervised machine learning



一、已经知道的信息
  • 重症监护病房的患者再入院和出院后死亡率较高,带来沉重负担。
  • 既往研究使用电子健康记录和机器学习模型,主要利用了结构化数据进行学习和预测,忽视了非结构化数据的潜能

  • 护理记录包含着关键的非结构化信息,既往研究也表明,分析重症监护病房入院24小时内患者的非结构化临床记录可以有效地预测患者入院短期、中期和长期的死亡率。然而,让计算机读取非结构化信息比较困难和复杂。

  • 采用自然语言处理(NLP)技术可以从非结构化的临床文本中提取结构化特征。但是常用的自然语言处理模型BERT存在最大字符数的限制512字),这一点限制了模型的学习能力。


二、作者想做什么?

开发了具有感知护理记录能力的深度神经网络(NurnaNet),结合生物临床医学预训练语言模型(BioClinicalBERT)来分析MIMIC III数据集中的电子健康记录(EHR) ,以预测6个月和两年内患者的死亡风险。

三、作者做了什么?

1、数据提取与样本纳排

  • 数据提取自美国麻省理工学院计算生理学实验室开发的免费电子健康记录数据库MIMIC-III v1.4,时间为2001年至2012年。所提取的信息包括患者基本信息、入院出院状态、住院期间的护理记录等。
  • 采用回顾性队列和系统开发设计,主要结局指标是出院后6个月、2年的死亡率。
  • 患者纳入排除标准:使用MIMIC数据集中的入院时间和出生日期来计算患者年龄。排除了18岁以下或89岁以上的患者,或死于医院的患者。【见图2,在这一段,作者详细解释了制定年龄限制的原因,我们可以参考借鉴到自己的研究中,主要是:①排除与纳入部分患者在生理、病理、护理治疗需求上差异较大,可能带来混杂因素;②排除部分在实际数据库中占比很少,可能造成统计学偏差】

图2 文献截图
  • 纳入排除过程见图3,约200万数据,最终纳入为16973份。这些记录根据出院后的生存率分为两组:存活时间少于6个月和少于2年。6个月内死亡2415人(14.23%),两年内死亡4111人(24.22%),生存率分别为85.77%75.78%
  • 护理记录平均为2003字,中位数为910字,超过512字的文本占总数的73.14 %。【512字是自然语言处理模型BERT的输入字符限制。】

图3 该研究所提出的护理笔记感知深度神经网络

2、数据预处理

  • 采用Natural Language Toolkit's PorterStemmerstopwords list对临床记录文本数据进行预处理,以提高医学术语的相关性。【这一步是初步的数据库清理,清除空格、标点符号等等不需要的内容】
  • 为了解决BERT输入字符限制的问题,研究团队开发了一种名为Crucial Nursing Description Extractor(关键护理描述提取器)的技术,见图3,它从预处理后的护理记录文本中提取关键内容,并使模型能够关注与出院风险相关的临床相关信息。【简而言之,CNDE技术即对护理记录进行特殊处理,提取核心重要的部分,浓缩到512词以内】

  • 进一步介绍下CNDE的具体过程【CNDE的开发基于对临床护士阅读护理记录文本评估识别高危风险患者过程的观察】,核心是根据护理记录文本数据找到高死亡风险病例的关键信息。研究者采用一种基于类别的关键词提取方法,即根据术语和类别之间的关联来分配术语权重。高加权的术语表明其与护理记录中的关键结果有很强的相关性。

    这种关联性怎么计算呢?首先,类别就是高死亡风险患者(High Risk, HR)被定义为阳性,低风险即阴性。然后研究者计算文本中每个单词的对数似然比(LLR)值,计算公式如图4,LLR值越高表示词W与HR关联越强。【那我们肯定关注跟HR关联最强的那些词】
    于是,下一步就对训练数据中所有单词的LLR值进行排序,并保留前N个候选单词作为高出院后死亡风险的关键词列表(图5)。

    有了这个列表还不够,我们还需要浓缩每份护理记录的长度,方法就是根据关键字的数量计算每个句子的重要性并降序排列,选择排名靠前的句子直至得到512个单词的摘要。

图4 计算公式

图5 排序前100的关键词列表部分内容(交叉验证集)

  • 数据不平衡问题是指数据集中各个类别的样本数目相差巨大,比如结果阴性的数量远远多于阳性的。研究者采用了Focal Loss作为损失函数来解决数据不平衡的问题。【Focal Loss专门针对类别不平衡问题设计,特别适合于二元分类任务】

3、模型调整

  • 研究者开发了一个新模型“NurnaNet”,为监督式机器学习模型,独特地结合了BioClinicalBERT,在MIMIC-III v1.4数据库上进行了预训练[2],并且使用CNDE进行重要信息提取。见图6,研究者详细介绍了NurnaNet这个模型中所包含的机器学习和深度学习模型。

图6 文献截图

  • 研究者结合了Local Interpretable Model-agnostic Explanations(LIME)算法让模型的可解释性更强,如图7所示,与预测模型相关的术语用颜色编码,对死亡率影响较小的标记蓝色,影响较大的标记橙色,颜色越深越重要。

图7 护理记录中关键词与类别关联性程度的可视化呈现

4、评价指标

  • 使用精确度、召回率、 F1评分、 ROC曲线、曲线下面积和精确-召回曲线评估模型的性能。【见图8,作者介绍了每一指标的内涵】

图8 文献截图

四、作者发现了什么?

  • 该研究分析了16973ICU住院病人的护理记录。

  • 将关键词的个数设置为10~100,见图9,患者出院6个月和2年内死亡率的预测模型的有效性比较。很明显,相较于预测6个月的死亡率,该模型对2年死亡率的预测,在所有指标上都表现出更大的稳定性,即受到使用的LLR关键词数量的影响更小。【研究者初步得到的启示是关键词选择对模型的有效性有显著影响,特别是在预测短期死亡率时】

  • 基于上述结果,本研究重点优化了关键字的选择。首先确定了前80个与出院后6个月和2年内的患者死亡率有强相关的LLR关键词。再对关键字加权后,纳入NurnaNet深度神经网络框架。

  • 在图10中,展示了各个模型分别预测6个月、2年死亡率的效能指标,综合来看,NurnaNet在预测短期和长期死亡风险方面具备一致性和平衡能力。

图9 不同关键词个数对应的模型预测性能评价指标
图10 各种模型的性能评价比较
  • 研究结果表明,NurnaNet在六个月和两年内取得了良好的F1成绩(0.67030,0.70874)。与单独使用BioClinicalBERT相比,六个月和两年内的预测性能分别提高了2.05%1.08%

  • 在图11中,比较了NurnaNet与其他模型分别预测6个月和2年死亡率的性能。虽然不是每项指标都是最佳的,NurnaNet仍表现稳定,对于长期死亡率预测相当有效,在精度和召回率方面都具有平衡的表现。

图11 多个模型在预测6个月、2年死亡率上ROC曲线、PR曲线的比较


五、作者获得了什么?
  • CNDE技术可以应用于从冗长的临床记录中提取重要信息,克服了BERT的输入字数限制。

  • 本研究构建了一个基于监督式学习的预测模型(NurnaNet),该模型在预测6个月和2年的死亡风险方面表现出高灵敏度和F1评分。
  • 使用CNDE和机器学习模型,结合电子健康记录数据可以有效地预测重症监护病房患者出院后的死亡率,识别出可能会计划外再入院的高危患者。
  • 本研究的局限性:所纳入的患者群体以白人为主,来自不同类型的重症监护科室(医疗ICU、外科ICU、心脏康复ICU等),来自一个数据库,这些都限制了该结果推广至更广泛的全球医疗环境,还需要更多元化样本数据的验证。


六、从这篇文章中可以收获什么启示?

  • 本研究的出发点:基于患者住院期间的护理记录文本数据来预测重症监护室患者出院6个月、2年的死亡风险。

  • 所阐述的gap是:

    ①既往这类预测研究利用的数据以结构化数据为主,即从电子医疗记录中获取的年龄、性别、婚姻、疾病分类、用药种类、生命体征、实验室结果等等,可以直接用数字或符号表示。非结构数据中蕴含的大量信息未能发挥充分作用。护理记录是非结构化的自由文本,不仅包含患者的健康状况和接受的护理措施,而且还包括了护理人员在整个患者住院过程中的见解和行动。

    ②这种非结构化自由文本由医疗专业人员撰写,没有统一标准,如何才能有效利用这些大量数据?这涉及到自然语言处理,想方法让计算机能理解我们的日常交流语言,在回顾了既往研究的做法后,存在两个问题,一是尚无研究预测患者出院后的死亡风险,二是采用的自然语言处理模型BERT存在最大字符数的限制(512字),这一点限制了模型的学习能力。

  • 这是一篇跨学科合作的文章,方法部分涉及到较多优化算法、模型的内容,但其中最核心的部分如何转化护理记录为结构数据,是借鉴于重症监护室临床护士的工作思路
  • 利用非结构化数据进行预测既是文章的亮点,也增加了结果的解释难度

  • 在我们自己的研究中,根据需求和临床意义,也可以尝试多样化的数据结构挖掘更多信息。




本期分享的内容如果有帮助到你的话,记得点赞+收藏,保持学习的好习惯!
参考

[1]Huang, Y. Z., Chen, Y. M., Lin, C. C., Chiu, H. Y., & Chang, Y. C. (2024). A nursing note-aware deep neural network for predicting mortality risk after hospital discharge.International journal of nursing studies,156, 104797. Advance online publication. 

[2] Alsentzer, E., Murphy, J.R., Boag, W., Weng, W.-H., Jin, D., Naumann, T., McDermott, M., 2019. Publicly available clinical BERT embeddings. ArXiv Prepr. ArXiv190403323.

编辑丨Soya
优护优联致力于提供个性化、全程1对1的护理科研论文辅导服务。
覆盖论文选题、开题报告、研究设计、方案实施、数据处理、报告撰写、选刊投稿等全流程。
我们专业团队将协助您精心打磨每个环节,助您轻松收获令人瞩目的科研成果。不仅提供模块化指导,更是为您提供个性化、贴心的支持,让您的科研之路更加顺畅、高效。
选择优护优联,开启您的科研成功之旅!

👇偷偷进步,惊艳他人👇


聚焦护士发展面临的挑战和问题,为每一位护士提供综合、专业、优质的培训和咨询服务,观看更多护理好课,请关注【优护优联】。

优护优联+
我们服务于护士群体和医疗健康机构,提供护士终身学习和职业成长需求的教育咨询服务,涵盖护理科研课程、专科护理课程、专业英语课程、生涯规划咨询等;以及护士人力资源服务外包,人力资源测评、培训及管理咨询服务。
 最新文章