IF-12.4/Q1 | 基于自然语言处理(NLP)的ClinicalBigBird模型在麻醉ASA-PS评分分类中的优越性

文摘   2024-09-29 19:24   美国  

医学科研新动向

Comparison of NLP machine learning models with human physicians for ASA Physical Status classification

NPJ Digit Med

<麻醉-术前评估>

美国麻醉医师协会(ASA)身体状态评分(ASA-PS)是一种用于评估患者在手术前健康状况的评分系统,广泛应用于预测术中和术后并发症。然而,ASA-PS评分的主观性导致了医疗专业人员间评分不一致的问题,尤其是在涉及不同科室和患者群体时。这种不一致性妨碍了ASA-PS系统的客观应用。尽管2014年ASA-PS评分系统引入了更新的实例指南,以期减少评分差异,但问题依然存在。因此,如何通过客观方法准确分类ASA-PS评分成为亟待解决的临床问题。
随着自然语言处理(NLP)技术的快速发展,NLP模型可以从大量非结构化的医疗文本中提取有意义的信息。近年来,预训练生成式转换模型(如GPT-4)在许多任务中表现出色。然而,在特定领域任务中,如ASA-PS评分分类,这些通用模型的表现仍有待提高。为了应对这一问题,本研究利用针对医疗领域的NLP模型如ClinicalBigBird和BioClinicalBERT开发出一种能够从麻醉评估报告中自动分类ASA-PS评分的模型,并将其与麻醉医师的人工评分进行比较。

研究设计

本研究利用自2004年10月至2023年5月间来自首尔国立大学分院的717,389例外科手术患者的麻醉评估报告单进行NLP模型训练和测试。研究将数据划分为训练集(593,510例)、调整集(426例)和测试集(460例)。模型使用多个NLP技术,包括ClinicalBigBird、BioClinicalBERT和GPT-4,并与麻醉专科医生和住院医师的评分结果进行比较,各模型通过交叉验证和超参数网格搜索进行优化,并使用SHAP分析解释模型的特征重要性和决策过程。评估其分类性能。

1. 研究对象(P)

本研究纳入了2004年10月至2023年5月期间在首尔国立大学医院接受手术的717,389名患者,分析其麻醉评估报告和ASA-PS评分。排除标准包括无麻醉评估报告、无ASA-PS评分的患者,以及脑死亡患者和被直接归类为ASA-PS VI级的患者。

2. 干预措施(I)

开发了三种基于自然语言处理的ASA-PS分类模型,包括ClinicalBigBird、BioClinicalBERT和GPT-4。通过从非结构化的手术前麻醉评估文本中提取信息,这些模型用于自动化分类患者的ASA-PS等级。

3. 对照组(C)

对照组为麻醉专科医生和住院医师的人工评分,人工评分基于相同的麻醉评估报告。使用人工评分的共识标签作为标准,比较NLP模型与人工评分在ASA-PS分类中的表现差异。

4. 研究结局(O)

主要研究结局为各模型的分类性能指标,包括加权平均和宏观平均的AUROC、AUPRC、灵敏度、特异性、精确率和F1分数。研究还分析了不同文本长度对模型性能的影响,并通过混淆矩阵评估各模型在ASA-PS等级上的分类错误情况。

5. 研究设计(S)

回顾性队列研究。

核心结果

1. 研究人群特征描述

本研究共纳入717,389例患者的麻醉评估数据,患者的平均年龄为43.7岁(标准差25.2岁),其中女性占52.7%(312,921例)。在麻醉类型分布上,82.19%的患者接受了全身麻醉,9.04%接受了区域麻醉,8.77%接受了MAC麻醉。在ASA-PS评分中,I级占41.18%,II级占49.09%,III级占9.11%,IV-V级患者仅占0.62%。随着ASA-PS评分的增加,麻醉评估报告的文本长度逐渐增加,IV-V级患者的文本长度中位数为679字(IQR:370, 1184)。

2. NLP模型与人工评分的ROC和PR曲线性能比较

ClinicalBigBird模型在ASA-PS分类中的加权平均AUROC达到0.912(95% CI 0.905-0.918),AUPRC为0.804(95% CI 0.786-0.819),优于BioClinicalBERT(AUROC为0.897,AUPRC为0.787)和GPT-4(AUROC为0.859,AUPRC为0.722)。特别是在ASA-PS I级中,ClinicalBigBird模型的AUROC高达0.952,AUPRC为0.814,显示了极高的分类精度。ASA-PS II级的灵敏度为0.871,特异性为0.772,进一步证明了其在不同ASA-PS等级中的鲁棒性能。

3. 不同文本长度下NLP模型的分类表现

  • ClinicalBigBird模型在较长文本下的加权平均AUROC为0.931(95% CI 0.926-0.936),AUPRC为0.853(95% CI 0.842-0.865);
  • 在较短文本下的AUROC为0.908(95% CI 0.901-0.915),AUPRC为0.820(95% CI 0.805-0.834)。
  • 相比之下,BioClinicalBERT在较长文本下的加权平均AUROC为0.907(95% CI 0.900-0.913),AUPRC为0.830(95% CI 0.818-0.841),而在较短文本下的AUROC为0.897(95% CI 0.889-0.905),AUPRC为0.807(95% CI 0.791-0.820)。
这些结果表明,ClinicalBigBird模型在处理较长文本时表现优越,特别是在分类ASA-PS评分时的精确性上。

4. NLP模型与人工评分的混淆矩阵分析

混淆矩阵揭示了NLP模型与人工评分在ASA-PS分类中的差异。住院医师在63.26%的病例中错误分类为ASA-PS II,而麻醉专科医生在33.33%的情况下将ASA-PS III错误分类为ASA-PS I或II。相比之下,ClinicalBigBird模型在分类ASA-PS II和III级时的低估率分别为5.85%和25.15%。尽管该模型在ASA-PS I级的高估率达到32.00%,但其整体分类错误率仍显著低于人工评分,且模型分类稳定性更强。

5. 基于SHAP值的特征贡献分析

ClinicalBigBird模型通过SHAP值分析各输入特征对ASA-PS分类决策的贡献。特定临床特征在模型的分类决策中起到了关键作用。例如,“甲状腺功能减退症”在预测ASA-PS III级中的Shapley值为0.425,而“心肌梗死”在预测ASA-PS IV-V级时的Shapley值为0.361。这些结果表明,ClinicalBigBird能够有效识别并利用临床文本中的关键信息,增强了ASA-PS分类的准确性和解释性。


本研究旨在开发基于自然语言处理(NLP)模型的ASA-PS评分自动分类系统,并对其性能与人工评分进行比较,得出了以下主要结论:

  1. NLP模型与人工评分的性能比较
    ClinicalBigBird模型在ASA-PS分类中的加权平均AUROC达到0.912,优于BioClinicalBERT和GPT-4,表现出更高的分类准确性。特别是在ASA-PS I和II级,ClinicalBigBird模型的分类性能显著优于其他模型和人工评分。

  2. 文本长度对模型性能的影响
    ClinicalBigBird在较长文本中的分类性能表现更为突出,其加权平均AUROC为0.931,AUPRC为0.853,证明了该模型在处理复杂和长文本时具备更强的分类能力。

  3. NLP模型与人工评分的分类差异分析
    混淆矩阵显示,NLP模型在分类ASA-PS等级时的准确性和一致性均优于麻醉住院/专科医师,尤其是在ASA-PS II和III级中的低估率显著减少。

  4. 特征贡献与模型解释性分析
    SHAP值分析表明,ClinicalBigBird能够有效识别麻醉评估报告中的关键临床特征,如“甲状腺功能减退症”和“心肌梗死”,这些特征显著影响了ASA-PS分类的决策过程,增强了模型的解释性和可靠性。

综上所述,ClinicalBigBird模型在ASA-PS分类任务中表现优越,能够显著提升分类的准确性与一致性,且具备较强的模型解释性,具有广泛的临床应用前景。

-END-

文字丨本人编写,如有补充,下方留言即可
后台回复“ASA”即可获取全文

医学科研新动向
每日分享-相关领域包括:MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。
 最新文章