✦
医学科研新动向
✦
Comparison of NLP machine learning models with human physicians for ASA Physical Status classification
NPJ Digit Med
<麻醉-术前评估>
研
究
背
景
研究设计
本研究利用自2004年10月至2023年5月间来自首尔国立大学分院的717,389例外科手术患者的麻醉评估报告单进行NLP模型训练和测试。研究将数据划分为训练集(593,510例)、调整集(426例)和测试集(460例)。模型使用多个NLP技术,包括ClinicalBigBird、BioClinicalBERT和GPT-4,并与麻醉专科医生和住院医师的评分结果进行比较,各模型通过交叉验证和超参数网格搜索进行优化,并使用SHAP分析解释模型的特征重要性和决策过程。评估其分类性能。
1. 研究对象(P)
本研究纳入了2004年10月至2023年5月期间在首尔国立大学医院接受手术的717,389名患者,分析其麻醉评估报告和ASA-PS评分。排除标准包括无麻醉评估报告、无ASA-PS评分的患者,以及脑死亡患者和被直接归类为ASA-PS VI级的患者。
2. 干预措施(I)
开发了三种基于自然语言处理的ASA-PS分类模型,包括ClinicalBigBird、BioClinicalBERT和GPT-4。通过从非结构化的手术前麻醉评估文本中提取信息,这些模型用于自动化分类患者的ASA-PS等级。
3. 对照组(C)
对照组为麻醉专科医生和住院医师的人工评分,人工评分基于相同的麻醉评估报告。使用人工评分的共识标签作为标准,比较NLP模型与人工评分在ASA-PS分类中的表现差异。
4. 研究结局(O)
主要研究结局为各模型的分类性能指标,包括加权平均和宏观平均的AUROC、AUPRC、灵敏度、特异性、精确率和F1分数。研究还分析了不同文本长度对模型性能的影响,并通过混淆矩阵评估各模型在ASA-PS等级上的分类错误情况。
5. 研究设计(S)
回顾性队列研究。
核心结果
1. 研究人群特征描述
2. NLP模型与人工评分的ROC和PR曲线性能比较
3. 不同文本长度下NLP模型的分类表现
ClinicalBigBird模型在较长文本下的加权平均AUROC为0.931(95% CI 0.926-0.936),AUPRC为0.853(95% CI 0.842-0.865); 在较短文本下的AUROC为0.908(95% CI 0.901-0.915),AUPRC为0.820(95% CI 0.805-0.834)。 相比之下,BioClinicalBERT在较长文本下的加权平均AUROC为0.907(95% CI 0.900-0.913),AUPRC为0.830(95% CI 0.818-0.841),而在较短文本下的AUROC为0.897(95% CI 0.889-0.905),AUPRC为0.807(95% CI 0.791-0.820)。
4. NLP模型与人工评分的混淆矩阵分析
5. 基于SHAP值的特征贡献分析
小
结
本研究旨在开发基于自然语言处理(NLP)模型的ASA-PS评分自动分类系统,并对其性能与人工评分进行比较,得出了以下主要结论:
NLP模型与人工评分的性能比较:
ClinicalBigBird模型在ASA-PS分类中的加权平均AUROC达到0.912,优于BioClinicalBERT和GPT-4,表现出更高的分类准确性。特别是在ASA-PS I和II级,ClinicalBigBird模型的分类性能显著优于其他模型和人工评分。文本长度对模型性能的影响:
ClinicalBigBird在较长文本中的分类性能表现更为突出,其加权平均AUROC为0.931,AUPRC为0.853,证明了该模型在处理复杂和长文本时具备更强的分类能力。NLP模型与人工评分的分类差异分析:
混淆矩阵显示,NLP模型在分类ASA-PS等级时的准确性和一致性均优于麻醉住院/专科医师,尤其是在ASA-PS II和III级中的低估率显著减少。特征贡献与模型解释性分析:
SHAP值分析表明,ClinicalBigBird能够有效识别麻醉评估报告中的关键临床特征,如“甲状腺功能减退症”和“心肌梗死”,这些特征显著影响了ASA-PS分类的决策过程,增强了模型的解释性和可靠性。
综上所述,ClinicalBigBird模型在ASA-PS分类任务中表现优越,能够显著提升分类的准确性与一致性,且具备较强的模型解释性,具有广泛的临床应用前景。
-END-
文字丨本人编写,如有补充,下方留言即可
(后台回复“ASA”即可获取全文)