CIKM 2023 | 用于医疗文本分类的多任务学习框架KEMTL

文摘   科技   2024-04-03 09:00   中国香港  

记得给 “应用机器学习” 添加星标,收取最新干货


作者:清华大学 李昕航

今天跟大家分享一篇发表于CIKM2023,来自清华大学、香港城市大学的医疗文本分类文章"Towards Automatic ICD Coding via Knowledge Enhanced Multi-Task Learning"。该文章针对医疗文本分类中的数据不平衡问题,提出了知识增强的多任务学习框架,能显著提升医疗文本分类任务的鲁棒性与综合性能。
论文地址(点击查看原文也可阅读):https://dl.acm.org/doi/10.1145/3583780.3615087

本文面向的任务是ICD Coding,属于医疗文本分类任务。针对医疗文本天然的数据不平衡问题,本文提出了一种高效的知识增强的多任务学习框架KEMTL,通过引入外部知识以及利用多任务学习中不同任务之间的互补性,提高对稀有类别的分类性能。

整体而言,KEMTL框架可以分为两部分,即知识增强和多任务学习设计。在知识增强部分,KEMTL抽取医疗文本中对应的医学实体概念,并通过引入UMLS医学实体知识图谱将不同的医疗文本和医学实体概念相互关联。在多任务学习部分,KEMTL设计了两种方法进行多任务学习,分别为KEMTL-uni,即采用同一个共享文本编码层实现不同任务,和KEMTL-spec,即采用任务特定的文本编码层实现任务并使用一个额外的共享文本编码层迁移知识。

在实验部分,本文采用MIMIC-III数据集,并选择治疗方案推荐和生存率预测两个辅助任务。实验结果充分验证了提出的KEMTL框架的有效性。

1 动机

ICD Coding任务是通过输入长段的医疗文本,预测文本对应的ICD code,其中ICD code是一种用于表示医学概念的统一规范化编码。由于每个文本可能对应复数个ICD code,因此ICD coding本质上是一个多分类任务。

然而,由于医学领域的特性,这些ICD code存在极端的数据不平衡问题,10%的ICD code占据了超过85%的数据量。这使得对于大量的出现次数很少的ICD code,模型往往无法准确地预测。

由于ICD code表示的通常是诊断或治疗的方式,而其与医疗诊断描述文本中的症状,药物等信息强相关,因此可以通过引入外部知识的方式在模型中注入这些医疗实体概念。此外,不同类型的医疗任务之间同样存在高度的相关性,如诊断或治疗方式往往与患者的疾病严重程度有关,而疾病严重程度则与生存率有关。

因此,本文通过知识增强的多任务学习框架来缓解ICD coding任务中的数据不平衡问题,提升模型在ICD coding任务上的效果。

2 KEMTL框架

2.1 整体架构

KEMTL由知识增强的文本图和多任务学习框架两部分设计组成,其中骨架模型采用图注意力网络GAT作为文本编码层,多层全连接网络作为任务预测层。

2.2 知识增强的文本图构造
  1. 使用MetaMap工具抽取医疗文本中的医学实体概念
  2. 根据TF-IDF确认前10000个医学实体概念并确认文本与医学实体之间的关联
  3. 引入UMLS中医学实体之间的关联
2.3 多任务学习框架KEMTL-uni

多任务之间共享同一个文本编码层,并使用不同的任务预测层实现任务。GAT的信息传递过程如下所示:

2.4 多任务学习框架KEMTL-spec

每个任务都保有任务特定的文本编码层和任务预测层,同时使用一个额外的共享文本编码层,通过与任务特定的文本编码层线性加权的方式融合多任务知识。GAT的信息传递过程如下所示:

3 实验

数据集为MIMIC-III,针对ICD coding,治疗方案推荐和生存率预测三个任务选择不同的文本以及不同的标签。

在主任务ICD coding和两个辅助任务上,KEMTL的性能都显著超过了其他基准模型。说明了KEMTL在缓解数据不平衡问题上的有效性。

4 实验分析

消融实验部分分别去掉了KEMTL中知识增强和多任务学习部分,其中GMTL表示无知识增强的模型,-single表示只采用ICD coding的任务模型。实验结果表明两部分均对模型性能有显著提升,而多任务学习带来的性能提升通常更大。

通过替换文本编码层GAT为GCN或GraphSAGE,可以发现KEMTL框架均可以带来显著性能提升,证明了KEMTL框架的通用性。

案例分析中可以发现多任务学习框架有助于模型捕捉到更多关键信息,如模糊描述的症状,对疾病严重程度的描述等。

5 总结

本文针对医疗文本预测ICD coding任务中的数据不平衡问题,提出了知识增强的多任务学习框架,通过利用外部知识以及共享不同任务之间的知识,显著提升了模型的性能。

END



同时欢迎关注我们的知乎账号:应用机器学习,获取更多内容
https://www.zhihu.com/people/aml_cityu

应用机器学习
介绍机器学习最近技术进展和资讯
 最新文章