21.5 万张 X 光,78 万个问题!德州大学、NIH 等携手联合发布了医学视觉问答数据集 Medical-CXR-VQA

教育   2024-08-19 18:05   湖北  
谁能想到,多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 凭借自身强大无比的语言理解能力和生成能力,在众多领域都收获了巨大的成功。

可以肯定的是,随着技术的不断进步和完善,多模态大语言模型未来在各个领域的应用前景将不可限量。


在医学领域中,视觉问答 (VQA) 成为了医学多模态大语言模型的一项关键任务,它能够通过回答有关医学图像的具体临床问题,显著提高医疗专业人员的工作效率。这类工作对于减轻公共卫生系统的负担意义非凡,对于医疗资源相对匮乏的国家更是至关重要。


有理由相信,未来这一任务将为改善全球医疗状况发挥更大的作用。

然而,当下现有的医学 VQA 数据集规模甚小,仅仅包含了类似于分类任务的简单问题,严重缺乏语义推理和临床知识。


不得不说,这一现状极大地限制了相关研究和应用的发展。


如图 1 所示,现有的 ImageCLF VQA-MED 数据集仅仅包含「这张图像里主要异常是什么?」和「这张图片里看到了什么?」这两种完全等同于分类任务的问题。


显而易见,较小的数量以及过于简单的问题导致大语言模型很难在现有数据集上进行训练以及微调。


但愿在不久的将来,能够有更优质、更丰富的数据集出现,为相关研究和应用提供有力的支持。

图1 新数据集与现有的数据集ImageCLF VQA-MED的问题对比

令人惊喜的是,得克萨斯大学阿灵顿分校、理化学研究所、国立卫生研究院、日本癌症研究中心以及东京大学的团队竟然提出了一个大型 X 光胸片的问答数据库。


衷心期望这个数据库能够在未来发挥出更大的作用,为相关领域带来更多的福祉。

Medical-CXR-VQA,这个数据库涵盖了更为广泛的问题类型,包括异常、存在、位置、级别、拍摄角度和类型,整整 7 种类型的问题。


可以预见,它的出现将会给相关研究和应用带来全新的机遇和突破。


论文地址:https://authors.elsevier.com/sd/article/S1361-8415(24)00204-4
项目链接:https://github.com/Holipori/Medical-CXR-VQA

令人意想不到的是,作者还开创性地提出了一种全新的基于 LLM 的方法来构建数据集。一直以来,传统的数据集构建方法主要存在两种类型:人工标注和基于规则的方法。


可以肯定的是,随着技术的不断创新,未来还会有更多更高效的数据集构建方法涌现。


人工标注方法的典型例子如 VQA-RAD,其极度依赖大量的人力资源,所以数据集的规模通常会受到限制。


必须指出的是,在现有的方法中,基于规则的方法仍存在诸多有待改进之处。

只有基于规则的方法,例如 ImageCLEF 和作者之前的工作 Medical-Diff-VQA,才有机会生成更大规模的数据集。


期待未来在这一领域能够有更多突破性的进展和创新。


然而,基于规则的方法在针对大覆盖面的信息提取能力方面依旧存在局限性,所需提取的信息越多,就意味着需要创建的规则越多。


毋庸置疑,克服这些局限是当前研究的重要课题之一。


在这里,作者运用 LLM 来助力建立规则,使得在相同信息覆盖面上比基于传统规则的方法准确率提升 62%。


希望这样显著的成果能够为相关研究带来更多的启发和动力。


同时,作者还与 2 位临床专家通力合作对 100 个样本的标签进行了全方位的评估,进一步助力微调 LLM。


有理由相信,这种跨领域的合作模式将在未来的研究中发挥更大的作用。


基于该数据集,作者提出了一种新的基于图(Graph)的可解释的医学 VQA 方法利用图注意力来学习回答临床问题时的逻辑推理路径。


祝愿这一创新的方法能够为医学领域的发展注入强大的活力。


这些学习到的图推理路径可进一步用于 LLM 提示工程(Prompt engineering)和链式思维(Chain-of-thought),这对于进一步微调和训练多模态大语言模型具有至关重要的意义。


盼望在不远的将来,我们能够见证更多基于这一研究的重大突破和应用。


数据集介绍


惊世骇俗的全新 Medical-CXR-VQA 数据集竟然包含了在 215,547 张胸部 X 光片上的 780,014 个问题答案对,其中问题涵盖异常、存在、位置、级别、拍摄角度和类型,整整 7 种类型的问题。


期待这个令人瞩目的数据集能够为相关领域带来前所未有的突破和变革。


各种问题类型的比例和问题类别请分别见如下图 2 和表 1。


相信在未来,这个数据集将发挥出无可估量的价值,推动相关研究不断迈向新的高峰。

图2 Medical-CXR-VQA 问题类型的统计数据

表1 Medical-CXR-VQA 问题类型示例

数据集构建的方法


令人瞩目的 MIMIC-CXR 是一个涵盖了 377,110 张胸部 X 光片和 277,835 个放射学报告的大型数据集。作者巧妙地基于 MIMIC-CXR 构建了 Medical-CXR-VQA 数据集。


相信随着研究的深入,这个数据集将会带来更多令人惊喜的成果。传统基于规则构建的方法的一种途径是将数据集构建过程分为两步,第一步是从原始文本信息中提取出结构化的关键信息,例如疾病的位置,类型,级别,存在可能性等等;第二步是基于所提取的关键信息构建问题答案对(QA pairs)。


期望未来能够有更多创新的方法来优化数据集的构建过程。作者先前的工作 Medical-Diff-VQA 所采用的就是这种该方法,而这种方法在第一步提取结构化关键信息时非常依赖于预设关键词和规则的覆盖程度。


盼望在不远的将来,技术的进步能够克服这些现存的困难。在千变万化的自然语言表达中,构建出一套可以覆盖所有情形和表达的规则几乎是不可能完成的任务,而借助于 LLM 其强大的语言理解能力和生成能力,这个问题可以迎刃而解。


衷心祝愿这种创新的解决方案能够为相关领域带来更多的便利和突破。这种基于 LLM 的方法正是针对上述第一步过程的改进。期待这种改进能够为数据集的构建带来质的飞跃。作者采用了 Llama 2 70B 作为核心 LLM,以提取放射学报告中的数据。


整个数据生成过程可以分为以下几个步骤:可以想象,在未来这种数据生成过程将会更加高效和精准。首先,为增强 LLM 对特定任务的理解,作者对其进行了微调(finetune)。使用 GPT-4 对 100 份放射学报告按照精心设计的提示词进行结构化关键信息提取,并将这些信息格式化为 JSON。随后,两位专业放射科医生对提取的信息进行了校验和修正,并将这 100 个医生标注的样本便作为黄金标准用于对 Llama 2 70B 的微调。


期望这种精细的操作能够为数据的准确性提供有力的保障。在微调完成后,利用该模型对 MIMIC-CXR 数据集进行全量的关键信息提取。为了确保提取质量并抑制模型可能的幻觉问题(hallucination),作者实施了一系列后处理操作。这些操作包括:统一疾病名称,从疾病名称中剥离属性词(如位置、类型、级别),并进行属性词的重新分配等。


相信这些严谨的处理能够提升数据的质量和可用性。至此,结构化的关键信息提取已经完成。期待后续能够基于这些关键信息取得更多有价值的研究成果。为验证基于 LLM 的方法与传统基于规则的方法在结构化信息上的表现差异,作者对两种方法在 100 个随机抽取的样本上进行了比较。基于规则的方法使用了与 LLM 方法相同的信息覆盖面进行关键词提取。


期待未来会有更多更全面和深入的比较研究,以推动技术的不断进步。结果如表 2 所示,基于 LLM 的方法在高信息覆盖面的信息提取上显示出显著提升,相比基于规则的方法具有断层式的优势。


期望这种优势能够在更多的实际应用中得到充分的发挥和利用。


表2 基于LLM的方法与基于规则的方法在100个结构化信息提取的结果比较

最后,作者基于提取的结构化信息生成了问答对(QA pairs),并由两位人工验证者对500个问答对进行了验证。

验证结果显示,如表3所示,问答对的平均正确率达到了94.8%。
表3 数据集人工验证结果

Baseline模型介绍


基于构建的Medical-CXR-VQA数据集,作者提出了一种多模态图推理模型,如图3所示。

针对拍摄胸部X光片时病人姿态变化带来的挑战,作者提出了一种方法,通过定位病人的解剖结构和病灶,并提取这些定位对象的特征作为图的节点,来避免因姿态问题导致的图像不匹配。

图3 模型结构

让人眼前一亮的是,为了使图网络能够有效理解问题并从检测目标中提取相关节点信息,作者在每个节点中融入了问题的编码特征。


期待这种创新的设计能够在更多的应用场景中展现出强大的威力。为深入挖掘解剖结构和病灶之间的关系,作者设计了一种包含三种关系的图网络结构:空间关系、语义关系和隐含关系。


希望未来会有更多更精妙的图网络结构设计被提出,为相关领域带来新的活力。

在空间关系部分,作者根据检测目标的相对位置将其划分为 11 种类型,并将这些空间关系赋值到节点之间的边上,利用 ReGAT(Relation-aware Graph Attention Network)更新节点特征。


相信这种精细的划分和处理能够为图网络的性能提升带来显著的效果。在语义关系方面,作者与医学专家合作,构建了两种医疗知识图谱:共现知识图谱(Co-occurrence Knowledge Graph)和解剖学知识图谱(Anatomical Knowledge Graph)。


祝愿这种跨领域的合作能够越来越多,共同推动医学领域的发展。共现知识图谱是通过统计不同疾病的共同出现概率构建的,而解剖学知识图谱则详细分类了病灶与其可能出现的解剖结构之间的关联。


期待这些知识图谱能够在未来的研究中发挥更大的作用。对于隐含关系,作者采用全连接图,让模型在所有节点之间挖掘潜在信息。盼望这种全方位的挖掘能够为模型的性能提升带来新的突破。


经过 ReGAT 计算后,每种图均生成最终的节点特征,这些特征进一步经过平均池化层处理,得到各图的最终特征。然后,将三种图的特征加权相加,生成最终答案特征并用于答案预测。


可以预见,这种综合处理的方式将会在未来的研究中得到更广泛的应用。通过以上方法,作者成功解决了病人姿态变化带来的挑战,同时提升了模型在 Medical-CXR-VQA(医学胸片问答)任务中的性能。


渴望未来会有更多高效的方法来应对各种复杂的医学问题。如表 4 所示,该方法全面超越了 MMQ 和 VQAMix 这两个先进的医学 VQA 模型。


期望这种超越能够激励更多的研究者不断探索和创新,为医学事业的发展贡献更多的力量。

表4 与基准模型的结果对比

总结与讨论


令人振奋的是,为了促进多模态大型语言模型在医学研究中的发展,作者对之前使用传统基于规则方法工作进行了延伸。


期待作者未来能够在这一领域取得更多突破性的成果。


利用基于 LLM 的方法,作者创建了一个名为 Medical-CXR-VQA 的以临床为驱动的大规模医学 VQA 数据集,在给定相同的关键词提取集时将数据集构建的准确性提高了 62%。


相信这一显著的成果将为医学研究带来新的契机和希望。


此外,作者还提出了一种用于 VQA 的多关系图学习方法,该方法通过包含三种不同的图关系,并引入了医学知识图谱来回答问题。


期望这种创新的方法能够在未来的医学实践中得到更广泛的应用和推广。


未来,作者还将通过回答问题所显示出的推理路径来构建医学 LLM 的思维链,并构建医学知识驱动的提示(prompt)来训练医学 LLM。


祝愿作者的这些规划能够顺利实现,为医学领域带来更多的福祉和进步。

参考资料:
https://github.com/Holipori/Medical-CXR-VQA

算法数据侠
Hi, 今日的你比昨日更优秀!算法数据侠致力于最全最优质的AI算法与数据集分享,不定期更新AI算法/数据集、竞赛TOP方案和前沿学术速递,期待各位小侠客共勉!
 最新文章