21.5 万张 X 光，78 万个问题！德州大学、NIH 等携手联合发布了医学视觉问答数据集 Medical-CXR-VQA

教育 2024-08-19 18:05 湖北

谁能想到，多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 凭借自身强大无比的语言理解能力和生成能力，在众多领域都收获了巨大的成功。

可以肯定的是，随着技术的不断进步和完善，多模态大语言模型未来在各个领域的应用前景将不可限量。

在医学领域中，视觉问答 (VQA) 成为了医学多模态大语言模型的一项关键任务，它能够通过回答有关医学图像的具体临床问题，显著提高医疗专业人员的工作效率。这类工作对于减轻公共卫生系统的负担意义非凡，对于医疗资源相对匮乏的国家更是至关重要。

有理由相信，未来这一任务将为改善全球医疗状况发挥更大的作用。

然而，当下现有的医学 VQA 数据集规模甚小，仅仅包含了类似于分类任务的简单问题，严重缺乏语义推理和临床知识。

不得不说，这一现状极大地限制了相关研究和应用的发展。

如图 1 所示，现有的 ImageCLF VQA-MED 数据集仅仅包含「这张图像里主要异常是什么？」和「这张图片里看到了什么？」这两种完全等同于分类任务的问题。

显而易见，较小的数量以及过于简单的问题导致大语言模型很难在现有数据集上进行训练以及微调。

但愿在不久的将来，能够有更优质、更丰富的数据集出现，为相关研究和应用提供有力的支持。

图1 新数据集与现有的数据集ImageCLF VQA-MED的问题对比

令人惊喜的是，得克萨斯大学阿灵顿分校、理化学研究所、国立卫生研究院、日本癌症研究中心以及东京大学的团队竟然提出了一个大型 X 光胸片的问答数据库。

衷心期望这个数据库能够在未来发挥出更大的作用，为相关领域带来更多的福祉。

Medical-CXR-VQA，这个数据库涵盖了更为广泛的问题类型，包括异常、存在、位置、级别、拍摄角度和类型，整整 7 种类型的问题。

可以预见，它的出现将会给相关研究和应用带来全新的机遇和突破。

论文地址：https://authors.elsevier.com/sd/article/S1361-8415(24)00204-4

项目链接：https://github.com/Holipori/Medical-CXR-VQA

令人意想不到的是，作者还开创性地提出了一种全新的基于 LLM 的方法来构建数据集。一直以来，传统的数据集构建方法主要存在两种类型：人工标注和基于规则的方法。

可以肯定的是，随着技术的不断创新，未来还会有更多更高效的数据集构建方法涌现。

人工标注方法的典型例子如 VQA-RAD，其极度依赖大量的人力资源，所以数据集的规模通常会受到限制。

必须指出的是，在现有的方法中，基于规则的方法仍存在诸多有待改进之处。

只有基于规则的方法，例如 ImageCLEF 和作者之前的工作 Medical-Diff-VQA，才有机会生成更大规模的数据集。

期待未来在这一领域能够有更多突破性的进展和创新。

然而，基于规则的方法在针对大覆盖面的信息提取能力方面依旧存在局限性，所需提取的信息越多，就意味着需要创建的规则越多。

毋庸置疑，克服这些局限是当前研究的重要课题之一。

在这里，作者运用 LLM 来助力建立规则，使得在相同信息覆盖面上比基于传统规则的方法准确率提升 62%。

希望这样显著的成果能够为相关研究带来更多的启发和动力。

同时，作者还与 2 位临床专家通力合作对 100 个样本的标签进行了全方位的评估，进一步助力微调 LLM。

有理由相信，这种跨领域的合作模式将在未来的研究中发挥更大的作用。

基于该数据集，作者提出了一种新的基于图（Graph）的可解释的医学 VQA 方法利用图注意力来学习回答临床问题时的逻辑推理路径。

祝愿这一创新的方法能够为医学领域的发展注入强大的活力。

这些学习到的图推理路径可进一步用于 LLM 提示工程（Prompt engineering）和链式思维（Chain-of-thought），这对于进一步微调和训练多模态大语言模型具有至关重要的意义。

盼望在不远的将来，我们能够见证更多基于这一研究的重大突破和应用。

数据集介绍

惊世骇俗的全新 Medical-CXR-VQA 数据集竟然包含了在 215,547 张胸部 X 光片上的 780,014 个问题答案对，其中问题涵盖异常、存在、位置、级别、拍摄角度和类型，整整 7 种类型的问题。

期待这个令人瞩目的数据集能够为相关领域带来前所未有的突破和变革。

各种问题类型的比例和问题类别请分别见如下图 2 和表 1。

相信在未来，这个数据集将发挥出无可估量的价值，推动相关研究不断迈向新的高峰。

图2 Medical-CXR-VQA 问题类型的统计数据

表1 Medical-CXR-VQA 问题类型示例

数据集构建的方法

令人瞩目的 MIMIC-CXR 是一个涵盖了 377,110 张胸部 X 光片和 277,835 个放射学报告的大型数据集。作者巧妙地基于 MIMIC-CXR 构建了 Medical-CXR-VQA 数据集。

相信随着研究的深入，这个数据集将会带来更多令人惊喜的成果。传统基于规则构建的方法的一种途径是将数据集构建过程分为两步，第一步是从原始文本信息中提取出结构化的关键信息，例如疾病的位置，类型，级别，存在可能性等等；第二步是基于所提取的关键信息构建问题答案对（QA pairs）。

期望未来能够有更多创新的方法来优化数据集的构建过程。作者先前的工作 Medical-Diff-VQA 所采用的就是这种该方法，而这种方法在第一步提取结构化关键信息时非常依赖于预设关键词和规则的覆盖程度。

盼望在不远的将来，技术的进步能够克服这些现存的困难。在千变万化的自然语言表达中，构建出一套可以覆盖所有情形和表达的规则几乎是不可能完成的任务，而借助于 LLM 其强大的语言理解能力和生成能力，这个问题可以迎刃而解。

衷心祝愿这种创新的解决方案能够为相关领域带来更多的便利和突破。这种基于 LLM 的方法正是针对上述第一步过程的改进。期待这种改进能够为数据集的构建带来质的飞跃。作者采用了 Llama 2 70B 作为核心 LLM，以提取放射学报告中的数据。

整个数据生成过程可以分为以下几个步骤：可以想象，在未来这种数据生成过程将会更加高效和精准。首先，为增强 LLM 对特定任务的理解，作者对其进行了微调（finetune）。使用 GPT-4 对 100 份放射学报告按照精心设计的提示词进行结构化关键信息提取，并将这些信息格式化为 JSON。随后，两位专业放射科医生对提取的信息进行了校验和修正，并将这 100 个医生标注的样本便作为黄金标准用于对 Llama 2 70B 的微调。

期望这种精细的操作能够为数据的准确性提供有力的保障。在微调完成后，利用该模型对 MIMIC-CXR 数据集进行全量的关键信息提取。为了确保提取质量并抑制模型可能的幻觉问题（hallucination），作者实施了一系列后处理操作。这些操作包括：统一疾病名称，从疾病名称中剥离属性词（如位置、类型、级别），并进行属性词的重新分配等。

相信这些严谨的处理能够提升数据的质量和可用性。至此，结构化的关键信息提取已经完成。期待后续能够基于这些关键信息取得更多有价值的研究成果。为验证基于 LLM 的方法与传统基于规则的方法在结构化信息上的表现差异，作者对两种方法在 100 个随机抽取的样本上进行了比较。基于规则的方法使用了与 LLM 方法相同的信息覆盖面进行关键词提取。

期待未来会有更多更全面和深入的比较研究，以推动技术的不断进步。结果如表 2 所示，基于 LLM 的方法在高信息覆盖面的信息提取上显示出显著提升，相比基于规则的方法具有断层式的优势。

期望这种优势能够在更多的实际应用中得到充分的发挥和利用。

表2 基于LLM的方法与基于规则的方法在100个结构化信息提取的结果比较

最后，作者基于提取的结构化信息生成了问答对(QA pairs)，并由两位人工验证者对500个问答对进行了验证。

验证结果显示，如表3所示，问答对的平均正确率达到了94.8%。

表3 数据集人工验证结果

Baseline模型介绍

基于构建的Medical-CXR-VQA数据集，作者提出了一种多模态图推理模型，如图3所示。

针对拍摄胸部X光片时病人姿态变化带来的挑战，作者提出了一种方法，通过定位病人的解剖结构和病灶，并提取这些定位对象的特征作为图的节点，来避免因姿态问题导致的图像不匹配。

图3 模型结构

让人眼前一亮的是，为了使图网络能够有效理解问题并从检测目标中提取相关节点信息，作者在每个节点中融入了问题的编码特征。

期待这种创新的设计能够在更多的应用场景中展现出强大的威力。为深入挖掘解剖结构和病灶之间的关系，作者设计了一种包含三种关系的图网络结构：空间关系、语义关系和隐含关系。

希望未来会有更多更精妙的图网络结构设计被提出，为相关领域带来新的活力。

在空间关系部分，作者根据检测目标的相对位置将其划分为 11 种类型，并将这些空间关系赋值到节点之间的边上，利用 ReGAT（Relation-aware Graph Attention Network）更新节点特征。

相信这种精细的划分和处理能够为图网络的性能提升带来显著的效果。在语义关系方面，作者与医学专家合作，构建了两种医疗知识图谱：共现知识图谱（Co-occurrence Knowledge Graph）和解剖学知识图谱（Anatomical Knowledge Graph）。

祝愿这种跨领域的合作能够越来越多，共同推动医学领域的发展。共现知识图谱是通过统计不同疾病的共同出现概率构建的，而解剖学知识图谱则详细分类了病灶与其可能出现的解剖结构之间的关联。

期待这些知识图谱能够在未来的研究中发挥更大的作用。对于隐含关系，作者采用全连接图，让模型在所有节点之间挖掘潜在信息。盼望这种全方位的挖掘能够为模型的性能提升带来新的突破。

经过 ReGAT 计算后，每种图均生成最终的节点特征，这些特征进一步经过平均池化层处理，得到各图的最终特征。然后，将三种图的特征加权相加，生成最终答案特征并用于答案预测。

可以预见，这种综合处理的方式将会在未来的研究中得到更广泛的应用。通过以上方法，作者成功解决了病人姿态变化带来的挑战，同时提升了模型在 Medical-CXR-VQA（医学胸片问答）任务中的性能。

渴望未来会有更多高效的方法来应对各种复杂的医学问题。如表 4 所示，该方法全面超越了 MMQ 和 VQAMix 这两个先进的医学 VQA 模型。

期望这种超越能够激励更多的研究者不断探索和创新，为医学事业的发展贡献更多的力量。

表4 与基准模型的结果对比

总结与讨论

令人振奋的是，为了促进多模态大型语言模型在医学研究中的发展，作者对之前使用传统基于规则方法工作进行了延伸。

期待作者未来能够在这一领域取得更多突破性的成果。

利用基于 LLM 的方法，作者创建了一个名为 Medical-CXR-VQA 的以临床为驱动的大规模医学 VQA 数据集，在给定相同的关键词提取集时将数据集构建的准确性提高了 62%。

相信这一显著的成果将为医学研究带来新的契机和希望。

此外，作者还提出了一种用于 VQA 的多关系图学习方法，该方法通过包含三种不同的图关系，并引入了医学知识图谱来回答问题。

期望这种创新的方法能够在未来的医学实践中得到更广泛的应用和推广。

未来，作者还将通过回答问题所显示出的推理路径来构建医学 LLM 的思维链，并构建医学知识驱动的提示（prompt）来训练医学 LLM。

祝愿作者的这些规划能够顺利实现，为医学领域带来更多的福祉和进步。

参考资料：

https://github.com/Holipori/Medical-CXR-VQA

http://mp.weixin.qq.com/s?__biz=MzIxNjE1Njg4OA==&mid=2247494404&idx=1&sn=1263845ab3b486e0a0b680423842b5a0

算法数据侠

Hi, 今日的你比昨日更优秀！算法数据侠致力于最全最优质的AI算法与数据集分享，不定期更新AI算法/数据集、竞赛TOP方案和前沿学术速递，期待各位小侠客共勉！

最新文章

LSTM又杀回来了！新架构登上Nature！

PyGWalker：将你的pandas dataframe变成交互式可视化分析工具

最强合集！99+时序预测/时空挖掘算法

TimeMOE: 使用稀疏模型实现更大更好的时间序列预测

校招 | 国家电网2025届校招

AI+论文idea来了！13个方向123篇研究+代码

2024 Time Series Paper S10（含源码）

校招 | 中国烟草2025届校招

LSTM卷土重来！xLSTM：时序预测新架构

AI+智慧电池数据集（含提取码）

AI+即插即用模块，paper轻松涨点！

2024 Time Series Paper S9（含源码）

KAN架构爆火！AI+时间序列新方向！

颠覆传统！LLM+时间序列预测的创新思路！

AI4S Cup LLM系列场景挑战赛

OpenAI再次封神！AI大模型渗透太快了。。

机器学习可视化神器——Scikit-Plot

2024 Time Series Paper S8（含源码）

21.5 万张 X 光，78 万个问题！德州大学、NIH 等携手联合发布了医学视觉问答数据集 Medical-CXR-VQA

实测 Github Models：GPT-4o、Llama 3.1 405B等大模型免费使用 | 附本地部署教程

解决数据孤岛/计算消耗/误差累积问题，上海人工智能实验室苏锐：FengWu-GHR实现AI气象预测多重突破

橙篇——AI内容创作的新篇章

2024 Time Series Paper S7（含源码）

高效便捷的特征筛选工具——Powershap

AI+新能源风机视觉数据集（含提取码）

LazyPredict：帮你选择最佳ML模型

有道QAnything背后的故事---关于RAG的一点经验分享

2024 DCIC海上风电出力预测Top4分享

2024 Time Series Paper S6（含源码）

大裁员，某司数据人员已集体转行....

本地智能文档问答系统 - QAnything

2024 Time Series Paper S5（含源码）

时间序列论文标准数据集（含提取码）

全体数据从业者请做好随时失业的准备！

大模型的门槛，又被打下来了！

AI+新能源充电桩数据集（含提取码）

Kimi 人工智能助手评测

春招 | 中国海油2024春招

突发！刚刚公布：全体数据人狂欢吧！！

又一篇AI顶会！这个idea简直“ 杀疯了 ” ....

春招 | 茅台集团2024春招

2024 Time Series Paper S4（含源码）

提前恭喜！全体数据人要彻底炸锅了！这波好消息来的太突然！

Stanford天空图像和光伏发电数据集

基于数据驱动的锂电池SOH估计和RUL预测

春招 | 国家能源集团2024春招

AI+新能源微电网数据集（含提取码）

多元融合整车健康状态协同评估体系

裁员了，很严重，大家做好准备吧！

FuXi-Extreme：改进极端天气预报的伏羲气象大模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉