21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

创业 2024-09-03 08:22 北京

多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，限制了模型训练和微调。为了解决这一问题，研究团队提出了Medical-CXR-VQA，这是一个大规模的X光胸片问答数据库，覆盖了更广泛的问题类型，包括异常、存在、位置等七种问题类型，为构建更准确的医学VQA模型提供了基础。

论文标题：
Interpretable medical image Visual Question Answering via multi-modal relationship graph learning
论文地址：
https://authors.elsevier.com/sd/article/S1361-8415(24)00204-4
项目链接：
https://github.com/Holipori/Medical-CXR-VQA

多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力，在各个领域取得了巨大成功。

在医学领域上，视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务，它可以通过回答针对医学图像的具体临床问题，有效提高医疗专业人员的效率。这一类工作可以减轻公共卫生系统的负担，对于医疗资源贫乏的国家来说尤其重要。

然而，现有的医学 VQA 数据集规模较小，仅包含相当于分类任务的简单问题，缺乏语义推理和临床知识。

如图1所示，现有的ImageCLF VQA-MED数据集仅包含「这张图像里主要异常是什么？」和「这张图片里看到了什么？」这两种完全相当于分类任务的问题。

较小的数量以及过于简单的问题使得大语言模型很难在现有数据集上训练以及微调。

图1 新数据集与现有的数据集ImageCLF VQA-MED的问题对比

为此，得克萨斯大学阿灵顿分校、理化学研究所、国立卫生研究院、日本癌症研究中心以及东京大学的团队提出了一个大型X光胸片的问答数据库。

Medical-CXR-VQA，这个数据库覆盖了更大范围的问题类型，包含异常、存在、位置、级别、拍摄角度和类型，共7种类型的问题。

同时，作者还提出了一种新的基于LLM的方法来构建数据集。传统的数据集构建方法中主要包括两种类型：人工标注和基于规则的方法。

人工标注方法的典型示例如VQA-RAD，其依赖于大量人力资源，因而数据集的规模往往受限。

只有基于规则的方法，例如ImageCLEF和作者之前的工作Medical-Diff-VQA，才可能生成更大规模数据集。

然而，基于规则的方法对于大覆盖面的信息提取能力仍然有限，所需要提取的信息越多，意味着需要创建的规则越多。

在这里，作者使用LLM来帮助建立规则，使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。

同时，作者还与2位临床专家合作对100个样本的标签进行了全面的评估，进一步帮助微调LLM。

基于该数据集，作者提出了一种新的基于图（Graph）的可解释的医学VQA方法利用图注意力来学习回答临床问题时的逻辑推理路径。

这些学习到的图推理路径可进一步用于 LLM 提示工程（Prompt engineering）和链式思维（Chain-of-thought），这对于进一步微调和训练多模态大语言模型有重要意义。

一、数据集介绍

全新的Medical-CXR-VQA 数据集包括在215,547张胸部X光片上的780,014个问题答案对，问题含盖异常，存在，位置，级别，拍摄角度和类型，共7种类型的问题。各种问题类型的比例和问题类别请分别见如下图2和表1。

图2 Medical-CXR-VQA 问题类型的统计数据

表1 Medical-CXR-VQA 问题类型示例

二、数据集构建的方法

MIMIC-CXR是一个包括377,110张胸部X光片和277,835个放射学报告的大型数据集。作者基于MIMIC-CXR构建了Medical-CXR-VQA数据集。

传统基于规则构建的方法的一种途径是将数据集构建过程分为两步，第一步是从原始文本信息中提取出结构化的关键信息，例如疾病的位置，类型，级别，存在可能性等等；第二步是基于所提取的关键信息构建问题答案对（QA pairs）。

作者先前的工作Medical-Diff-VQA所采用的就是这种该方法，而这种方法在第一步提取结构化关键信息时非常依赖于预设关键词和规则的覆盖程度。

在千变万化的自然语言表达中，构建出一套可以覆盖所有情形和表达的规则几乎是不可能完成的任务，而借助于LLM其强大的语言理解能力和生成能力，这个问题可以迎刃而解。

这种基于LLM的方法正是针对上述第一步过程的改进。

作者采用了Llama 2 70B 作为核心LLM，以提取放射学报告中的数据。整个数据生成过程可以分为以下几个步骤：

首先，为增强LLM对特定任务的理解，作者对其进行了微调（finetune）。使用GPT-4对100份放射学报告按照精心设计的提示词进行结构化关键信息提取，并将这些信息格式化为JSON。随后，两位专业放射科医生对提取的信息进行了校验和修正，并将这100个医生标注的样本便作为黄金标准用于对Llama 2 70B的微调。

在微调完成后，利用该模型对MIMIC-CXR数据集进行全量的关键信息提取。为了确保提取质量并抑制模型可能的幻觉问题（hallucination），作者实施了一系列后处理操作。这些操作包括：统一疾病名称，从疾病名称中剥离属性词（如位置、类型、级别），并进行属性词的重新分配等。

至此，结构化的关键信息提取已经完成。

为验证基于LLM的方法与传统基于规则的方法在结构化信息上的表现差异，作者对两种方法在100个随机抽取的样本上进行了比较。基于规则的方法使用了与LLM方法相同的信息覆盖面进行关键词提取。

结果如表2所示，基于LLM的方法在高信息覆盖面的信息提取上显示出显著提升，相比基于规则的方法具有断层式的优势。

表2 基于LLM的方法与基于规则的方法在100个结构化信息提取的结果比较

最后，作者基于提取的结构化信息生成了问答对(QA pairs)，并由两位人工验证者对500个问答对进行了验证。

验证结果显示，如表3所示，问答对的平均正确率达到了94.8%。

表3 数据集人工验证结果

三、Baseline模型介绍

基于构建的Medical-CXR-VQA数据集，作者提出了一种多模态图推理模型，如图3所示。

针对拍摄胸部X光片时病人姿态变化带来的挑战，作者提出了一种方法，通过定位病人的解剖结构和病灶，并提取这些定位对象的特征作为图的节点，来避免因姿态问题导致的图像不匹配。

图3 模型结构

为了使图网络能够有效理解问题并从检测目标中提取相关节点信息，作者在每个节点中融入了问题的编码特征。

为深入挖掘解剖结构和病灶之间的关系，作者设计了一种包含三种关系的图网络结构：空间关系、语义关系和隐含关系。

在空间关系部分，作者根据检测目标的相对位置将其划分为11种类型，并将这些空间关系赋值到节点之间的边上，利用ReGAT（Relation-aware Graph Attention Network）更新节点特征。
在语义关系方面，作者与医学专家合作，构建了两种医疗知识图谱：共现知识图谱（Co-occurrence Knowledge Graph）和解剖学知识图谱（Anatomical Knowledge Graph）。共现知识图谱是通过统计不同疾病的共同出现概率构建的，而解剖学知识图谱则详细分类了病灶与其可能出现的解剖结构之间的关联。
对于隐含关系，作者采用全连接图，让模型在所有节点之间挖掘潜在信息。

经过ReGAT计算后，每种图均生成最终的节点特征，这些特征进一步经过平均池化层处理，得到各图的最终特征。然后，将三种图的特征加权相加，生成最终答案特征并用于答案预测。

通过以上方法，作者成功解决了病人姿态变化带来的挑战，同时提升了模型在Medical-CXR-VQA（医学胸片问答）任务中的性能。

如表4所示，该方法全面超越了MMQ和VQAMix这两个先进的医学VQA模型。

表4 与基准模型的结果对比

四、总结与讨论

为了促进多模态大型语言模型在医学研究中的发展，作者对之前使用传统基于规则方法工作进行了延伸。

利用基于LLM的方法，作者创建了一个名为Medical-CXR-VQA的以临床为驱动的大规模医学VQA数据集，在给定相同的关键词提取集时将数据集构建的准确性提高了62%。

此外，作者还提出了一种用于VQA的多关系图学习方法，该方法通过包含三种不同的图关系，并引入了医学知识图谱来回答问题。

未来，作者还将通过回答问题所显示出的推理路径来构建医学LLM的思维链，并构建医学知识驱动的提示（prompt）来训练医学LLM。

来源：公众号【新智元】

llustration From IconScout By Imamfathoni0

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513648&idx=2&sn=0dc7d155471d86bf93c40b490e95473d

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉