刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

文摘 2024-10-29 08:31 英国

点击上方蓝字关注我们

MMTN: Multi-Modal Memory Transformer Network for Image-Report Consistent Medical Report Generation

作者:

Yiming Cao, Lizhen Cui, Lei Zhang, Fuqiang Yu, Zhen Li, Yonghui Xu

作者单位:

山东大学

论文链接:

https://arxiv.org/pdf/2303.13818

代码链接:

https://github.com/xiongyiheng/Prior-RadGraphFormer

简介

基于 Transformer 的编码器-解码器架构来生成医学图像报告。提出了一种多模态记忆transformer网络（MMTN）来处理多模态医疗数据，以生成图像报告一致的医疗报告。一方面，MMTN 通过设计独特的编码器来关联和记忆医学图像和医学术语之间的关系，减少图像报告不一致的发生。另一方面，MMTN利用医学视觉和语言的跨模态互补性进行单词预测，进一步提高了生成医学报告的准确性。对三个真实数据集的广泛实验表明，MMTN 在自动指标和人工评估方面均比最先进的方法取得了显着的效果。

研究背景

现有的用于医学图像报告生成的transformer模型可以为医学图像生成文本叙述，但在充分利用医学多模态数据中的信息方面仍然受到限制，例如医学图像和报告之间的一致映射以及重要医学术语知识的利用，如图1所示.

图1：胃肠病学报告示例，其中对齐的图像和报告用不同颜色标记，医学术语知识用红色下划线表示。

已有工作的局限性可以归纳为以下几点：

（1）多模态医疗数据之间的关系尚未得到充分探索。

（2）生成的报告在精度和一致性方面都存在缺陷。大多数方法直接对齐图像视觉特征并报告语言特征以生成报告。图像和文本之间注释对应关系的限制导致这些方法生成的句子不准确和不一致。另外，医疗报告中一些重要的医学术语无法有效生成。

方法

图 2： MMTN 架构概述。

如图2所示，多模态记忆Transformer网络由三个核心模块组成，即MMTN编码器、MMTN解码器和多模态融合层。MMTN编码器负责将输入图像和医学术语处理为丰富的特征，旨在关联和记忆网格特征和术语特征之间的关系。 MMTN 解码器接收编码器的输出和报告的词嵌入以生成语义状态。多模态融合层通过自主学习丰富特征和语义状态的贡献来进行多模态特征的联合表示，以生成语义一致的医疗报告。

MMTN编码器

为了生成包含重要医学术语的报告，MMTN 编码器被设计为关联和记忆医学图像的视觉特征和医学术语表示之间的关系，这有助于弥合图像和报告之间的差距。 MMTN编码器由网格模块、术语BERT和内存增强模块组成。

（1）网格模块给定任何医学图像 I，网格模块被用于提取 I 的网格特征。网格特征通过预训练的 CNN 模型提取。具体来说，首先将图像I分为若干个等大小的区域，然后每个区域的每个网格特征是从CNN的最后一个卷积层单独提取的。随后，通过连接每个提取的网格特征来获得最终的网格特征。网格模块可表示为:

其中表示网格模块，Concat表示连接操作，R是区域数量。

（2）术语BERT术语BERT表示与医疗报告相关的医学术语的上下文信息，有助于提高报告的上下文相关性。论文中建立了两个胃肠道和胸部疾病常用医学术语的语料库。术语 BERT 模块由预训练的 BERT 模型和前馈网络组成，用于从定义的术语语料库中提取术语特征。该过程可以形式化为：

（3）记忆增强模块记忆增强模块用来关联和记忆医学图像和术语之间隐藏的相关性。记忆增强模块的输入是在注意力机制下由网格特征和术语特征生成的联合特征。采用一组用于自注意力的键和值来记忆医学图像和术语之间的语义上下文信息。键和值被实现为两个可学习矩阵，即和，可以通过 SGD 更新。记忆增强模块中的特征交互是通过缩放点积注意力来计算的。随后，多头注意力的输出被应用到前馈层。最后，通过残差连接和归一化操作层得到丰富的特征。

MMTN解码器

MMTN 解码器根据先前生成的单词和丰富的特征来生成语义状态。利用词嵌入层提取医疗报告的文本序列特征，然后将其作为MMTN解码器第一层的输入。第二层是多头注意力操作，其 K 和 V 矩阵来自 MMTN 编码器的丰富特征。 MMTN解码器可以形式化为：

其中和表示解码器的中间输出，是语义状态.

多模态融合层

多模态融合层附加到 MMTN 解码器的上层，用于融合上述模块得到的两个模态特征，即丰富特征和语义状态。该模块结合两种模态的特征信息来计算视觉特征和语言特征对每个生成序列的贡献。定义如下：

训练

对于每个训练样本（I，r），其中I是一组图像，r是由groundtruth序列组成的相应医学报告，报告生成的损失L通过交叉熵损失最小化：

其中 θ 是 MMTN 模型的参数，s_1:M 表示报告 r 的真实序列。

实验

MMTN 与报告生成任务的三个数据集上的基线方法进行比较，自动指标的所有性能如表 1 所示。MMTN 在三个数据集上的 BLEU-n 和 CIDEr（或 METEOR）评分优于所有基线模型，证明了 MMTN 在生成医疗报告方面的有效性和准确性。

图 3：GE（第一行）、IU-CX（中间行）和 MIMIC-CXR（最后一行）上图像文本注意力映射的可视化。左侧部分是图像及其真实报告，右侧部分是 MMTN 生成的报告以及图像区域和医学术语的映射。从蓝色到红色的颜色代表权重从低到高。

如图3所示,MMTN 能够生成与真实情况一致的报告。在 GE 样本中，生成的报告准确报告病变的位置（即升结肠）和类型（即息肉）。同样，在 IU-CX 和 MIMIC-CXR 样本中，MMTN 也准确地描述了大多数类型的病变，例如混浊、空洞病变和过度膨胀。此外，MMTN还生成正常区域的描述，例如“粘膜光滑”、“无胸腔积液”和“无局灶性实变”。正常的描述生成有助于报告的连贯性和完整性。值得注意的是，MMTN生成的报告几乎涵盖了所有常见的医学术语。

致谢作者，转载请注明出处，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉