点击上方蓝字关注我们
MMTN: Multi-Modal Memory Transformer Network for Image-Report Consistent Medical Report Generation
作者:
Yiming Cao, Lizhen Cui, Lei Zhang, Fuqiang Yu, Zhen Li, Yonghui Xu
作者单位:
山东大学
论文链接:
https://arxiv.org/pdf/2303.13818
代码链接:
https://github.com/xiongyiheng/Prior-RadGraphFormer
简介
基于 Transformer 的编码器-解码器架构来生成医学图像报告。提出了一种多模态记忆transformer网络(MMTN)来处理多模态医疗数据,以生成图像报告一致的医疗报告。一方面,MMTN 通过设计独特的编码器来关联和记忆医学图像和医学术语之间的关系,减少图像报告不一致的发生。另一方面,MMTN利用医学视觉和语言的跨模态互补性进行单词预测,进一步提高了生成医学报告的准确性。对三个真实数据集的广泛实验表明,MMTN 在自动指标和人工评估方面均比最先进的方法取得了显着的效果。
研究背景
现有的用于医学图像报告生成的transformer模型可以为医学图像生成文本叙述,但在充分利用医学多模态数据中的信息方面仍然受到限制,例如医学图像和报告之间的一致映射以及重要医学术语知识的利用,如图1所示.
图1:胃肠病学报告示例,其中对齐的图像和报告用不同颜色标记,医学术语知识用红色下划线表示。
已有工作的局限性可以归纳为以下几点:
(1)多模态医疗数据之间的关系尚未得到充分探索。
(2)生成的报告在精度和一致性方面都存在缺陷。大多数方法直接对齐图像视觉特征并报告语言特征以生成报告。图像和文本之间注释对应关系的限制导致这些方法生成的句子不准确和不一致。另外,医疗报告中一些重要的医学术语无法有效生成。
方法
图 2: MMTN 架构概述。
如图2所示,多模态记忆Transformer网络由三个核心模块组成,即MMTN编码器、MMTN解码器和多模态融合层。MMTN编码器负责将输入图像和医学术语处理为丰富的特征,旨在关联和记忆网格特征和术语特征之间的关系。 MMTN 解码器接收编码器的输出和报告的词嵌入以生成语义状态。多模态融合层通过自主学习丰富特征和语义状态的贡献来进行多模态特征的联合表示,以生成语义一致的医疗报告。
MMTN编码器
为了生成包含重要医学术语的报告,MMTN 编码器被设计为关联和记忆医学图像的视觉特征和医学术语表示之间的关系,这有助于弥合图像和报告之间的差距。 MMTN编码器由网格模块、术语BERT和内存增强模块组成。
(1)网格模块给定任何医学图像 I,网格模块被用于提取 I 的网格特征 。网格特征 通过预训练的 CNN 模型提取。具体来说,首先将图像I分为若干个等大小的区域,然后每个区域的每个网格特征是从CNN的最后一个卷积层单独提取的。随后,通过连接每个提取的网格特征来获得最终的网格特征 。网格模块可表示为:
其中表示网格模块,Concat表示连接操作,R是区域数量。
(2)术语BERT术语BERT表示与医疗报告相关的医学术语的上下文信息,有助于提高报告的上下文相关性。 论文中建立了两个胃肠道和胸部疾病常用医学术语的语料库。术语 BERT 模块由预训练的 BERT 模型和前馈网络组成,用于从定义的术语语料库中提取术语特征。该过程可以形式化为:
(3)记忆增强模块记忆增强模块用来关联和记忆医学图像和术语之间隐藏的相关性。记忆增强模块的输入是在注意力机制下由网格特征 和术语特征 生成的联合特征。采用一组用于自注意力的键和值来记忆医学图像和术语之间的语义上下文信息。键和值被实现为两个可学习矩阵,即 和 ,可以通过 SGD 更新。记忆增强模块中的特征交互是通过缩放点积注意力来计算的。随后,多头注意力的输出被应用到前馈层。最后,通过残差连接和归一化操作层得到丰富的特征。
MMTN解码器
MMTN 解码器根据先前生成的单词和丰富的特征来生成语义状态。利用词嵌入层提取医疗报告的文本序列特征,然后将其作为MMTN解码器第一层的输入。第二层是多头注意力操作,其 K 和 V 矩阵来自 MMTN 编码器的丰富特征 。 MMTN解码器可以形式化为:
其中 和 表示解码器的中间输出, 是语义状态.
多模态融合层
多模态融合层附加到 MMTN 解码器的上层,用于融合上述模块得到的两个模态特征,即丰富特征 和语义状态 。该模块结合两种模态的特征信息来计算视觉特征和语言特征对每个生成序列的贡献。定义如下:
训练
对于每个训练样本(I,r),其中I是一组图像,r是由groundtruth序列组成的相应医学报告,报告生成的损失L通过交叉熵损失最小化:
其中 θ 是 MMTN 模型的参数,s_1:M 表示报告 r 的真实序列。
实验
MMTN 与报告生成任务的三个数据集上的基线方法进行比较,自动指标的所有性能如表 1 所示。MMTN 在三个数据集上的 BLEU-n 和 CIDEr(或 METEOR)评分优于所有基线模型,证明了 MMTN 在生成医疗报告方面的有效性和准确性。
图 3:GE(第一行)、IU-CX(中间行)和 MIMIC-CXR(最后一行)上图像文本注意力映射的可视化。左侧部分是图像及其真实报告,右侧部分是 MMTN 生成的报告以及图像区域和医学术语的映射。从蓝色到红色的颜色代表权重从低到高。
如图3所示,MMTN 能够生成与真实情况一致的报告。在 GE 样本中,生成的报告准确报告病变的位置(即升结肠)和类型(即息肉)。同样,在 IU-CX 和 MIMIC-CXR 样本中,MMTN 也准确地描述了大多数类型的病变,例如混浊、空洞病变和过度膨胀。此外,MMTN还生成正常区域的描述,例如“粘膜光滑”、“无胸腔积液”和“无局灶性实变”。正常的描述生成有助于报告的连贯性和完整性。值得注意的是,MMTN生成的报告几乎涵盖了所有常见的医学术语。
致谢作者,转载请注明出处,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(上)
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(下)
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习