综述|多模态学习是否为医疗保健领域提供了通用智能?

2024-12-08 18:37   北京  

点击下方卡片,关注「魔方AI空间」公众号

作者:Qika Lin 等 新加坡国立大学

论文链接https://www.sciencedirect.com/science/article/pii/S1566253524005736

新加坡国立大学Mengling Feng课题组联合北京邮电大学、西北工业大学、西安交通大学和南洋理工大学于2024年11月在顶级期刊Information Fusion上发布综述文章“Has multimodal learning delivered universal intelligence in healthcare? A comprehensive survey”

本文旨在探索当前先进的多模态学习技术在智能保健领域的研究现状,讨论了当前存在的挑战性问题、并提出了未来研究方向。

摘  要

人工智能的迅速发展正在改变智能健康和智能医疗领域。多模态学习作为一项重要的学习技术,因其能够整合互补数据、综合信息,并具有巨大的应用前景,正受到越来越多的关注。许多研究人员正在专注于这一领域,展开广泛的研究,并建立了许多智能系统。随之而来的问题是:多模态学习是否已经在医疗保健领域实现了通用智能?为了回答这一问题,本综述从三个独特角度出发,进行了全面的分析。

首先,综述了医学多模态学习的研究进展,包括数据集、任务导向方法和通用基础模型。

基于此,进一步探讨了五个核心问题,旨在探究先进技术在医疗保健领域的实际影响,从数据和技术到效果和挑战。结论是,目前技术尚未在医疗领域实现通用智能,相关技术仍在不断发展中

最后,根据综述和讨论的结果,提出了十个潜在的研究方向,以推动多模态融合技术在医疗保健领域的发展,向着实现通用智能的目标迈进。

全文速览

近年来,人工智能(AI)在医疗保健和医学领域取得了显著进展。人工智能技术已经在各种医疗场景中显示出巨大的潜力,包括医学成像分析、疾病诊断、药物发现、个性化治疗和医疗QA(问答),旨在提供自动化和定制的专家级建议或建议,以减轻患者和医生的负担。然而,这些研究或应用通常只考虑单模态数据,例如医学图像或文本,这可能会导致性能下降,并且可能无法准确地代表真实的应用场景。

医疗领域多模态学习示意图

随着医疗保健领域不断产生越来越多的数据,从医学图像和临床记录到基因组图谱和生物传感器读数,对有效的多模态学习方法的需求变得至关重要。

一方面,能够从这些异构数据流中集成和学习的多模态人工智能模型有望解开对复杂医学现象的全面细致理解。通过捕获互补的语义信息和不同模态之间的复杂关系,这些模型为临床医生提供了患者状况的整体视图,从而实现更主动的监测、准确的诊断和个性化的治疗计划。

另一方面,多模态学习进一步拓宽了智能模型在医疗领域的应用前景。例如,如果患者需要询问他们的皮肤状况,口头表达(例如,使用传统的语言QA系统)可能具有挑战性。视觉问答(VQA)系统变得非常有用,因为它可以结合患者上传的直观图像来做出更准确和全面的诊断。鉴于多式联运医疗的重要研究意义和应用价值,近年来对这一主题的研究越来越多,并有明显的上升趋势。

技术的进步已经从使用特定的模型,如卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)和Transformer,发展到采用涉及预训练和微调的策略。后者已经成为流行的焦点和趋势话题,它受到了通用领域中强大的基础模型(FMs)的启发,如CLIP、ChatGPT、GPT-4和多模态大语言模型(MLLM)。这些研究在多模态医疗保健的许多任务中取得了重大进展,例如多模态图像融合、报告生成(RG)、VQA、跨模态检索、文本增强图像处理和跨模态图像生成。这种进化最终导致了能够处理各种医疗任务的FMs的发展。尽管这些看似巨大的成就,目前尚不清楚现有的研究取得了多大进展。更重要的是,医生和病人之间在将现有方法应用于现实世界场景时的信任是一个重要的问题。

为此,开展这项调查,以回答以下开放式研究问题:多模态学习是否在医疗保健中提供了通用智能?即,多模态学习是否提供了一种具有广泛认知能力、对各种情况的理解和实际应用的高级人工智能医疗形式?通过回答这个问题,论文的目标是为研究人员提供一个全面的全球概况,了解为实现这一目标所取得的进展,需要解决的剩余挑战,以及需要采取的必要步骤。

为此,论文从以下三个维度进行了分析:1)首先从数据集、任务导向技术和通用模型的角度全面回顾了医学多模态学习的当前进展。2)论文从五个方面讨论开放问题,以探讨当前先进技术在医疗保健应用中的实际影响,从数据和技术到绩效和道德。论文发现目前的技术还没有达到这个目标。3)根据上述评论和讨论,论文总结了十个有前景的方向,为深入研究医疗保健中的普遍智能提供了机会。

鉴于医疗领域数据的内在稀有性、特异性和专业性,将大规模高质量的注释数据用于训练是具有挑战性和不切实际的。因此,许多研究引入了一些自监督策略来构建通用的基础模型(FMs),他们通常是指通过自监督学习对大规模数据进行预训练来获取广泛表示的一般知识模型。随后,可以通过微调使其适用于下游任务。

FMs有以下几个关键特征:

(1)在大规模通用数据集上进行预训练;

(2)自监督学习策略,如对比学习和掩码语言建模;

(3)通用知识表示,这意味着FM学习到一种通用的、独立于任务的知识表示,只需少量微调,即可应用于各种不同的下游任务。

根据训练策略和应用,它们可以分为两类:对比FMs(CFMs)和多模态大语言模型(MLLMs)。

多模态医疗领域的基础模型示意图(包含CFMs和MLLMs)

CFM专注于通过联合优化图像编码器和文本编码器来学习一个共同的跨模态表示空间,以最大限度地提高正样本(图像-文本对)的相似性得分,并最小化负样本的相似性分数。

医疗领域的典型CFMs如下表所示。

MLLM更侧重于对内在的跨模态关系进行建模,实现跨模态计算,并能够生成文本输出。

受益于大模型(LLM)的快速发展,MLLM(也称为视觉语言模型VLMs),因其强大的表征能力和处理多模态数据的出色能力而受到研究人员的广泛关注。它们的总体建模目标是基于图像和之前的文本token进行下一个token预测。

医疗领域典型的MLLMs如下表所示,文章从模态编码器和跨模态适配器、微调过程和技术细节、微调数据、评估基准、医疗MLLM应用五个方面展开介绍。

根据以上综述和讨论,论文概述了以下十个潜在的未来研究方向:高质量和多样化的数据、包含更多类型的模态、细粒度和高分辨率的图像建模、有效和高效的知识融合、多模态输入和多模态输出、迈向统一模型、激发基础模型的全部潜力、全面和公正的评估协议、增强面向用户的透明度和可解释性、最大限度地降低道德风险。

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!

推荐阅读

技术专栏:多模态大模型最新技术解读专栏 |AI视频最新技术解读专栏 |大模型基础入门系列专栏 |视频内容理解技术专栏 |从零走向AGI系列

技术资讯:魔方AI新视界

技术综述:一文掌握Video Diffusion Model视频扩散模型 |YOLO系列的十年全面综述 |人体视频生成技术:挑战、方法和见解


魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章