2024盘点：医学AI大模型，从通用视觉到医疗影像

学术 2024-12-30 16:50 北京

‍‍

医学大模型研究在2024年呈井喷状态，仅病理相关基础模型在Nature和Nature Medicine就有多篇论文发表。《NEJM医学前沿》邀请上海交通大学清源研究院院长张少霆教授、王德泉助理教授和上海申康医院发展中心主任王兴鹏教授总结2024年医学大模型重要研究进展。

《NEJM医学前沿》由嘉会医学研究和教育集团（J-Med）与《新英格兰医学杂志》（NEJM）联手打造。我们连续第7年推出重要临床研究盘点，敬请期待。

王德泉†，王兴鹏‡，张少霆†§*

†上海交通大学清源研究院；‡上海申康医院发展中心；§上海人工智能实验室

*通讯作者

随着基础模型在自然语言处理及计算机视觉等领域的突破性进展，其在医学领域的应用潜力也逐渐受到广泛关注。2024年，医学基础模型的发展主旋律为从通用领域逐步细化到医疗各领域[1]。这一过程不仅包括从通用技术向医疗领域的迁移，还进一步深入特定医疗模态及具体器官的分析中。在此框架下，基础模型在疾病诊断、治疗规划等关键医疗任务中展现出了巨大的应用潜力。相比于传统的任务特定模型，基础模型通过自监督学习、多模态融合、适应性调整等策略，显著提升泛化能力的同时，有效减轻了对大量标注数据的依赖。许多研究针对医学领域的不同模态、特定器官与任务提出了一系列创新方法，显著提升了基础模型在专业医学场景中的适应性和专用性。

图1. 2024年医学基础模型的发展主旋律[1]：从通用领域到医疗专用，再到特定模态和器官，医疗基础模型展现了巨大应用潜力

2024年，上海人工智能实验室在Medical Image Analysis杂志推出了全球首个医疗图像基础模型特刊Foundation Models for Medical Image Analysis[2]。该特刊聚焦于医学图像分析基础模型的研究，为解决临床应用中的复杂多样的问题提供了有力支持，特别关注多模态数据和长尾场景等重要研究课题。值此年末，本文将详细梳理2024年医疗影像领域基础模型的关键进展，涵盖从方法论创新到临床应用转化的一系列前沿。

从通用基础模型到医疗基础模型的跨越

近年来，随着海量异构数据处理需求的日益增长，基于预训练的基础模型（foundation model）在自然语言处理与计算机视觉等领域备受关注。以Transformer[3]架构为基础，Vision Transformer（ViT）[4]、对比语言-图像预训练模型（CLIP）[5]以及分割万物模型（SAM）[6]等标志性工作相继涌现。这些模型均采用了大规模数据集进行预训练，从而能够捕捉自然图像中广泛存在的特征和模式。

今年在NEJM AI上发表的一篇文章[7]指出，直接将通用基础模型应用于医疗专精任务往往难以取得理想的效果。鉴于此，医疗领域的研究者们开始探索将通用模型的架构和思路迁移到医疗任务中[8]。这一过程中最突出的问题之一是医学标注数据的稀缺。虽然少量示例数据的训练在某些任务中是可行的，但医学影像标注成本高昂且耗时，使得全面迁移通用基础模型的能力仍面临阻碍。这一现实问题成为了在医疗领域训练大规模基础模型的主要瓶颈。针对这一问题，许多研究者提出了不同的解决方案。

在多模态医疗领域，NEJM AI上的一项研究提出了一种通用型生物医学人工智能系统Med-PaLM Multimodal [9]。该系统可以灵活编码和解释包括临床语言、医学影像和基因组数据在内的多模态生物医学信息。它基于全新的多模态基准MultiMedBench 测试，在 14 项任务中均达到或超越当前先进模型水平，并在胸部 X 光报告生成任务中获得 40.5% 的临床医生偏好率。该研究展示了通用型生物医学 AI 系统在推动跨模态整合与临床应用方面的潜力。同样致力于推动多模态医疗基础模型研究，微软研究院在Nature Methods上发表了BiomedParse[10]，这是一种面向生物医学图像分析的基础模型，能够在九种成像模式下同时完成分割、检测和识别任务。通过引入联合学习策略，BiomedParse不仅显著提升了单项任务的准确性，还实现了基于文本描述分割所有相关对象的新功能。发表于Nature Medicine的开源轻量级通用生物医学视觉-语言基础模型BiomedGPT[11]，则在多种生物医学任务上展现先进性能。BiomedGPT在25项实验中有16项达到先进水平，并在人类评估中表现出色，总结能力接近人类专家。

在医学影像领域，也有很多工作研究如何针对特定医疗应用构建医疗基础模型，如视网膜影像基础模型[12]、皮肤影像基础模型[13]、病理影像基础模型[14-17]、放射影像基础模型[18]等。具体而言，发表在Nature的全片病理基础模型Prov-GigaPath [17]，使用了来自 171,189 张全片病理图像、涵盖31种主要组织类型的 1.3 亿张图像切片进行预训练。该模型实现了超长输入的上下文学习，并在 26 项数字病理学任务中显著超越现有方法。Prov-GigaPath展示了全片建模和真实世界数据在数字病理学中的关键作用，并提供了开源权重供研究者使用。

以图像分割任务为例，医疗影像分析往往要求模型能够同时捕捉全局依赖关系和局部细节特征，而传统的卷积神经网络虽然在局部特征提取方面表现出色，但在全局信息建模时存在局限。随着Transformer架构的引入，这一问题得到了有效解决。TransUNet[19]结合了Transformer的全局建模能力与经典UNet的分层特性，在编码-解码结构中嵌入自注意力机制，成功实现了对全局特征和局部细节的高效捕捉。在图像分割任务中，TransUNet在多器官轮廓精准分割方面表现优异，尤其在CT等高分辨率医学影像中，显著提升了分割精度，为医学影像分析提供了强有力的支持。

今年3月，中国科学院深圳先进技术研究院提出的Swin-UMamba[20]进一步推动了图像分割任务中的模型架构优化。与TransUNet不同，Swin-UMamba基于Swin Transformer[21]的层次化特性，通过局部自注意力机制有效捕捉多尺度特征，同时充分利用了在ImageNet上预训练的优势，结合基础模型在自然图像上学到的知识，大幅提升了模型在医疗影像任务中的数据效率和性能，展现了出色的迁移能力。Swin-UMamba能够跨越多种模态（如MRI、内镜图像、显微镜图像等）实现精确分割。

尽管借鉴了通用基础模型的架构设计，从头训练一个医学基础模型仍然十分昂贵。因此，一些研究者专注于高效利用和调整现有基础模型，使其能够快速适应新的医学任务和环境。

参数高效微调（PEFT）正是这一领域的重要策略。PEFT不改变预训练模型的大部分参数，仅添加或调整少量参数进行模型微调，能够显著减少训练过程中的计算量和资源消耗，同时保持甚至提升模型在新任务上的表现。举例来说，PneumoLLM模型[22]将文本分支替换为分类头以减少可学习参数量，显著降低了大语言模型在诊断应用中的迁移难度。它还设计了上下文多令牌引擎以自适应生成诊断令牌，以及用于实现图像到诊断令牌信息传递的信息发射器模块。

与此同时，今年的许多工作[23-25]基于SAM（Segment Anything Model）这一先进通用基础分割模型，通过添加适配器并在下游任务上微调，实现了对肿瘤、外科场景、3D医疗图像的精细分割。具体来说，香港中文大学的研究人员提出了一种将SAM从2D适应到3D医学图像分割的方法[23] 。该方法通过修改网络架构的方式处理3D数据，同时保持大部分预训练参数不变，仅添加少量空间适配器。在四类肿瘤分割任务中，该方法在肾脏、胰腺和结肠癌分割方面取得显著提升，在肝脏肿瘤分割方面达到相当高水平。而麻省总医院与哈佛医学院先进医学计算与分析中心的研究者则提出了与模态无关的MA-SAM框架[24]，通过参数高效微调和3D适配器提取第三维信息，实现了SAM在容积和视频医疗数据上的适应。

此外，今年还有一些研究利用提示学习方法来促进通用基础模型向医疗场景的迁移。例如，电子科技大学深圳高等研究院的研究者提出的多模态提示学习方法[26]，通过GPT-4识别疾病概念并优化图像块相关性，从而为预训练基础模型提供精确提示；而北京大学的研究人员则通过嵌入式提示调优（EPT）提高了医学图像分类任务中的微调效率和小样本学习能力[27]。今年7月，上海人工智能研究院提出的PathoTune框架[28]通过多模态提示调优，有效弥补了基础模型与病理任务之间的差距，显著提高了对病理任务的适应性。该框架同时利用视觉和文本提示，在多个数据集上表现优于单模态提示调优方法，并能使自然图像预训练的通用基础模型直接适应病理任务，超越了传统的病理基础模型。

模态专用基础模型：

精准聚焦模态特性

随着对医疗数据复杂性的深入理解，越来越多的研究开始聚焦于每种数据模态的特性。今年以来，许多新的医学影像数据集相继发布，涵盖了包括CT[29]、MRI[30]、X-光片[31,32]和病理图像[33,34]在内的多种医学图像模态。基于此，研究者们训练了专门用于特定模态的模态专用基础模型。

具体来说，对于X射线模态数据，德克萨斯大学的研究人员构建了一个包含35万余张胸部X光片、呈现典型长尾分布特征的公开基准数据集[32]，每张图像都标注了26种临床发现中的一种或多种。研究团队系统总结了多标签医学图像分类中的成功经验，提出了应对长尾数据的优化策略。此外，他们利用视觉-语言基础模型完了成零样本和少样本疾病分类任务。

在医疗问答领域，德克萨斯大学的研究者构建了包含针对胸片的Medical-CXR-VQA详细临床问题数据集[31]，该研究提出了基于空间关系图、语义关系图和隐式关系图的视觉问答方法，通过图注意力机制学习逻辑推理路径。实验结果表明，该方法在标签提取任务上的准确率提升了62%，在临床应用中展现出较强的证据支持能力和可靠性。

在医学影像方面，Aignostics公司发布了目前最大规模的腹部CT数据集AbdomenAtlas[29]。该数据集涵盖了广泛的人群特征及多种设备类型，共收录了来自112家医疗机构的20,460例三维CT影像。研究团队由10名放射科医生组成，采用人工智能辅助标注方法，完成了67.3万个高质量解剖结构掩码的标注工作。他们首先对5,246例影像中的22种解剖结构进行人工标注，随后利用半自动化流程，由放射科医生优化模型预测的标注结果。此外，上海交通大学与上海人工智能实验室发布了3D医学图像定位基础模型MedLAM[35]，其在统一解剖映射（UAM）和多尺度相似性（MSS）两个任务上训练而成，使用了超过1.4万张CT扫描。MedLAM能够大幅降低SAM模型对3D医学图像点位信息的人工标注需求。

更多专注于特定模态的医疗数据集的出现，推动了精准聚焦于模态特性的方法，极大促进了医疗基础模型的发展。一批新的研究工作不仅使模型能够学习常规的图像特征，还根据不同图像模态和应用场景设计了独特的结构和方法。例如，针对超声图像在低质量情况下噪声较多的问题，复旦大学的研究者们提出了面向超声图像的通用基础模型USFM[36]。该模型基于超过200万张多器官超声图像进行训练，采用空间-频率双重掩码建模方法处理低质量图像，在分割、分类和图像增强等多个任务中表现出色。上海人工智能研究院的研究者们则针对超声图像信噪比高的特点，提出了去模糊掩码图像建模方法[37]。该模型在预训练阶段融入去模糊任务，并结合了多尺度层次编码器架构，在28万张超声图像实验中取得了显著成果，为超声图像分析提供了专门的解决方案。

在病理切片分析方面，上海交通大学清源研究院的研究人员提出了PathoDuet框架[38]，针对病理切片图像的特点，设计了跨尺度定位和跨染色迁移两个预训练任务，有效利用了图像放大倍数和染色方式之间的关联性。PathoDuet在结直肠癌分型和免疫组化标记物表达预测等任务中优于现有方法。此外，通用病理基础模型UNI[39]在超过100万张诊断切片上进行了大规模无监督学习，并在34个任务中展现了卓越的性能。该模型支持分辨率无关分类、少样本学习等，并具备对108种癌症类型的泛化分类能力。

今年9月，哈佛、斯坦福大学等多个研究机构在Nature发表CHIEF模型[40]，采用无监督和弱监督相结合的双预训练策略，分别用于提取局部和全局的图像特征。在 19,491张图像上的测试表明，CHIEF 在癌细胞检测、肿瘤来源识别、分子特征表征和预后预测等任务中，显著优于现有的深度学习方法。在Nature Medicine上发表的计算病理学基础模型Virchow[41]，在跨癌症检测和少量训练数据下展现出显著的性能优势。Virchow能够在多个癌症类型中实现高精度检测，并且在一些罕见癌症的检测任务中超越了传统的用于特定组织检测的临床级模型。即将发表于Nature的多模态Transformer模型MUSK[42]利用大规模未标注的图像-文本数据进行联合学习，在5000万张病理图像和10亿个病理相关文本标记上进行预训练。该模型在23个病理图像的基准测试中表现优异，涵盖跨模态检索、视觉问答和图像分类等任务。特别地，MUSK在癌症预后预测方面展现出强大潜力，包括黑色素瘤复发、全癌种预后及肺癌和胃食管癌的免疫治疗反应预测。

在医学报告领域，阿德莱德大学的研究者提出了掩码医学图像建模（MedIM）框架[43]，利用放射学报告引导掩码生成过程，并设计了基于知识驱动和句子驱动的双重掩码策略，有效引导模型关注临床意义较大的图像区域。大规模实验表明，相比传统的掩码图像建模（MIM）预训练方法，MedIM在下游任务中展现了显著优势。中国科学院深圳先进技术研究院的研究者则设计了一种迭代式视觉-语言框架[44]，通过临床词典和由模型优化的度量方式，提取放射学报告的关键信息。该框架首先对报告生成粗略的理解，然后在此基础上不断提取关键信息并生成更细粒度的理解。在众多医学图像分析任务中，该方法在微调和零样本场景下均优于七种现有最优方法。香港中文大学的研究人员提出利用多模态大语言模型将前列腺影像临床指南（PICG）融入PI-RADS评分模型[45]，而无需额外标注和网络参数。方法包括两阶段微调：第一阶段通过领域适配层处理3D MRI图像，第二阶段将PICG转化为引导指令，生成基于PICG的图像特征，并与评分网络对齐，该方法显著提高了评分网络的性能。

在医学图像方面，香港城市大学的研究者提出了统一的、具有高度适应性的Universal Model 模型[46]，能够灵活应用于多个数据集，同时能够识别新的器官和肿瘤类别。该模型引入了基于语言的参数生成器，提升了语义编码能力，并设计了轻量级的类别特定输出层。模型使用来自14个数据集的共3,410个CT样本进行训练，并在Medical Segmentation Decathlon排行榜上的6个CT任务中拔得头筹。在 Nature发表的FastGlioma 模型[47]是一种用于胶质瘤术中检测的视觉基础模型，通过快速分析新鲜手术组织实现肿瘤浸润的精准评估，在 220 名患者测试中达到92.1±0.9% 的 AUC。该模型显著优于传统引导方法，并在不同患者群体和脑肿瘤类型中表现出一致性和零样本泛化能力。多伦多 Vectur Institute 的研究员在一篇Nature Communications文章中提出了 MedSAM[48]医学图像分割基础模型，能够在广泛的任务范围内对多种模态的医学图像进行高性能分割。MedSAM在SAM模型的基础上，使用超过150万的图片和分割掩码进行训练，包含了10种图像模态以及30种癌症类别。

在NEJM AI发表的一篇文章提出了一种面向临床级病理诊断的基于人工智能的异常检测（AD）方法[49]，解决了稀有疾病因缺乏训练数据而难以检测的问题。利用 1700 万张胃肠道活检图像，AD 模型在胃癌和结肠癌检测中分别达到了最高 97.7% 和 96.9% 的 AUROC，能够在无需特定训练的情况下识别罕见病理。该模型具备零样本检测能力，可提高诊断安全性、病例优先级管理和自动化水平。香港科技大学的研究者提出的视觉症状引导提示学习框架ViP[50]，则通过CLIP实现大规模视觉语言模型（VLMs）中的知识迁移。ViP从预训练的大型语言模型中提取可解释的视觉症状，并利用双提示网络基于这些视觉症状指导两个可学习的提示模块的训练，进而将框架有效地适应于医学图像分析，在两个挑战性数据集上的表现超越了现有的最先进方法。

专用模型的应用突破：

更细分的应用场景

正如[1]所分析，2024年医疗基础模型的发展呈现出通用领域到医疗各细分领域深化的趋势。越来越多的研究工作向特定医疗领域进一步细化，开始针对具体的医疗任务设计专用模型。它们往往针对具体医学任务或医疗数据问题，利用独特的设计和优化策略有效提升医疗基础模型的专用性。

例如，针对脑部MRI图像的高分割精度需求，佛罗里达大学的研究人员提出的BrainSegFounder模型[51]采用两阶段训练策略，首先从健康人群脑部MRI数据中学习解剖特征，随后针对特定疾病特征进行优化。这种方法显著降低了标注数据需求。评估结果显示，该模型在BraTS和ATLAS v2.0数据集上的分割精度超越了传统监督学习方法。RudolfV模型[34]则通过将染色方式和组织切片类别等病理学专家知识整合进自监督学习过程，解决了当前病理学人工智能模型在泛化能力、应用多样性和处理罕见疾病方面遇到的困难。

针对眼科图像和任务的多样性，香港中文大学的生物医学团队为8个特定的眼科图像模态设计编码器，并为不同任务设计解码器，整合超过50万名患者的340万张图像，训练了眼科疾病基础模型VisionFM[52]。该模型在多个眼科疾病诊断任务上超过基线方法，准确率接近中级眼科医师。该模型还具备强大的数据泛化能力，能够扩展到新的图像模态和设备，甚至能从眼底图像预测青光眼进展和颅内肿瘤。

针对胸部X光影像计算机辅助诊断（CAD）任务中的诊断粒度细和数据标注少的问题，中国科学院深圳先进技术研究院的团队提出了MaCo[53]，通过引入掩蔽对比学习，同时实现了胸部X光图像的细粒度理解和零样本学习。MaCo在6个公开的胸部X光数据集上验证了其效果，在分类、分割、检测等多个任务中超越了10种现有的最先进方法。

针对病理学诊断，哈佛大学的研究人员在Nature发表了PathChat[54]，一个专为人类病理学设计的视觉-语言通用AI助手。PathChat结合了专门适应病理学的视觉编码器与预训练的大语言模型，在超过456,000个多样化的视觉-语言指令上进行微调，展现出卓越的性能。

针对心脏超声影像，最近在Nature Medicine上发表的EchoCLIP[55]是一个创新的人工智能模型。它能够分析心脏超声图像并理解专家的诊断解读。该模型即使在没有针对具体任务进行专门训练的情况下，也展现出了优秀的表现。模型在评估心功能和识别心内植入设备上达到良好性能，同时其长上下文变体EchoCLIP-R 在患者识别和跨模态检索等任务中展现了优异能力。这一研究推动了基础模型在心血管影像初步解读中的应用潜力。

针对多语言医学问答领域，上海交通大学的研究者在 Nature Communications上发表了相关研究，构建了多语言医学语料库 MMedC [56]。该语料库涵盖六种主要语言、约 255 亿标记，并用于通用大语言模型的自回归训练和领域适配。同时，研究者开发了具有推理能力的多语言医学多选问答基准MMedBench，以评估多语言医学模型的性能。在此基础上，通过在 MMedC 上训练多个开源模型，研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色，在推理能力和问答准确率方面均达到领先水平。

此外，还有许多研究关注医疗模型的公平性问题。针对医疗数据的复杂性、多样性以及潜在的社会文化背景差异，Med-UniC框架[57]通过整合英语和西班牙语医学数据，将不同语言的医学文本映射到共同的语义空间，减少语言差异引起的偏差，提供了统一跨语言表示的有效解决方案。这种方法确保了模型的公平性，在文本层面推动了医学语言的客观性和一致性。NEJM AI的一篇评论[58]探讨了大语言模型（LLMs）在医学研究、教育和临床中的应用潜力，并提出了基于四项生物伦理原则的框架以促进其负责任使用。该框架强调患者、临床医生和 LLMs治理系统的共同责任，并提出了减轻相关风险的潜在方法，确保 LLMs在医学领域应用时的伦理、公平和高效。

结语：医疗基础模型的未来展望

回顾2024年，医疗基础模型的进展不仅仅是技术上的突破，更是方法论上的创新。从Transformer架构的引入，到Swin-UMamba模型的跨模态应用，再到针对特定任务的医疗专用模型的构建，医疗基础模型正朝着专用化和精准化的方向发展。眼底、病理、X光等领域的专用模型，正推动医疗AI走向临床应用。随着技术的不断发展与应用场景的深化，我们相信医疗基础模型将在疾病早期筛查、个性化治疗以及智能医疗服务中发挥越来越重要的作用。

2024年也是医疗基础模型向临床实践和具体应用迅猛发展的一年。随着技术的不断进步，越来越多的研究开始聚焦于模型的临床适应性与可解释性，探索如何在实际医疗场景中实现有效落地。例如，商汤科技研发的“大医”医疗健康大语言模型，基于其千亿参数规模的“商量”大语言模型，利用超过300亿token的高质量医学数据进行训练。该模型覆盖了20多个细分医疗场景，具备检索增强、长程记忆存取和智能工具调用等多种功能，展现出行业领先的医疗问答能力。

展望2025年，我们聚焦于医疗基础模型在测试阶段能力的提升，预测了规模化、综合化、精准化三个可能发展方向。具体而言，“规模化”指利用以OpenAI提出的GPT-o1[59]为代表的测试阶段技术，实现测试阶段规模效应（test-time scaling），不断提升医疗基础模型在应用阶段的推理能力。“综合化”指利用智能体系统（agent system），弥补单一医疗基础模型的思考欠缺和视角单一性，助推多个医疗基础模型的团队协作效应。“精准化”指利用基于检索的基础模型生成（retrieval-augmented generation），减少医疗基础模型的错误判断，从而有效缓解幻觉问题，提升模型的准确性和可靠性。

本文提到的多数工作的论文和官方代码等信息已经收录于上海人工智能实验室牵头研发的医疗基础模型开源平台OpenMEDLab[60]。OpenMEDLab致力于提供一个集合多模态医学基础模型的创新解决方案。未来，随着平台的不断发展，我们期待看到这些技术更新在OpenMEDLab上实现和应用，进一步推动跨模态、跨领域的医学AI创新。通过在不同医学任务中的灵活应用，OpenMEDLab不仅为基础模型的适配和微调提供了支持，也为解决医学中的长尾问题、提升模型效率和减少训练成本提供了创新途径。在OpenMEDLab的平台上，未来的医疗基础模型将在疾病早期筛查、个性化治疗、智能医疗服务等多个场景中实现更广泛的应用和落地，继续为医学AI的进步和发展提供动力。

参考文献

1. Zhang S, Metaxas D. On the challenges and perspectives of foundation models for medical image analysis. Med Image Anal 2024;91:102996.

2. Wang X, Wang D, Li X, et al. Editorial for special issue on Foundation models for Medical Image Analysis. Med Image Anal 2025;100:103389.

3. Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017.

4. Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv:2010.11929.

5. Radford A, Kim JW, Hallacy C, et al. Learning transferable visual models from natural language supervision. International conference on machine learning, PMLR 2021;8748-63.

6. Kirillov A, Mintun E, Ravi N, et al. Segment anything. Proceedings of the IEEE/CVF International Conference on Computer Vision 2023;4015-26.

7. Wu S, Koo M, Blum L, et al. Benchmarking open-source large language models, GPT-4 and Claude 2 on multiple-choice questions in nephrology. NEJM AI 2024;1:AIdbp2300092.

8. Deng Z, Shen Y, Kim H, et al. Foundation Models for General Medical AI. Second International Workshop, MedAGI 2024, Held in Conjunction with MICCAI 2024, Marrakesh, Morocco, October 6, 2024, Proceedings. Lecture Notes in Computer Science 15184, Springer 2025

9. Tu T, Azizi S, Driess D, et al. Towards generalist biomedical AI. NEJM AI 2024;1:AIoa2300138.

10. Zhao T, Gu Y, Yang J, et al. A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities. Nat Methods 2024 Nov 18. (Epub Ahead of Print)

11. Zhang K, Zhou R, Adhikarla E, et al. A generalist vision–language foundation model for diverse biomedical tasks. Nat Med 2024;30:3129-41.

12. Zhou Y, Chia MA, Wagner SK, et al. A foundation model for generalizable disease detection from retinal images. Nature 2023;622:156-63.

13. Kim C, Gadgil SU, DeGrave AJ, et al. Transparent medical image AI via an image–text foundation model grounded in medical literature. Nat Med 2024;30:1-12.

14. Huang Z, Bianchi F, Yuksekgonul M, et al. A visual–language foundation model for pathology image analysis using medical twitter. Nat Med 2023;29: 2307-16.

15. Lu MY, Chen B, Williamson DFK, et al. A visual-language foundation model for computational pathology. Nat Med 2024;30: 863-74.

16. Chen RJ, Ding T, Lu MY, et al. Towards a general-purpose foundation model for computational pathology. Nat Med 2024;30:850-62.

17. Xu H, Usuyama N, Bagga J, et al. A whole-slide foundation model for digital pathology from real-world data. Nature 2024;630:181-8.

18. Huang W, Li C, Zhou HY, et al. Enhancing representation in radiography-reports foundation model: A granular alignment algorithm using masked contrastive learning. Nat Commun 2024;15: 7620.

19. Chen J, Mei J, Li X, et al. TransUNet: Rethinking the U-Net architecture design for medical image segmentation through the lens of transformers. Med Image Anal 2024;97:103280.

20. Liu J, Yang H, Zhou HY, et al. Swin-umamba: Mamba-based unet with imagenet-based pretraining. International Conference on Medical Image Computing and Computer-Assisted Intervention 2024;615-25.

21. Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows. Proceedings of the IEEE/CVF international conference on computer vision 2021;10012-10022.

22. Song M, Wang J, Yu Z, et al. PneumoLLM: Harnessing the power of large language model for pneumoconiosis diagnosis. Med Image Anal 2024;97:103248.

23. Gong S, Zhong Y, Ma W, et al. 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation. Med Image Anal 2024;98:103324.

24. Chen C, Miao J, Wu D, et al. Ma-sam: Modality-agnostic sam adaptation for 3d medical image segmentation. Med Image Anal 2024;98:103310.

25. Paranjape JN, Nair NG, Sikder S, et al. Adaptivesam: Towards efficient tuning of sam for surgical scene segmentation. Annual Conference on Medical Image Understanding and Analysis. Cham: Springer Nature Switzerland, 2024: 187-201.

26. Peng L, Cai S, Wu Z, et al. MMGPL: Multimodal medical data analysis with graph prompt learning. Med Image Anal 2024;97:103225.

27. Zu W, Xie S, Zhao Q, et al. Embedded prompt tuning: Towards enhanced calibration of pretrained models for medical images. Med Image Anal 2024;97:103258.

28. Lu J, Yan F, Zhang X, et al. Pathotune: Adapting visual foundation model to pathological specialists. International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2024:395-406.

29. Li W, Qu C, Chen X, et al. AbdomenAtlas: A large-scale, detailed-annotated, & multi-center dataset for efficient transfer learning and open algorithmic benchmarking. Med Image Anal 2024;97:103285.

30. Gu H, Colglazier R, Dong H, et al. SegmentAnyBone: A universal model that segments any bone at any location on MRI. arXiv:2401.12974.

31. Hu X, Gu L, Kobayashi K, et al. Interpretable medical image visual question answering via multi-modal relationship graph learning. Med Image Anal 2024;97:103279.

32. Holste G, Zhou Y, Wang S, et al. Towards long-tailed, multi-label disease classification from chest X-ray: Overview of the CXR-LT challenge. Med Image Anal 2024;97:103224.

33. Ikezogwo W, Seyfioglu S, Ghezloo F, et al. Quilt-1m: One million image-text pairs for histopathology. Advances in neural information processing systems, 2024.

34. Dippel J, Feulner B, Winterhoff T, et al. RudolfV: a foundation model by pathologists for pathologists. arXiv:2401.04079.

35. Lei W, Xu W, Li K, et al. Medlsam: Localize and segment anything model for 3d ct images. Med Image Anal 2025;99:103370.

36. Jiao J, Zhou J, Li X, et al. USFM: A universal ultrasound foundation model generalized to tasks and organs towards label efficient image analysis. Med Image Anal 2024;96:103202.

37. Kang Q, Lao Q, Gao J, et al. Deblurring masked image modeling for ultrasound image analysis. Med Image Anal 2024;97:103256.

38. Hua S, Yan F, Shen T, et al. Pathoduet: Foundation models for pathological slide analysis of H&E and IHC stains. Med Image Anal 2024;97:103289.

39. Chen RJ, Ding T, Lu MY, et al. Towards a general-purpose foundation model for computational pathology. Nat Med 2024;30:850-62.

40. Wang X, Zhao J, Marostica E, et al. A pathology foundation model for cancer diagnosis and prognosis prediction. Nature 2024;634:970-8.

41. Vorontsov E, Bozkurt A, Casson A, et al. A foundation model for clinical-grade computational pathology and rare cancers detection. Nat Med 2024;30:2924-35.

42. Xiang J, Wang X, Zhang X, et al. MUSK: a vision-language foundation model for precision oncology. Nature 2024, in press.

43. Xie Y, Gu L, Harada T, et al. Rethinking masked image modelling for medical image representation. Med Image Anal 2024;98:103304.

44. Li C, Huang W, Yang H, et al. Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement. Med Image Anal 2024;97:103299.

45. Zhang T, Lin M, Guo H, et al. Incorporating Clinical Guidelines Through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring. International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2024:360-370.

46. Liu J, Zhang Y, Wang K, et al. Universal and extensible language-vision models for organ segmentation and tumor detection from abdominal computed tomography. Med Image Anal 2024;97:103226.

47. Kondepudi A, Pekmezci M, Hou X, et al. Foundation models for fast, label-free detection of glioma infiltration. Nature 2024 November 13. (Epub Ahead of Print)

48. Ma J, He Y, Li F, et al. Segment anything in medical images. Nat Commun 2024;15:654.

49. Dippel J, Prenißl N, Hense J, et al. AI-based anomaly detection for clinical-grade histopathological diagnostics. NEJM AI 2024;1:AIoa2400468.

50. Fang X, Lin Y, Zhang D, et al. Aligning Medical Images with General Knowledge from Large Language Models. International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2024: 57-67.

51. Cox J, Liu P, Stolte S E, et al. BrainSegFounder: towards 3D foundation models for neuroimage segmentation. Med Image Anal 2024;97:103301.

52. Qiu J, Wu J, Wei H, et al. Development and validation of a multimodal multitask vision foundation model for generalist ophthalmic artificial intelligence. NEJM AI 2024;1: AIoa2300221.

53. Huang W, Li C, Zhou HY, et al. Enhancing representation in radiography-reports foundation model: A granular alignment algorithm using masked contrastive learning. Nat Commun 2024;15:7620.

54. Lu MY, Chen B, Williamson DFK, et al. A multimodal generative AI copilot for human pathology. Nature 2024;634:466-73.

55. Christensen M, Vukadinovic M, Yuan N, et al. Vision–language foundation model for echocardiogram interpretation. Nat Med 2024;30:1481–8.

56. Qiu P, Wu C, Zhang X, et al. Towards building multilingual language model for medicine. Nat Commun 2024;15:8384.

57. Wan Z, Liu C, Zhang M, et al. Med-unic: Unifying cross-lingual medical vision-language pre-training by diminishing bias. Advances in Neural Information Processing Systems, 2024.

58. Ong JCL, Chang SYH, William W, et al. Medical ethics of large language models in medicine. NEJM AI 2024;1:AIra2400038.

59. OpenAI. Learning to Reason with LLMs. https://openai.com/index/learning-to-reason-with-llms/.

60. Wang X, Zhang X, Wang G, et al. OpenMEDLab: An open-source platform for multi-modality foundation models in medicine. arXiv:2402.18028.

专家介绍

张少霆，商汤医疗CEO，兼任上海交通大学清源研究院院长。其本硕博分别毕业于浙江大学、上海交通大学、美国罗格斯大学，此后于美国北卡罗莱纳大学夏洛特分校计算机系担任教职至终身副教授，其海外研究课题得到包括多项NSF在内的数百万美元经费的资助，论文成果屡次获得领域内顶级会议的青年科学家奖和最佳论文奖、美国橡树岭大学联合会青年教授奖等。归国担任上海人工智能实验室智慧医疗中心主任期间，他主导研发全球首个医疗多模态基础模型群“浦医”即OpenMEDLab，旨在为“跨领域、跨疾病、跨模态”的AI医疗应用提供开源的能力支持。发表论文200余篇，总引用21,000余次，H-Index 71。入选上海市青年科技杰出贡献奖，担任医学图像分析顶会IPMI’25及计算机视觉顶会CVPR’26程序委员会主席等职位。

王兴鹏，教授，主任医师、二级教授、博士生导师、医学博士、留德博士后（洪堡奖学金），2006年起享受国务院政府特殊津贴。现任上海申康医院发展中心主任，兼任中国医院协会副会长、上海市医院协会副会长。曾任上海市第十人民医院院长、上海市第一人民医院院长。先后入选上海市优秀学科带头人计划、国家教育部新世纪人才支撑计划、新世纪百千万人才工程国家级人才及上海市领军人才。长期从事消化疾病临床和科研、医院管理研究与实践，主要研究方向包括公立医院治理、质量管理、临床研究和成果转化、医院内部控制、信息化建设、供应链管理等。在国内率先提出医院全质量管理（h-TQM）理论并付诸实践，主编《医院全质量管理——理论与实践》《临床研究概论》等。

王德泉，上海交通大学清源研究院助理教授、博士生导师、院长助理，入选国家高层次青年人才计划、上海市海外高层次青年人才计划。2016年于复旦大学获计算机学士学位，2022年于加州大学伯克利分校（University of California, Berkeley）获计算机博士学位，师从 Trevor Darrell 教授。主要研究方向为科学智能（AI for Science）和多模态大语言模型（Multimodal Large Language Models），研究工作发表在 ICLR、ICML、NeurIPS、CVPR、ICCV、ECCV、ICRA 等国际顶级会议，据 Google Scholar 统计，过去五年三十余篇论文被引用 10000 余次。

版权信息

本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章，内容请以英文原版为准。中译全文以及所含图表等，由马萨诸塞州医学会NEJM集团独家授权。如需转载，请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为，版权方保留追究法律责任的权利。

点击下方名片，关注《NEJM医学前沿》

‍

NEJM医学前沿

《NEJM医学前沿》由《新英格兰医学杂志》（NEJM）与嘉会医学研究和教育集团（J-Med）联手打造，通过精品内容、线下培训、在线课程和学术会议等方式，助力中国医生，提升中国临床科研水平。NEJM内容由NEJM集团独家授权。