Nature | 李瑞江/杨森团队开发用于精准肿瘤学的视觉语言基础模型—MUSK

学术   2025-01-09 00:28   北京  

临床决策是一个本质上依赖于多模态数据的过程。在诊断和治疗决策中,临床医生很少依赖单一数据来源,而是综合了包括临床记录和病理特征在内的多种数据模态的信息。因此,开发新的人工智能方法来有效整合多模态数据,进而推动临床肿瘤治疗的进步具有重要意义。然而,现实中缺乏精细标注的多模态数据集,阻碍了此类人工智能模型的发展。


近年来,医学领域,特别是病理学领域,已经开始探索视觉语言基础模型,其中重要的工作包括PLIP【1】,CONCH【2】。但这些研究仍存在不足之处:首先,这些研究使用配对的病理图像-文本数据进行预训练(约20万至100万对),但这一数据规模仍远低于自然场景的视觉语言模型。其次,这些研究主要关注图像-文本检索,零样本分类等初级任务,主要验证不同模态之间相似性。且这些应用局限于癌症的筛查和诊断,而这只是病理学家日常实践的一部分。由于病理学家已经能够对筛查做出高度准确的诊断,因此现有模型对临床实践的实际影响非常有限。


为了解决现有研究的不足,2025年1月8日,美国斯坦福大学李瑞江杨森团队(共同一作为项进喜和王熙月)Nature上发表了文章A vision–language foundation model for precision oncology。研究团队基于BeiT3【3】的网络结构,开发了MUSK(Multi-modal transformer with Unified maSKed modeling)预训练基础模型。MUSK能充分利用未标注和未配对的图像-文本数据,这类数据比标注好的配对数据更为常见。MUSK模型在23个病理图像的patch-level和slide-level基准数据集上进行了全面评估,并在超过8000名患者的多模态数据上验证了其有效性。这些验证任务涵盖了多个关键的临床场景,包括黑色素瘤复发预测、16种癌症类型的预后预测,以及肺癌和胃食管癌中的免疫治疗反应预测。相比常见的癌症筛查任务,这些临床任务更具挑战性,涵盖了复发风险评估、个体化预后预测以及治疗反应预测等重要环节。这些任务不仅更加复杂,且在肿瘤治疗的决策过程中具有更高的临床紧迫性,直接关系到个体化治疗策略的制定和患者的治疗结局。



与现有研究相比,MUSK有多个新发现:


1. 概念性发现。作者证明,通过利用图像和临床报告之间的互补信息,多模态方法在结果预测方面优于单一模态方法。相比之下,现有的视觉语言模型研究主要聚焦于简单的模态相似性任务(如图像/文本检索),而未能充分发挥多模态数据的潜力。


2. 临床转化。作者证明,多模态基础模型在临床结果预测(包括预后和免疫治疗反应预测)中取得了有效的结果。这一进展对准确预测治疗效果对个体化医疗具有重大意义。之前,PLIP, CONCH未展示过多有关临床使用的例子。


3. 技术改进。研究团队开发的多模态基础模型采用了统一掩码建模方法,用了包括5000万张病理图像patch和10亿个文本token训练。相对于配对图文数据(约100万),显著提升了预训练数据的规模。更为关键的是,针对病理图像与自然图像在视觉特征和数据分布上的差异,研究团队对模型训练进行了多方面的适配优化,包括多尺度训练策略、病理染色数据增强、噪声数据自举增强、以及细粒度多模态对齐等技术手段。这些优化措施有效提升了模型在病理数据上的学习能力,从而实现了更准确的临床预测效果。


MUSK模型具有广泛的应用前景。所提出的预训练和临床验证方法,不仅适用于病理图像-文本融合,还可推广至放射影像、皮肤病影像、放射科报告及临床记录等多种图像和文本模态的组合。作者相信,这项工作将推动多模态基础模型的研究,助力精准医疗的发展,提升个体化诊疗的精准性与有效性。


图1:MUSK模型预训练及下游验证


原文链接:

https://doi.org/10.1038/s41586-024-08378-w



参考文献


[1] Huang, Z., Bianchi, F., Yuksekgonul, M., Montine, T.J. and Zou, J., 2023. A visual–language foundation model for pathology image analysis using medical twitter. Nature medicine, 29(9), pp.2307-2316.

[2] Lu, M.Y., Chen, B., Williamson, D.F., Chen, R.J., Liang, I., Ding, T., Jaume, G., Odintsov, I., Le, L.P., Gerber, G. and Parwani, A.V., 2024. A visual-language foundation model for computational pathology.Nature Medicine, 30(3), pp.863-874.

[3] Wang, W., Bao, H., Dong, L., Bjorck, J., Peng, Z., Liu, Q., Aggarwal, K., Mohammed, O.K., Singhal, S., Som, S. and Wei, F., 2023. Image as a foreign language: Beit pretraining for vision and vision-language tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 19175-19186).


BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐



BioArt
高屋建瓴,提供专家点评,引导学术争论,展现学术批评;诚心实意,关注科研生态,推广科研经验,倡导师生交流。
 最新文章