临床决策是一个本质上依赖于多模态数据的过程。在诊断和治疗决策中,临床医生很少依赖单一数据来源,而是综合了包括临床记录和病理特征在内的多种数据模态的信息。因此,开发新的人工智能方法来有效整合多模态数据,进而推动临床肿瘤治疗的进步具有重要意义。然而,现实中缺乏精细标注的多模态数据集,阻碍了此类人工智能模型的发展。2025年1月8日,美国斯坦福大学李瑞江、杨森团队(共同一作为项进喜和王熙月)在 Nature 期刊上发表了一篇题为" A vision–language foundation model for precision oncology "的研究论文。研究团队基于BeiT3的网络结构,开发了MUSK预训练基础模型。MUSK能充分利用未标注和未配对的图像-文本数据,这类数据比标注好的配对数据更为常见。MUSK模型在23个病理图像的patch-level和slide-level基准数据集上进行了全面评估,并在超过8000名患者的多模态数据上验证了其有效性。这些验证任务涵盖了多个关键的临床场景,包括黑色素瘤复发预测、16种癌症类型的预后预测,以及肺癌和胃食管癌中的免疫治疗反应预测。相比常见的癌症筛查任务,这些临床任务更具挑战性,涵盖了复发风险评估、个体化预后预测以及治疗反应预测等重要环节。这些任务不仅更加复杂,且在肿瘤治疗的决策过程中具有更高的临床紧迫性,直接关系到个体化治疗策略的制定和患者的治疗结局。1. 概念性发现。作者证明,通过利用图像和临床报告之间的互补信息,多模态方法在结果预测方面优于单一模态方法。相比之下,现有的视觉语言模型研究主要聚焦于简单的模态相似性任务(如图像/文本检索),而未能充分发挥多模态数据的潜力。2. 临床转化。作者证明,多模态基础模型在临床结果预测(包括预后和免疫治疗反应预测)中取得了有效的结果。这一进展对准确预测治疗效果对个体化医疗具有重大意义。之前,PLIP, CONCH未展示过多有关临床使用的例子。3. 技术改进。研究团队开发的多模态基础模型采用了统一掩码建模方法,用了包括5000万张病理图像patch和10亿个文本token训练。相对于配对图文数据(约100万),显著提升了预训练数据的规模。更为关键的是,针对病理图像与自然图像在视觉特征和数据分布上的差异,研究团队对模型训练进行了多方面的适配优化,包括多尺度训练策略、病理染色数据增强、噪声数据自举增强、以及细粒度多模态对齐等技术手段。这些优化措施有效提升了模型在病理数据上的学习能力,从而实现了更准确的临床预测效果。MUSK模型具有广泛的应用前景。所提出的预训练和临床验证方法,不仅适用于病理图像-文本融合,还可推广至放射影像、皮肤病影像、放射科报告及临床记录等多种图像和文本模态的组合。作者相信,这项工作将推动多模态基础模型的研究,助力精准医疗的发展,提升个体化诊疗的精准性与有效性。https://doi.org/10.1038/s41586-024-08378-w
推荐阅读:
重磅!2024年影响因子正式发布,附Excel下载
SCI「新宠儿」,孟德尔随机化是什么?
助力医学研究高质量发展,推动医疗科技创新转化!
评审指导|语言服务|格式化处理|选刊指导
基础方案设计|数据挖掘|数据分析
临床试验方案设计|定制化设计(RCT、RWE)
项目设计指导|项目调整优化|项目设计评审
联系医诺维
我们致力于生命科学和医学领域最前沿、最有趣的科研进展,如果你也感兴趣,我们一起成长!
进群、转载、合作,扫描下方二维码。