大约70%的初诊乳腺癌为激素受体阳性HER2阴性,虽然内分泌治疗对大多数患者有效,但是此类乳腺癌术后复发风险持续10年以上,其中大约20%的患者对内分泌治疗耐药、长期复发转移风险较高,一旦发生内分泌治疗耐药或复发转移,患者生存将受到严重影响,临床医生迫切需要新手段早期预测并区分复发风险不同的患者,制定具有针对性的治疗策略。21基因、70基因等目前主流的商业检测工具,对此类乳腺癌淋巴结阴性患者的复发风险评分以及化疗获益预测具有一定价值,但是对淋巴结阳性患者复发预测存在明显局限,而且这些方法仅仅依靠少量临床病理指标以及若干基因检测数据,维度较少,未能充分反映肿瘤的复杂生物学特征。如何提高复发风险预测的精准度,成为亟待解决的重要临床挑战。
2025年1月22日,美国《细胞》旗下《细胞报告医学》在线发表复旦大学附属肿瘤医院张航①、杨帆①、徐颖①、赵珅、江一舟✉️、邵志敏✉️、肖毅✉️等学者的研究报告,根据大样本激素受体阳性HER2阴性乳腺癌多组学队列,整合基线临床数据、免疫组化、代谢组学、病理组学、转录组学、基因组学、拷贝数变异等7个维度信息,构建多模态人工智能机器学习预测模型,为精准预测激素受体阳性HER2阴性乳腺癌复发风险提供创新解决方案。
该研究团队前期已经构建大规模激素受体阳性HER2阴性乳腺癌多模态队列,建立激素受体阳性HER2阴性乳腺癌复旦分型;在此基础上,该研究利用该大规模队列,进一步构建整合临床(C)免疫(I)代谢(M)病理(P)转录(T)基因(G)拷贝数变异(V)7个维度信息的多模态人工智能机器学习CIMPTGV模型。该模型对预测激素受体阳性HER2阴性乳腺癌复发风险表现良好,训练集与测试集的一致性指数分别达到0.871和0.869,可准确预测74.2%的复发患者和85.8%的未复发患者。该模型预测效果优于常规临床病理指标,且对不同临床亚组都可显著区分复发风险高低患者。
该研究表明,多模态模型预测效能显著优于传统模型,其核心优势可能在于多模态特征协同互补效应。例如,基因同源重组修复缺陷评分与多个模态特征显著正相关,包括侵袭性肿瘤相关基因高表达、核酸代谢物富集、肿瘤细胞数量多以及病理异质性高,这些特征之间复杂的相互作用揭示同源重组修复缺陷与多种细胞生物学行为的紧密联系,为多模态模型较高的预测效能提供了理论基础。此外,该研究分别采用单一模态信息构建单模态模型,发现各单模态模型的风险预测相对独立,不同单模态模型计算出的风险评分相关性较低,预测的高风险患者群体差异较大,表明不同模态之间包含丰富的协同及互补信息,多模态模型能够有效整合这些协同互补特征,从而提升对患者复发风险的预测精准度,为临床风险分层与精准治疗决策提供更具价值的工具。
为了降低多模态数据收集成本,该研究进一步简化多模态模型,在保留临床常规收集的临床信息、多维度免疫组化和病理组学的全部特征同时,采用留一法计算特征重要性评分,分别筛选出代谢组、转录组、基因组、拷贝数变异最重要的2至3个特征,显著减少数据维度。简化模型在测试中的平均曲线下面积达到0.84,依然表现出较高的预测性能,这一改进为多模态模型快速推广及临床应用提供了可能。
该研究团队对于人工智能技术的落地,已经有了一定积累,前期研究已经根据人工智能算法联合影像组学和数字化病理学,开发了一站式人工智能决策系统,能够在半小时内快速、无创、准确实现乳腺癌分型和靶点可视化,为临床诊断和治疗提供支持。此次研究针对激素受体阳性HER2阴性乳腺癌复发风险预测,构建多模态简化模型,除了常规临床收集的信息外,只需采集数个其他维度特征即可预测出患者的复发风险评分,不仅保留内部不同模态间正交信息,而且降低了多模态模型在临床应用的使用成本和复杂性,较好平衡了特征收集成本和预测性能,具有显著的临床应用价值。目前,相关专利申请正在推进中,将有望在提高复发风险预测准确率的同时,减轻患者的医疗经济负担,并有必要进一步开展多中心大样本前瞻研究进行验证,确认其效能、获得足够证据后再临床推广。
Cell Rep Med. 2025 Jan 22. IF: 11.7Multimodal integration using a machine learning approach facilitates risk stratification in HR+/HER2- breast cancer.Zhang H, Yang F, Xu Y, Zhao S, Jiang YZ, Shao ZM, Xiao Y.Fudan University Shanghai Cancer Center, Shanghai Medical College, Fudan University, Shanghai, China.Hormone receptor-positive (HR+)/human epidermal growth factor receptor 2-negative (HER2-) breast cancer is the most common type of breast cancer, with continuous recurrence remaining an important clinical issue. Current relapse predictive models in HR+/HER2- breast cancer patients still have limitations. The integration of multidimensional data represents a promising alternative for predicting relapse. In this study, we leverage our multi-omics cohort comprising 579 HR+/HER2- breast cancer patients (200 patients with complete data across 7 modalities) and develop a machine-learning-based model, namely CIMPTGV, which integrates clinical information, immunohistochemistry, metabolomics, pathomics, transcriptomics, genomics, and copy number variations to predict recurrence risk of HR+/HER2- breast cancer. This model achieves concordance indices (C-indices) of 0.871 and 0.869 in the train and test sets, respectively. The risk population predicted by the CIMPTGV model encompasses those identified by single-modality models. Feature analysis reveals that synergistic and complementary effects exist in different modalities. Simultaneously, we develop a simplified model with a mean area under the curve (AUC) of 0.840, presenting a useful approach for clinical applications.KEYWORDS: HR+/HER2- breast cancer; machine learning; multimodal integration; risk stratificationDOI: 10.1016/j.xcrm.2024.101924