FUTURE | 远见 闵青云 选编
清华大学的崔鹏团队与国家蛋白质科学中心(北京)常乘团队联合在全球顶级期刊Nature Machine Intelligence上发表了「Stable Cox Regression for Survival Analysis under Distribution Shifts」研究长文。该论文提出了一种发现稳定标志物(Biomarker)的Stable Cox模型,在多种癌症的组学以及临床预后数据上证明了Stable Cox可以发现在多个测试中心数据上稳定的预后标志物,该标志物可以用于对病人进行亚型分层以及生存曲线预测。
该工作是崔鹏团队所提出的stable learning (稳定学习) 的理论和方法在生存分析领域的最新力作。受因果推理方法启发,稳定学习方法专注于学习协变量和输出之间的稳定因果关系,而非易变的相关性[2]。受益于因果分析方法提供的理论保证,稳定学习方法在分布偏移场景下通常具有很强的泛化性、可解释性和公平性[3]。然而,稳定学习方法还无法用于复杂的「time-to-event」数据。本工作从方法到理论介绍如何将稳定学习用于提高生存分析模型的泛化性。
生存分析中多中心异质数据的泛化难题
生存分析是一个重要的统计研究方向,评估协变量对感兴趣事件发生时间的影响,广泛应用于医学、公共卫生、工程、金融等关键领域,以帮助决策和预测生存结果,识别影响生存的关键因素。Cox风险比例模型(Cox Proportional Hazards Model)[1],又称Cox回归模型,由英国统计学家David Cox于1972年提出。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的数据,且不要求估计数据的生存分布类型。因上述优点,Cox回归模型迅速成为生存分析中最常用和最重要的工具之一,广泛应用于医学、公共卫生、流行病学、临床试验等多个领域。以Cox模型为主流的大多数现有生存分析方法假设训练和测试数据具有相似的分布,而在现实中,由于不同中心或人群队列的异质性、不同仪器甚至不同分析方法等因素,这一假设常常并不成立。这对现有生存分析方法的泛化性和可靠性提出了严峻的挑战,尤其是在个性化医疗和药物研发等高风险应用中,这些模型的可靠性超越了简单的统计考量,成为生死攸关的重要问题。
应对多中心异质数据分布偏移的主要挑战是如何找到稳定的生物标志物,由于生存分析数据是复杂的「time-to-event」数据并且其本质是相关性驱动的学习机制,因此导致现有方法会盲目的学习到训练集中存在的虚假相关性(比如,病人某个基因的表达和他所在地点高度相关,然后该地点的医疗水平又会影响该病人的预后)。然而,这种虚假相关性是不稳定的,是容易在测试中心数据上发生改变的,导致我们训练好的生存模型在用到新的测试中心时有显著的风险。如何找到生存分析的稳定变量是困扰学界多年来的问题,也是将该类方法用到生命科学等关键领域的重要瓶颈。
生存分析的分布外泛化场景。
Stable Cox:稳定生存分析方法
为了使得生存分析方法不受虚假相关影响识别稳定标志物,该研究提出发现稳定的预后标志物的关键是在于消除不稳定协变量与生存结果之间的虚假相关性,从而使得学习到的相关性可以代表协变量对生存概率的因果影响,这个因果影响在不同测试中心是稳定的。具体而言,该模型由两阶段组成:独立性驱动的样本加权和加权Cox回归。在独立性驱动的样本加权阶段,我们学习一套样本权重对样本进行重加权使得协变量之间相互独立。在加权的Cox回归阶段,Cox模型损失中的样本被我们之前学到的样本权重进行重加权。这个加权后的样本损失可以有效地分离每个变量对于生存输出的效应。从理论上,我们可以证明即使在有模型错估的情况下,Stable Cox模型可以识别稳定变量进行预测,也就是模型在不稳定变量上的系数为0。
Stable Cox模型框架。
研究团队在三类癌症组学数据集(肝癌、乳腺癌、黑色素瘤)和两类癌症临床生存数据(肺癌、乳腺癌)上进行了广泛实验,采用多个独立测试群体和子群体,展示了此方法的强大泛化能力(平均提升6.5%-13.9%)。此外,Stable Cox学习得出的权重系数可用于发现潜在的组合标志物,并区分生存风险显著不同的亚型,这对于指导治疗决策和靶向药物研发具有重要意义。
在肝癌、乳腺癌、⿊⾊素瘤上Stable Cox与其他方法在多个独立测试集上的C-index比较。
Stable Cox的预后亚型人群分组结果,以及标志物在不同中心预后一致性统计。
在肺癌、乳腺癌临床指标上Stable Cox与其他方法在多个人群、独立测试集上的C-index比较,以及预后亚型人群分组结果和top10标志物分析。
结论
从队列的回顾性研究中发现稳定的标志物用于前瞻性研究是机器学习方法用于实际医疗场景中的关键和难题。然而,现有标志物识别技术的泛化能力较差,仅在与训练数据相似的患者样本中有效,无法应用于多样化的开放环境样本。这些问题使得传统技术发现的标志物难以通过前瞻性测试,不仅导致研发资源的巨大浪费,还阻碍了医药领域的进一步发展。迫切需要开发能够在异质性数据中精确识别并具有高泛化能力的生物标志物的新技术,以实现疾病的早期准确诊断,满足社会对健康保障的需求。本研究提出的稳定生存分析方法旨在通过变量独立使得发现稳定预后标志物成为可能,同时该研究也将呼唤研究界重视机器学习方法在医疗等关键领域应用的稳定性和可靠性。
本文共同第一作者分别是清华范少华博士,徐韧喆博士(目前是上海财经大学助理教授),国家蛋白质科学中心(北京)博士研究生董乾。
参考文献:
[1] Cox, David R (1972). "Regression Models and Life-Tables". Journal of the Royal Statistical Society, Series B. 34 (2): 187–220.
[2] Peng Cui, Susan Athey. Stable Learning Establishes Some Common Ground Between Causal Inference and Machine Learning.Nature Machine Intelligence, 2022.
[3] Renzhe Xu, Zheyan Shen, Xingxuan Zhang, Tong Zhang, Peng Cui. A Theoretical Analysis on Independence-driven Importance Weighting for Covariate-shift Generalization. ICML, 2022.
--AI科技评论