✦
医学科研新动向
✦
Stable Cox regression for survival analysis under distribution shifts
Nature Machine Intelligence
<2024年12月13日>
研
究
背
景
生存分析是统计学的重要分支,用于评估协变量对事件发生时间的影响,广泛应用于医疗健康、生命科学等领域。然而,传统Cox比例风险模型(Cox PH)假定训练和测试数据具有相同分布,在实际中难以满足,尤其是医疗数据由于种群异质性、治疗方案和数据来源的差异,常出现分布漂移问题。这种漂移导致模型泛化能力下降、预测不准确,尤其是某些生物标志物的预后价值在不同数据集中表现不一致。本文提出了一种稳定Cox模型,旨在通过识别稳定变量,消除伪相关性,提高模型在分布漂移情况下的泛化能力。
研究设计
1. 模型概述
目标:通过识别稳定变量,消除伪相关性,提高生存分析模型的鲁棒性。
核心模块:独立性驱动的样本重加权(SRDO)和加权Cox回归。
2. 第一阶段:独立性驱动的样本重加权
3. 第二阶段:加权Cox回归
4. 理论保证
证明:稳定Cox模型在一定假设下使不稳定变量的系数收敛为零,确保预测仅依赖稳定变量。
5. 实验设置
核心结果
(a) 预后基因交集:
不良预后基因:TCGA-LIHC数据集识别1277个基因,Roessler数据集识别624个基因,交集为193个基因。
良好预后基因:TCGA-LIHC数据集识别1447个基因,Roessler数据集识别858个基因,交集仅23个。
交集数量少,说明两数据集间的协变量分布存在显著差异。。
(b) t-SNE投影:
协变量分布可视化显示,TCGA-LIHC和Roessler数据集的样本在二维空间中的分布完全分离,反映了显著的分布漂移问题。
2:稳定Cox模型框架
3:模拟数据实验结果
(a) C-index随分布漂移变化:
在rtest > 1时,稳定Cox和其他方法均表现稳定,C-index接近0.7。
在rtest < -1时,其他方法的C-index显著下降(最低降至0.3),而稳定Cox仍保持较高的C-index(约0.6),显示对分布漂移的鲁棒性。
(b) 特征选择对性能的影响:
使用前5个特征的稳定Cox模型,其C-index接近完整模型(约0.69),而Cox PH模型的C-index下降至0.55以下。
(c) 变量显著性分析:
稳定变量(S)的-log2P值显著高于不稳定变量(V),如在稳定Cox中,稳定变量的-log2P值分布在200-800之间,不稳定变量的-log2P值接近0。
在Cox PH中,不稳定变量的-log2P值显著高于稳定变量,表明传统方法误将伪相关变量认为重要。
(d) 伪相关性残差:
稳定Cox模型对伪相关性残差(||β(V)||1)的抑制效果随样本量增加而显著增强。当样本量达到15,000时,残差趋近于零。
4:转录组数据的生物标志物发现
(a)肝癌数据(TCGA-LIHC训练集,三个测试集):
在Hoshida数据集上,C-index:稳定Cox为0.62,Cox PH为0.49;分布漂移越大,稳定Cox的优势越显著。
平均C-index:稳定Cox为0.66,比Cox PH提高10%以上。
(b) 乳腺癌数据(Curtis训练集,三个测试集):
在所有测试集中,稳定Cox的平均C-index保持在0.64以上,而Cox PH在部分测试集中C-index下降至0.55以下。
使用前10个特征时,稳定Cox的性能波动较小,C-index提高约12%。
(c) 黑色素瘤数据(Liu训练集,三个测试集):
稳定Cox在所有测试集中C-index均超过0.62,性能稳定。
特征数量超过10时,其他方法的性能显著下降,而稳定Cox保持鲁棒性。
5:乳腺癌数据分析
(a) Kaplan-Meier曲线(高低风险组划分):
稳定Cox模型在三个测试集中的HR值显著高于Cox PH:HR分别为1.91、1.85、1.61,均显著高于1,P值均小于0.001。
稳定Cox划分的高低风险组间生存差异更显著,Cox PH在部分测试集中P值>0.05。
(b) 亚组分析(临床变量划分):
ER阳性亚组:稳定Cox的HR值为2.09(95%CI:1.36-3.20),显著高于Cox PH的1.52(95%CI:1.05-2.43)。
PR阴性亚组:稳定Cox能够有效识别高风险患者(HR=2.18,P<0.001)。
(c) 基因一致性分析:
稳定Cox筛选出的基因中,没有基因在训练集和测试集中表现出相反的预后趋势。
Cox PH筛选出的基因中,有3个基因在不同数据集中显示矛盾趋势。
6. 临床数据分析
(a) 肺癌数据(OS和DFS任务):
OS任务:稳定Cox的平均C-index为0.72,比Cox PH高4.5%。
DFS任务:稳定Cox的C-index显著提高17.7%,从0.57提升至0.68。
(b)乳腺癌数据(OS和RFS任务):
OS任务:稳定Cox在两个测试集的C-index分别为0.72和0.70,比Cox PH提高6.58%。
RFS任务:稳定Cox的C-index平均提升6.5%,显著优于其他方法。
(c)重要临床变量分析:
稳定Cox识别出包括ER、PR和HER2状态在内的关键生物标志物,均为临床公认的重要指标。
Cox PH仅识别PR状态,其余标志物的重要性被忽略。
小
结
本文提出了一种稳定Cox回归模型,针对现有生存分析方法在分布漂移情境下性能下降的问题,通过独立性驱动的样本重加权模块与加权Cox回归相结合,有效识别稳定变量并消除伪相关性,从而提高模型的泛化能力和预测稳定性。研究采用模拟数据和真实数据(包括肝癌、乳腺癌和黑色素瘤的转录组数据及肺癌和乳腺癌的临床数据),验证了该模型在分布漂移场景中的鲁棒性。结果表明,稳定Cox模型能够显著提高C-index,优化生存分组效果,筛选出的生物标志物具有更高的稳定性和临床相关性。
-END-
文字丨本人点滴积累,如有补充,下方留言即可
(点击左下角“阅读原文”即可获取全文)