机器学习模型在非比例风险生存资料中的应用及案例实践

学术   2024-09-30 17:02   四川  

既包含结局事件又包含生存时间的数据被称为生存资料,又称为时间-事件结局数据。它因同时具有定量和定性的双重性质,可提供比单纯结局事件更加丰富的数据信息。由于生存资料的这种特殊性,针对它的独特统计分析方法被称为生存分析。生存分析在帮助了解疾病的自然史、评估治疗方法的效果、预测患者的生存期,以及指导临床决策等方面有着重要的意义。

目前的生存分析方法大致包括三个方面:① 生存过程的描述(如Kaplan-Meier曲线);② 生存过程的比较(如log-rank检验);③ 影响因素分析及生存预测(如Cox比例风险回归模型,简称Cox回归)。log-rank检验和Cox回归模型是生存资料统计分析中最常用的分析策略,但是它们应用有着重要的前提条件—等比例风险假设,而这一要求在既往应用过程中常被忽视:严若华等发现在PubMed检出的使用Cox回归模型的文章中,仅有0.34%(413/121 342)提及了比例风险假定。美国心脏协会发布的心血管医学统计报告中明确建议需要测试并报告Cox回归模型是否违反了等比例危险假定。但是在实际数据中由于大量噪声,很难满足这个假设条件。鉴于此,一些针对不满足等比例风险假定生存资料的统计分析方法已经提出:① 基于log-rank检验或者Kaplan-Meier检验用于生存过程比较的衍生方法;② 基于传统的Cox回归模型用于生存预后影响因素分析的改良方法或其他创新性方法。然而,这些针对非比例风险生存数据提出的改良分析方法,从根本上说是为小规模、低维度的临床研究数据服务的。尽管它们大多有着可解释性强和易于实施等优点,但是面对大样本数据、高维特征数据或需要探索更加复杂关联形式的分析要求时,它们使用的范围就相对有限。

随着精准医学时代的到来,可以获得的医学数据的规模和特征的维度急剧增加,因此对分析方法提出了更高的要求。作为人工智能重要分支之一的机器学习模型(包括人工神经网络)正越来越渗透于医药健康研究中。针对生存分析的问题,许多研究者也开发了相关机器学习模型来分析生存预后问题。机器学习模型对于数据分布的限制极少,且有更大的假设空间和拟合效果,另外这些机器学习模型在处理高维特征生存大数据或者存在竞争风险生存数据方面也有着独特的优势。许多机器学习生存模型是对Cox回归模型的改进(如DeepSurv和Modified-DeepSurv),尽管它们在解决Cox回归模型中的非线性和交互作用等挑战方面表现出了有效性,但对于存在非比例风险的生存数据的适用性却受到限制。

本文在解读NPH等相关概念之后,重点概述了可以处理不满足等比例风险假定生存资料的机器学习模型,并进行了基于机器学习模型的脑卒中患者死亡风险的案例研究,以期推动人工智能在非比例风险生存资料分析中的应用。


引用本文

陈浩然, 刘夏阳, 王敏, 杨林, 王嘉阳, 孙海霞, 段永恒, 吴旭生, 尚丽, 钱庆, 和晓峰, 李姣. 机器学习模型在非比例风险生存资料中的应用及案例实践. 中国循证医学杂志, 2024, 24(9): 1108-1116. doi: 10.7507/1672-2531.202401190


免费获取全文请复制链接在浏览器中打开、或扫描下方二维码、或联系本刊官邮editor@cjebm.com。

原文链接:

https://www.cjebm.com/article/10.7507/1672-2531.202401190

二维码:





点击下方“阅读原文”查看我刊更多内容


 最新文章