一、背景
生存分析在临床试验和医学统计方法中有着举足轻重的地位。生存分析主要处理的数据类型为病人的生存时间或存活期,也就是从病人接受治疗开始,跟进疾病的进展直到某个特定的事件发生所经历的时间。该特定事件通常为病人死亡、疾病恶化或癌症扩散等。
生存时间型数据(time to event data)通常出现在Ⅱ、Ⅲ期临床试验,有时也会出现在Ⅰ期临床试验。试验收集的数据包括如下三种常见的生存期:
(1) 无疾病生存期(Disease-Free Survival,DFS)是指病人从接受治疗开始到疾病复发所经历的时间;
(2) 无进展生存期(Progression-Free Survival,PFS)是指病人从接受治疗开始到疾病恶化或由任何原因导致死亡所经历的时间;
(3) 总生存期(Overall Survival,OS)是指病人从接受治疗开始到由任何原因导致死亡所经历的时间。
除了以上三种常见的生存期外,有些试验如CAR-T研究,可能还会收集非复发死亡(Non-Relapse Mortality,NRM)等信息,对于这类指标,其分析方法同常规生存数据有区别,需使用竞争风险模型。
生存时间型数据也常常被称为时间跟进型数据,在对病人跟进随访的过程中,生存数据有时会被删失,产生删失数据的常见原因包括跟进的停止、病人中途退出试验而失去联系、试验中期分析或试验研究的终止等,生存数据的删失可以分为左删失、右删失或区间删失,右删失型数据是临床试验中最常见的删失形式,它意味着在某个时间节点仍未观测到特定事件的发生。倘若研究的特定事件为病人的死亡,右删失型数据是指在试验某个时间节点,病人依旧存活,且之后病人死亡的确切时间未知。
下面,我们主要介绍针对右删失型生存数据的统计分析方法。
二、生存分析的理论体系与常用指标
令f(t)表示生存时间T的概率密度函数,S(t)=P(T>t)表示相应的生存函数,则相应的风险率函数λ(t)定义为:
风险率函数λ(t)表示在病人存活至时间t后,在随后的趋近于0的δ时间段内发生死亡事件的速率。累积风险函数Λ(t)定义为:
由此,我们可以推出:
S(t)=esp[-Λ(t)],λ(t)=f(t)/S(t)
显然,这四个函数 f(t)、S(t)、λ(t)和Λ(t)可以互相转换,即若其中任意一个函数已知,则可以推导出其他三个函数。
生存分析的一个重要内容就是估计风险函数,研究风险函数与危险因素之间的关系。
风险比(Hazard ratio,HR)是指同一时点两组的风险函数之比,这个比即为相对危险度。
如果风险比与时间无关,即任何时刻,两组的风险比值是相等的,则成为比例风险(propotion hazard,PH),否则称为非比例风险或时间依赖的。
生存分析已形成了一套较为完善的理论体系,内容包括:生存过程的描述、生存过程的比较、影响生存时间的因素的分析。相应的统计方法按参数和非参数方法分为两大类。
表1 生存分析的主要内容及研究方法
注:黄色部分为临床试验实践中常见的方法
本文将具体展开Log-rank检验、分层Log-rank检验和COX比例风险模型。
三、 Log-rank检验
通过以下案例[3],我们详细说明log rank检验的基本原理和过程。62例某种癌症病人的随访资料如表1,数据包括患者的治疗分组、生存状态、生存时间(天)、年龄(岁)。生存状态0表示删失,1表示死亡。我们采用log rank检验比较两组患者生存率是否有差别。
表1 62例病人原始资料及生存时间
根据上表数据,绘制Kaplan-Meier(KM)曲线如图1。
图1 两种疗法比较的Kaplan-Meier图
由图中可见,A、B两组病人生存曲线基本分开,且B组病人生存概率高于A组。
为第Ti天建立一个四格表
如果原假设成立,即A、B两组在任一时间点上生存函数一样,那么第Ti天A组病人期望死亡数可通过下式计算
EAi=oi*ai/ri
B组病人的期望死亡数也可以通过同样的方式计算
EBi=oi*bi/ri
例如,在第1天时暴露的62人中,A组27人,B组35人,该天死亡2人。如果两组疗效相同,则A组应死亡2×27/62人,即0.871人;而B组应死亡2×35/62人,即1.129人。如此依次求出第3天,第7天等时间点各组期望死亡数。将各组期望死亡数分别相加,最后与实际死亡数做x2检验。
OA,OB,分别是A、B组实际死亡数,EA,EB,分别是A、B组期望死亡数。
本例
计算过程见表3。
表2 两组生存率的log rank检验
自由度为组数之和减一,本例中
v=2-1=1
两种疗法的生存率差异有统计学意义。
四、分层log rank 检验
如果在A、B两组中除所比较的组别(设为甲因素)外,还有某些对结果影响较大的因素(设为乙因素)可能干扰对甲因素作用的研究,则应当消除乙因素的影响后进行两组比较,对此可做分层log rank(stratified log rank)检验。在上例中,如果年龄大于60岁会影响到病人的预后,则应当消除年龄的影响后再进行比较。因此,可将病人分成大于、小于60岁两个亚组,在各亚组内进行A,B两组期望死亡数的计算,然后再将两个亚组的EA相加为总的EA,两个亚组的EB相加为总的EB,再做X2检验。
表3 年龄小于60岁亚组两种疗法期望值的计算
同样可列出年龄大于60岁亚组病人的计算表,所得期望值为EA=8.807,EB=22.193。将两个亚组的EA值相加,两个亚组的EB值相加得总的EA和EB值。
EA=6.667+8.807=15.474
EB=19.333+22.193=41.526
实际死亡数不变,将以上计算结果带入式(1)计算X2值,结果为9.828。由于仍是两种疗法比较,自由度仍为1。x2>3.84,p<0.05,消除年龄的影响后两组差别仍有统计学意义。
五、COX比例风险模型
COX比例风险模型假设:在任何时刻风险的比值是不变的,即“等比例风险”,一般形式为:
它表示时刻t暴露于危险因素(x1,x2,…,xp)的风险函数,其中λ0(t)为基线风险函数,一般不能由样本估计出,故COX模型又称为半参数模型,但这并不影响HR的估计。
COX模型的另一等价形式为:
上述案例,以组别、年龄分层作为自变量,做COX比例风险模型,A组相对于B组HR为2.9(95%CI:1.573~ 5.355),P value= 0.0006。表示A组的死亡风险是B组的2.9倍。
应用比例风险模型时,需验证“等比例条件”是否成立。验证等比例风险有很多方法。一个简单的方法,是绘制协变量不同水平时的Kaplan-Meier 曲线,如果曲线相交,则等比例风险不成立。另外,在模型中增加协变量与时间t或ln(t)的交互作用项,考察该交互作用项是否有统计学意义或许是最好的、最方便的方法。如果有统计学意义则说明等比例风险条件不成立;如果无统计学意义,则说明等比例风险条件成立。此时,亦需考虑协变量与时间的适宜尺度。
六、竞争风险模型
竞争风险模型( Competing Risk Model ),指的是在生存分析中,存在某种已知事件可能会影响另一种事件发生的概率或者是完全阻碍其发生,则可认为前者与后者存在竞争风险。例如aGVHD研究中恶性血液病复发/进展导致的死亡与其他死因,心肌梗死研究的心机梗死导致的死亡与其他死因, 生殖细胞癌患者死亡与继发恶性肿瘤,先天性心脏病患者术后死亡与随访终点肺静脉梗阻存在竞争风险。
传统的生存分析要求个体删失情况与个体终点事件相互独立,结局不存在竞争风险。对于存在竞争风险事件的生存分析,此时仍然使用传统生存分析方法,会出现累积风险率、生存曲线检验P值、HR估计值估计偏差的情况。正确的处理方法是用累积发生函数(cumulative incidence function , CIF) 估计复发的累积发生率,Nelson- Aalen累积风险曲线绘制生存曲线, Gray' s检验进行组间差异性检验,Fine and Gray’s sub-distribution风险模型估计HR及其95%CI。下表总结了存在/不存在竞争分析事件时,生存分析常用方法。
92例心肌梗死病人的随访资料如表,数据包括患者的治疗分组、生存状态、生存时间(天)。生存状态0表示删失,1表示心肌梗死导致的死亡,2表示其他原因导致的死亡。
采用CIF计算360天时,A组累积风险率为0.24(95%CI:0.116~0.384),B组累积风险率为0.07(95%CI:0.023~0.165)。绘制Nelson- Aalen累积风险曲线如下图所示:
两组间生存过程Gray' s检验显示:x2(1)=3.69,p=0.0548。做Fine and Gray’s sub-distribution风险模型,A组相对于B组HR为0.437(95%CI:0.188~ 1.017),P value= 0.0548。
综上所述,在控制了竞争风险事件(非心肌梗死导致的死亡)后,A组的死亡风险较B组高,但无统计学意义, P=0.0548,A组相对于B组HR为0.437,A组和B组的累积风险无统计学差异(x2(1)=3.69,p=0.0548)。
以下为竞争风险模型的示例CODE:
七、总结
本文介绍了生存分析常见分析方法,包括Log-rank检验、分层Log-rank检验基本原理,COX模型应用条件,还介绍了竞争风险模型基本概念和应用。通过两个临床试验案例,对上述方法进行实际操作。篇幅所限,其余统计方法可关注我司公众号后续分享文章。
参考文献
[1]. Mantel N. Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer Chemother Rep. 1966;50(3):163-170.
[2].《临床试验设计的统计方法》(尹国圣等)
[3]. Kalbfleisch, J. D., and Prentice, R. L. (1980). The Statistical Analysis of Failure Time Data. New York: John Wiley & Sons.
[4]. Kirchhof, P., et al., Early Rhythm-Control Therapy in Patients with Atrial Fibrillation. N Engl J Med, 2020. 383(14): p. 1305-1316.
[5]. 《医用多元统计学》(陈峰等)
- E N D -