如何解读一项单臂临床试验

文摘 2024-08-25 19:25 上海

《肿瘤论坛》由上海市胸科医院呼吸内科张波博士于2020年5月创办，旨在客观、中立、及时传递肺癌临床诊疗的国际最新进展，分享临床病例。欢迎关注。

更多交流，欢迎入群

前言：药物研发中，RCT是评估药物疗效的金标准，但是，RCT研究往往涉及更大的样本含量、更长的研究周期，对于罕见疾病、临床迫切需要新治疗手段的疾病来说，RCT并非最佳选择。在这种情况下，基于单臂临床研究获批药物上市是合理的选择。CDE也曾经发表过专门的技术文件，以指导单臂临床试验的设计及执行。在药物研发中，单臂临床试验之所以在特定情况下才被允许，且相当一部分基于单臂试验获批的药物均为附条件批准，很重要的原因是单臂临床研究本身存在一定的缺陷。本文旨在结合具体的单臂临床试验，从不同角度探讨解读单臂临床试验的注意事项，以求更加全面、准确、客观的评估一项研究及一款药物的数据。

一、主要研究终点的选择

如果以药物上市为目的注册性临床研究，CDE在《单臂临床试验用于支持抗肿瘤药上市申请的适用性技术指导原则》中讲的非常明确，需要以ORR，而且需要以独立评审委员会评估的ORR作为主要研究终点。

CDE指导文件关于研究终点选择的要求

要求独立评审委员会进行数据评估容易理解，主要是为了避免研究者评估带来偏倚，毕竟单臂研究没有设盲，为什么要求以ORR而不是PFS作为主要研究终点呢？个人认为，这主要是为了规避疾病自然病程的影响。我们知道，临床实践中，少部分肺癌患者由于生物学行为偏于惰性，即使不给予治疗，病灶也可以在一定时间内保持稳定。因此，在以安慰剂为对照的临床试验中，安慰剂组3个月的PFS率往往并不是0%，甚至6个月的PFS率也不是0%，虽然这一比例并不高。例如，在舒尼替尼维持治疗广泛期小细胞肺癌的II期随机对照临床研究中，从生存曲线可以大概估算出，安慰剂组6个月的PFS率约为10%。

安慰剂维持治疗小细胞肺癌6个月PFS率

因此，如果以PFS作为主要研究终点，由于PFS包括了评估为SD的患者，而少部分患者的SD是由于疾病自然病程的影响而非给药的效应，这就意味着有可能略微夸大药物疗效。但是，对于肿瘤而言，不给予治疗可能在一定时间内保持疾病稳定，但基本不可能出现病灶缩小。尤其需要注意的是，出现客观缓解要求靶病灶缩小超过30%，在没有治疗的情况下几乎不可能出现。既往发表于eClinicalMedicine的一项荟萃分析也发现，安慰剂组在肺癌中的客观缓解率为0%。

安慰剂与客观缓解的相关研究

因此，如果出现客观缓解，就意味着疗效肯定是由于药物导致而不可能是由于疾病自然病程的结果。不以DCR作为主要研究终点同样是这个道理。因此，在单臂研究中，通常以ORR作为主要研究终点。

如果是研究者发起的研究，那么研究的主要终点设定可以围绕研究假设和研究目的进行。例如，如果研究者想要观察从该药治疗中长期获益的患者比例，可以设定×个月的PFS率或者OS率；此外，临床实践中，部分患者终止治疗可能是由于安全性原因而非疾病进展，因此，如果研究者想观察在真实世界中患者治疗终止情况，则可以选择至治疗失败时间(TTF来进行评估)。

二、注重缓解质量

缓解质量包括了两层意思：缓解深度和缓解持续时间。这同样也是CDE文件中的提醒。

CDE文件

缓解深度即指代肿瘤缩小程度，根据RECIST 1.1评估标准，靶病灶直径和缩小超过30%以上，即可评估为客观缓解。但实际上，病灶缩小32%和缩小92%，可能意味着患者的结局是并不一样的，这在免疫治疗中体现的尤其明显，缓解深度与患者的疗效存在明显的相关性。对于缓解持续时间，这一点同样非常重要。如果患者虽然短期内出现客观缓解，但缓解并不持续，短期内出现疾病进展，意味着药物的疗效并不持久，因此，除了ORR这一指标外，还需要关注中位DOR这一数值，即从患者出现客观响应开始，至患者出现疾病进展或死亡。这一点在小细胞肺癌中体现的尤其明显。在广泛期小细胞肺癌患者的一线治疗中，患者接受含铂双药治疗的客观缓解率可以达到70%，远超非小细胞肺癌患者接受含铂双药治疗的客观缓解率，几乎可以与靶向治疗相媲美，但多数患者经过4~6个月的疾病缓解，往往很快出现疾病进展，意味着缓解质量其实并不高。

三、关注ORR与PFS和OS的关系

客观缓解率高，并不意味着患者的生存时间长，即ORR这一短期疗效指标和PFS、OS等长期疗效指标并不一定存在明显的相关性。以RESILIENT研究为例，该研究探索了一线接受含铂双药治疗后疾病进展的广泛期小细胞肺癌患者，给予伊立替康脂质体或拓扑替康的疗效，主要研究终点为OS。虽然ORR接近翻倍，从拓扑替康21.6%的ORR提高至44.1%，但是两组的PFS和OS均没有提高。两组中位OS分别为7.9个月和8.3个月，HR=1.11， P=0.31；两组中位PFS分别为4.0个月和3.3个月，HR=0.96，P=0.71。近期，Lancet Oncology杂志发表了FDA基于递交的药物研发数据分析了ORR与PFS和OS等指标的相关性，结果发现，ORR的获益与PFS及OS的相关性并不强，提示仍然需要关注患者长期的获益情况。

ORR与PFS和OS仅存在中度相关性

ORR的获益不能转化为PFS及OS的获益，主要与两方面的原因有关：1、疾病本身的生物学特点，如小细胞肺癌，患者虽然对治疗表现为初始响应，但由于肿瘤恶性程度高，会迅速出现继发性耐药，导致响应并不持久；2、可能和给药剂量有关。在药物研发中，为了追求较高的短期客观缓解，而给予较高的给药剂量，而较高的剂量会导致患者因频繁的治疗中断、治疗终止、给药延迟，甚至永久性终止给药，影响疗效，从而使患者最终的OS反倒更短。以FDA对PI3K抑制剂在血液系统肿瘤的态度为例，早先， FDA基于单臂临床研究中较高的ORR数据陆续批准了多款PI3K抑制剂在淋巴瘤中的应用。但是，在后续的确认性随机对照临床研究中，获批的药物不仅没有展示更好的OS，反而OS有更差的趋势，进一步分析发现，这些药物的安全性存在隐患，多数药物的3度以上不良反应发生率都超过70%，甚至有几款药物已经超过85%，SAE也超过50%，如此“惨不忍睹”的安全性数据，导致1/3-1/4的患者因不良反应而导致永久终止治疗，因此，OS受到负面影响也就是情理之中的事情了。最终，FDA召开专家顾问会，讨论基于单臂临床研究批准PI3K抑制剂的可行性，最终，2022年4月21日，专家组以16票同意，0票反对，1票弃权的结果，认为未来PI3K抑制剂在血液瘤中的适应症批准，仍然需要回归传统金标准——RCT，由此导致大量的附条件上市的PI3K抑制剂纷纷撤市。

FDA关于PI3K抑制剂的讨论

四、谨慎解读PFS数据

首先解释一下中位PFS的概念。在生存曲线图中，左边的纵轴指的是生存率，横轴指的是生存时间，所谓中位PFS，就是从50%累计生存率这一点，做一条与X轴平行的线，这条线与生存曲线的交点，对应到时间轴，即为中位生存时间。因此，很显然，“中位”实际上是用了生存曲线中的一个“特殊的点”替代了一整条生存曲线。

中位概念的展示

虽然“中位PFS”等概念是药物研发中非常常用的指标，但是，用曲线上“一个特殊的点”来替代一整条生存曲线，本身就存在缺陷和不合理的地方。了解这一概念后，我们详细聊一聊为什么单臂临床研究的PFS需要谨慎解读，为什么PFS的跨研究比较需要非常谨慎。

首先，在以PFS为主要研究终点的随机对照研究中，PFS的分析时间节点是预设的。这些“事件驱动型”的主要终点，往往需要在终点事件达到预设的数量后，才会触发相应统计分析计划。而在单臂临床研究中，对PFS和OS的分析时间节点并无明确要求，只要拿到确认的ORR数据后，PFS可以在任意节点进行，随着事件数逐渐增加，随访时间逐渐延长，生存曲线的走势和形态也会逐渐变化，中位数值的估算自然也会有相应的变化，而如果样本含量比较小，会导致生存曲线呈现阶梯状，PFS的估算并不稳健，在50%累计生存率附近，少数终点事件数的变化就可能导致中位数值的估计出现剧烈波动。以赛瑞替尼治疗ROS1融合阳性患者的一项单臂II期临床研究为例，该研究初始时候，允许克唑替尼耐药的患者入组，但入组2例患者后，发现均对赛瑞替尼耐药，因此，研究修改方案后，仅入组初治患者。因此，最终数据分析时，全组人群和初治人群只有2例样本含量的差异，但两组中位PFS分别为9.3个月和19.3个月，相差1倍不止。就是因为对于小样本单臂研究而言，中位PFS的估算可能会有不稳定的因素。

赛瑞替尼治疗ROS1融合阳性NSCLC的单臂II期临床研究

另一方面，不同研究入组患者的基线特点，如脑转移状态、肿瘤负荷不完全相同，疗效评估周期不同，删失规则不同，这些都会对疗效评估造成影响。

因此，单臂研究PFS的中位数值估算的潜在不稳定性、不同研究临床特点的差异、研究规则的差异，即使间接比较有较大的PFS的差异，这种差异也未必能在随机对照临床试验中体现出来。

以阿来替尼和布格替尼为例，两款药物后线治疗克唑替尼耐药的ALK阳性晚期NSCLC患者的适应症均是通过单臂临床研究获得批准。其中，阿来替尼共有两项单臂研究，两项研究的设计、样本含量、入组人群及结果基本相似，分别入组138例和87例患者，ORR分别为50%和48%，中位PFS分别为8.9个月和8.1个月；

阿来替尼的后线注册性研究

而布格替尼为双队列研究，由于两个队列并不进行假设检验，只是单纯比较不同给药剂量(A组：90mg，口服，每日一次；B组：90mg，口服，每日一次，7天后改为180mg，口服，每日一次)与疗效的相关性，因此，可以将每个队列看做是一个独立的单臂研究。队列A和队列B分别入组112和110例患者，两个队列的ORR分别为45%和54%，中位PFS分别为9.2个月和2.9个月，此时，从间接的数据看，布格替尼队列B的疗效已经似乎展示了比阿来替尼更好的疗效。

布格替尼的注册性临床研究及更新

而更新后的数据，队列B的中位PFS更是达到了16.7个月，与阿来替尼的数据相比，几乎翻倍，似乎展示了巨大的优势。在这一间接数据的加持下，武田公司开展了布格替尼与阿来替尼在后线头对头的比较，由此，III期的ALTA-3研究应运而生，但是结果却让人大跌眼镜。研究不仅没有得到阳性结果，同时也没有看到获益的趋势，更重要的是，在随机对照临床研究中，两药的中位PFS数据均远远超过注册性临床研究。两组中位PFS分别为19.3个月和19.2个月，HR=0.97，P=0.8672。

ALTA-3研究

因此，在单臂临床研究中，跨研究的疗效比较得到的结论有时并不可靠，中位PFS的数据值也会“骗人”。

五、关注不良反应的归因

药物研发中，关于不良反应通常会有两个描述：TEAE (Treatment emergent adverse event)和TRAE (Treatment-related adverse event)，前者指全因不良反应，即无论AE与疾病有关，亦或是与治疗有关，都可以纳入统计分析中；后者指治疗相关不良反应，只有与治疗药物有关的AE才可以纳入统计分析。单臂临床研究由于没有设置对照组，从而使不良反应归因存在困难，因为疾病本身同样可以导致某些不良事件，如咳嗽、痰血、胸闷、气急、疼痛的出现，这些不良事件应该归因于疾病本身，还是归因于药物治疗，还是两者都存在一定相关性，很难进行判断，这就使得对不良事件的判断会出现偏差。

小结

当一项单臂临床试验宣称得到“阳性”结果并成为“史上最佳”时，我们需要审慎的判断研究所提供的循证医学证据是否足以支持这样的结论，研究是否能够经得住III期随机对照的验证，有没有更多的外部证据对结论进一步支持，安全性归因是否存在不合理性，结合历史对照数据、完整生存曲线，从而尽量得到更加客观和全面的解读。

肿瘤论坛

让学术更纯粹、更及时。