我们正处于癌症早期检测的分水岭,新型液体活检技术带来了使用简单血液检测筛查多种癌症的可能性。迄今为止的研究表明,这种多癌种早期检测可以在已经诊断为癌症的人身上获得阳性结果。行业的信息和公众的期望正在推动一种诉求,即广泛开展这些检测是一件紧迫的事情;事实上,在美国食品和药品管理局批准之前,有几种产品正在开展临床试验,而我们正在等待证明其具有临床效用的证据,并且已经提出了一项国会法案,一旦新检测获得批准并证明具有临床有效性,就允许医疗保险对其予以覆盖。现在,癌症早期检测的研究人员越来越担心,这些检测在经过必要的获益和危害性评估之前就被广泛使用。
本文中我们研究了从展示一种新的早期检测生物标志物的诊断性能到证明其在人群筛查中的价值的历程。我们分析了为什么基于测序的方法已经成为标准,并探讨了这个标准是否可以而且应该适应当前的需求。
癌症早期检测一直存在争议,因为它涉及干预以健康人为主的群体,以使相对少数人受益。癌症筛查检测不是一件简单的事,即使检测本身对人体无害且价格适中,它也可能导致后续的干预。在过去的十年中,研究人员和大众媒体更多地关注癌症筛查的危害而不是其益处。报刊文章对过度诊断和过度治疗提出了警告,发表的研究报告则强调了在常规筛查下,不必要的活检风险是如何急剧增加的。
通过梳理癌症早期检测的历史,我们也从中得到了一些经验和教训,不仅仅要注意检测的诊断性能。从一种新的筛查检测可以检出癌症的初步证据,到确定可以以可持续的方式进行人口筛查从而大幅减少癌症带来的死亡,中间还需要做很多工作。
首先,筛查试验在已知病例和非病例中展现出的良好检测性能必须在预期筛查(预期使用)人群中进行充分的确认。在实践中,预期情况下筛查试验灵敏度下降在意料之中,因为病例组可能会纳入更多分期较早、自然病程较短的患者,并且可能包含临床表现轻微的病例。此外,在这种情况下,灵敏度将取决于检出阳性结果的后续;如果不容易获得准确的确认检测,则整个筛查的灵敏度将进一步降低。
其次,在预期使用人群中进行筛查将导致疾病诊断时间前移到疾病自然史中更早、更可治疗的时间点。因为我们通常根据疾病的临床阶段定义早期诊断和晚期诊断,因此通常将这种情况称为产生适当“阶段转移”的筛查。然而,只有当癌症有足够的机会(比如足够长的早期自然病程)在此时被发现时,这种转变才会发生。因此,筛查目标癌种的自然病程将决定筛查计划改变所检出癌症患者预后的能力。然而,这需要有和没有筛查的情况下的发病率数据,而大多数癌种都无法获得这些数据。如果没有前瞻性评估,几乎不可能确定候选的筛查检测是否能够实现足够的阶段转移。
第三,筛查产生的任何阶段转移都应该转化为癌症死亡率可持续的降低。能否达到这个目的取决于癌症——不同癌症的预期死亡率在不同的阶段变化很大——以及筛查计划的实施,包括任何后续的诊断和治疗干预。在实践中,筛查结果阳性的病例获得确认检测的机会可能存在差异,同时后续干预方法的变化可能会影响筛查的有效性。因此,几个因素共同决定了一个有潜力的阶段转移是否会带来临床上显著和可持续的死亡率降低。
要确定一种新的检测方法满足这3个要求,同时还要控制不良后果,如不必要的活检和过度诊断,需要进行一系列相应的研究,这些研究通常需要多年才能完成。2001年,美国国家癌症研究所的早期检测研究网络建立了PBD(the Phases of Biomarker Development),以整理归纳这些研究,并指定从一个阶段到下一个阶段的进展标准。
PBD计划从发现(第一阶段)和评估在已知癌症病例和非病例中的鉴别性能(第二阶段)开始。后续进展到使用储存的血清样本评估诊断前的筛查性能(第3阶段)和确定队列研究中基于生物标志物的筛查带来的发病率和分期的变化(第4阶段)。4期研究也可以提示研究人员在前瞻性试验中筛选检测的诊断性能,但对此类研究灵敏度的简单经验性估计往往容易高估。最后是随机筛查试验,以疾病特异性死亡率为主要终点(第5阶段)。随机筛查试验不仅避免了随机分配筛查导致的选择偏倚,而且还考察了筛查、确诊试验和治疗对降低疾病特异性死亡率的总体贡献。在随机筛查试验中证明显著的死亡率获益已成为新检测被接受的条件;美国预防医学工作组(USPSTF)通常要求将此类证据作为建议人群筛查的先决条件。
在某种程度上,新的癌症检测正在遵循PBD研究的程序。一些检测性能的回顾性(第2阶段)和前瞻性(第4阶段)研究已经或正在进行。3期研究很少见,因为多癌种早期检测对于样本量要求比较高(例如1次检测需要采血20ml)。最近的一项3期研究根据一项人群队列研究的样本,评估了临床诊断前长达3年的检出率,该研究对每位受试者采血36ml。目前,很少有5期试验正在进行中,测试开发人员认为,以疾病特异性死亡率作为主要终点的试验过于漫长、昂贵和复杂。
随机筛查试验确实耗时长、花费高且操作复杂,尤其是在一般风险人群中开展。在一般风险人群中极低的疾病特异性死亡率意味着这样的试验必须招募大量的受试者;此外,在最初无症状的队列中观察到足够多的这些事件所需的时间意味着通常需要长时间的随访。考虑到其费用和时间花费,随机试验通常只能评估 1 或2种筛查策略。此外,由于诊断和治疗方法经常在不断发展,当试验结果最终可用于指导临床干预行为时,其对于临床的指导意义可能已经大打折扣。鉴于目前正在开发的基于液体活检的癌症早期检测方法数量庞大,对每一种检测方法进行筛查试验是不现实的。为此,癌症研究人员非常希望能有一种方式能加快筛查试验的效率,同时又能实现PBD的意图,即严格评估一种新的癌症筛查生物标志物带来的降低死亡率的获益。
在行业的大力支持下,一种备受关注的方法是在新检测的筛查试验中使用短期结果。一个主要的候选指标是降低晚期癌症的发病率,这已被提议作为死亡率获益的替代或临时终点。目前,对于如何实施这一策略尚未达成广泛共识,例如,关于筛查获益的结论是基于这一终点,还是阶段转移用于预测疾病特异性死亡率的降低?我们强烈反对第一种选择。之前已经表明,晚期癌症发病率的降低并不意味着癌症死亡率的降低;对某些癌种来说,晚期发病率的大幅降低,预计只会对降低死亡率产生一定程度的好处。简而言之,我们不知道临床上晚期癌症发病率的显著降低都是由哪些因素导致。考虑到癌症筛查项目一旦启动就会面临取消实施的挑战,将筛查决策建立在看似有利的获益上,而这并不能带来合理的降低死亡率的获益,这在临床和政策目的上都不能被认为是最理想的。
第二种选择(使用晚期发病率预测的死亡率降低作为终点)可能更合理。事实上,之前的研究已经建议在乳腺癌和结直肠癌筛查试验中使用这一终点;结果表明,这种策略在及时性和统计功效方面均优于死亡率终点。然而,这种策略仍然需要进一步研究预测降低死亡率获益的不同方法,因为阶段转移在癌症治疗中可以发挥作用。例如,我们已经表明,在通过筛查从晚期转移到早期阶段的病例中,用早期生存代替晚期生存期时考虑预后亚型可能会影响预测的死亡率降低。
是否可以利用其他方法来加快对新型筛查试验的评估,并获得证据来支持有充分根据的群体筛查决策?
真实世界数据被认为是一种可能有用的证据来源,因为这些检测在临床上开展,并产生其在实践中使用的数据。然而,除了确保在临床环境中以一致的方式收集关键变量的主要挑战之外,从真实世界数据中获取可靠证据可能面临许多挑战。首先,真实世界数据中的选择偏倚是一个众所周知的问题,但并不总是能够避免。考虑到新型早期检测的成本和其他使用难点以及对于确认试验准确性的要求,这种选择偏倚肯定会成为评估新型早期检测带来获益的一个主要问题。长期结果将需要数年时间来积累,而短期结果将受到与筛选试验的替代终点相关的影响。此外,还需要解决数据共享问题,或采用数据共享的替代方法,以便对大型、有代表性的数据集进行分析。如果能够获得真实世界的数据,它们将对评估短期结果最有价值:新检测使用的模式和预测因素、关于筛查和确认检测的获取问题,以及预期使用环境中的诊断性能。
计算疾病建模是一种成熟的方法,可以从筛选试验的经验结果中学习和推断。用于研究癌症筛查的计算模型是驱动筛查结果的疾病进展事件的数学表示,例如疾病发作、转移、诊断和生存。一旦相关事件的发生率被估计出来,该模型就可以虚拟地(例如,通过模拟)预测筛查和治疗对关键临床结果的影响,如晚期发病率和死亡率。模型已被用于通过模拟试验来扩大筛查策略的范围,这些试验检查了一系列筛查年龄和间隔、活检转诊标准以及根据疾病风险量身定制的处置策略。从某种意义上说,建模已经成为PBD非正式的第六阶段,USPSTF和其他国家指南小组依靠建模来发布他们的肺癌、乳腺癌、宫颈癌和结直肠癌筛查策略。最新的USPSTF肺癌和结直肠癌筛查指南直接通过建模提供信息。就肺癌而言,建模研究表明,将筛查条件从30包年吸烟史更改为20包年吸烟史,大大增加了符合筛查条件的人口比例和节省的生命年数,而筛查带来的危害仅略微增加。就结直肠癌而言,建模研究表明,与在50岁或55岁开始筛查的策略相比,在45岁时开始筛查的策略增加了延长的生命年,并减少了结直肠癌病例和死亡人数。新的USPSTF肺癌筛查指南将条件扩大到20或更多包年吸烟史,新的结直肠癌筛查指南建议在45岁开始筛查。
尽管计算建模不能取代所有筛查试验,但疾病过程的校准模型(在模拟现有研究时复制观察到的结果的模型)是一个强大的工具。事实上,校准的模型允许严格和透明的预测,这可能会提高效率,甚至消除对某些试验的需求。在这里,我们考虑了两种方法,其中建模可用于加快新检测的评估,但可能还有更多方法。
首先,正如我们已经讨论过的那样,一个在试验中根据特定阶段的发病率进行校准的模型可以用来预测相应的死亡率降低。一个根据发病率和死亡率模式进行校准的模型可以更进一步,预测试验完成之后的这些结果。我们之前使用建模来预测前列腺癌筛查的长期死亡率收益和过度诊断与带来的生存获益的比例,这是基于欧洲前列腺癌筛查随机研究的有限随访结果。虽然长期经验数据并不总能验证这些预测,但在2项结直肠癌筛查研究中,它们的可用性允许验证它们的长期结果与模型预测的结果相匹配。这种模型的应用不仅从试验到筛查策略制定之间架起了桥梁,这可能需要在长期(理想情况下是终生)范围内量化结果,而且还通过巧妙地结合经验和基于模型的结果,为缩短试验时间提供了可能性。根据观察到的筛查组与对照组的晚期发病率,预测死亡率降低,在一种情况下(例如一年一次检测)进行验证,并用于预测另一种场景(例如两年一次检测)的效果,将是这种混合模型的一个示例。
其次,筛选模型原则上可以从对旧检测的长期研究中建立起来,并使用具有不同分析性能的检测来预测筛选的结果。举例来说,建模研究通过将基于粪便的新型结直肠癌检测方法(考虑到它们的灵敏度)与现有的结直肠癌自然病史模型(根据美国结肠腺瘤患病率数据和结直肠癌发病率进行校准)进行叠加,预测了结直肠癌筛查的结果。这种模型的应用可以减少对新检测的试验需求,因为它们在前瞻性筛查环境中的表现已经得到了评估,并且有了针对目标癌种的筛查的校准模型。
当然,建模也会面临挑战和限制。模型需要大量高质量的数据才能进行充分的校准;即使有这样的数据,进行评估也不是一件简单的工作;并且其经常对自然病程、筛查性能或筛查获益做出无法验证的假设。不过,在过去的几十年里,建模科学取得了进步,能够摆脱这些限制的方法已经开发并继续发展。值得注意的进展包括独立开发的模型的指标,以检测不可测量量的有效性,将具有潜在许多参数的模型校准到多个数据目标的有效算法,以及基于模型输出将模型输入的不确定性传递到策略偏好不确定性的方法。
总之,新的癌症筛查检测的营销宣传声称,因为缺乏对许多癌种的筛查手段,很多新的筛查检测的开展变得紧迫。然而人们担心,在研究人员能够确定这些检测利大于弊之前,这些检测可能会被推荐给没有充分掌握信息的公众。癌症早期检测研究人员现在必须解决PBD计划与加速评估新型筛查检测的要求之间的矛盾。我们是否会继续要求通过一项随机研究来证明其具有显著降低疾病死亡率的获益,才为一项新的检测开绿灯?或者我们是否愿意扩大支持有效性的证据来源来推荐这种检测?如果遵循后一种策略,那么建立一个严谨的客观分析和建模研究项目来学习和扩展PBD研究的结果将是非常有价值的工作。
编译自《Journal of the National Cancer Institute》
往期推荐
文章内容由“MIR医学仪器与试剂”编辑整理,转载请注明来源。
如果您觉得我们发布的信息对您及您的朋友有帮助,请点击右上角···按钮分享到朋友圈。
获取更多检验资讯请浏览“医学仪器与试剂官方网站”www.mir168.com
欢迎向我们投稿或推荐优秀文章,将优秀文章与更多的同行分享、交流。
投稿邮箱:28675637@qq.com