乳腺癌的动态预测:利用TEAM试验在临床实践中证明动态预测模型的可行性
本文中已在之前的公开课做过分享,感兴趣的同学可以看B站的回放
翻译测试平台
摘要
背景
预测模型是当前临床实践的一个重要组成部分,有助于确定个体患者的最佳治疗策略。一个缺点是假定协变量对总生存期(OS)有恒定的影响,而实际上,这些影响可能在随访期间发生变化。 此外,乳腺癌(BC)患者可能会经历事件,从那时起改变其预后。我们研究了不同协变量对OS的“动态”效应,并制定了一个图表,在随访期间的不同预测时间点(tP)计算5年动态OS(DOS)概率。
方法
荷兰和比利时绝经后、内分泌敏感、早期乳腺癌患者参加了TEAM试验。我们评估了特定协变量的时间变化效应,并利用比例基线里程碑超模型获得了5年DOS预测。协变量包括年龄、组织学分级、激素受体和HER2状态、T和N分期、局部再发(LRR)、远处复发和治疗依从性。设计了一个计算个体特征基础上的5年DOS的量表。
结果
共纳入2602名患者(平均随访6.2年)。N分期、LRR和HER2状态显示了对5年DOS的时间变化效应。LRR、高风险N分期(N2/3)和HER2阳性的危险比(HR)函数分别为HR=(8.427×0.583tP,HR=3.621×0.816tP和HR=1.235×0.851tP)。治疗中断与更高的死亡风险相关,但没有时间变化效应[HR=1.263(0.867–1.841)]。所有其他协变量均为时间恒定。
讨论
当前的量表考虑了自开始辅助内分泌治疗以来经过的时间,并优化了绝经后、内分泌敏感乳腺癌患者在随访期间个体5年DOS的预测。这个量表可以帮助确定进一步治疗是否有益于个体患者,尽管仍需要在一个独立数据集中验证。
关键词:动态预测、里程碑分析、生存概率、乳腺癌、个性化治疗
AI知识补充
在医学研究中,尤其是在临床试验和流行病学研究中,landmark analysis(地标分析)是一种统计方法,用于评估从特定时间点(地标时间点)开始,某些治疗或风险因素对患者预后的影响。这种方法可以帮助研究者理解在某个特定时间点之后,不同治疗策略或风险因素如何影响患者的长期结果。
具体来说,地标分析通常包括以下几个步骤:
选择地标时间点:这个时间点通常是治疗开始后的一个特定时间,或者是某个特定的事件发生后的时间,比如疾病复发、副作用出现等。
创建地标数据集:在地标时间点,研究者会创建一个新的数据集,只包括那些在地标时间点之前没有发生感兴趣事件(比如死亡、复发等)的患者。
分析地标后的风险:在地标数据集中,研究者会分析从地标时间点开始,不同治疗或风险因素对患者预后的影响。
地标分析的优点在于,它可以帮助研究者控制治疗开始前的差异,并且可以评估在治疗过程中不同时间点上治疗或风险因素的影响。这种方法特别适用于那些治疗效果可能随时间变化的情况,或者当研究者想要评估长期治疗效应时。
在上述文献中,地标分析被用来评估在接受内分泌治疗的乳腺癌患者中,不同因素(如治疗依从性、远处复发状态、局部区域复发状态)对5年无病生存(5-year disease-free survival, DOS)的影响。通过这种方法,研究者可以更准确地预测在特定时间点后,患者的预后情况。
背景
乳腺癌(BC)是一种具有多样特征的异质性疾病,这些特征可能与结果相互作用,使得很难获得个体预后的估计。诸如诺丁汉预后指数(NPI)等工具的广泛应用,突显了预测模型对医生和患者的重要性,为辅助治疗决策提供指导。然而,大多数预测模型不能用于癌症患者在随访期间的特定时间点,因为这些模型是在诊断后立即使用设计的。除了现有“静态”预测模型存在的问题之外,这些模型在随访期间使用时可能会产生误导性结果的一些重要原因。首先,患者在诊断后已经存活数年,可能会改变患者的预后。例如,乳腺癌复发率在诊断后1-2年达到峰值,之后下降,从而改善预后。第二,诊断和预测之间的时间里,可能发生重要事件,比如局部复发(LRR)和/或远处复发(DR),或者治疗过早终止,这可能会改变患者的预后。第三,当前模型中包含的一些变量可能对结果产生时间变化的影响,导致随着时间的推移死亡风险发生变化。因此,过多地强调可能会造成在FU期间初期,应将影响结果的变量放置在重要位置,而这种影响可能在后期要小得多。
现有的静态模型是基于诊断时的生存概率,可能无法准确地描绘患者在随访期间后期的生存概率。 通过同时纳入时间变化的协变量和允许时间变化效应来更新生存概率的概念被称为动态预测。 按设计,这些变量并未包含在静态风险预测模型中,这些考虑说明了癌症患者需要更好的预测模型。
为了研究动态预测的临床适用性,我们利用了来自荷兰和比利时的一项大型随机临床试验的数据集,该试验对绝经后激素受体阳性(HR)早期BC患者进行了内分泌治疗(ET)。当前分析的目的是开发一种临床适用的nomogram,以促进个体患者在任何预测时间点(tP)(开始辅助ET治疗后3年)额外存活5年的概率预测。这种从特定tP持续更新5年总生存(OS)的概念被称为5年动态总生存(DOS)。我们设计了一个动态预测模型,考虑了FU期间具有时变效应和时间常数效应的各种患者和肿瘤特异性协变量。
方法
他莫昔芬依西美坦辅助多国(TEAM)试验是一项随机、III期、多国、开放标签的研究,在绝经后妇女中进行,这些妇女符合辅助ET的条件,随机分为5年依西美坦(25mg)或2.5-3年他莫昔芬(20mg),随后是2.5-2年依西美坦(25mg)。TEAM试验方案得到了监管和伦理当局的批准。
所有参与国的参与中心。该试验在荷兰和比利时注册,编号为NTR 267。所有患者均提供书面知情同意书。研究和数据收集的细节已在之前发表
在荷兰和比利时,3168名绝经后早期BC患者参加了TEAM试验。排除未开始随机治疗的患者(n = 19)或缺失终点数据的患者(n = 4), ET开始前的转移性疾病(n = 7)以及模型中使用的协变量数据缺失的患者(n = 528)(图1)。排除雌激素受体(ER)和孕激素受体(PR)阴性疾病的患者(n = 8)。由于除荷兰和比利时以外的国家无法获得最初计划的5年FU数据,因此动态预测模型不包括所有参与TEAM试验的国家的数据(补充表S1,可在Annals of oncology在线获得)。本研究的主要终点是OS,即从随机分组到死亡日期或最后记录的FU的时间。LRR定义为同侧乳腺和/或淋巴结以及锁骨上淋巴结的任何BC复发。LRR不包括导管原位癌复发。DR包括所有其他的bc复发病例。
统计分析
采用SPSS (version 20)和R (version 2.15.1)软件进行统计分析。我们使用比例基线里程碑超级模型来获得5年DOS概率的动态预测。该模型需要若干里程碑时间点(tLM);在目前的模型中,在ET开始后的0 - 3年间每隔3个月建立一次tLM。通过选择该tLM处于风险中的个体,并将该tLM中任何时间相关协变量的值纳入Cox比例风险模型,构建特定tLM的5年DOS预测模型。不同tlm的里程碑预测模型可以合并成一个超级模型(补充附录S1,可在Annals ofOncology在线获得)。在临床环境中使用这种分析,我们可以在任何预测时间点获得DOS预测,tP对于这个特定的模型,预测窗口设置为建立的tP后5年。
模型中包含的基线患者和肿瘤特异性因素包括诊断时年龄(连续、线性和二次项)、Bloom & Richardson (BR)组织学分级(I、II、III)、肿瘤分期(1,2,3 /4)、淋巴结分期(N0、N1、N2/N3)、ER和PR状态(阳性、阴性)、HER2状态(阳性、阴性、缺失)、手术(乳房切除术、保乳手术)、放疗(是、否)、化疗(是、否)。根据荷兰BC治疗指南的定义,如果免疫组化染色后至少有10%的肿瘤细胞染色呈阳性,则认为ER和PR状态为阳性.
该模型还包括三个动态变量,它们的值在ET过程中可能发生变化,即当前ET状态、LRR(是、否)和DR(是、否)。为了评估患者是否停止治疗,我们使用病例报告表格中报告的最后一次治疗日期。如果没有最后治疗日期,则假定患者正在接受治疗。根据TEAM试验方案,LRR或DR患者停止或切换ET治疗.
为了检验时变协变量效应,协变量与tLM(线性和二次)之间的相互作用被纳入模型。然后,逆向选择变量分两步进行。在第一步中,对所有二次tLM与协变量的相互作用进行检验。去除不显著的二次相互作用,然后在第二步中测试那些在第一步中没有显著相互作用的协变量是否为线性tLM相互作用。同样,只保留了重要的相互作用。采用基于稳健标准误差的Wald检验,P值为0.05被认为具有统计学意义(补充附录S1,可在Annals of Oncology在线获得)。模型包括协变量和tLM、tLM2的主效应,不论有无统计学意义。然后由van Houwelingen等人使用启发式收缩因子对模型进行内部校准验证。模型正确区分患者的能力使用动态交叉验证的c指数进行评估。c-index为1的模型可以完全区分不同的患者,而c-index为0.5的模型则完全是随机预测.
nomogram是一种基于预测模型计算生存概率的友好工具,并基于单个患者的独特特征以图形方式计算5年DOS。对于每个预后因素,将一些风险点分配给每个相应的协变量,这些协变量可以从nomogram中读出。风险点的总和代表总风险点评分,从该评分可以评估在ET开始后的任何tP(0至3年之间)相应的5年DOS概率。基于nomogram基于web的动态预测工具已经创建,以方便计算5年动态总体生存率,并帮助临床实践中的决策过程(http://shiny.bioexp.nl/dsp/)。
结果
共纳入2602例TEAM试验患者,中位年龄为64.8岁(38-92岁)(图1)。纳入患者的基线特征见表1。本试验纳入的大多数患者接受了辅助放疗(66%),未接受辅助化疗(68%)。图2提供了连续tlm中与治疗依从性和疾病复发状态相关的里程碑数据集中患者总数的概述。
表2描述了模型中包含的协变量的回归系数和95%置信区间(95% CI)的风险比(HR)。显示了具有时间常数效应的协变量和具有时变效应的协变量。诊断年龄表现出时间常数效应,5年DOS是年龄的二次函数(补充附录S2,可在Annals of Oncology在线获得)。有趣的是,与N0相比,高风险淋巴结期(N2/N3)对每次连续tP的5年DOS表现出显著的时变效应,而N1淋巴结期则没有(图3A)。举例来说,初次治疗后N2/N3期淋巴结患者与参考文献N0期淋巴结患者的HR为3.621,计算公式如下(表2):
但在ET开始后2年降至2.401 (HR = 3.621 × 0.8162)。her2阳性状态对5年DOS也有显著的时变影响(表2,图3B)。
接下来,研究状态可能随时间变化的协变量(即治疗依从性状态和疾病复发)对5年死亡风险的影响。在FU期间停止治疗的患者与继续依从治疗的患者相比,剩余死亡风险更高,尽管这没有统计学意义。停止治疗的效果随时间不变(表2)。同时,LRR对5年DOS具有时变影响,表明每次连续tLM的死亡风险逐渐降低(图3C)。与无LRR相比,ET开始后1年、2年和3年的LRR增加了5年死亡风险,分别为HR= 4.913(2.444-9.877)、HR= 2.864(1.851-4.431)和HR= 1.670(1.005-2.773)(表2)。相比之下,发生远处转移(与无远处转移相比)与5年死亡风险增加相关,且随时间变化的影响不变[HR = 15.018(9.934-22.705)]。
图4显示了在该队列中表现出最常见基线特征的患者(普通患者)发生LRR时,5年DOS的差异,以及高危患者。在没有LRR的情况下,所有tPs的5年死亡率分别为3%和10%。然而,在LRR的情况下,普通患者和高危患者的5年死亡率最初都很高,并随着时间的推移而降低。
内部验证
启发式收缩因子为0.995,表明模型校正效果良好。此外,该模型的判别精度在0、1、2和3年分别具有0.70、0.72、0.76和0.79的动态交叉验证c指数
动态预测模型的列线图
nomogram(图5)提供了从ET开始及以后不同tPs 5年DOS概率的估计,前提是已经进行了足够的手术。概率可以通过将每个协变量对应于患者个体特征的风险点相加来计算。对于每个特征,可以通过从协变量对应值到风险点轴(0-80)绘制一条垂直直线来确定相关风险点的数量。虽然大多数协变量被认为是“静态的”,并在ET开始时定义,但有些协变量是“动态的”,并且可以在FU的过程中改变,例如FU期间的治疗依从性状态和LRR或远处转移的发生。用“(tP)”(预测时间点)标记的协变量包括淋巴结分期(N2/3)、HER2状态(阳性)和LRR(阳性),这些协变量对5年DOS有时变影响。这意味着具有与这些特定协变量之一相关的特征的效果随着时间而变化在进行5年DOS预测时,需要考虑到ET开始后的时间。
风险点的总和等于总风险点得分,这是在标题为“总分”的nomogram中轴线上描述的。从这里,可以向标记为“5年生存概率”的轴绘制一条垂直线,这是在特定tP下相应的5年DOS。
风险点的总和等于总风险点得分,这是在标题为“总分”的nomogram中轴线上描述的。从这里,可以向标记为“5年生存概率”的轴绘制一条垂直线,这是在特定tP下相应的5年DOS。
为了说明这一点,我们考虑一位69岁的绝经后妇女(14分),她已经使用ET两年(tP = 2;191)。计算她5年的DOS概率,我们取她的总风险点得分(90分),并在“5年生存概率”轴上画一条垂直线。对于该患者,5年DOS为75%。如果我们的患者在ET后的2年内发生LRR,则必须在她的总风险预测评分上再加38分(总计128分),从而得到42%的5年DOS。
最新课程-基于R语言的动态预测模型课程-胖子老师独自授课
开课目的及前言
预测模型作为真实世界研究的重要组成部分,其研究被广泛开展。但是,传统的预测模型利用基线数据对最终的生存结果进行预测,这种模型无法纳入患者在后续随访中可能会动态变化的重要数据(比如肿瘤标记物的动态变化)。 以上情况在统计学中会产生估计偏差情况,也是不符合临床实际的。近年来发展起来的动态预测模型方法,利用患者的多次随访数据,结合患者的基线数据,对最终患者的额生存结果(或类似的time to event事件)进行估计。其发文量呈现快速增长趋势。
在临床实际中,医生会根据患者的动态变化指标做出进一步诊断及治疗的判断。动态预测模型结合患者的纵向数据与最终的生存结果,对于最终结果进行更加准备的预测。由于当前R语言在医学统计工作中占据重要地位,但很多临床大夫、护士因为时间工作关系很难将R语言与临床科研相结合,故开设R语言动态预测模型课程,旨在快速让学员掌握统计工作中常用到的R语言,助力临床科研工作。天企助力(天津)生产力促进有限公司特举办“基于R语言的动态预测模型课程培训班”。
预测模型类文章目前总结起来发展经历了以下三个阶段:
基于传统流行病学的列线图模型(本质都是cox回归及glm回归),简单的统计学分析模型,是模型依赖的方法,临床上实际情况很难满足其前提假设,实际效果不好。
基于机器学习/深度学习的预测模型的构建(在数据上提高了维度,在算法上引入了机器学习),虽然算法上引入了机器学习模型,处理数据更加灵活,模型的假设也更少。但是在使用的数据上还是患者的一次基线数据进行预测,与临床实际不符。
基于纵向数据的动态预测模型(基于纵向多次随访数据,模型应用联合模型等动态预测模型方法),应用患者的多次随访数据对最终的生存结果进行预测,从数据和方法上都更类似于临床实际。
考虑到动态预测模型有以下特点,因此必然是后续高分文章的必备方法:
数据上必须有同一个患者的多次随访数据,相对于既往横断面一次基线数据,数据的收集难度更大,而且动态预测模型需拟合纵向的线性混合模型,因此需要的数据量较大。这就提示我们如果能收集到如上数据更加容易发高分文章。
应用方法学动态预测模型需首先掌握普通生存分析及普通预测模型的方法,并且还需要熟悉纵向数据分析的广义线性混合模型,再次基础上还需要掌握tidyverse语法基础来将自己的数据转换为满足函数要求的纵向数据,另外对于联合模型,模型的结合形式及变量选择也均需要从临床背景及统计学方法考虑。
近期高分文章举例
授课老师
灵活胖子-独自
双一流学校肿瘤学博士毕业,目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究,生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇,累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学,在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。
课程目录及安排
授课形式及时间
授课形式:远程在线实时直播授课。
授课时间:2024年12月开课,总课时不少于30小时,每周进行3-5小时的授课,有充分时间学习,预计6-8周完成所有授课内容。
答疑支持:建立课程专属微信群,1年内课程内容免费答疑。
视频回看:3年内免费无限次回看。
课程售价及售后保证
课程售价:总价3000元,报名可先交300元预定即可,开课后2周内交齐即可
对公转账等手续务必提前联系助教
承办公司:天企助力(天津)生产力促进有限公司
奖励政策:学员应用所学内容发表IF 10+文章可退还学费(具体要求及流程需要咨询助教)