浙大学者结合血浆蛋白质组学等,开发结直肠癌发病预测模型,发文Nature子刊,来看看过程与统计方法

健康   2024-10-21 08:11   浙江  

2024年10月15日,浙江大学医学院附属第二医院学者团队在顶级期刊Nature子刊《Nature Communications》(医学一区top,IF=14.7)上发表了题为“Plasma proteomic and polygenic profiling improve risk stratification and personalized screening for colorectal cancer”的研究论文,旨在通过将蛋白质组学特征与遗传和非遗传因素(QCancer-15)相结合,确定结直肠癌(CRC)相关的蛋白质组学特征并开发CRC发病预测模型,以改善风险分层和个性化初始筛查年龄的估计。

在该项研究中,通过将血浆蛋白质组学与多基因风险评分(PRS)和QCancer-15进行整合分析,成功验证了其在提升风险分层精确度及对CRC筛查风险适应起始年龄的推导的临床意义,进而可能为CRC筛查的决策流程提供更加有力的支持。

如果你需要全文,请公众号后台回复关键词“pdf”。如果您需要进一步的了解随机对照研究如何进行数据分析,不妨看看我们临床试验设计与数据分析培训班!详情可咨询助教,微信号:aq566665

直肠癌(CRC)是目前临床上最常见的恶性肿瘤之一,也是造成癌症死亡的第二大原因。据统计,结直肠癌的预后与早期诊断密切相关,多数早期诊断结直肠癌愈合良好,5年生存率可达90%,而晚期诊断生存率则不足10%。
在先前的研究中,研究者发现与CRC相关的蛋白标志物可用于区分CRC患者,同时遗传和公认的非遗传因素(例如,QCancer-15 )在CRC发病率中也起重要作用。
在这项研究中,研究团队
  • 首先基于病例对照研究和前瞻性人群队列的两阶段策略来识别和验证与CRC相关的蛋白质组学特征,以构建蛋白质风险评分(ProS)。

  • 构建了QCancer-15风险评分、多基因风险评分(PRS),并结合关键的蛋白质生物标志物开发CRC发病预测模型。

  • 最后,评估联合模型的预测性能和潜在的临床效用,包括净收益、风险分层和CRC个性化初始筛查年龄。
主要结局:CRC诊断,定义为结肠和直肠的恶性肿瘤。
图1 研究流程
病例对照研究包括:浙大附属二院的150例新诊断的CRC病例(年龄范围:44-89岁)和50例性别和年龄匹配的对照);
前瞻性人群队列则是UKB数据库,共纳入52,231名年龄39-70岁2006年至2010年招募的来自UKB具有蛋白质组学测量的参与者,其中包括731例CRC病例以及51,500例对照。

结直肠癌(CRC)预测模型

研究团队结合ProS、PRS和QCancer-S开发了一个综合模型,在训练队列和验证队列中,综合模型(QCancer-15+PRS+ProS)的C统计量的表现均显著优于仅使用QCancer-15评分的模型(训练队列为0.79对0.71,验证队列为0.75对0.69)。
图2 基于QCancer-15风险评分(QCancer-S)、多基因风险评分(PRS)、蛋白质风险评分(ProS)和组合模型的结直肠癌(CRC)预测模型评估

综合模型在风险分层方面表现出色

在整合ProS、PRS和QCancer-S后,研究团队将综合模型和组合风险评分 (ComS) 的组成部分分为三组(低风险组、中风险组和高风险组)。
结果发现,与中风险组相比,高ProS(HR: 1.67)PRS(HR: 2.71)QCancer-15(HR: 1.91)的CRC风险增加,但高ComS组(HR: 3.27)的CRC风险增加更显著,在训练队列和验证队列中均有类似趋势(分别为2.94和4.27倍)。
这表明综合模型能显著提升风险分层的精度,帮助临床医生更早识别高风险人群,进行针对性筛查和干预。
此外,根据10年累计风险估算,研究建议为不同风险组设定个性化的筛查起始年龄,其中:
  • 高PRS组的受试者应在41岁开始筛查,而低PRS组的筛查起始年龄为60岁以上;

  • 高ProS组的受试者应在46岁开始筛查,而低ProS组的筛查起始年龄为57岁;

  • ComS显示,高风险组的受试者建议在40岁之前开始筛查,而低风险组则可推迟至60岁以后再进行筛查。
图3 基于(a) QCancer-S、(b)PRS、(c)ProS和(d)ComS的风险组间Kaplan-Meier累积发生率曲线
图4 基于(e) PRS、(f) ProS和(g) com的风险组的参与者的年龄特异性CRC的10年累积风险
虚线表示在特定年龄的10年累积风险曲线中,虚线表示一般人群在50岁时的风险(即现行指南建议对平均风险成人进行筛查的起始年龄)。
上所述,研究团队通过开发结合蛋白质组学、多基因评分和传统非遗传风险因素的结直肠癌风险预测模型,显著提高了风险预测的准确性。综合模型不仅能够有效识别高风险人群,还为个性化筛查提供可能,特别是在筛查起始年龄和干预时机的选择上,具有不错的临床应用潜力。

统计学方法

1.蛋白质组学特征的识别和验证在基于病例对照设计的发现阶段,
  • 使用主成分分析和Pearson相关系数矩阵来识别异常样本(补充方法)

  • 在去除异常样本后,基于‘ limma ’ package29进行蛋白质组级差异表达分析

  • 采用FDR进行多重检验校正,以FDR < 0.05为显著性水平。

  • 对于处于发现阶段的显著蛋白(FDR < 0.05),我们进一步采用Cox比例风险(CPH)模型评估其与验证队列中CRC发病率的关系。

在验证阶段,作用方向一致且P值显著(P < 0.05)的蛋白视为验证成功。
2.构建风险预测模型:
  • 通过LASSO-Cox回归,在通过两阶段测试的蛋白质中进一步选择了CRC相关蛋白质特征,总共保留15个蛋白质。

  • 使用` caret `包,以7:3的比例将UKBB参与者随机分为训练和验证组。

  • 基于QCancer-S、QCancer-S(包括地理区域)、2 prs或ProS分别建立结直肠癌风险预测模型,使用CPH模型在培训队列中进行五倍交叉验证。

  • 接下来,将表现最佳的QCancer-S、ProS和PRS组合,构建预测结直肠癌发病风险的联合模型。

  • 这些模型还通过性别分层、肿瘤部位(结肠或直肠)、肠癌筛查(是否)和CRC家族史(是否)进行评估。

3.模型性能与潜在临床应用评估:该模型的性能评估使用了广泛的指标,包括接收者-操作特征曲线下的面积(AUC,称为c统计量)、相对风险校准、净收益、风险比估计、风险分层、风险进展期和10年CRC累积风险。
  • 在训练队列中,采用c统计量(95%置信区间,CI)进行五倍交叉验证,并在验证队列中进一步评估这些模型的判别性。

  • 采用自举法,采用500个分层自举重复,比较不同模型的性能差异。

  • 使用“riskRegression”软件包绘制校准曲线,以直观地描述基于CPH模型的观测事件率与预测风险之间的一致性。

  • 建立QCancer-S、PRS和ProS的列线图,用于预测5年、10年和15年无结直肠癌的预后。

  • 为了评估预测模型对推荐的CRC干预措施(如筛查)的潜在临床效用,使用“ggDCA”包进行决策曲线分析

4.风险比估计及风险分层分析

  • HRs首先通过CPH回归得出QCancer-S、PRS和ProS每SD增加的总体、性别特异性和部位特异性CRC风险。

  • 然后,根据QCancer-S、PRS、ProS和ComS(补充方法)在当前UKBB人群中的分布,分别分为q1最低、Q2、Q3和q4最高的四分位数。

  • 由于10年累积风险曲线趋势相似,进一步将风险评分分为低、中、高3组(补充图9)。

  • 具体而言,以普通人群10年累积风险为参照,将Q3中风险与普通人群相似的参与者划分为中风险组,将Q1和Q2中风险低于普通人群的参与者划分为低风险组。Q4的参与者被划分为高危组。

  • 以中剂量组为参照,估计分类变量的hr (95% ci)。

  • 采用Kaplan-Meier曲线和log-rank检验评估风险评分的风险分层值。
5.所有统计分析均为双侧检验,并使用R版本4.2.2进行。
本研究内容非常丰富,研究本身也很具有临床意义。并且设计严谨,研究步骤展示的非常详细,逻辑清晰,把整个研究都讲清楚了,推荐大家去看一下原文!

公众号后台回复关键词“pdf”,即可获取原文!更多统计指导,请联系郑老师团队,助教微信:aq566665。

关于郑老师团队及公众号

大型医学统计公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

郑老师团队开设的医学统计培训课程,各类发文需求都可以满足:

GBD公共数据库挖掘NHANES公共数据库挖掘孟德尔随机化方法

真实世界临床研究(临床回顾性数据分析)临床预测模型

临床试验设计与数据分析重复测量资料分析R语言

量表与中介数据分析结构方程模型Meta分析

郑老师统计课程详情介绍

(目前购买统计课程还可参与发表SCI注明我们平台退课程费用的活动,详情扫描下方二维码添加助教微信咨询详情)


详情联系助教小董咨询(微信号aq566665


医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章