今天介绍的是近日Nature communication(IF 14.2)上的研究“Plasma proteomic profiles predict individual future health risk“,该研究基于于 52006 名Biobank参与者的Olink血浆蛋白数据开发了疾病/死亡的特异性蛋白质组学风险评分ProoRS )。这一综合评分显着评估了 45 种常见疾病的风险,包括感染性、血液学、内 分泌、精神病学、神经学、感觉、循环、呼吸、消化、皮肤、肌肉骨骼和泌 尿生殖系统疾病和癌症和死亡率。将临床预测指标与 proors 结合,可提高大多数疾病的预测能力,可转化为实际的临床应用。
论文链接:https://www.nature.com/articles/s41467-023-43575-7
背景
风险分层对于识别高危个体和疾病预防至关重要,尤其是在早期临床前阶段。然而,对人类疾病进行全面的风险评估,往往每次只针对一种疾病。由于时间和成本的原因,每种疾病的最终风险评分在临床实际应用中将严重受限。因此,能够同时为多种疾病提供信息的单独的检测 变得至关重要。由于许多国家现在建议进行常规检查,包括血液检查,以预防几种常见疾病,本研究提出的基于蛋白质组学的风险评分可能会对改善多种疾病的风险预测,对临床产生重大影响。
研究提取了 52006 名 UKB 参与者的数据,中位随访时间为 14.1 年,包括的 45 个终点事件(是否患病),1461 个血浆蛋白质组结果, 以及 54 个临床预测指标,涵盖人口统计学、生活方式、体格测量、医疗和用药史、家族病史和血清分析。接下来,基于神经网络模型,分别构建预测全因死亡率以及每项为每个 终点事件生成蛋白质组风险评分模型ProoRS。下游生存分析使用 Cox 比例风险模型进行,以探索ProoRS和临床预测因子集单独或联合时的预测性能。模型建立和评估通过内部留一区域交叉验证实施。
图1:研究方案,模型构建与性能评估示意图
结果
1)基于蛋白组能提前5年预测多种疾病风险
在所 有 45 个终点事件中 ,年 龄与ProoRS得分呈显著正相关。除了前列腺癌、乳腺癌和炎症性肠病外,男性和女性的ProoRS评 分在 42 个终点之间存在显著差异。(图2a)
Kaplan-Meier 生存曲线在ProoRS分层的各组之间显示出不同的路径 (图 2b)。与底层的各组相比,顶层ProoRS个体的全因死亡率 (优势比(OR)为 11.83);而血液和免疫疾病的风险 增 加 了 5 倍以上。相比之下,皮肤疾病 (1.82)和消化系统疾病(1.65)的 or 要小得多。
我们研究了 proors在不同时间窗的预测能力,对于大多数终点事件,ProoRS在预测 5 年内发生的结果时获得了最高的 ROC 曲线下面积 (AUC),这表明血浆蛋白质组学在检测近期风险方面发挥了关键作用。对于一些终点事件,超过 10 年的模型显示出最高的 AUC,包括 8 种疾病类别,3 种特定疾病(病毒感染,神经性疾病和睡眠障碍)以 及由神经系统引起的死亡。
图2:多种疾病中,ProoRSs 与终点事件发生率和分层生存率相关
2)相比基于血清及临床数据,基于蛋白的预测更准确
在大多数终点事件上,单独的ProoRS具有比年龄+性别、 血清代谢物和 PANEL更好或相当的预测性能(图3) 。此外 ,在特定疾病中 , ProoRS 显著优于所有三组临床预测指标,包括五种疾病类别(感染疾病、血液和免疫疾病、神经系统疾病、呼吸系统疾病和泌尿生殖系统疾病)、七种特定疾病(细菌和病毒感染、白血病、贫血、痴呆、 心力衰竭和慢性阻塞性肺病)以及全因死亡率及其四种原因(图3)。这表明 ProoRS 通常比年龄+性别、血清和 PANEL 包含 更多的竞争性预测信息。
当将ProoRS与年龄+性别或血清代谢物数据整合时,几乎所有终点事件的预测能力都有显著增强,在 大多数终点事件的预测上显著超过单独的pros。值得注意的是 ,与血清和ProoRS 的组合相比, 蛋白模型在预 测乳腺癌、前 列腺癌、白血 病、 痴呆、帕金森病 、全因死 亡率、神经系统死亡、 循环系统死亡和呼吸系统死亡方面表现出明显提高的辨别能力。 与 PANEL 相比,将ProoRS 添加到 PANEL 中可以显著提高对 11 种疾病类别、全因死亡率、20 种特定疾病和 4 种死因的预测信息。 值得注意的是,在超过三分之一的终点事件中,ProoRS和 PANEL介个与单独的 ProoRS 性能相当。对于其余终点事件,与仅基于单一域源数据的模型相比,将 PANEL 与 ProoRS 相结合可以提高预测性能。然而,与单独使用ProoRS 相比,预测能力的增强程度有 限。
图3:ProoRS在各个终点事件上与其它方法的预测准确性对比
3)可确定不同蛋白对各自疾病的预测贡献度
通过采用夏普值(SHAP),可根据血浆蛋白在预测不同终点事件中的重要性对其进行分类。这使我们能够识别与每个条件下最重要的鉴别器(前 1%)。一些蛋白质在预测各种疾病中起着至 关重要的作用。 如GDF15 在所有 14 类疾病和全因死亡率中都是一个强大的预测因子, 甚至在不同的死亡原因和 7 种特定疾病(即细菌感染、贫血、情绪障 碍、心律失常、心力衰竭、炎症性肠病和肾衰竭)中排名第一(图 4a)。同样,CDCP1、CXCL17、EDA2R 和 HAVCR1 在 10 多种疾病类别中都显示出重要的预测价值。这些蛋白与不同疾病之间的关联方向保持一致 (图 4b) 。 相比之下 , NEFL 、BCAN 、 TNFRSF10B 和 CA14 在相对较少的疾病类别预测中表现出重要性 。 NTproBNP、TSPAN1 和 ACE2 等蛋白质仅在两种疾病类别中被认为是重要的。
图4:对预测不同疾病,影响最大的1%的蛋白展示
随后,我们将重点放在癌症和老年痴呆上(图5),这两种疾病在近几十 30 年来受到了很多关注。包括 CXCL14、 GDF15、 HAVCR1 和 CDCP1 在内的蛋白质被确定为癌症风险的主要因素。我们证实血浆中较高水平的 CXCL14、GDF15、HAVCR1、CDCP1、TSPAN1、LTBP2 和 ACTA2 与较高的风险相关,而较高水平的RET 具有保护作用。CXCL14 显示出最大的预测重要性。 CXCL14 的表达水平与一些临床 病理因素密切相关,包括肿瘤淋巴结转移阶 段、组织分化和肿瘤大小,这些因素迄今已被认为是癌症早期复发和死亡的可能预测因素。
对于老年痴呆症,NEFL、BCAN、GFAP 和 GDF15 是影响疾病风险的主要蛋白。与先前的研究结果一致,我们观察到 CDCP1、 EDA2R 和 HAVCR1 的风险效应。 此外,我们确 定 ACTA2、LTBP2 和 NCS1 是痴呆风险的潜在因素,这些蛋白的异常水平可作为老年痴呆早期的风险提示。
图5:针对癌症和老年痴呆,各蛋白的贡献度
当前研究只是基于单一数据集,在应用到临床时,应使用外部数据集对模型进行验证,以确保不存在批次差异。同时,该研究基于西方人种,可能存在种族差异,基于西方人训练的模型不适合应用于中国人。
总结
基于蛋白质组学谱可以替代复杂的实验室测试或临床措施,同时完善多种疾病和死亡率的综合风险评估。这些发现为蛋白质组学在临床实践中的推广提供了强有力 的证据,它可以帮助从人类健康的整体角度改进对许多疾病的风险 评估,并进一步有助于实施有针对性的疾病预防策略和量身定制的治疗。