研究团队
Claudia Langenberg教授为英国剑桥大学伦敦玛丽女王学院(Queen Mary University of London, MRC)流行病中心负责人,2022年被任命为玛丽女王学院新成立的精准健康大学研究所(Precision Health University Research Institute, PHURI)主任,主要研究方向为分子流行病学,聚焦于糖尿病和相关代谢紊乱的病因学及机制,通过整合大规模基因组、蛋白组及代谢组等多组学数据,研究蛋白基因组与疾病表型间的因果相关性和特异性。血浆蛋白质组技术作为基因组和表型组间的「桥梁」,具有确定新的疾病过程的潜在功能。将具有互补性的蛋白质组学技术与基因组学整合,即使采用中等规模的样本,也可以识别出代谢疾病的全新介质,并具有治疗干预疾病的潜力。
Claudia Langenberg教授发表文章系列解读:
剑桥大学团队使用Olink蛋白组学开创上百种疾病预测新纪元
Olink Explore蛋白组学揭秘7天禁食后人体系统性适应
Olink蛋白组学助力绘制人类蛋白组-疾病图谱
超灵敏血浆蛋白组挑战基因与疾病间之鸿沟
基于血液组学,特别是蛋白组学,展示了在预测疾病发生和进程方面的巨大潜力,但往往缺乏系统性和严格的大规模测试。与基因组不同,作为信息传递核心层的蛋白组会随着早期疾病的发展而动态变化。而循环蛋白因其宽动态范围、较长半衰期、主要内源性来源以及易于获取等特性,成为了疾病预测、诊断和预后的优选生物标志物。然而,现有的临床标志物多源自针对性研究,缺乏与其他组学生物标志物的系统性比较或结合。高通量蛋白组学技术的日益普及与AI机器学习方法的引入,使得对蛋白组平台的系统性、数据驱动研究成为可能,为发现新生物标志物和评估其在不同疾病中的特异性或共享性提供了新途径。
研究解读
基于之前开发的识别24种突发结果的稀疏预测蛋白集合模型,研究团队进一步用两个批次的蛋白组数据来设计独立的特写选择和验证集。整个数据集分成两个独立的特写选择(70%,n=452-821)和验证(30%,n=194-352)子集,并使用最小绝对收缩和选择算子回归在200个子样本上进行特征选择。仅使用前5种蛋白的模型在大多数疾病中的表现优于使用所有2,319种蛋白质的模型,中位C-index提高了0.04。在研究的11种疾病中,仅使用蛋白质模型(中位C-index为0.74,IQR 0.66–0.80)与基本患者信息模型(中位C-index为0.71,IQR 0.65–0.75)表现相当或更优。此外,仅蛋白质模型在17种疾病的预测上还优于包含多达722万个遗传变异的多基因风险评分(PRS)模型,中位C-index差异为0.13(IQR 0.10–0.17)。
研究进一步表明,添加前5个蛋白质到患者信息模型可以改善7种疾病的预测性能(中位C-index为0.82,IQR 0.77‒0.82):II型糖尿病、前列腺癌、全因早逝、COPD、肺癌、肾脏疾病和心力衰竭。最大的改进体现在II型糖尿病(C-index提高0.11)、前列腺癌(0.10)和全因早逝(0.08)。
23种疾病和全因早逝的蛋⽩质⽣物标志物的交叉验证预测性能
研究还探索了是否可以得出一个独特通用稀疏蛋⽩质组学特征,用于同时预测多种疾病,这将提供一种具有更高临床转化潜⼒的经济有效策略。在21种单独发病疾病中,前10种共病蛋⽩质的C-index中位数为0.72(IQR 0.64‒0.76)。平均而⾔,这高于疾病特异性蛋⽩质特征的表现,这可能表明存在共同的疾病机制。这10种蛋白质在6种疾病和全因早逝的预测性能上超过了患者信息模型(C-index变化范围0.02–0.06;中位C-index 0.81, IQR 0.80–0.82)。
10种共病蛋⽩对20种疾病和全因早逝的交叉验证预测性能
研究发现,基于高于固定阈值的标准化选择分数来选择可变数量的蛋白质作为预测因子(范围从1到16个蛋白质),其C-index与仅选择5个蛋白质时相似(r=0.99)。在最佳预测因子中,除了已确立的临床生物标志物外,还包括一些迄今为止在文献中很少报道的强预测性蛋白质,如肺癌和慢性阻塞性肺病(COPD)中CXCL17和肾病中的LMOD1。总体而言,在来自疾病特异性特征的前20种蛋白标志物中,这些蛋白质的表现至少与患者信息模型相当或有所改进,其中有26种蛋白在两种或多种疾病之间共享。尽管结果表明与其他组学(如代谢组学)相比重叠较少,这也进一步佐证某些特定蛋白在不同疾病间存在共性的重要性。
在蛋白质模型至少达到或超过患者信息模型性能的疾病中,前20种蛋白质的标准化特征选择得分
写在最后
尽管过去几年遗传和多基因预测备受关注,但本研究显示蛋白组学模型通常优于基于静态遗传信息的模型。反映了循环蛋白质在捕捉当前健康状况和作为早期疾病检测因子方面的潜力,它们可能对病理过程敏感,甚至在出现明显症状之前。相比之下,多基因风险评分(PRS)是静态的,无法捕捉疾病过程对环境和生活方式风险因素的响应阶段。同时也表明大规模蛋⽩组学平台有助于制定系统且无假设的⽣物标记物发现策略,有望改善⽣物标志物的发现和预测策略。
来源:Olink Proteomics
推荐阅读
咨询热线:17702139967
邮箱:market@shbio.com
发现“分享”和“赞”了吗,戳我看看吧