研究背景
广泛捕获的蛋白质组学技术有可能改善疾病预测,从而实现有针对性的预防和管理,但迄今为止的这方面研究仅限于极少数选定的疾病,而且没有对多种疾病的预测性能进行评估。而基于血液的分子生物学技术有可能提高临床预测疾病发病及病程的能力,但往往缺乏系统和严格的大规模测试。当前经过多方努力,已成功开发并验证了多种疾病的遗传和多基因预测指标,但将其转化为临床应用却一直困难重重,部分原因是与易于测量的临床参数相比,潜在的预测改进相关知识存在差距。与遗传基因组不同,蛋白质组是信息传递的核心层,会随着早期疾病机制的变化而变化。与代谢物等其他基于血液的生物标记物相比,循环蛋白具有动态范围广、半衰期长、多为内源性等特点,而且易于获取,这使其在不同疾病预测、诊断和预后方面具有吸引力,目前已有许多已确立并用于临床的实例。然而,即使是对于已确立生物标记物并用于临床的疾病,这些蛋白也是通过靶向研究获得的,缺乏与通过广泛捕获和无假设研究确定的其他组学生物标记物进行系统比较或结合使用。
2024年7月,来自柏林夏里特大学柏林健康研究所计算医学的Claudia Langenberg教授团队在The Lancet Digital Health(IF:23.8)发表名为“Proteomic prediction of diverse incident diseases: a machine learning-guided biomarker discovery study using data from a prospective cohort study”的文章。在这项研究中,作者将血清蛋白质组数据与基因组数据、入院记录和癌症登记数据整合在一起,对血清蛋白在健康衍生信息和多基因风险评分(PRSs)基础上改善23种非传染性疾病和全因过早死亡风险预测的潜力进行了系统性和前瞻性评估。通过预测未来疾病发生的风险可以实现早期临床干预,并针对高危人群和个体制定预防策略。
主要成果
研究设计
【实验设计】
图1 研究流程
研究结果
简洁蛋白质模型的开发
作者针对24种不同的结果推导出了简洁蛋白质模型,其中只包括5个蛋白质,它们的C指数中位数为0.67(IQR 0.62-0.75;图2)。在大多数疾病中,前五种蛋白质的表现优于使用全部2319种蛋白质训练的模型,C指数中位数高出0.04(IQR 0.01-0.06)。在所研究的11项结果中,纯蛋白质模型(C指数中位数=0.74[IQR 0.66-0.80])的表现与包含风险因素的患者来源基本信息模型(C指数中位数=0.71 [0.65-0.75];图2)相当,甚至优于后者。
在17种疾病方面,纯蛋白质模型就比包含多达722108个遗传变异的PRS更胜一筹。五蛋白模型与PRS模型之间的C指数差异中位数为0.13(IQR 0.10-0.17)。大多数选定的预测蛋白与疾病风险呈正相关,反相关的例子很少。作者注意到,对于某些预测效果不佳的疾病,两批蛋白质组之间存在很大的效应异质性(例如,N-末端前B型钠尿肽和心房颤动),这表明有进一步提高检测性能和普适性的潜力。
将前五种蛋白质添加到患者衍生信息模型中,可提高对以下七种结果的预测性能:2型糖尿病、前列腺癌、全因过早死亡、慢性阻塞性肺病、肺癌、肾病和心力衰竭(C指数提高范围为0.02-0.11;图2)。改善幅度最大的是2型糖尿病(C指数改善0.11 [+/-交叉验证误差0.08-0.13])、前列腺癌(0.10 [0.06-0.13])和全因过早死亡率(0.08 [0.05-0.11])。蛋白质还提高了基线预测因子已经很强的模型的性能,如吸烟状况与慢性阻塞性肺病(0.06 [0.04-0.09])和肺癌(0.05 [0.02-0.07])等呼吸系统疾病。在上述七种结果中,C指数的中位数为0.82(IQR 0.77-0.82)。净再分类改进(NRI)中位数为0.28(IQR 0.19-0.37),主要归因于病例的正确再分类。与患者衍生信息模型相比,PRS改善了五种疾病的预测(C指数改善范围为0.02-0.27),包括乳腺癌、2型糖尿病、青光眼、心力衰竭和缺血性心脏病。与蛋白质组预测相比,NRI中位数为0.19(IQR 0.17-0.26),对照组的正确再分类贡献更大。在患者信息模型的基础上增加疾病PRS和五种蛋白质的协同改进只适用于2型糖尿病(与患者信息模型相比,C指数提高了0.14 [+/-交叉验证误差 0.11-0.16];图2)。综合布赖尔评分显示,与患者信息模型相比,包含蛋白质或PRS的大多数模型的校准效果更好。
单一通用简洁蛋白质组特征的构建
在所选的预测蛋白中,作者没有观察到任何384复合物预分组和市售特定面板(即心脏代谢、炎症、肿瘤或神经学)中的蛋白富集于特定的相关疾病组。这是设计探索性研究的一个重要考虑因素。总体而言,在疾病特异性特征中表现至少与患者信息模型相同或更好的前20个蛋白质中,有26个蛋白质是两种或两种以上疾病共有的(图4)。虽然这些结果表明,与代谢组学等其他全息图层相比,重叠程度较低,但它们突出表明,一些蛋白质可能表示多种疾病共有的机制,从而为多病集群提供标记。在所测试的各种疾病中,10个多病症蛋白质特征平均具有良好的预测性能,这凸显了这种可能性。这种特征包括单病种模型中的共有标记物,如生长分化因子15、含CUB结构域的蛋白1、外胚层蛋白A2受体、神经筋膜蛋白或基质金属蛋白酶12(图4)。此外作者还系统地检测了所选的预测蛋白是否可能与相关疾病或相关实体的发病机制有因果关系,但在全面的基因共定位研究中没有发现匹配的证据。
总结
作者展示了在多种病因的多种疾病中进行广泛捕获蛋白质组生物标志物发现研究的价值,指出了那些可能从蛋白质组方法中获益最多的疾病,以及得出通用简洁生物标志物面板以同时预测多种疾病的潜力。这一框架有助于开展后续研究,探索蛋白质组模型的通用性,并将这些模型与临床检测进行比对,这是了解这些发现的转化潜力所必需的。该研究结果可能表明,只有对循环候选蛋白生物标志物有早期强烈影响的疾病模型才更具有通用性,才能更有针对性,并强调了进一步开发检测方法的必要性,以确保可靠的模型可移植性。最后,能够捕捉翻译后修饰的蛋白质组学技术可能会拓展生物标志物的发现空间。
总之,该团队展示了广泛捕获的蛋白质组平台在实现系统化和无假设生物标志物发现策略方面的价值。该研究提供了及时的洞察力,让大家了解如何通过整合蛋白质组学、健康记录关联和机器学习,在使用选定疾病的常见风险因素之外,改进疾病预测,为在蛋白质组学分析的大规模队列数量不断增加的背景下取得进一步进展提供指导。
原文链接: https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00087-6/fulltext
参考文献
Carrasco-Zanini J, Pietzner M, Koprulu M, et al. Proteomic prediction of diverse incident diseases: a machine learning-guided biomarker discovery study using data from a prospective cohort study. Lancet Digit Health. 2024;6(7):e470-e479. doi:10.1016/S2589-7500(24)00087-6
编译:白桃汽水
校对:Evan Flle
排版:Sail
封面来源:Freepik
2024-07-21
2024-07-14
2024-07-07
2024-06-29
了解更多蛋白芯片、组学进展请关注下方名片
关于旦生医学
旦生医学(ProteomicsEra Medical Co.,Ltd,)是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业,由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码(标志物),开发下一代高通量、智能化临床检测试剂、设备和蛋白药物,为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务,联系方式:010-85885591,18601967980。
本文来源于公开发表论文,仅供学习交流,不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。