Nat Med〡蛋白质组学年龄时钟预测不同人群中常见年龄相关疾病

文摘   科学   2024-09-29 14:30   广西  


研究背景

年龄是大多数常见慢性疾病和死亡原因的主要决定因素。随着年龄增长,人体的生理完整性和功能逐渐丧失,这种衰退过程最终导致多种主要疾病的发生。尽管生理年龄是预测这些疾病的一个强有力的指标,但每个人的衰老速度可能大相径庭,因此并不能完全反映个体的生物学老化过程。血液中的蛋白质在人类健康中发挥关键作用,可能被用来测量生物学年龄,从而预测与年龄相关的疾病、多重疾病和死亡风险。通过蛋白质组学数据,可以更精确地估计个体的生物学年龄,这种方法捕捉了个体在特定年龄下的生物学功能状态,并与预期水平进行对比,从而更好地评估衰老的进展。


202488日,英国牛津大学纳菲尔德人口健康系M. Austin Argentieri教授及其团队在Nature MedicineIF:58.7上发表了名为“Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations” ,作者利用英国生物银行的大规模数据集,开发了一个新的蛋白质组学年龄时钟,并在中国和芬兰的独立样本中进行了验证,旨在系统性地评估蛋白质组学老化与主要慢性疾病、功能衰退和死亡率之间的关系。这一研究不仅为理解老化的生物学机制提供了新的视角,还为未来的疾病预测和预防策略奠定了基础。





主要成果

  1. 研究开发了一个基于血液蛋白质组学年龄时钟,并在多个不同地域和种族的群体中验证了其有效性。
  2. 研究发现,蛋白质组学年龄时钟与18种主要慢性疾病、全因死亡率以及多种生物、身体和认知功能的年龄相关指标有关。

研究设计

【样本队列】
1. 英国生物银行(UK Biobank,n=45441,54%为女性,年龄范围为39至71岁) 参与者的血浆蛋白质组学表达数据,用于开发蛋白质组学年龄时钟模型。
2. 中国的Kadoorie生物银行(CKB,n=3977,IHD病例队列研究,54%为女性,年龄范围为30至78岁)和芬兰(FinnGen,n=1990,52%为女性,年龄范围为19至78岁)参与者的血浆蛋白质组学表达数据,用于验证模型。

3. 在UKB的11至16年的随访期间,以及CKB的11至14年的随访期间,分别有4828名(10.6%)和1426名(36%)参与者死亡。在FinnGen中,蛋白质组学析主要在没有重大疾病的健康参与者中进行,在随访期间仅有1%(n=22)的FinnGen参与者死亡。


图1 研究设计和主要分析方法


实验设计】
研究从英国生物银行中收集了45441名参与者的数据,涵盖2897种血浆蛋白。之后采用多种机器学习方法(LASSO、Elastic Net和LightGBM),来训练预测模型,并使用LightGBM进行五折交叉验证,最终选择出与年龄预测最相关的204种蛋白质。接着通过Boruta算法和SHAP值进行特征选择,以确定关键蛋白质。然后,在中国Kadoorie生物库和FinnGen中进行了独立验证,以检验模型的普适性。研究计算了蛋白质年龄差(ProtAgeGap),并分析其与生物、身体及认知功能指标的关联。此外,研究使用Cox比例风险模型评估了ProtAgeGap与死亡率及14种常见非癌症疾病的关联。

研究结果

蛋白质组学年龄时钟

研究人员将UKB队列随机分为70%的训练集和30%的测试集,用于开发蛋白质组学年龄时钟。在训练阶段n=31808),研究比较了六种机器学习方法(LASSO、弹性网络、梯度提升和三种神经网络)来训练蛋白质组学年龄时钟模型,以使用Olink Explore 3072面板的2897种蛋白质的标准化表达来预测实际年龄。研究发现,梯度提升(LightGBM18)在UKB测试集(n=13633)中的年龄预测精度位居第二,但在CKB和FinnGen的独立样本中具有最高的精度。基于其优异的通用性,研究人员选择了LightGBM作为最终模型,并使用Boruta特征选择算法和SHAP(Shapley Additive Explanations)来识别与预测实际年龄相关的所有蛋白质子集(方法部分)。研究最终识别了数据集中204种蛋白质。研究的梯度提升ProtAge模型在UKB测试集中解释了实际年龄的高度变异性(R²=0.88,Pearson r=0.94),并在CKB(R²=0.82,Pearson r=0.92)和FinnGen(R²=0.87,Pearson r=0.94)的独立验证集中表现出类似的结果(图2d–f)。


为了评估每种蛋白质与年龄之间的关联是否在时间上保持稳定,研究人员使用了可用的149种蛋白质的重复蛋白质表达测量数据,这些数据来自1085名UKB参与者,这些参与者在三个时间点(基线(2006至2011年),影像学研究访问(2014年以后)和重复影像学访问(2019年以后))行了蛋白质组学数据测量。使用线性回归评估这149种蛋白质在每次研究访问中与年龄的关联。这些蛋白质在三个时间点上的关联的贝塔系数高度相关(Pearson r=0.90–0.97),表明这些蛋白质与年龄之间的关联在跨越至少9至13年的重复访问中具有良好的稳定性。使用最终模型中的204种蛋白质,研究人员计算了所有三个队列中参与者的ProtAgeGap,即ProtAge与实际年龄之间的差异。在UKB中,ProtAgeGap位于前5%和后5%的平均差异分别为6.3年和-6年,表明他们之间的生物老化年差约为12.3年。ProtAgeGap在所有三个队列中的女性和男性,自我报告的UKB种族以及CKB的地理区域中均显示出相似的分布(图2g–i)。作为最后一步特征选择,使用递归特征消除和SHAP值(方法部分)来识别由20种蛋白质(ProtAge20)组成的模型,该模型实现了204种蛋白质模型95%的年龄预测性能(Pearson r=0.89,R²=0.78)


图2 跨队列的蛋白质组学年龄时钟性能

蛋白质组学老化预测脆弱和衰老表型

作者为了理解蛋白质组学衰老如何影响与衰老相关的生理和认知功能,研究人员在UKB中研究了ProtAgeGap与以下因素的关联:(1)一个综合的虚弱指数(frailty index)(2)16项身体(如步行速度慢、握力)和认知功能(反应时间和流体智力)的个体指标;(3)10项生物衰老端粒长度和类胰岛素生长因子1(IGF-1))和临床血液生化(如白蛋白和肌酐)指标。经过对实际年龄、性别和主要社会人口学及生活方式混杂因素的调整后,ProtAgeGap与所研究的所有指标均显著相关,除两个肝脏生物标志物(丙氨酸氨基转移酶(ALT)和总胆红素)外图3a,b)。在所研究的生物衰老机制中(图3a),ProtAgeGap的增加与两种肾功能生物标志物(胱抑素C和肌酐)、两种肝脏酶(天冬氨酸氨基转移酶 (AST)和γ-谷氨酰转移酶(GGT))以及C反应蛋白水平的增加相关;并且与白蛋白、IGF-1和端粒长度水平的降低相关。在身体指标方面(图3b),ProtAgeGap的增加与健康自评较差、步行速度缓慢、自评面部年龄大于实际年龄、每天睡眠时间≥10小时、每天感到疲倦以及频繁失眠相关。ProtAgeGap增加还与虚弱指数、收缩压和舒张压、反应时间、动脉僵硬度和体重指数(BMI较高相关;以及与骨密度、流体智力、肺功能和握力较低相关。

了探讨这些关联是否是由反向因果关系(由于未检测到的病理所导致)所解释,研究还将分析限制在UKB参与者的一个子集中,这些参与者从未诊断过研究的26种疾病中的任何一种(n=20315)在这些参与者中(图3c,d),除白蛋白(这是一个典型的晚期病理蛋白标志物)、总胆红素、自评面部衰老、每天睡眠超过10小时和每天感到疲倦外,ProtAgeGap仍然与几乎所有标志物显著相关(图3d)。

ProtAgeGap20与除舒张压外的所有老化功能表型均相关。与204种蛋白质模型相比,ProtAgeGap20在生物衰老测量(如端粒和白蛋白)方面显示出更强的效应估计值(图3a),但在虚弱和生理/认知功能测量方面的效应估计值略小(图3b)。在没有终身疾病诊断的UKB参与者子集中,ProtAgeGap20与所有生物衰老标志物显著相关(图3c),并与除每天睡眠10小时以上、舒张压和BMI以外的所有生理指标相关(图3d)。


图3 ProtAgeGap与年龄相关的生物、身体和认知功能相关

蛋白质组学衰老是常见疾病的强有力预测指标

UKB研究中处于ProtAgeGap最高、中位和最低十分位数的参与者在所有原因的死亡率和14种常见非癌症疾病的特定年龄发病率方面显示出不同的趋势(图4a)。根据ProtAgeGap的这些十分位数,女性和男性的累积发病率轨迹相似。对于在招募时年龄为65岁的人群,在研究随访的11-16年间,ProtAgeGap最高十分位数中观察到的累积发病率(相当于绝对风险)最高的分别是骨关节炎(59.4%)、全因死亡率(55.2%)、缺血性心脏病(IHD,50.6%)、2型糖尿病(35.3%)慢性肾病(CKD,33.6%)。在所有招募年龄段,神经退行性疾(如帕金森病、所有原因的痴呆和阿尔茨海默病(AD))在ProtAgeGap最低十分位数中的累积发病率均低于1%,这可能部分是因为这些疾病的发病通常发生在较高的年龄。

在CKB中,研究人员也根据ProtAgeGap的十分位数计算了疾病的累积发病率(>10例新发病例)图4b)。其中在缺血性心脏病(IHD)、所有原因的死亡率、所有中风和缺血性中风方面观察到了明显的差异。此外还观察到了2型糖尿病、慢性阻塞性肺疾病(COPD)、慢性肝病和慢性肾病(CKD)方面的差异;然而,由于新发病例数较少,置信区间要宽得多。


进一步使用多变量Cox比例风险模型来研究在调整了实际年龄、性别、吸烟、身体活动、社会人口学因素和临床风险因素后,ProtAgeGap与死亡率及14种常见非癌症疾病之间的关联是否仍然存在。在UKB中的所有模型中,ProtAgeGap与死亡率和所有非癌症新发疾病结果除帕金森病外)显著相关(图5)。在包括BMI和现有高血压协变量的完全调整模型模型3)中,ProtAgeGap每增加1年,AD的风险最大(风险比(HR)1.16;95%置信区间(CI)1.12–1.20),其次是全因痴呆症(HR 1.12;95%CI 1.10–1.15)和CKD(HR 1.10;95%CI 1.08–1.11)。ProtAgeGap20与所研究的所有疾病,包括帕金森病等均相关。根据这些HR(每增加1年ProtAgeGap的报告),研究估计ProtAgeGap最高5%的人的AD风险平均是ProtAge与实际年龄无差异者的2.6倍,是ProtAgeGap最低5%者的5.8倍。对于CKD,风险增加分别为1.8倍(最高5%对比0)和3.1倍(最高5%对比最低5%),对于死亡率,风险增加分别为1.9(最高5%对比0)和3.6倍(最高5%对比最低5%)


图4 ProtAgeGap将UKB和CKB中个体按不同的年龄特异性死亡率和疾病风险轨迹分层


图5 ProtAgeGap与死亡率和常见疾病关联的效应量在协变量调整中基本不变


蛋白质组老化随着疾病数量的增加而增加

研究人员将多重病症定义为在UKB中研究的26种疾病中任何一种疾病的终身诊断次数,并将参与者根据0、1、2、3或4次及以上的终生诊断进行分类。结果发现,随着终生疾病数量的增加,ProtAgeGap的平均年数也随之增加。此外,这种效应在招募时较年轻的参与者(40-50岁)中更为显著,其中疾病的出现较少见。平均而言,与在招募时40-50岁且没有诊断记录的参与者相比,在招募时40-50岁且有4次及以上终身诊断的参与者中,ProtAgeGap多出了1.5年,而在招募时51-65岁的参与者中,观察到ProtAgeGap多出了0.8年。根据健康记录得出的ProtAgeGap与多病共存状况之间的关系也反映在自我报告的健康信息中。平均而言,与自我报告健康状况较差的参与者相比,自我报告健康状况极好(可能无疾病)的参与者ProtAgeGap少了0.9年


生物功能和蛋白质交互网络

即使对204个年龄预测蛋白(APs)的功能富集分析显示,这些APs在一个基因本体(GO)生物过程中富集:解剖结构发育和发育过程。使用GO分子功能、京都基因与基因组百科全书(KEGG)或Reactome时未发现富集现象;然而,使用来自STRING数据库的共表达信息,这204个APs在蛋白质-蛋白质相互作用(PPI)网络中形成了一个由66个具有至少两个节点连接的蛋白质组成的高度互联的子网络。与其他蛋白质连接数最多的个别蛋白包括EGFR(与癌症药物抗性、大脑结构和血小板计数有关)、CXCL12(一种免疫相关趋化因子,涉及免疫监视、炎症反应、组织稳态和肿瘤生长与转移)、ITGAV一个整合素蛋白,涉及身高、左右利手、阅读障碍和白蛋白/肌酐代谢)、CXCL9(与T细胞功能和炎症有关和CD8A(一个与先天免疫系统相关的CD8抗原)


接着使用SHAP交互值从训练的ProtAge模型中计算了一个第二个PPI网络,该网络表示蛋白质在模型中共同预测年龄的交互关系。根据SHAP交互值,与其他蛋白质连接最多的个别蛋白包括ELN(一种弹性纤维蛋白,构成细胞外基质的一部分,并赋予心脏、皮肤、肺、韧带和血管等器官和组织弹性)、EDA2R(参与NF-κB和先天免疫通路,并与秃顶、雌二醇、睾酮和高密度脂蛋白代谢有关)、LTPB2(与BMI、血压、神经质和焦虑、青光眼和视网膜病变、肺功能和死亡率相关的蛋白质)、CXCL17(一个与CXCL9交互的趋化因子,参与肿瘤生成、通过单核细胞、巨噬细胞和树突状细胞进行的抗微生物防御)以及GDF15(与BMI、肝功能、系统性红斑狼疮和COVID-19有关)。总体而言,使用基于数据驱动的方法从机器学习模型中提取的PPI交互与使用最新实验生物知识(STRING数据库)进行的PPI分析显示出不同的结果。


与现有的DNAm和蛋白质组年龄时钟的比较

ProtAge中的五个对应基因与在Horvath时钟中映射到CpG位点的基因重叠(CSPG5、CXADR、DKK3、ENPP2和POMC),11个ProtAge基因与映射到DNAm PhenoAge的邻近基因重叠(AMANTSL5、CALB1、CTSF、CXADR、CYTL1、DPEP2、KLK8、LHB、LMOD1、MATN3和NPL)。仅有三个ProtAge基因与映射到DunedinPACE的邻近基因重叠(ADAMTS13、SORCS2和TNXB)


总结

这项研究的基于开发一个基于血浆蛋白的年龄时钟,以更准确地预测生物年龄,从而评估多种年龄相关疾病和死亡风险的目的。使用来自英国生物库的大规模数据,结合先进的机器学习技术,选出了与年龄预测相关的204种关键蛋白质,并在中国和芬兰的独立样本中验证了模型的有效性。结果显示,该蛋白质年龄时钟能有效地预测个体的生物年龄,与多种慢性疾病、多病共存和全因死亡风险显著相关,不仅适用于单一族群,还适用于不同种族背景的人群。这一研究为理解衰老过程提供了新的视角,为未来在多种族背景下,利用蛋白质组学数据进行个性化健康风险评估和干预提供了可能性。


原文链接:https://doi.org/10.1038/s41591-024-03164-7


参考文献


Argentieri, M.A., Xiao, S., Bennett, D. et al. Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations. Nat Med 30, 2450–2460 (2024). https://doi.org/10.1038/s41591-024-03164-7



编译:道迟

对:Evan Flle

排版:Sail

封面来源:Freepik


往期推荐

Nat Med | 血浆蛋白质组学助力常见与罕见疾病风险预测

2024-09-22

旦生医学 | 工业化智能蛋白芯片助力新发传染病全周期应对能力建设

2024-09-16

Nature Aging〡英国生物样本库中主要突发疾病和死亡率的血液蛋白评估

2024-09-15

Adv.Sci.∣国家蛋白质科学中心于晓波联合团队揭示新冠-宿主群体疫苗免疫协同进化规律和防护策略

2024-09-01

旦生医学智能蛋白芯片技术在新冠疫苗群体免疫进化大队列研究中获得突破

2024-09-04



了解更多蛋白芯片、组学进展请关注下方名片



关于旦生医学

旦生医学(ProteomicsEra Medical Co.,Ltd,)是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业,由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码(标志物),开发下一代高通量、智能化临床检测试剂、设备和蛋白药物,为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务,联系方式:010-85885591,18601967980。


本文来源于公开发表论文,仅供学习交流,不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。


芯医学
介绍蛋白芯片和前沿组学技术在精准医学、生物标志物、体外诊断和药物研发中的应用进展,相关产品、会议和产业热点。
 最新文章