研究背景
年龄是大多数常见慢性疾病和死亡原因的主要决定因素。随着年龄增长,人体的生理完整性和功能逐渐丧失,这种衰退过程最终导致多种主要疾病的发生。尽管生理年龄是预测这些疾病的一个强有力的指标,但每个人的衰老速度可能大相径庭,因此并不能完全反映个体的生物学老化过程。血液中的蛋白质在人类健康中发挥关键作用,可能被用来测量生物学年龄,从而预测与年龄相关的疾病、多重疾病和死亡风险。通过蛋白质组学数据,可以更精确地估计个体的生物学年龄,这种方法捕捉了个体在特定年龄下的生物学功能状态,并与预期水平进行对比,从而更好地评估衰老的进展。
主要成果
研究开发了一个基于血液蛋白质组学年龄时钟,并在多个不同地域和种族的群体中验证了其有效性。 研究发现,蛋白质组学年龄时钟与18种主要慢性疾病、全因死亡率以及多种生物、身体和认知功能的年龄相关指标有关。
研究设计
3. 在UKB的11至16年的随访期间,以及CKB的11至14年的随访期间,分别有4828名(10.6%)和1426名(36%)参与者死亡。在FinnGen中,蛋白质组学分析主要在没有重大疾病的健康参与者中进行,在随访期间仅有1%(n=22)的FinnGen参与者死亡。
图1 研究设计和主要分析方法
研究结果
蛋白质组学年龄时钟
研究人员将UKB队列随机分为70%的训练集和30%的测试集,用于开发蛋白质组学年龄时钟。在训练阶段(n=31808),研究比较了六种机器学习方法(LASSO、弹性网络、梯度提升和三种神经网络)来训练蛋白质组学年龄时钟模型,以使用Olink Explore 3072面板的2897种蛋白质的标准化表达来预测实际年龄。研究发现,梯度提升(LightGBM18)在UKB测试集(n=13633)中的年龄预测精度位居第二,但在CKB和FinnGen的独立样本中具有最高的精度。基于其优异的通用性,研究人员选择了LightGBM作为最终模型,并使用Boruta特征选择算法和SHAP(Shapley Additive Explanations)值来识别与预测实际年龄相关的所有蛋白质子集(方法部分)。研究最终识别了数据集中204种蛋白质。研究的梯度提升ProtAge模型在UKB测试集中解释了实际年龄的高度变异性(R²=0.88,Pearson r=0.94),并在CKB(R²=0.82,Pearson r=0.92)和FinnGen(R²=0.87,Pearson r=0.94)的独立验证集中表现出类似的结果(图2d–f)。
为了评估每种蛋白质与年龄之间的关联是否在时间上保持稳定,研究人员使用了可用的149种蛋白质的重复蛋白质表达测量数据,这些数据来自1085名UKB参与者,这些参与者在三个时间点(基线(2006至2011年),影像学研究访问(2014年以后)和重复影像学访问(2019年以后))进行了蛋白质组学数据测量。使用线性回归评估这149种蛋白质在每次研究访问中与年龄的关联。这些蛋白质在三个时间点上的关联的贝塔系数高度相关(Pearson r=0.90–0.97),表明这些蛋白质与年龄之间的关联在跨越至少9至13年的重复访问中具有良好的稳定性。使用最终模型中的204种蛋白质,研究人员计算了所有三个队列中参与者的ProtAgeGap,即ProtAge与实际年龄之间的差异。在UKB中,ProtAgeGap位于前5%和后5%的平均差异分别为6.3年和-6年,表明他们之间的生物老化年差约为12.3年。ProtAgeGap在所有三个队列中的女性和男性,自我报告的UKB种族以及CKB的地理区域中均显示出相似的分布(图2g–i)。作为最后一步特征选择,使用递归特征消除和SHAP值(方法部分)来识别由20种蛋白质(ProtAge20)组成的模型,该模型实现了204种蛋白质模型95%的年龄预测性能(Pearson r=0.89,R²=0.78)。
蛋白质组学老化预测脆弱和衰老表型
ProtAgeGap20与除舒张压外的所有老化功能表型均相关。与204种蛋白质模型相比,ProtAgeGap20在生物衰老测量(如端粒和白蛋白)方面显示出更强的效应估计值(图3a),但在虚弱和生理/认知功能测量方面的效应估计值略小(图3b)。在没有终身疾病诊断的UKB参与者子集中,ProtAgeGap20与所有生物衰老标志物显著相关(图3c),并与除每天睡眠10小时以上、舒张压和BMI以外的所有生理指标相关(图3d)。
蛋白质组学衰老是常见疾病的强有力预测指标
在CKB中,研究人员也根据ProtAgeGap的十分位数计算了疾病的累积发病率(>10例新发病例)(图4b)。其中在缺血性心脏病(IHD)、所有原因的死亡率、所有中风和缺血性中风方面观察到了明显的差异。此外还观察到了2型糖尿病、慢性阻塞性肺疾病(COPD)、慢性肝病和慢性肾病(CKD)方面的差异;然而,由于新发病例数较少,置信区间要宽得多。
进一步使用多变量Cox比例风险模型来研究在调整了实际年龄、性别、吸烟、身体活动、社会人口学因素和临床风险因素后,ProtAgeGap与死亡率及14种常见非癌症疾病之间的关联是否仍然存在。在UKB中的所有模型中,ProtAgeGap与死亡率和所有非癌症新发疾病结果(除帕金森病外)显著相关(图5)。在包括BMI和现有高血压协变量的完全调整模型(模型3)中,ProtAgeGap每增加1年,AD的风险最大(风险比(HR)1.16;95%置信区间(CI)1.12–1.20),其次是全因痴呆症(HR 1.12;95%CI 1.10–1.15)和CKD(HR 1.10;95%CI 1.08–1.11)。ProtAgeGap20与所研究的所有疾病,包括帕金森病等均相关。根据这些HR(每增加1年ProtAgeGap的报告),研究估计ProtAgeGap最高5%的人的AD风险平均是ProtAge与实际年龄无差异者的2.6倍,是ProtAgeGap最低5%者的5.8倍。对于CKD,风险增加分别为1.8倍(最高5%对比0)和3.1倍(最高5%对比最低5%),对于死亡率,风险增加分别为1.9倍(最高5%对比0)和3.6倍(最高5%对比最低5%)。
图4 ProtAgeGap将UKB和CKB中个体按不同的年龄特异性死亡率和疾病风险轨迹分层
蛋白质组老化随着疾病数量的增加而增加
研究人员将多重病症定义为在UKB中研究的26种疾病中任何一种疾病的终身诊断次数,并将参与者根据0、1、2、3或4次及以上的终生诊断进行分类。结果发现,随着终生疾病数量的增加,ProtAgeGap的平均年数也随之增加。此外,这种效应在招募时较年轻的参与者(40-50岁)中更为显著,其中疾病的出现较少见。平均而言,与在招募时40-50岁且没有诊断记录的参与者相比,在招募时40-50岁且有4次及以上终身诊断的参与者中,ProtAgeGap多出了1.5年,而在招募时51-65岁的参与者中,观察到ProtAgeGap多出了0.8年。根据健康记录得出的ProtAgeGap与多病共存状况之间的关系也反映在自我报告的健康信息中。平均而言,与自我报告健康状况较差的参与者相比,自我报告健康状况极好(可能无疾病)的参与者ProtAgeGap少了0.9年。
生物功能和蛋白质交互网络
即使对204个年龄预测蛋白(APs)的功能富集分析显示,这些APs在一个基因本体(GO)生物过程中富集:解剖结构发育和发育过程。使用GO分子功能、京都基因与基因组百科全书(KEGG)或Reactome时未发现富集现象;然而,使用来自STRING数据库的共表达信息,这204个APs在蛋白质-蛋白质相互作用(PPI)网络中形成了一个由66个具有至少两个节点连接的蛋白质组成的高度互联的子网络。与其他蛋白质连接数最多的个别蛋白包括EGFR(与癌症药物抗性、大脑结构和血小板计数有关)、CXCL12(一种免疫相关趋化因子,涉及免疫监视、炎症反应、组织稳态和肿瘤生长与转移)、ITGAV(一个整合素蛋白,涉及身高、左右利手、阅读障碍和白蛋白/肌酐代谢)、CXCL9(与T细胞功能和炎症有关)和CD8A(一个与先天免疫系统相关的CD8抗原)。
接着使用SHAP交互值从训练的ProtAge模型中计算了一个第二个PPI网络,该网络表示蛋白质在模型中共同预测年龄的交互关系。根据SHAP交互值,与其他蛋白质连接最多的个别蛋白包括ELN(一种弹性纤维蛋白,构成细胞外基质的一部分,并赋予心脏、皮肤、肺、韧带和血管等器官和组织弹性)、EDA2R(参与NF-κB和先天免疫通路,并与秃顶、雌二醇、睾酮和高密度脂蛋白代谢有关)、LTPB2(与BMI、血压、神经质和焦虑、青光眼和视网膜病变、肺功能和死亡率相关的蛋白质)、CXCL17(一个与CXCL9交互的趋化因子,参与肿瘤生成、通过单核细胞、巨噬细胞和树突状细胞进行的抗微生物防御)以及GDF15(与BMI、肝功能、系统性红斑狼疮和COVID-19有关)。总体而言,使用基于数据驱动的方法从机器学习模型中提取的PPI交互与使用最新实验生物知识(STRING数据库)进行的PPI分析显示出不同的结果。
与现有的DNAm和蛋白质组年龄时钟的比较
ProtAge中的五个对应基因与在Horvath时钟中映射到CpG位点的基因重叠(CSPG5、CXADR、DKK3、ENPP2和POMC),11个ProtAge基因与映射到DNAm PhenoAge的邻近基因重叠(AMANTSL5、CALB1、CTSF、CXADR、CYTL1、DPEP2、KLK8、LHB、LMOD1、MATN3和NPL)。仅有三个ProtAge基因与映射到DunedinPACE的邻近基因重叠(ADAMTS13、SORCS2和TNXB)。
总结
这项研究的基于开发一个基于血浆蛋白的年龄时钟,以更准确地预测生物年龄,从而评估多种年龄相关疾病和死亡风险的目的。使用来自英国生物库的大规模数据,结合先进的机器学习技术,选出了与年龄预测相关的204种关键蛋白质,并在中国和芬兰的独立样本中验证了模型的有效性。结果显示,该蛋白质年龄时钟能有效地预测个体的生物年龄,与多种慢性疾病、多病共存和全因死亡风险显著相关,不仅适用于单一族群,还适用于不同种族背景的人群。这一研究为理解衰老过程提供了新的视角,为未来在多种族背景下,利用蛋白质组学数据进行个性化健康风险评估和干预提供了可能性。
参考文献
Argentieri, M.A., Xiao, S., Bennett, D. et al. Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations. Nat Med 30, 2450–2460 (2024). https://doi.org/10.1038/s41591-024-03164-7
编译:道迟
校对:Evan Flle
排版:Sail
封面来源:Freepik
2024-09-22
2024-09-16
2024-09-15
2024-09-01
了解更多蛋白芯片、组学进展请关注下方名片
关于旦生医学
旦生医学(ProteomicsEra Medical Co.,Ltd,)是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业,由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码(标志物),开发下一代高通量、智能化临床检测试剂、设备和蛋白药物,为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务,联系方式:010-85885591,18601967980。
本文来源于公开发表论文,仅供学习交流,不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。