前言
2025 年的第一期 cell 上发表了一篇《健康与疾病中 53,026 名成人的血浆蛋白质组图谱》,这篇文章包含了大量的资源,这边进行了相关探索。 文章主要是通过申请到的 UK Biobank 数据进行的数据分析,然后给出数据分析的结果。 如果想要详细了解文章内容,请看今天其他推文《Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供分析结果和源代码》,推文对该文章原文进行了逐字逐句的中文精读。
文章亮点
构建涵盖1706种人类疾病和特征的全面蛋白质组学图谱 基于机器学习的大数据分析揭示有前景的诊断和预测生物标志物 识别出37种药物重新定位前景和26个潜在的安全靶点 提供一个开放获取的蛋白质组-表型组资源以推进精准医学
文章摘要
大规模蛋白质组学研究可以深化我们对健康和疾病的了解,并促进精准医学的发展。 在这里,我们提供了英国生物银行(UK Biobank)中53,026名个体(中位随访时间:14.8年)的详细血浆蛋白图谱,该图谱链接了406种常见疾病和660种新发疾病以及986种与健康相关的特征,代表了迄今为止最全面的蛋白质组谱。 这一图谱揭示了168,100个蛋白质-疾病关联和554,488个蛋白质-特征关联。 超过650种蛋白质在至少50种疾病中共存,超过1,000种蛋白质显示了性别和年龄上的异质性。 此外,蛋白质在疾病鉴别方面表现出巨大的潜力(183种疾病中的曲线下面积[AUC] > 0.80)。 最后,整合蛋白质数量性状位点数据确定了474种因果蛋白质,提供了37种药物再利用机会和26种具有有利安全性的潜在靶标。 这些结果提供了一个开放获取的综合蛋白质组-表型资源(https://proteome-phenome-atlas.com/),有助于阐明疾病的生物学机制,并加速疾病生物标志物、预测模型和治疗靶标的开发。
蛋白质组-表型资源探索
网址
https://proteome-phenome-atlas.com/
网站布局简单,四大板块清晰明了 指引清晰,操作简单 分为流行病学关联,生物医学洞见,预测诊断,基因组关联 截止今天,已有 35000+ 浏览量
流行病学关联
从疾病的角度查看分析结果
血浆蛋白与疾病终点之间的关联分别使用 Cox 比例风险回归和逻辑回归进行,分别针对新发疾病和常见疾病。 血浆蛋白与健康相关特征之间的关联分析,采用线性回归对连续特征(作为结果)和二元特征(作为暴露因素),以及比例优势逻辑回归对有序分类特征。
假如想要看阿尔兹海默症的分析结果,操作如下:
可以看到, 424 种蛋白质在 0.05 的显著性水平下表现出关联。253 个蛋白质呈正相关,171 个呈负相关。可以从这些数据里面找分子进行研究,或者给自己的分子添加强有力的临床相关数据。 完整结果可以在底部进行下载
从蛋白质的角度查看分析结果
血浆蛋白与疾病终点之间的关联分别使用 Cox 比例风险回归和逻辑回归进行,分别针对新发疾病和常见疾病。 血浆蛋白与健康相关特征之间的关联分析,采用线性回归对连续特征(作为结果)和二元特征(作为暴露因素),以及比例优势逻辑回归对有序分类特征。
同样的,我们可以从蛋白质的角度,查看研究的目标蛋白质跟数据库中的哪些疾病关联。
生物洞见
这部分对疾病相关蛋白进行了通路和富集分析(对于新发疾病,P < 0.05/(2920*660);对于常见疾病,P < 0.05/(2920*406))。对每种疾病,都进行了基因本体(GO)术语、Reactome 通路和组织类型的富集分析。
预测诊断
建立了两个模型,一个预测模型和一个诊断模型; 使用了与疾病相关的蛋白(对于新发终点事件,P < 0.05/(2920*406);对于常见终点事件,P < 0.05/(2920*660))。 预测模型(疾病数量=660)旨在确定一个基线健康参与者是否会患上某种疾病(预测为类别 1)或保持健康(预测为类别 0),并且排除了那些已经对该疾病有常见诊断的个人。 诊断模型(疾病数量=406),它旨在区分一个参与者是否经历过或目前正在经历某种疾病(预测为类别 1)与那些没有经历过的人(预测为类别 0)。
基因组关联
从疾病的角度查看分析结果
基因组关联分析通过孟德尔随机化(MR)分析进行,使用蛋白质-疾病分析中确定的显著蛋白质-疾病对(对于新发疾病,P < 0.05/(2920*406);对于常见疾病,P < 0.05/(2920*660))。 蛋白质到疾病的 MR 分析将蛋白质数量性状位点(pQTL)数据作为暴露因素,将疾病 GWAS 数据作为结果,而对于疾病到蛋白质的分析,暴露因素和结果则相反。 大多数疾病 GWAS 来自 FinnGen 研究 [2] 发布 DF9,其余疾病 GWAS 是在没有蛋白质数据的 UKB 参与者子集中计算的。 为了选择工具变量(IV),对具有全基因组显著性的 SNPs(P < 5×10^−8)进行了连锁不平衡(LD)聚类。如果只有一个 IV 可用,则使用 Wald 比率来估计 MR 效应; 如果有两个或更多 IV 可用,则使用逆方差加权方法。MR 分析使用 R 中的“TwoSampleMR”包(v.4.2.0)进行。
从蛋白质的角度查看分析结果
同上
代码
提供了完整的分析代码
github
https://github.com/jasonHKU0907/proteome-phenome-atlas
数据
文章的大部分数据是向 UKB 申请得到的,看了全篇,并没有提供原始的数据,只提供了分析的结果,无法得到原始数据,比较可惜。 UKB 的数据不知道申请难度如何?有没有小伙伴可以提供一下申请经验?