The Lancet Digital Health〡机器学习指导多种突发疾病的蛋白预测模型建立及生物标志物的发现

文摘科学 2024-08-18 15:13 北京

研究背景

广泛捕获的蛋白质组学技术有可能改善疾病预测，从而实现有针对性的预防和管理，但迄今为止的这方面研究仅限于极少数选定的疾病，而且没有对多种疾病的预测性能进行评估。而基于血液的分子生物学技术有可能提高临床预测疾病发病及病程的能力，但往往缺乏系统和严格的大规模测试。当前经过多方努力，已成功开发并验证了多种疾病的遗传和多基因预测指标，但将其转化为临床应用却一直困难重重，部分原因是与易于测量的临床参数相比，潜在的预测改进相关知识存在差距。与遗传基因组不同，蛋白质组是信息传递的核心层，会随着早期疾病机制的变化而变化。与代谢物等其他基于血液的生物标记物相比，循环蛋白具有动态范围广、半衰期长、多为内源性等特点，而且易于获取，这使其在不同疾病预测、诊断和预后方面具有吸引力，目前已有许多已确立并用于临床的实例。然而，即使是对于已确立生物标记物并用于临床的疾病，这些蛋白也是通过靶向研究获得的，缺乏与通过广泛捕获和无假设研究确定的其他组学生物标记物进行系统比较或结合使用。

2024年7月，来自柏林夏里特大学柏林健康研究所计算医学的Claudia Langenberg教授团队在The Lancet Digital Health（IF:23.8）发表名为“Proteomic prediction of diverse incident diseases: a machine learning-guided biomarker discovery study using data from a prospective cohort study”的文章。在这项研究中，作者将血清蛋白质组数据与基因组数据、入院记录和癌症登记数据整合在一起，对血清蛋白在健康衍生信息和多基因风险评分（PRSs）基础上改善23种非传染性疾病和全因过早死亡风险预测的潜力进行了系统性和前瞻性评估。通过预测未来疾病发生的风险可以实现早期临床干预，并针对高危人群和个体制定预防策略。

主要成果

●提供了概念证明，即以机器学习为指导的蛋白质组生物标志物发现研究有可能改进特定疾病的预测模型；

●确定了未报告的生物标志物，如C-X-C基序趋化因子配体17；

●使用机器学习框架推导出了23种个体疾病和全因过早死亡发病的简洁预测蛋白模型，并从2923种血清蛋白中推导出了一个常见的简单多发病特征，该特征可以预测多种疾病。

研究设计

【样本队列】

作者设立了两个单独的批次队列，并利用Olink Explore 1536和Olink Explore Expansion面板对其分别进行了蛋白质组学分析。

队列一——从EPIC-Norfolk前瞻性研究中随机选择了一个亚队列（N=749）作为多病例队列，以调查14种常见疾病的发病率和全因死亡率。对于普通人群中四种不太常见的疾病（肺癌、出血性中风、结肠癌以及帕金森症），其选择了随访10年内的共计291例作为对照。

队列二——依旧是从EPIC-Norfolk前瞻性研究中随机选择了一个亚队列（N=1010）作为多病例队列，并选择了普通人群10年随访期内的7种不太常见疾病的事件病例共计698份作为对照。

表1 多病例队列的基线特征

表2 对照对列信息

【实验设计】

作者在EPIC-Norfolk前瞻性研究中设计了多个病例队列，这些队列来自具有可用血清样本和全基因组基因型数据的参与者，随访时间超过32974人年。参与者是1993年3月至1997年12月期间从英格兰诺福克的普通人群中招募的欧洲血统的中年人（基线年龄为40-79岁）。作者选择了在随访10年内患上十种较不常见疾病之一的参与者；该团队还对随机抽取的对照亚群进行了亚抽样，该亚群还用于调查14种更常见的结局（n>70），包括全因过早死亡率（75岁之前死亡；病例数71-437；对照组样本数608-1556）。作者使用机器学习框架推导出了23种个体疾病和全因过早死亡发病的简单预测蛋白模型，并从2923种血清蛋白中推导出了一个常见的简洁多发病特征，该特征可以预测多种疾病。

图1 研究流程

研究结果

简洁蛋白质模型的开发

作者针对24种不同的结果推导出了简洁蛋白质模型，其中只包括5个蛋白质，它们的C指数中位数为0.67（IQR 0.62-0.75；图2）。在大多数疾病中，前五种蛋白质的表现优于使用全部2319种蛋白质训练的模型，C指数中位数高出0.04（IQR 0.01-0.06）。在所研究的11项结果中，纯蛋白质模型（C指数中位数=0.74[IQR 0.66-0.80]）的表现与包含风险因素的患者来源基本信息模型（C指数中位数=0.71 [0.65-0.75]；图2）相当，甚至优于后者。

在17种疾病方面，纯蛋白质模型就比包含多达722108个遗传变异的PRS更胜一筹。五蛋白模型与PRS模型之间的C指数差异中位数为0.13（IQR 0.10-0.17）。大多数选定的预测蛋白与疾病风险呈正相关，反相关的例子很少。作者注意到，对于某些预测效果不佳的疾病，两批蛋白质组之间存在很大的效应异质性（例如，N-末端前B型钠尿肽和心房颤动），这表明有进一步提高检测性能和普适性的潜力。

将前五种蛋白质添加到患者衍生信息模型中，可提高对以下七种结果的预测性能：2型糖尿病、前列腺癌、全因过早死亡、慢性阻塞性肺病、肺癌、肾病和心力衰竭（C指数提高范围为0.02-0.11；图2）。改善幅度最大的是2型糖尿病（C指数改善0.11 [+/-交叉验证误差0.08-0.13]）、前列腺癌（0.10 [0.06-0.13]）和全因过早死亡率（0.08 [0.05-0.11]）。蛋白质还提高了基线预测因子已经很强的模型的性能，如吸烟状况与慢性阻塞性肺病（0.06 [0.04-0.09]）和肺癌（0.05 [0.02-0.07]）等呼吸系统疾病。在上述七种结果中，C指数的中位数为0.82（IQR 0.77-0.82）。净再分类改进（NRI）中位数为0.28（IQR 0.19-0.37），主要归因于病例的正确再分类。与患者衍生信息模型相比，PRS改善了五种疾病的预测（C指数改善范围为0.02-0.27），包括乳腺癌、2型糖尿病、青光眼、心力衰竭和缺血性心脏病。与蛋白质组预测相比，NRI中位数为0.19（IQR 0.17-0.26），对照组的正确再分类贡献更大。在患者信息模型的基础上增加疾病PRS和五种蛋白质的协同改进只适用于2型糖尿病（与患者信息模型相比，C指数提高了0.14 [+/-交叉验证误差 0.11-0.16]；图2）。综合布赖尔评分显示，与患者信息模型相比，包含蛋白质或PRS的大多数模型的校准效果更好。

图2 蛋白质生物标志物对23种疾病和全因过早死亡的交叉验证预测性能

单一通用简洁蛋白质组特征的构建

作者为了确定是否能得出一个单一的通用简洁蛋白质组特征，用于同时预测多种疾病，这将提供一种具有成本效益的策略，并提高临床转化的潜力。在21种个别疾病中，前十位多病蛋白的C指数中位数为0.72（IQR 0.64-0.76）。平均而言，这比疾病特异性蛋白质特征的表现要高，这可能指向共同的疾病机制。与患者信息模型相比，这十种蛋白质提高了对六种疾病和全因过早死亡率的预测性能（C指数变化范围为0.02-0.06；C指数中位数为0.81 [IQR 0.80-0.82]；图3）。值得注意的是，2型糖尿病和血管性痴呆并不包括在综合多病结局的定义中，但十种蛋白质特征仍能改善对它们的预测。这七种疾病的NRI中位数为0.28（IQR 0.18-0.31）。与单病种预测特征一样，这主要归因于病例的正确重新分类。

图3 十种多病蛋白对20种疾病和全因过早死亡率的交叉验证预测性能

与患者信息模型相比，大多数疾病特异性蛋白质特征都有所改进，但也有少数几个强有力的候选特征，超出这些特征后，选择分数会明显下降，这表明生成更全面的蛋白质组特征的潜在价值不大（图4）。作者从中注意到，根据高于固定阈值的归一化选择分数（从1到16个蛋白质不等），可以选择不同数量的蛋白质作为预测因子，结果得出的C指数与只选择5个蛋白质的结果相似（Pearson's r=0.99）。在最高预测因子中，既有已确立的临床生物标志物，也有迄今为止文献中鲜有报道的强预测性蛋白质，包括肺癌和慢性阻塞性肺病的C-X-C基序趋化因子配体17（CXCL17），以及肾病的Leiomodin 1（LMOD1）。

在所选的预测蛋白中，作者没有观察到任何384复合物预分组和市售特定面板（即心脏代谢、炎症、肿瘤或神经学）中的蛋白富集于特定的相关疾病组。这是设计探索性研究的一个重要考虑因素。总体而言，在疾病特异性特征中表现至少与患者信息模型相同或更好的前20个蛋白质中，有26个蛋白质是两种或两种以上疾病共有的（图4）。虽然这些结果表明，与代谢组学等其他全息图层相比，重叠程度较低，但它们突出表明，一些蛋白质可能表示多种疾病共有的机制，从而为多病集群提供标记。在所测试的各种疾病中，10个多病症蛋白质特征平均具有良好的预测性能，这凸显了这种可能性。这种特征包括单病种模型中的共有标记物，如生长分化因子15、含CUB结构域的蛋白1、外胚层蛋白A2受体、神经筋膜蛋白或基质金属蛋白酶12（图4）。此外作者还系统地检测了所选的预测蛋白是否可能与相关疾病或相关实体的发病机制有因果关系，但在全面的基因共定位研究中没有发现匹配的证据。

图4 前20种疾病特异性蛋白质的归一化特征选择得分

总结

作者展示了在多种病因的多种疾病中进行广泛捕获蛋白质组生物标志物发现研究的价值，指出了那些可能从蛋白质组方法中获益最多的疾病，以及得出通用简洁生物标志物面板以同时预测多种疾病的潜力。这一框架有助于开展后续研究，探索蛋白质组模型的通用性，并将这些模型与临床检测进行比对，这是了解这些发现的转化潜力所必需的。该研究结果可能表明，只有对循环候选蛋白生物标志物有早期强烈影响的疾病模型才更具有通用性，才能更有针对性，并强调了进一步开发检测方法的必要性，以确保可靠的模型可移植性。最后，能够捕捉翻译后修饰的蛋白质组学技术可能会拓展生物标志物的发现空间。

总之，该团队展示了广泛捕获的蛋白质组平台在实现系统化和无假设生物标志物发现策略方面的价值。该研究提供了及时的洞察力，让大家了解如何通过整合蛋白质组学、健康记录关联和机器学习，在使用选定疾病的常见风险因素之外，改进疾病预测，为在蛋白质组学分析的大规模队列数量不断增加的背景下取得进一步进展提供指导。

原文链接: https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00087-6/fulltext

参考文献

Carrasco-Zanini J, Pietzner M, Koprulu M, et al. Proteomic prediction of diverse incident diseases: a machine learning-guided biomarker discovery study using data from a prospective cohort study. Lancet Digit Health. 2024;6(7):e470-e479. doi:10.1016/S2589-7500(24)00087-6

编译：白桃汽水

校对：Evan Flle

排版：Sail

封面来源：Freepik

往期推荐

Nat Commun | 血浆蛋白质组分析揭示双阻断剂疗法后胆固醇标志物的动态变化

2024-07-21

Alzhelmers Dement | 血液多指标生物标志物用于阿尔茨海默病的早期检测

2024-07-14

Nat Common | 纵向血浆蛋白质组学分析揭示结直肠癌诊断和西妥昔单抗治疗反应的生物标志物

2024-07-07

Nat.Med |脑脊液蛋白质组学揭示阿尔茨海默发病自然史

2024-06-29

了解更多蛋白芯片、组学进展请关注下方名片

关于旦生医学

旦生医学（ProteomicsEra Medical Co.,Ltd,）是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业，由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码（标志物），开发下一代高通量、智能化临床检测试剂、设备和蛋白药物，为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务，联系方式：010-85885591，18601967980。

本文来源于公开发表论文，仅供学习交流，不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。

http://mp.weixin.qq.com/s?__biz=Mzg2NTc5MDI1OA==&mid=2247550757&idx=1&sn=bb08f8b591cc66eb376173354007610f

芯医学

介绍蛋白芯片和前沿组学技术在精准医学、生物标志物、体外诊断和药物研发中的应用进展，相关产品、会议和产业热点。