研究背景
蛋白质组学技术的迅猛发展极大地提升了我们对人类生物学特征的认知能力。鉴于血液是洞察人类健康的窗口,血液中循环蛋白质组研究得到蛋白质组和相关生物医药领域的高度关注。每一次方法创新和分析进步都促使我们重新评估现有方法,以确保新数据能为生物医学研究界带来价值。
2024年10月31日,国家蛋白质中心-北京(凤凰中心)于晓波研究员与德国马克斯普朗研究所Philipp E Geyer教授、美国系统生物学研究所Eric W. Deutsch教授、瑞典皇家理工学院Jochen Schwenk教授等十八名国际人类血浆蛋白质组项目(Human Plasma Proteome Project,HPPP)专家撰写了2024年度血浆蛋白质组研究进展 “The circulating proteome - technological developments, current challenges and future trends”,发表在蛋白质组学权威期刊J Proteome Res上。该文章介绍了2024年该领域的最新进展,包括现有蛋白质组学方法、新兴技术以及蛋白质形态学研究的最新进展,并展望了循环蛋白质研究中现有和新兴蛋白质组学工具的应用前景,以突出循环蛋白质和蛋白质形态学研究的当前趋势。
主要成果
基于亲和力的循环蛋白质组分析平台
基于亲和力的方法将蛋白质组研究限定在一组预定义的蛋白质内。据Antibodypedia资料,目前有近500万种亲和试剂产品,覆盖了约2万个蛋白质编码基因中的95%。近年来,两种高度多重亲和测定方法在大规模研究中崭露头角。Olink的邻位延伸测定(Proximity Extension Assay, PEA)已拥有超过5,400对耦合到寡核苷酸的抗体,而SomaLogic的核酸适配体(SOMAmers)平台已包含11,000个修饰的配体。这些商业化系统已应用于数百项研究,包括涉及数万份样本的单个项目。Alamar Biosciences最近推出的NULISA(NUcleic acid Linked Immuno-Sandwich Assay)平台采用了溶液中结合的方法,通过寡核苷酸和生物素标签捕获形成的免疫复合物,并通过严格洗涤去除未结合的蛋白质,以提高灵敏度。所有这些方法都需要针对样本类型和测定特异性的验证,以实现对目标的有选择性检测,并具有量化低量靶标所需的亲和力。因此,已经启动了内部生产亲和结合剂(如传统抗体或替代支架)的流程,以便更全面地探索蛋白质组。这些面板的内容最近已经增长到每个样本数千个特征,使用户能够发现新的生物学特征。
基于亲和力平台的大规模比较分析
在最新的广泛分析中,Eldjarn等人利用Olink和SomaLogic平台研究了蛋白质图谱与其遗传关联之间的一致性。他们发现576个蛋白质与预期目标具有高度相关性和顺式pQTL(第1层),另有515个蛋白质相关性较低,但在任一平台上都有顺式pQTL (protein quantitative trait loci),但缺乏蛋白质水平的相关性(第2层)。图1所示,74%的第1层蛋白质(426/576)和70%的第2层蛋白质(359/515)被列入了2023年PeptideAtlas数据库。与第1层相比,缺乏顺式-pQTL的蛋白质(第3层,Kolmogorov-Smirnov p=4x10-15)或者那些未被这些亲和检测法检测到但属于2023人类血浆蛋白质组肽图集(未找到)的一部分蛋白质丰度普遍较低(p=6x10-24)。这表明,约有785种(426+359)蛋白质具有亲和蛋白质组学测定的支持性证据,可通过质谱检测。这组蛋白质为比较不同平台的研究结果提供了宝贵的资源。然而,由于灵敏度、蛋白质翻译后修饰(PTM)或表位效应的不同,预计某些研究结果仍可能存在差异。
基于质谱的循环蛋白质组分析平台
与基于亲和力的技术相比,质谱分析不需要预定义的目标蛋白质集。质谱仪器的进步以及样品前处理的自动化与液体处理平台的推出,使蛋白质组覆盖范围变广,提高了样品通量和降低了每个样品的总体成本。然而,由于蛋白质浓度的动态范围较高,基于质谱的循环蛋白质组分析在灵敏度方面遇到了挑战。因此,利用能在广泛的蛋白质丰度范围内有效采样的技术至关重要。最近,利用蛋白质在功能化超顺磁性纳米粒子(Nanoparticles, NPs)的纳米粒子生物表面上的竞争性结合,推出了一种压缩蛋白质丰度大动态范围的自动化工作流程。迄今为止,它已能在数小时内检测数千种循环蛋白质,有望扩展到数千名受试者。与基于抗体的耗竭策略不同,这些工程化的NPs与液相色谱-质谱(LC-MS)技术结合使用时,可探测整个蛋白质组与生物体无关的理化性质,而无需预先选择感兴趣的蛋白质。这已经成为一种趋势,类似的富集策略正在进入这一领域。通常在商业供应商的推动下,蛋白质组的覆盖范围广泛,多达7,000种蛋白质。除了富集和去除,还有人提出对血清或血浆进行化学处理,以增加定量蛋白质的数量。在这种方法中,蛋白质被高氯酸沉淀,对上清液进行分析后,每个样本可发现多达1,300种蛋白质。NP沉淀的简便性使分析得以尽早实现自动化和规模化,可处理3,000个样本。
基于质谱的靶向蛋白质组学的未来
除了通过无偏估质谱收集所有可用的肽数据外,靶向质谱蛋白组学还提供了一种对预选肽进行一致量化的方法。靶向质谱可以高精度、高灵敏度、高特异性和高通量地量化蛋白质。该技术通常与稳定同位素标记肽标准品(Stable Isotope-labeled peptide Standards, SIS)相结合,以获得绝对定量。然而,近年来这种情况有所改变,多肽或蛋白质的多重SIS图谱因其能在单次检测中检测数百种蛋白质而变得越来越有用。更大规模的多重检测组使这些概念越来越适用于以发现为重点的应用,类似于目前基于亲和力的高度多重检测平台所提供的预定义内容(检测组)。作为对新冠肺炎大流行病的回应,基于靶向质谱的检测在疾病分类方面的适用性已得到证实。此外,新型混合高速Stellar质谱的开发表明,该技术正朝着未来临床应用的方向快速发展。Stellar质谱具有很高的重现性、灵敏度和特异性,足以检测1000多种血浆蛋白,并已应用于酒精相关肝病生物标志物的靶向检测。
血浆蛋白质组数据
蛋白质组学界通过ProteomeXchange实现了每月约600个数据集的共享,特别是血浆样本数据的增长(图2),2021年数据集数量增加的原因是血液蛋白质形态图集的发布。这一趋势促进了开源工具和机器学习技术的发展,提高了蛋白质组学数据建模的准确性。然而,随着对数据隐私、患者同意和个人可识别性的担忧增加,一些研究人员对公开分享人类血浆和血清数据持保留态度。为了解决这一问题,PRIDE和MassIV正在开发受控访问数据存储库,以便在保护隐私的同时,允许数据在适当理由和保障措施下被使用。此外,非学术机构产生的高质量数据共享不足,限制了对循环蛋白质的深入了解。
除了基于质谱的蛋白质组学研究,围PEA进行蛋白质组学分析的平台的社区工作也在通过SCALLOP联盟等进行,这些联盟虽非公共数据库,但鼓励新成员共享数据并从中受益。公共门户网站正在调整,以整合亲和蛋白质组学数据与其他组学数据类型,如英国生物库中的数据。这种协调访问亲和力数据对研究界极为有益,尤其是对于发现驱动型研究,因为不同平台间的内容重叠有限,且随着技术进步,这些重叠内容会变化。例如,2023年人类血浆蛋白质组肽图谱中列出的4608个蛋白质,Olink Explore HT的5416个蛋白质覆盖了44%,SomaScan 11k Assay的9655个蛋白质覆盖了74%。这些数据的共享和分析对于推动蛋白质组学研究至关重要。
2023年人类血浆蛋白质组肽图集(Plasma PeptideAtlas)
图3显示了血浆 PeptideAtlas在整个生命周期中的发展趋势,包括每个数据集鉴定的光谱数量和每个数据集独特的典型蛋白数量的趋势。虽然现代数据集产生的可鉴定光谱数量大大增加,但已鉴定蛋白质数量的总体趋势并不明显。主要受研究中分级分离的影响,范围仍然很大。因此,需要进行技术开发,以实现深入的高通量分析。基于质谱的蛋白质组学在提高蛋白质组覆盖率方面的快速技术进步,尤其是富集和沉淀方法与新型Astral质谱仪的结合所带来的便利,尚未纳入构建的2023年PeptideAtlas中,但将极大地扩展下一版PeptideAtlas。
翻译后修饰-超越经典蛋白质组
团队翻译后修饰(Post-Translational Modifications, PTMs)是循环蛋白质组中一个重要的生物学层面,它们在多个方面影响蛋白质的特性,包括溶解度、结构、配体结合等。LC-MS技术能够研究400多种已知PTMs,包括糖基化、磷酸化等,这些修饰之间相互作用,增加了生物学结果的复杂性。历史上,研究多集中于单一类型的PTM,但现在PTM组合和交叉影响已被研究。
糖基化的变化与多种生理和病理过程相关,但分析这些变化具有挑战性。最新的进展包括开发工具以富集糖蛋白或糖肽、解析糖基化位点、靶向糖蛋白组学方法,以及生物信息学的进步。临床上使用的许多癌症生物标记物,如癌胚抗原(CEA)、糖类抗原125(CA125)、前列腺特异性抗原(PSA)和甲胎蛋白(AFP),都是糖蛋白。基于质谱的方法揭示了这些糖蛋白的高度异构性,有时存在多达100种不同的糖型。LC-MS的进步使得研究人员能够常规分配1000种N-连接和/或O-连接的糖结构,探索母体蛋白与其糖化形式蛋白之间的相关性。糖蛋白组学的应用还包括改进对功能相关性和疾病亚型的预测。研究表明,糖蛋白有助于预测临床结果、疾病进展或风险的严重程度。早期诊断公司正在利用这些糖基化变化建立基于血液的诊断测试。
磷酸化也是血液蛋白质组中的一个重要现象,涉及多种机制,包括高尔基介导的磷酸化、分泌型激酶在细胞外修饰蛋白质,以及细胞死亡渗漏的蛋白。大规模发现研究帮助编录了这些细胞外和循环磷酸化蛋白,揭示了与疾病进展、治疗和监测有关的机制。
循环蛋白质的网络和连接
N定义亚蛋白质组的一种方法是基于它们在群体或网络中的共同调控,这有助于揭示不同的调控网络。共同调控的原因可能涉及多种机制,包括器官或组织的渗漏、循环细胞的存在、稳定的蛋白质复合物、脂蛋白颗粒的聚集、细胞外囊泡(extracellular vesicles,EVs)的形成,或是对特定刺激的响应。
通常情况下,组织渗漏蛋白作为器官损伤的临床标志物(如心肌肌钙蛋白)或癌症相关蛋白(如CA125)的异常分泌,用于癌症的检测,以便早期发现卵巢癌。除了疾病背景,组织渗漏蛋白也可能源自生物过程。然而,由于它们通常丰度较低、具有组织特异性且一致性较差,检测更多种类的组织渗漏蛋白一直局限于严重的表型,如新冠肺炎。最近的一项研究利用等电聚焦分离肽段和基于质谱的读出方法,报告了怀孕期间释放到循环中的胎盘特异性蛋白。结合遗传信息(蛋白质组学),这项研究能够将检测到的具有特定单个氨基酸变异的肽段归属于胎儿或母亲,从而证明了胎儿与母体循环系统之间的跨胎盘交换。在酒精相关肝病的研究中,可以通过主动分泌和组织渗漏标记物来鉴别组织损伤标记物和参与主动信号转导过程的蛋白质。
除了应用差异丰度统计来识别共同调控的蛋白质,基于网络的方法是深入理解蛋白质或减少下游统计分析中共线性的宝贵工具。这对于折叠变化小或个体间差异大的蛋白质尤其重要,而蛋白质组的大部分蛋白质都属于这种情况。共表达网络方法,如加权基因共表达网络分析(Weighted Gene Co-Expression Network Analysis ,WGCNA),使用成对关联度量来描述分析物之间的相关关系。成对相关分析的信息量可能非常庞大。例如,一项分析1000种蛋白质的研究将产生一个包含499,500种相关性的矩阵。将相关性矩阵与聚类算法相结合,可以构建“全局相关图”,捕捉到指向物理连接或功能关联的组织特征。
虽然相关性并不能证明因果关系,但与临床参数或人体测量信息的关联可以为潜在的生物学机制提出假设。将这些分析与使用GO或KEGG进行的富集分析相结合,可以揭示更多关于所观察到的相关集群起源的生物学线索。对所包括的蛋白质(如基于目标亲和力的检测)或目前技术上可行的标记(如基于质谱的发现)进行限制,可能会得出与包括整个蛋白质组不同的结果。样本量是另一个关键因素,更广泛的研究可以提高检测微小效应、复杂特征(即许多蛋白质组成一个独特的模式)或与队列子集相关的变化的能力。例如,通过对5000名冰岛人的血清样本进行研究,发现了循环蛋白质的调控网络,该网络指出了与健康结果和与复杂疾病相关的遗传变异有关的跨人体组织的协调调控模块。一项分析了2622个样本的研究证明了如何将蛋白质共表达模块与临床变量联系起来,以解读共表达蛋白质的潜在机制。另一项研究起草了COVID-19中蛋白质与临床参数之间的广泛关联列表,为解读蛋白质共表达网络提供了一个宝库。这可以进一步扩展到跨组学横截面相关网络,包括蛋白质组学、临床参数、微生物组、遗传特征和代谢组学,一些统计工具(如多组学因子分析)可以区分生物和技术因素。
技术进步带来了更少的缺失值、更高的大型研究通量、更高的可重复性以及量身定制的多组学整合策略,这将使以网络为中心的分析更加稳健、更有动力、更有洞察力。通过提高蛋白质组覆盖率来增加数据量和质量,将增加我们对以器官为中心和全系统循环蛋白质调控的了解。
细胞外囊泡亚蛋白组
细胞外囊泡(extracellular vesicles,EVs)是细胞间通信和物质运输的关键介质,包含外泌体、微囊泡和凋亡体三大亚群。这些由脂质双分子层构成的颗粒,携带核酸、脂质和蛋白质,能转移到受体细胞。EVs的异质性和低丰度,以及与血浆中其他成分的相似性,使得研究和分离EVs面临挑战。尽管如此,EVs作为生物标记物和药物载体的潜力巨大,因为它们可能携带血液循环中不易检测的蛋白质,且能在肾脏过滤中滞留。
为了提高EV研究的可重复性和质量,国际细胞外囊泡学会(Minimal information for studies of extracellular vesicles, ISEV)发布了“细胞外囊泡研究的最小信息(MISEV)”指南,强调了实验方案和报告标准化的重要性。这些指南有助于确保研究的一致性,即使是样本起始材料的微小变化,如血浆制备物或血清的选择,也可能对EVs的研究结果产生显著影响。
近年来,研究人员通过免疫捕获和质谱分析相结合的方法,定义了EVs的亚群,并在血浆中鉴定了1,000-2,000种蛋白质。这些研究虽然通量较低且需要较高的起始量,但展示了检测特定细胞群来源EVs(如血小板或特定组织来源的EVs)的潜力。EVs的异质性为选择免疫捕获目标和区分真正的EV蛋白与共富集蛋白带来了挑战。尽管如此,EVs的研究正在不断进步,为疾病诊断和治疗提供了新的视角。
(自身)抗体分型
最近的一项研究利用人血清和乳汁样本中的IgA1 Fab克隆图谱,发现每个捐献者都表现出独特的克隆谱,且这些克隆谱在纵向采集的样本中相当稳定。研究者观察到,血清和乳汁中的IgA1主要由少数克隆主导,这些克隆之间存在显著的重叠,这可能是由于二聚体J链耦合的IgA1所致。相比之下,单个供体血清IgA1的克隆库共享性较低,这表明两种IgA1的克隆库可能源自不同的B细胞群体。
基于质谱的抗体分析还揭示了针对SARS-CoV-2 S蛋白的IgG1克隆的多克隆反应,为那些缺乏辨别独特抗体克隆分辨率的血清学检测提供了重要支持。此外,绘制的PTM图谱极大地提高了我们对抗体功效和稳定性的认识,例如,最近将IgG的岩藻糖基化与COVID-19和二次登革热感染的严重程度联系起来的研究就证明了这一点。
了解抗体的具体作用仍然是一个高度关注的问题。例如,与内源性蛋白质结合的能力对于诊断和治疗自身免疫性疾病至关重要。在最新的系统性工作中,于晓波团队利用文本挖掘、统计分析和手工整理开发了一个网络界面,作为AAgAtlas门户网站(http://biokb.ncpsb.org.cn/aagatlas_portal/index.php)的一部分。该界面目前展示了超过8000种人类自身抗原(AAgs),其中包括8045种非冗余AAgs和47种翻译后修饰的AAgs,这些AAgs与1073种人类疾病相关。主要利用免疫测定数据,根据基因、生物物理、细胞学、表达谱和进化特征对人类AAgs的免疫原性进行了分类。这些数据勾勒出了人类自身免疫的一些特征,从而展示了利用血液样本深入分析人类疾病抗体库和克隆性的价值。
多重血清学
与自身抗体相比,抗体是在病原体感染时产生的。目前已开发出蛋白质组学技术来调查感染的血清学特征。为了说明蛋白质组学技术的实用性,国家蛋白质科学中心-北京(凤凰中心)于晓波团队开发了一个新冠病毒蛋白质组芯片,其中包含966个15-mer肽段,用于分析新冠肺炎感染早期新冠病毒IgM和IgG抗体的B细胞表位图。其他研究人员构建了包含18种纯化病毒蛋白的新冠病毒蛋白芯片,以检测IgG和IgM抗体反应。此外,还利用免疫沉淀和测序技术(PhIP-Seq)分析了新冠肺炎患者和疫前对照组的抗体谱。在这里,一个寡核苷酸文库编码了所有已知致病性人类病毒(约400个物种和毒株)蛋白质组中的56个多肽,通过机器学习确定了新冠病毒蛋白质组中的800多个高选择性表位。与这些全蛋白质组分析相比,使用悬浮珠阵列的高样品通量血清学测定已应用于家庭采样的干血斑(DBS)。总之,这些以抗体为中心的循环蛋白质组研究说明了针对人类和致病目标的免疫反应的系统性观点。
微型取样
体积式微采样设备作为传统干血斑(DBS)采样的替代品,具备准确控制样本量的优势,并能解决与DBS相关的血细胞比容效应。此外,尽管这些设备有助于提高样本收集效率,但在进行深度蛋白质组学分析时仍存在局限性,针对血浆蛋白质组学优化的工具和技术在应用于这些样本时可能不会产生最佳结果。另外,可能还需要针对微取样样本进行优化。例如,血液中含有大量红细胞,会掩盖读出检测器中的分析物,从而进一步挑战有限的动态范围。干燥蛋白质会产生稳定的盐结晶,仍然难以分辨。从此类基质中洗脱蛋白质可能需要使用去垢剂或化学处理,这会影响蛋白质组学检测样本的适用性。此外,由可溶性蛋白质、囊泡和细胞组成的样品异质性增加,也需要对蛋白质提取方案进行调整。尽管目前其作为一种广受欢迎且经济有效的研究工具被广泛接受,但仍需进一步探索其在大队列应用中的稳健性和有效性。
总结
参考文献
编译:Sail
校对:Evan Flle
排版:Sail
本文仅代表作者观点
2024-09-22
2024-09-16
2024-09-15
2024-09-01
了解更多蛋白芯片、组学进展请关注下方名片
关于旦生医学
旦生医学(ProteomicsEra Medical Co.,Ltd,)是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业,由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码(标志物),开发下一代高通量、智能化临床检测试剂、设备和蛋白药物,为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务,联系方式:010-85885591,18601967980。
本文来源于公开发表论文,仅供学习交流,不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。