metaExpertPro:宏蛋白质组谱库构建和DIA-MS数据分析新方案

文摘   2024-10-14 15:49   浙江  

每一坨平平无奇的粑粑,里面都是一座浩瀚的城市。这里熙熙攘攘,生命涌动。

数以亿计的微生物居民在这座隐秘的都市工作、生活。它们从城市里获取养分,以蛋白质为载体,记录着宿主的代谢轨迹、疾病线索和免疫波动。城市居民的每一次活动,都是生命深处的细微脉动,最终构成一场精妙的共生交响。

探索这座微观宇宙的复杂性,远比破解人类自身的蛋白质组要艰巨得多,挑战在于其丰富的多样性与结构的层次性。

今天,新的工具正为这片领域注入新生力量——metaExpertPro,一个精确解析粪便微生物蛋白组的计算工作流程,正以惊人的精准与效率,解读这些微生物的低语与呐喊。与传统方法相比,metaExpertPro在肽段和蛋白质群的识别、定量及低丰度检测方面表现更佳,同时运行速度更快,尤其适用于大规模、高通量的宏蛋白组学研究。

metaExpertPro不仅能精准识别数十万条肽段和上万种蛋白质,还能高效处理不同质谱平台的数据,大幅提升蛋白质鉴定的深度与广度。通过精确的分类注释与定量分析,metaExpertPro可揭示微生物与宿主间的复杂互动,助力研究者从粪便这一无创样本中获取更多关于健康与疾病的重要线索。

在人类梦寐以求的无创体检愿景中,粪便这一不曾被赋予浪漫色彩的存在,正层层勾勒更加清晰的人体奥秘。


9月13日,西湖大学医学院、生命科学学院郭天南团队及郑钜圣团队,联合中山大学陈裕明团队,Molecular & Cellular Proteomics 联合发表了题为 metaExpertPro: A Computational Workflow for Metaproteomics Spectral Library Construction and Data-Independent Acquisition Mass Spectrometry Data Analysis 的文章。

文章介绍了一个名为metaExpertPro的计算工作流程,用于高效分析宏蛋白质组学DIA-MS数据,可提升数据分析的深度和准确性。


文章截图


- 提纲挈领 - 


文章介绍了一个名为metaExpertPro的计算工作流程,为宏蛋白质组学谱库构建、肽段和蛋白的鉴定和定量、功能和分类群注释提供了一站式分析平台,尤其为基于数据非依赖性质谱采集(DIA-MS)的宏蛋白质学数据分析提供了准确、高效的解决方案。
metaExpertPro 采用DDA-MS生成谱库,并使用DIA-MS进行蛋白质的鉴定与定量。它整合了FragPipe和DIA-NN两款软件,兼容Orbitrap和timsTOF 质谱仪。
文章重点评估了metaExpertPro的蛋白质鉴定和分类群注释的准确性。在基准测试中,在HeLa细胞数据集中,metaExpertPro在蛋白水平的真实FDR仅为0.015。在不同的微生物数据集中,metaExpertPro在蛋白水平的真实FDR控制在5%以下。在12种细菌混合物的分类群评估中,属水平的F-score达到0.67–0.90,但种水平较低。肽识别方面,基于IGC+数据库的谱图库识别了284,681个肽,与其他三个宏蛋白质组数据分析软件相比表现最优。定量分析显示,属水平的相对生物量估计与真实值具有较高相关性(r=0.8),展示了metaExpertPro在大规模多组学研究中的潜力。

图文摘要



metaExpertPro工作流程概述

metaExpertPro工作流程和性能测试

metaExpertPro的工作流程包括四个阶段:基于DDA-MS的谱库生成基于DIA-MS的多肽和蛋白质定量功能和分类群注释以及定量矩阵生成该工作流程兼容Thermo Fisher Orbitrap或Bruker质谱仪的DDA-MS和DIA-MS数据。
第一阶段  使用FragPipe软件生成谱库
● 利用 FragPipe 进行 DDA-MS 谱库生成,采用 MSFragger 的数据库拆分参数,将原始数据库(如人类肠道微生物基因目录数据库 IGC 和人类胃肠蛋白质数据库 UHGP)拆分成多个数据库,以减小计算内存需求。
● 对每个拆分的数据库进行 DDA-MS 原始数据搜索,生成 pepXML 和 pin 文件。

● 所有 DDA-MS 原始数据的 pepXML 和 pin 文件进行合并,使用 PeptideProphet 进行 PSM 验证,确保较低的 FDR。

第二阶段  DIA-NN 用于肽段和蛋白质定量

● 使用 DIA-NN 软件进行 DIA-MS 数据文件中的肽段和蛋白质的鉴定与定量。

第三阶段  分类群与功能注释

● 分别使用 Unipept、eggnog-mapper 和 GhostKOALA 对分类群、COG 和 KEGG 进行注释,并通过内部脚本对结果进行过滤。

第四阶段  生成多层次定量矩阵

● 最终生成包括人类肽、微生物肽、人类蛋白、微生物蛋白、COG、KO、COG 类别、KO 类别和分类群在内的九个层次的定量矩阵。

metaExpertPro整合了多个高性能工具,通过严谨的过滤标准提供全面的蛋白质组学分析。



以下为文章详细研究结果:


结果1:
在人类粪便样本实现深度、高重现性的鉴定和定量

在62个人类粪便样本的宏蛋白组学分析工作中,metaExpertPro 展现了出色的鉴定深度和高重现性。

人类粪便样本的收集、制备、MS采集和metaExpertPro数据分析

基于DDA-MS的谱图库中,使用timsTOF Pro质谱仪时,metaExpertPro 共鉴定到220,365个肽段和58,952个protein groups;而在Orbitrap Exploris 480质谱仪上,共鉴定到189,808个肽段和51,269个protein groups。metaExpertPro在两台质谱仪上的平均谱图鉴定率分别为32.2%和29.3%,展示了其在不同仪器上的高效鉴定能力。

此外,分析还展示了metaExpertPro在蛋白质、功能和分类学上的定量结果具有高度一致性,表明其在生物和技术重复实验中的重现性非常高,确保了结果的可靠性和一致性。


结果2:
与其他宏蛋白组学软件工具的比较


与MetaLab、MetaProteomeAnalyzer (MPA)、ProteoStorm等基于DDA-MS的数据分析工具相比,metaExpertPro表现出更高的肽段和蛋白质群识别能力。

与基于DIA-MS的分析工具glaDIAtor相比,metaExpertPro 在肽段和蛋白质群定量方面的表现更佳,识别的肽段和蛋白质群数量分别是glaDIAtor的2倍和6倍,且能更好地检测低丰度肽段和蛋白质。

此外,metaExpertPro 在运行时间上也表现优异,处理DIA-MS数据的速度远快于glaDIAtor,使其更适合大规模、高通量的宏蛋白组学研究。

结果3:
蛋白质组鉴定的基准测试


研究人员总结了metaExpertPro与glaDIAtor和MetaLab在蛋白质组鉴定中的基准测试结果。通过对HeLa细胞和微生物群落混合物的数据进行分析,metaExpertPro 展现出较低的真实错误发现率(factual FDR)和更高的蛋白鉴定能力。

即使在扩大样本量和增加未匹配蛋白序列的情况下,metaExpertPro 仍能保持较低的真实FDR(<6%),而其他软件在增加数据库规模时真实FDR明显升高。

总体而言,metaExpertPro在蛋白质组鉴定中表现出高敏感性和较低的真实FDR。

结果4:
分类学准确性评估及数据库对定量分析的影响


通过使用两组人工细菌群落数据,研究人员评估了metaExpertPro在属和物种水平上的分类学准确性。结果表明,在属(genus)水平上,metaExpertPro的准确性较高,尤其是在过滤至少5个肽段的情况下;尽管在物种(species)水平上的准确性相对较低,但该工具仍能够为宏蛋白组学的多样性和生物量评估提供可靠的结果。

同时,公共肠道微生物基因库(如 IGC 和 UHGP)对DIA-MS蛋白质组学分析的影响较小,不同数据库的结果具有高度一致性,表明metaExpertPro 在分析人类肠道微生物样本时无需匹配的宏基因组测序数据,这为不同数据库之间的数据直接比较提供了可能。

结果5:
在血脂异常患者中的应用


在血脂异常(DLP)患者的宏蛋白组分析中,metaExpertPro 揭示了与脂质代谢相关的微生物功能变化,并发现了微生物与宿主蛋白之间的潜在相互作用。

具体来说,DLP患者的肠道微生物在能量生产、脂质代谢等功能上增强,而氨基酸运输和某些细胞功能则减少。

此外,分析发现了多个与DLP相关的微生物属和人类蛋白质,并指出了某些微生物功能与人类蛋白质的共表达关系,暗示了微生物与宿主蛋白质在DLP中的相互作用。这些结果为理解血脂异常中的微生物与宿主的互作提供了新的线索。



尽管metaExpertPro在提高识别率、减少计算资源消耗方面有显著进展,但宏蛋白质组学分析仍然面临对数据库的高依赖性、低效的肽段鉴定率、较低的分类群鉴定分辨率,以及大量的计算资源需求等问题。此外,控制 FDR 依然是一项挑战,尤其在处理高度相似的谱图时。

研究者指出,未来的研究需要开发更高效的算法以降低错误发现率,并整合宏基因组学数据来提高物种分类的准确性。此外,由于样本量的限制,在高脂血症患者中未能发现多重假设检验下显著的微生物群或宿主蛋白与疾病相关的功能或分类学变化,未来的研究应使用更大规模的样本来验证结果。

总体而言,metaExpertPro 整合了高效的蛋白质分析工具,尤其在大规模 DIA-MS 数据分析中的表现尤为出色。该工作流程为宏蛋白组学数据的处理提供了一种高效、全面的解决方案,具备高准确性、重复性和蛋白质覆盖率,可显著提升数据的可重复性和分析深度,为深入研究微生物与宿主的相互作用提供了有力工具。



西湖欧米是一家专注于AI赋能的微观世界数据公司,致力于多组学精准医学的转化落地,目前专注于基于蛋白质谱技术的疾病生物标记物IVD试剂盒的开发。

欧米的科研服务包括高深度血液蛋白质组学空间蛋白质组学微量组织蛋白质组学宏蛋白质组学等特色业务。截至目前,已和合作者在 CellImmunityCell DiscoveryMolecular CellCell ReportsNature CommnuicationsCell Reports MedicineNature Protocols 等多种杂志上发表多篇高质量蛋白质组学相关的研究论文。


联 系 我 们 



service@westlakeomics.com

0571-86780630

扫描下方二维码

即可添加业务咨询微信










点击阅读原文获取论文原文。

西湖欧米
新一代蛋白质谱临床转化应用
 最新文章