metaExpertPro：宏蛋白质组谱库构建和DIA-MS数据分析新方案

文摘 2024-10-14 15:49 浙江

每一坨平平无奇的粑粑，里面都是一座浩瀚的城市。这里熙熙攘攘，生命涌动。

数以亿计的微生物居民在这座隐秘的都市工作、生活。它们从城市里获取养分，以蛋白质为载体，记录着宿主的代谢轨迹、疾病线索和免疫波动。城市居民的每一次活动，都是生命深处的细微脉动，最终构成一场精妙的共生交响。

探索这座微观宇宙的复杂性，远比破解人类自身的蛋白质组要艰巨得多，挑战在于其丰富的多样性与结构的层次性。

今天，新的工具正为这片领域注入新生力量——metaExpertPro，一个精确解析粪便微生物蛋白组的计算工作流程，正以惊人的精准与效率，解读这些微生物的低语与呐喊。与传统方法相比，metaExpertPro在肽段和蛋白质群的识别、定量及低丰度检测方面表现更佳，同时运行速度更快，尤其适用于大规模、高通量的宏蛋白组学研究。

metaExpertPro不仅能精准识别数十万条肽段和上万种蛋白质，还能高效处理不同质谱平台的数据，大幅提升蛋白质鉴定的深度与广度。通过精确的分类注释与定量分析，metaExpertPro可揭示微生物与宿主间的复杂互动，助力研究者从粪便这一无创样本中获取更多关于健康与疾病的重要线索。

在人类梦寐以求的无创体检愿景中，粪便这一不曾被赋予浪漫色彩的存在，正层层勾勒更加清晰的人体奥秘。

9月13日，西湖大学医学院、生命科学学院郭天南团队及郑钜圣团队，联合中山大学陈裕明团队，在Molecular & Cellular Proteomics 联合发表了题为 metaExpertPro: A Computational Workflow for Metaproteomics Spectral Library Construction and Data-Independent Acquisition Mass Spectrometry Data Analysis 的文章。

文章介绍了一个名为metaExpertPro的计算工作流程，用于高效分析宏蛋白质组学DIA-MS数据，可提升数据分析的深度和准确性。

文章截图

- 提纲挈领 -

文章介绍了一个名为metaExpertPro的计算工作流程，为宏蛋白质组学谱库构建、肽段和蛋白的鉴定和定量、功能和分类群注释提供了一站式分析平台，尤其为基于数据非依赖性质谱采集（DIA-MS）的宏蛋白质学数据分析提供了准确、高效的解决方案。

metaExpertPro 采用DDA-MS生成谱库，并使用DIA-MS进行蛋白质的鉴定与定量。它整合了FragPipe和DIA-NN两款软件，兼容Orbitrap和timsTOF 质谱仪。

文章重点评估了metaExpertPro的蛋白质鉴定和分类群注释的准确性。在基准测试中，在HeLa细胞数据集中，metaExpertPro在蛋白水平的真实FDR仅为0.015。在不同的微生物数据集中，metaExpertPro在蛋白水平的真实FDR控制在5%以下。在12种细菌混合物的分类群评估中，属水平的F-score达到0.67–0.90，但种水平较低。肽识别方面，基于IGC+数据库的谱图库识别了284,681个肽，与其他三个宏蛋白质组数据分析软件相比表现最优。定量分析显示，属水平的相对生物量估计与真实值具有较高相关性（r=0.8），展示了metaExpertPro在大规模多组学研究中的潜力。

图文摘要

metaExpertPro工作流程概述

metaExpertPro工作流程和性能测试

metaExpertPro的工作流程包括四个阶段：基于DDA-MS的谱库生成、基于DIA-MS的多肽和蛋白质定量、功能和分类群注释以及定量矩阵生成。该工作流程兼容Thermo Fisher Orbitrap或Bruker质谱仪的DDA-MS和DIA-MS数据。

第一阶段 使用FragPipe软件生成谱库

● 利用 FragPipe 进行 DDA-MS 谱库生成，采用 MSFragger 的数据库拆分参数，将原始数据库（如人类肠道微生物基因目录数据库 IGC 和人类胃肠蛋白质数据库 UHGP）拆分成多个数据库，以减小计算内存需求。

● 对每个拆分的数据库进行 DDA-MS 原始数据搜索，生成 pepXML 和 pin 文件。

● 所有 DDA-MS 原始数据的 pepXML 和 pin 文件进行合并，使用 PeptideProphet 进行 PSM 验证，确保较低的 FDR。

第二阶段 DIA-NN 用于肽段和蛋白质定量

● 使用 DIA-NN 软件进行 DIA-MS 数据文件中的肽段和蛋白质的鉴定与定量。

第三阶段 分类群与功能注释

● 分别使用 Unipept、eggnog-mapper 和 GhostKOALA 对分类群、COG 和 KEGG 进行注释，并通过内部脚本对结果进行过滤。

第四阶段 生成多层次定量矩阵

● 最终生成包括人类肽、微生物肽、人类蛋白、微生物蛋白、COG、KO、COG 类别、KO 类别和分类群在内的九个层次的定量矩阵。

metaExpertPro整合了多个高性能工具，通过严谨的过滤标准提供全面的蛋白质组学分析。

以下为文章详细研究结果：

结果1：

在人类粪便样本实现深度、高重现性的鉴定和定量

在62个人类粪便样本的宏蛋白组学分析工作中，metaExpertPro 展现了出色的鉴定深度和高重现性。

人类粪便样本的收集、制备、MS采集和metaExpertPro数据分析

基于DDA-MS的谱图库中，使用timsTOF Pro质谱仪时，metaExpertPro 共鉴定到220,365个肽段和58,952个protein groups；而在Orbitrap Exploris 480质谱仪上，共鉴定到189,808个肽段和51,269个protein groups。metaExpertPro在两台质谱仪上的平均谱图鉴定率分别为32.2%和29.3%，展示了其在不同仪器上的高效鉴定能力。

此外，分析还展示了metaExpertPro在蛋白质、功能和分类学上的定量结果具有高度一致性，表明其在生物和技术重复实验中的重现性非常高，确保了结果的可靠性和一致性。

结果2：

与其他宏蛋白组学软件工具的比较

与MetaLab、MetaProteomeAnalyzer (MPA)、ProteoStorm等基于DDA-MS的数据分析工具相比，metaExpertPro表现出更高的肽段和蛋白质群识别能力。

与基于DIA-MS的分析工具glaDIAtor相比，metaExpertPro 在肽段和蛋白质群定量方面的表现更佳，识别的肽段和蛋白质群数量分别是glaDIAtor的2倍和6倍，且能更好地检测低丰度肽段和蛋白质。

此外，metaExpertPro 在运行时间上也表现优异，处理DIA-MS数据的速度远快于glaDIAtor，使其更适合大规模、高通量的宏蛋白组学研究。

结果3：

蛋白质组鉴定的基准测试

研究人员总结了metaExpertPro与glaDIAtor和MetaLab在蛋白质组鉴定中的基准测试结果。通过对HeLa细胞和微生物群落混合物的数据进行分析，metaExpertPro 展现出较低的真实错误发现率（factual FDR）和更高的蛋白鉴定能力。

即使在扩大样本量和增加未匹配蛋白序列的情况下，metaExpertPro 仍能保持较低的真实FDR（<6%），而其他软件在增加数据库规模时真实FDR明显升高。

总体而言，metaExpertPro在蛋白质组鉴定中表现出高敏感性和较低的真实FDR。

结果4：

分类学准确性评估及数据库对定量分析的影响

通过使用两组人工细菌群落数据，研究人员评估了metaExpertPro在属和物种水平上的分类学准确性。结果表明，在属（genus）水平上，metaExpertPro的准确性较高，尤其是在过滤至少5个肽段的情况下；尽管在物种（species）水平上的准确性相对较低，但该工具仍能够为宏蛋白组学的多样性和生物量评估提供可靠的结果。

同时，公共肠道微生物基因库（如 IGC 和 UHGP）对DIA-MS蛋白质组学分析的影响较小，不同数据库的结果具有高度一致性，表明metaExpertPro 在分析人类肠道微生物样本时无需匹配的宏基因组测序数据，这为不同数据库之间的数据直接比较提供了可能。

结果5：

在血脂异常患者中的应用

在血脂异常（DLP）患者的宏蛋白组分析中，metaExpertPro 揭示了与脂质代谢相关的微生物功能变化，并发现了微生物与宿主蛋白之间的潜在相互作用。

具体来说，DLP患者的肠道微生物在能量生产、脂质代谢等功能上增强，而氨基酸运输和某些细胞功能则减少。

此外，分析发现了多个与DLP相关的微生物属和人类蛋白质，并指出了某些微生物功能与人类蛋白质的共表达关系，暗示了微生物与宿主蛋白质在DLP中的相互作用。这些结果为理解血脂异常中的微生物与宿主的互作提供了新的线索。

尽管metaExpertPro在提高识别率、减少计算资源消耗方面有显著进展，但宏蛋白质组学分析仍然面临对数据库的高依赖性、低效的肽段鉴定率、较低的分类群鉴定分辨率，以及大量的计算资源需求等问题。此外，控制 FDR 依然是一项挑战，尤其在处理高度相似的谱图时。

研究者指出，未来的研究需要开发更高效的算法以降低错误发现率，并整合宏基因组学数据来提高物种分类的准确性。此外，由于样本量的限制，在高脂血症患者中未能发现多重假设检验下显著的微生物群或宿主蛋白与疾病相关的功能或分类学变化，未来的研究应使用更大规模的样本来验证结果。

总体而言，metaExpertPro 整合了高效的蛋白质分析工具，尤其在大规模 DIA-MS 数据分析中的表现尤为出色。该工作流程为宏蛋白组学数据的处理提供了一种高效、全面的解决方案，具备高准确性、重复性和蛋白质覆盖率，可显著提升数据的可重复性和分析深度，为深入研究微生物与宿主的相互作用提供了有力工具。

西湖欧米是一家专注于AI赋能的微观世界数据公司，致力于多组学精准医学的转化落地，目前专注于基于蛋白质谱技术的疾病生物标记物IVD试剂盒的开发。

欧米的科研服务包括高深度血液蛋白质组学、空间蛋白质组学、微量组织蛋白质组学、宏蛋白质组学等特色业务。截至目前，已和合作者在 Cell、Immunity、Cell Discovery、Molecular Cell、Cell Reports、Nature Commnuications、Cell Reports Medicine、Nature Protocols 等多种杂志上发表多篇高质量蛋白质组学相关的研究论文。

联系我们

service@westlakeomics.com

0571-86780630

扫描下方二维码

即可添加业务咨询微信

点击阅读原文获取论文原文。

http://mp.weixin.qq.com/s?__biz=Mzg5MzQ3NzE0Ng==&mid=2247586369&idx=1&sn=4cd35e14e8deb80e615785335b42286f

西湖欧米

新一代蛋白质谱临床转化应用

最新文章

浙大、西湖学者：结直肠癌组织大队列预后分析揭秘｜WeOmics O40

Ruedi Aebersold：π-HuB计划——量化、理解和预测生命的特性

习以为「肠」：结直肠癌组织大队列预后分析揭秘｜WeOmics O40

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 031

Ruedi Aebersold：推开门，遇到天赐的幸运

注册参会｜多国学者「质」问未来：西湖未来蛋白质组研讨会

Nat Comm｜FAXP：石蜡切片中单个亚细胞器的深度蛋白质组分析

会议注册｜专家院士齐聚！第二届生物计量促进生命科学与生物产业发展暨π-HuB计划生物计量研讨会

不要错过！2024 AOHUPO OES 线上教育系列活动即将开始

Nature｜空间蛋白组学再上分！Mann团队发现致命皮肤病治疗药物

西湖欧米携空间蛋白组学FAXP™️等明星产品亮相德国 2024 HUPO 大会！

欧米「旅德」行｜OmniProt™️ 等明星产品即将亮相德国 2024 HUPO 大会！

metaExpertPro：宏蛋白质组谱库构建和DIA-MS数据分析新方案

专家院士齐聚！西湖大学医学院、西湖大学未来产业研究中心主办第二届生物计量促进生命科学与生物产业发展暨π-HuB计划生物计量研讨会

既见蛋白，AI何为？从诺奖突破的结构预测到更深的功能探索

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 030

血无止境｜6-9月血浆蛋白组学优质文献集锦

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 029

CNHUPO Educational Seminar 3 ｜癌症研究中的空间和组织蛋白质组学

AI赋能精准医学！西湖欧米将携创新蛋白组学产品亮相全球数字贸易博览会

CNHUPO Educational Seminar 3 ｜癌症研究中的空间和组织蛋白质组学

专家院士齐聚！西湖大学医学院、西湖大学未来产业研究中心主办第二届生物计量促进生命科学与生物产业发展暨π-HuB计划生物计量研讨会

西湖欧米+西湖学者联袂打造专业生信分析培训，助力蛋白组学研究

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 028

西湖欧米+西湖学者：专业生信分析培训，解决蛋白组学研究「小问题」

今天2pm！直播详解被Nat Comm编辑重点推介的卵巢癌蛋白组学研究！

春穗秋拾｜九月，同西湖学者一起，拾捡这把生信「金色麦穗」

西湖欧米+西湖学者：专业生信分析培训，解决蛋白组学研究「小问题」

好实成「双」！卵巢癌 “肿瘤组织+血液” 双样本预后生物标志物分析揭秘｜WeOmics O39

CNHUPO educational seminar｜化学蛋白质组学遇见药物化学：化合物的亲和矩阵

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 027

突破科研瓶颈！西湖欧米秋季生信分析培训月底开课！

好实成「双」！卵巢癌 “肿瘤组织+血液” 双样本预后生物标志物分析揭秘｜WeOmics O39

CNHUPO educational seminar｜化学蛋白质组学遇见药物化学：化合物的亲和矩阵

好实成「双」！卵巢癌 “肿瘤组织+血液” 双样本预后生物标志物分析揭秘｜WeOmics O39

西湖欧米+西湖学者：秋季生信分析培训，解决蛋白组学研究「小问题」

叮！阿尔茨海默症 × 蛋白质组学：多维解析病理机制与诊断标志物

突破科研瓶颈！西湖欧米秋季生信分析培训月底开课！

关于蛋白质组学研究，我有一些小问题……

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 026

叮！卵巢癌 × 蛋白质组学：诊断、化疗耐药性和预后评估的前沿研究

西湖欧米合作NC卵巢癌研究入选 Editors’ Highlights

Cell｜从免疫治疗到多组学：Mann等科学家关于未来的12个技术梦想

叮！胶质瘤 × 蛋白质组学：从分子谱系到治疗策略的最新进展

欧米合作｜西湖大学医学院郭天南团队合作研究发现前列腺癌预后预测新型标志物

叮！前列腺癌蛋白质组学研究速递

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 025

Nat Aging｜蛋白组学揭示感染如何影响大脑萎缩与认知衰退

过去一周，蛋白组学领域有哪些新发现？｜Proteomics Snapshot 024

Cell Discov｜浙大、西湖学者：机器学习预测结肠癌患者高低危风险

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉