大家好,本周分享一篇2020年发表在Nature Methods(IF 47.99)上的文章,题目是“Feature-based molecular networking in the GNPS analysis environment”。该研究的通讯作者是美国加利福尼亚大学圣地亚哥分校的Mingxun Wang和Pieter C. Dorrestein。主要研究方向为生物信息学、蛋白组学、代谢组学、天然产物化学和质谱方向。
创新点
1. 基于特征的分子网络(FBMN)改进了经典分子网络;
2. “特征”即考虑了同位素峰、保留时间、离子淌度等信息;
3. FBMN可对同分异构体进行高效的可视化和注释;
4. FBMN已成为GNPS环境中第二常用的分析工具。
背景介绍
为了充分利用LC-MS中非靶向代谢组学实验期间收集的MS1和MS2数据,该团队创建了一套在线的简化流程(图1a),该流程支持FBMN分析的特征检测和对齐工具的输出,包括小分子分析的标准输出格式(mzTab-M),同时支持多样性的软件,每种都提供不同的功能和模块,服务于实验者、生物信息学家和软件开发人员。FBMN目前已成为GNPS环境中第二常用的分析工具(图1b),2019年完成了6767个工作,自2017年11月推出以来,分析结果已经在80多个出版物中发表使用。
图1 使用GNPS网络平台从非靶向质谱数据生成分子网络的方法。a)在GNPS网络平台上生成分子网络有两种方法:经典MN和FBMN。对于这两种方法,使用诸如Proteowizard MSConvert之类的工具将MS数据文件转换为mzML格式。经典MN方法完全在GNPS平台上运行,其中二级谱图用MS-Cluster聚类,获得的一致二级谱图用于分子网络生成。对于FBMN,用户首先应用特征检测和对齐工具来处理LC-MS2数据,然后将结果导出为特征定量表(TXT格式)和二级谱图汇总(MGF格式)或mzTab-M文件,并上传到GNPS网络平台,以使用FBMN工作流进行分子网络分析。b)在GNPS和FBMN上进行分子网络工作的数量。上图:自2016年以来,使用经典MN和FBMN工作的数量。下图:FBMN自成立以来的工作数量和加速其使用的关键事件。
结果与讨论
FBMN可以对LC-MS2数据中的同分异构体进行高效的可视化和注释。如图2a和b所示,来自大戟植物提取物中药物发现项目;图2c和d所示,检测粪便样本中微生物来源的脂质。在这两个案例中,FBMN都利用保留时间区分了分子网络中具有相似二级谱图的位置异构体或立体异构体,这些是通过经典MN难以区分的。FBMN的使用可促进抗病毒化合物的发现(图2c),以及酰胺异构体和一个可能的新衍生物N-(dehydrohexadecanoyl)甘氨酸的注释(图2d)。
图2 经典MN和FBMN的比较。a,b) 大戟植物提取物中的药物发现;c,d) 微生物脂质的检测;e,f) 高检索效率;g,h) 精确定量
在非靶向LC-MS2数据采集中,同一前体离子在色谱洗脱过程中经常多次碎裂。然而经典MN中的MS-Cluster通常能将这些谱图聚类到单个节点中,在一些情况下它会失败并产生代表同一化合物的多个节点。对于FBMN,选择具有代表性的二级谱图作为LC-MS特征。在这种情况下使用FBMN的好处可以用金属螯合剂EDTA在血浆样品的LC-MS2分析来说明(图2e)。经典MN在一个分子家族中产生了13个具有相同前体m/z值的重复节点,其中10个具有与EDTA参考的二级质谱数据相匹配的谱图(图2e,f)。相反,FBMN显示出独特的二级谱图,与库中的EDTA谱图相匹配。由此产生的分子网络中冗余的减少简化了结构相关化合物的发现。
经典MN使用谱图计数或前体离子总数,而FBMN使用LC-MS特征丰度(峰面积或峰高),从而更准确地估计相对离子强度。FBMN通过包含相对定量信息和其他一级质谱信息(即前体同位素模式、加合物注释)来简化和整合数据。FBMN通过跨数据集提供准确的相对离子强度,实现稳定的统计分析,该特点通过NIST 1950血清参考标准的连续稀释系列数据集进行证明。使用MZmine或OpenMS处理FBMN的LC-MS2数据(图2g,h),线性回归分析用于评估经典MN和FBMN之间的相对定量。图2h显示,对于FBMN,相对量化的测定系数(R2)值分布大多高于0.7;而当通过谱图计数从经典MN获得前体离子丰度时,R2值分布大多小于0.7(图2g)。FBMN分析中相关系数向1的改进分布表明分子浓度和离子丰度之间的线性响应更高,从而提高了定量结果的准确性和精确度。此外,FBMN有助于直接应用于现有的统计学、可视化和注释工具,如QIIME2、MetaboAnalyst、’ili、SIRIUS、DEREPLICATOR、MS2LDA和Qemistree。
FBMN还提供了带有离子淌度的分子网络。作为一种正交分离方法,离子淌度的使用提供了额外的分辨率,以根据碰撞截面积区分分子网络中的异构体离子。目前,可以使用MetaboScape、MS-DIAL和Progenesis QI在GNPS上实现离子淌度与FBMN的集成。
结论
FBMN非常适合先进的分子网络分析,它能够鉴别异构体,整合相对定量和离子淌度数据。因此建议将FBMN分析用于单个LC-MS2代谢组学研究中,由于不同的实验条件和可能的批次效应,因此当应用于多个研究时,其适用性可能受到限制。此外,FBMN用于分析超大数据集(包含数千个样本)受到大多数特征检测和对齐软件工具可扩展性的限制。虽然FBMN在分子网络分析的许多方面提供了改进,但经典MN对于大规模数据集的代谢分析仍然至关重要,并且便于使用较少的用户定义参数快速分析LC-MS2数据;使用FBMN获得的分子网络的一个重要方面是使用适当的处理步骤和参数,否则可能会对生成的分子网络产生负面影响。FBMN工作流不仅提供自动谱库搜索和谱库条目管理,而且还与GNPS环境中可用的其他注释工具(如MASST)集成,同时通过将FBMN工作保存在用户的私人在线工作区来提高数据分析的可再现性。GNPS环境使用户能够方便地评估不同的参数,并通过URL共享结果以供发布。
供稿:张瑶
责任编辑:王丹
原文链接:https://doi.org/10.1038/s41592-020-0933-6
文章引用:DOI:10.1038/s41592-020-0933-6
文章信息:Nothias, L-F., Petras, D., Schmid, R. et al. (2020). Feature-based molecular networking in the GNPS analysis environment. Nat Methods, 17, 905-908.
关于我们
中国农业科学院油料作物研究所油料品质化学与营养创新团队脂质分析实验室致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台,并将该平台广泛应用于:(1)不同生物种质资源中脂质组成;(2)应用于食品安全与质量控制;(3)脂质的生物功能与营养学评价;(4)开发新的功能脂质。