大家好,本周为大家分享一篇发表在Journal of
Proteome Research上的文章,PepPre: Promote Peptide
Identification Using Accurate and Comprehensive Precursors1。本文的通讯作者是中国科学院计算技术研究所的Ching Tarn。 基于质谱的多肽鉴定在蛋白质组学及相关领域一直具有至关重要的意义,并催生了大量的技术和工具。传统自下而上蛋白质鉴定的MS1中,多肽分子具有不同的同位素组成,形成同位素簇,肽前体离子对应于这样一个簇。多肽被隔离窗进一步选择,并被碎片化生成MS2扫描。为了包含整个同位素簇,隔离窗将分离一定半径内的所有峰,该机制导致一个MS2可能由多个肽组成:除了作为分离中心的目标肽外,还可能存在m/z相近的其他肽,这些肽被共碎片化进入同一个MS2扫描,这种现象对于复杂的样本很常见,它增加了谱图的复杂性,但也使识别额外的肽成为可能。多肽鉴定的搜索对象是庞大的数据库,为了缩小搜索空间,需要额外的信息来进行限制,包括前体离子质量、保留时间和电荷态等。 这篇文章提出了一种新的肽前体检测方法,PepPre,它不依赖于肽的特征。它假设谱图是候选同位素簇的加权线性组合,其中候选同位素簇可以通过枚举所有可能的峰和电荷状态来生成。与大多数现有方法不同,PepPre不单独或递归地2评估候选同位素簇,而是试图解释谱图,这使得PepPre能够处理严重重叠的情况(如图1)。在实际应用中,可以采用线性优化算法计算各候选谱的权重,使候选谱的理论组合能够拟合实验谱。每个候选物的同位素模式可以进一步评估,即使一些峰是由多个前体共享的;具有显著比重和合适同位素模式的候选前体被认为是非常可信的,更有可能被识别。此外,还提供了一个名为PepPreView的可视化工具来协助数据分析。用户界面和命令行工具的可执行文件可以在http://peppre.ctarn上获取。
图1. 由两个同位素簇组成的一组峰。由于不同簇的一些峰被合并,同位素分布的形状很奇怪,因此类似于不可信的峰,尽管这些峰没有噪声。 图2a演示了在分解谱图时应考虑几种类型的同位素簇。红色团簇的单同位素峰位于隔离窗口内,棕色团簇的单同位素峰不在隔离窗口内,而一些同位素峰也包含在各自的MS2扫描中,使前体离子可识别。绿色的簇没有被碎片化,但它们可以与碎片化的簇共享峰。因此,应适当考虑所有三种类型的集群,以提高解决方案的准确性和覆盖率。图2b显示了PepPre的工作流程,首先从谱图中选择潜在的单同位素峰,并将它们与可能的电荷结合起来构建候选肽前体离子列表。每个候选离子的理论同位素簇是用平均模型等方法估计的。每个候选离子被分配一个未知的权重或丰度值,并将它们相加,和应尽可能接近实验谱。通过线性规划等方法进一步求解未知数。图2. a.在分解谱图时应考虑几种类型的同位素簇。b.频谱分解工作流程。c.同位素簇分成若干部分。由于噪声、强度变化、估计不准确等原因,理论同位素簇与实验簇并不完全匹配,因此可能会报道一些意想不到的离子。它们的丰度通常相对较低,可以在分解过程中动态排除。 作者对比了PepPre和其他几种常用鉴定工具的表现。图3显示了Zubarev-Human-2、zubarev - human -8和Dong-DSS-1.6在PSM水平和肽水平上的鉴定数目。在Dong-DSS-1.6上,进一步应用了基于陷阱数据库的可信度评价。结果表明,PepPre在PSM水平和肽水平上都获得了更多的鉴定,但输出的前体离子明显少于其他方法。随着隔离窗口的增加,差距进一步扩大,特别是与pParse相比。作者进一步比较了PepPre和基线方法,特别是交叉鉴定,结果如图4所示。例如,与EnumEx相比,仅被PepPre识别的大多数PSM也被EnumEx输出。EnumEx输出的前体几乎包括了所有可能的候选前体离子。然而,引擎无法识别前体离子,这导致PepPre的表现甚至超过了EnumEx,显示了过多错误前体离子的负面影响。此外,与许多方法相比,共流出离子是增加鉴定的主要贡献。
图3. 在Zubarev-Human-2 (a)、Zubarev-Human-8 (b)和Dong-DSS-1.6 (c)上鉴定出的PSM和肽/肽对。fold是每次MS2扫描输出的前体离子的平均数量。例如,对于分别与3、3、3和4个前体离子相关联的4个MS2扫描数据集,fold值为3.25。结果表明,在常规多肽和交联多肽数据集上,PepPre比其他方法获得了更多的鉴定。此外,在合成交联肽数据集上,PepPre报告的结果与其他数据集一样可信。图4. PepPre与其他方法在Zubarev-Human-2 (a)、Zubarev-Human-8 (b)和Dong-DSS-1.6 (c)上的PSM比较。 为了进一步评价鉴定的质量,作者计算了每个鉴定观察到的片段数量(只考虑b离子和y离子)。对于规则肽,候选电荷态是{+1,+2},而对于交联肽,则考虑{+1,+2,+3}。结果如图5所示,表明PepPre实现了更高质量的识别。 图6报告了识别的PSM的电荷状态和质量分布。结果表明,在几乎所有的电荷态和质量范围内,PepPre识别的psm数量都大于pParse、EnumInst、EnumIW和EnumEx,这表明PepPre在各种电荷态和质量范围内都十分稳健。PepPre的一个主要优点是它可以更有效地分解复杂和高度重叠的簇。对于每个确定的前体离子,作者进一步检查其理论同位素簇是否与同一MS2中的任何其他离子共享峰。如图7所示,PepPre启用了8881个具有重叠簇的PSM,这比pParse报告的3791个PSM多134%。这些收益占总涨幅的69%,表明它们应该得到重视。此外,计算出的FDR还表明,PepPre报道的高重合前体离子与其他前体离子具有同样的可信度,而pParse报道的高重合前体离子的FDR值明显高于预期。图5. 在Zubarev-Human-2 (a)、Zubarev-Human-8 (b)和DongDSS-1.6 (c)上,鉴定出的与各自谱图匹配良好的PSM数量。图6. 在Zubarev-Human-2 (a1,a2)、Zubarev-Human-8 (b1,b2)和Dong-DSS-1.6(c1, c2)上鉴定的PSM的电荷态和质量。图7. 使用Dong-DSS-1.6验证具有共享峰的共碎片化前体。结果表明,PepPre (a)在检测更复杂和高度重合的同位素簇方面表现更好,并且报告的同位素簇也比pParse (b)更可信。
最后,作者评估了PepPre和pParse在不同隔离窗口大小的数据集上的性能。采用zubarev - human /
2/4/6/8数据集,其隔离窗口大小分别为2、4、6和8 Th。图8报告了当fold设置为4时PSM的数量。结果表明,当窗口大小设置为与仪器相同时,pParse和PepPre都能获得最佳性能。在每一种设置下,PepPre的PSM鉴定数量都明显高于pParse,增量约为4% ~ 10%。图8. 在不同隔离窗口大小的数据集上识别的PSM数量,其中百分比表示PepPre (a)与pParse (b)相比增加的PSM比例。 这项工作提出了一种简单有效的方法来检测从MS2扫描肽前体离子。这种方法易于理解,并能显著提高性能。重要的是,PepPre不需要培训,这将开发人员或用户从标签数据中解放出来,并使其从根本上更加稳健。除了肽前体离子检测外,该方法还可以扩展到肽特征检测、MS2脱同位素、自顶向下蛋白质组学等领域。
撰稿:夏淑君
编辑:李惠琳
文章引用:PepPre: Promote Peptide Identification Using Accurate and Comprehensive Precursors
www.x-mol.com/groups/li_huilin
注释Ching Tarn, Yu-Zhuo Wu, and Kai-Fei
Wang. PepPre:
Promote Peptide Identification Using Accurate and Comprehensive Precursors. Journal
of Proteome Research 2024 23 (2), 574-584
计算机科学中,递归是指在解决问题时调用自身的方法。这种方法通常用于处理需要重复执行相似操作的情况,如遍历树形数据结构或执行分治算法。