J. Proteome Res. 丨PepPre：利用准确和全面的前体离子信息提升多肽鉴定

文摘科学 2024-03-28 17:09 广东

大家好，本周为大家分享一篇发表在Journal of Proteome Research上的文章，PepPre: Promote Peptide Identification Using Accurate and Comprehensive Precursors¹。本文的通讯作者是中国科学院计算技术研究所的Ching Tarn。

基于质谱的多肽鉴定在蛋白质组学及相关领域一直具有至关重要的意义，并催生了大量的技术和工具。传统自下而上蛋白质鉴定的MS1中，多肽分子具有不同的同位素组成，形成同位素簇，肽前体离子对应于这样一个簇。多肽被隔离窗进一步选择，并被碎片化生成MS2扫描。为了包含整个同位素簇，隔离窗将分离一定半径内的所有峰，该机制导致一个MS2可能由多个肽组成：除了作为分离中心的目标肽外，还可能存在m/z相近的其他肽，这些肽被共碎片化进入同一个MS2扫描，这种现象对于复杂的样本很常见，它增加了谱图的复杂性，但也使识别额外的肽成为可能。多肽鉴定的搜索对象是庞大的数据库，为了缩小搜索空间，需要额外的信息来进行限制，包括前体离子质量、保留时间和电荷态等。

这篇文章提出了一种新的肽前体检测方法，PepPre，它不依赖于肽的特征。它假设谱图是候选同位素簇的加权线性组合，其中候选同位素簇可以通过枚举所有可能的峰和电荷状态来生成。与大多数现有方法不同，PepPre不单独或递归地²评估候选同位素簇，而是试图解释谱图，这使得PepPre能够处理严重重叠的情况（如图1）。在实际应用中，可以采用线性优化算法计算各候选谱的权重，使候选谱的理论组合能够拟合实验谱。每个候选物的同位素模式可以进一步评估，即使一些峰是由多个前体共享的；具有显著比重和合适同位素模式的候选前体被认为是非常可信的，更有可能被识别。此外，还提供了一个名为PepPreView的可视化工具来协助数据分析。用户界面和命令行工具的可执行文件可以在http://peppre.ctarn上获取。

图1. 由两个同位素簇组成的一组峰。由于不同簇的一些峰被合并，同位素分布的形状很奇怪，因此类似于不可信的峰，尽管这些峰没有噪声。

图2a演示了在分解谱图时应考虑几种类型的同位素簇。红色团簇的单同位素峰位于隔离窗口内，棕色团簇的单同位素峰不在隔离窗口内，而一些同位素峰也包含在各自的MS2扫描中，使前体离子可识别。绿色的簇没有被碎片化，但它们可以与碎片化的簇共享峰。因此，应适当考虑所有三种类型的集群，以提高解决方案的准确性和覆盖率。图2b显示了PepPre的工作流程，首先从谱图中选择潜在的单同位素峰，并将它们与可能的电荷结合起来构建候选肽前体离子列表。每个候选离子的理论同位素簇是用平均模型等方法估计的。每个候选离子被分配一个未知的权重或丰度值，并将它们相加，和应尽可能接近实验谱。通过线性规划等方法进一步求解未知数。

图2. a.在分解谱图时应考虑几种类型的同位素簇。b.频谱分解工作流程。c.同位素簇分成若干部分。由于噪声、强度变化、估计不准确等原因，理论同位素簇与实验簇并不完全匹配，因此可能会报道一些意想不到的离子。它们的丰度通常相对较低，可以在分解过程中动态排除。

作者对比了PepPre和其他几种常用鉴定工具的表现。图3显示了Zubarev-Human-2、zubarev - human -8和Dong-DSS-1.6在PSM水平和肽水平上的鉴定数目。在Dong-DSS-1.6上，进一步应用了基于陷阱数据库的可信度评价。结果表明，PepPre在PSM水平和肽水平上都获得了更多的鉴定，但输出的前体离子明显少于其他方法。随着隔离窗口的增加，差距进一步扩大，特别是与pParse相比。作者进一步比较了PepPre和基线方法，特别是交叉鉴定，结果如图4所示。例如，与EnumEx相比，仅被PepPre识别的大多数PSM也被EnumEx输出。EnumEx输出的前体几乎包括了所有可能的候选前体离子。然而，引擎无法识别前体离子，这导致PepPre的表现甚至超过了EnumEx，显示了过多错误前体离子的负面影响。此外，与许多方法相比，共流出离子是增加鉴定的主要贡献。

图3. 在Zubarev-Human-2 (a)、Zubarev-Human-8 (b)和Dong-DSS-1.6 (c)上鉴定出的PSM和肽/肽对。fold是每次MS2扫描输出的前体离子的平均数量。例如，对于分别与3、3、3和4个前体离子相关联的4个MS2扫描数据集，fold值为3.25。结果表明，在常规多肽和交联多肽数据集上，PepPre比其他方法获得了更多的鉴定。此外，在合成交联肽数据集上，PepPre报告的结果与其他数据集一样可信。

图4. PepPre与其他方法在Zubarev-Human-2 (a)、Zubarev-Human-8 (b)和Dong-DSS-1.6 (c)上的PSM比较。

为了进一步评价鉴定的质量，作者计算了每个鉴定观察到的片段数量（只考虑b离子和y离子）。对于规则肽，候选电荷态是{+1，+2}，而对于交联肽，则考虑{+1，+2，+3}。结果如图5所示，表明PepPre实现了更高质量的识别。

图6报告了识别的PSM的电荷状态和质量分布。结果表明，在几乎所有的电荷态和质量范围内，PepPre识别的psm数量都大于pParse、EnumInst、EnumIW和EnumEx，这表明PepPre在各种电荷态和质量范围内都十分稳健。PepPre的一个主要优点是它可以更有效地分解复杂和高度重叠的簇。对于每个确定的前体离子，作者进一步检查其理论同位素簇是否与同一MS2中的任何其他离子共享峰。如图7所示，PepPre启用了8881个具有重叠簇的PSM，这比pParse报告的3791个PSM多134%。这些收益占总涨幅的69%，表明它们应该得到重视。此外，计算出的FDR还表明，PepPre报道的高重合前体离子与其他前体离子具有同样的可信度，而pParse报道的高重合前体离子的FDR值明显高于预期。

图5. 在Zubarev-Human-2 (a)、Zubarev-Human-8 (b)和DongDSS-1.6 (c)上，鉴定出的与各自谱图匹配良好的PSM数量。

图6. 在Zubarev-Human-2 (a1,a2)、Zubarev-Human-8 (b1,b2)和Dong-DSS-1.6(c1, c2)上鉴定的PSM的电荷态和质量。

图7. 使用Dong-DSS-1.6验证具有共享峰的共碎片化前体。结果表明，PepPre (a)在检测更复杂和高度重合的同位素簇方面表现更好，并且报告的同位素簇也比pParse (b)更可信。

最后，作者评估了PepPre和pParse在不同隔离窗口大小的数据集上的性能。采用zubarev - human / 2/4/6/8数据集，其隔离窗口大小分别为2、4、6和8 Th。图8报告了当fold设置为4时PSM的数量。结果表明，当窗口大小设置为与仪器相同时，pParse和PepPre都能获得最佳性能。在每一种设置下，PepPre的PSM鉴定数量都明显高于pParse，增量约为4% ~ 10%。

图8. 在不同隔离窗口大小的数据集上识别的PSM数量，其中百分比表示PepPre (a)与pParse (b)相比增加的PSM比例。

这项工作提出了一种简单有效的方法来检测从MS2扫描肽前体离子。这种方法易于理解，并能显著提高性能。重要的是，PepPre不需要培训，这将开发人员或用户从标签数据中解放出来，并使其从根本上更加稳健。除了肽前体离子检测外，该方法还可以扩展到肽特征检测、MS2脱同位素、自顶向下蛋白质组学等领域。

撰稿：夏淑君

编辑：李惠琳

文章引用：PepPre: Promote Peptide Identification Using Accurate and Comprehensive Precursors

李惠琳课题组网址

www.x-mol.com/groups/li_huilin

注释

Ching Tarn, Yu-Zhuo Wu, and Kai-Fei Wang. PepPre: Promote Peptide Identification Using Accurate and Comprehensive Precursors. Journal of Proteome Research 2024 23 (2), 574-584
计算机科学中，递归是指在解决问题时调用自身的方法。这种方法通常用于处理需要重复执行相似操作的情况，如遍历树形数据结构或执行分治算法。

http://mp.weixin.qq.com/s?__biz=Mzg2MjAxNDk5OA==&mid=2247486562&idx=1&sn=69fac9f47da5f0e6766ee8b7f885e99e

李惠琳课题组

推介Top-down MS原理、新技术、新方法以及相关结构质谱方法及其在翻译后修饰调控机制、蛋白-药物相互作用、蛋白质机器结构及功能解析等领域的前沿文献与工作交流。

最新文章

J. Am. Soc. Mass Spec.|使用DPS评估HDX-MS中的蛋白酶切效率

Anal Bioanal Chem.| 基于质子转移电荷还原技术实现抗体自中而下分析的通用方法

Proteomics. |SDS-PAGE与CZE-MS相结合，用于组蛋白proteoform的Top-down分析

Anal. Chem.｜Taylor – Aris扩散辅助质谱法分析天然蛋白质

Nat. Struct. Mol. Biol.｜核糖体上蛋白质折叠的共翻译路径

J. Am. Soc. Mass. Spec.｜非变性和变性的自上而下质谱用于单克隆抗体的鉴定

Nature Communications|基于深度学习的糖肽碎片质谱预测

J. Am. Soc. Mass Spec.|使用Native MS和HDX-MS探究高阶蛋白复合物结构

香港理工大学蛋白质组学课题组诚招两名2025年博士研究生

Anal. Chem.｜一次性单细胞蛋白质组和代谢组同步分析策略

Nat. Commun.｜使用非数据依赖采集法实现氢/氘交换质谱数据自动化分析

J. Am. Soc. Mass. Spec.｜一种在线的Native MS方法用于腺相关病毒衣壳含量比率的快速、灵敏和定量评估

第三届JPrOS自上而下蛋白质组学线上研讨会

Nature Reviews Methods Primers|Top-Down 蛋白质组学

Anal. Chem.|循环离子淌度用于氢氘交换质谱

Anal. Chem.｜Panda-UV解锁紫外光解（UVPD）质谱产生的内部碎片

Anal. Chem. |通过平行代谢物提取和高分辨率质谱对人体心脏组织进行全面的代谢组学分析

J. Am. Chem. Soc.｜利用HDX-MS分析糖原磷酸化酶的瞬时态的结构动力学

Anal. Chem.｜循环离子迁移-质谱和串联碰撞诱导去折叠技术用于定量难以捉摸的蛋白质生物标志物

J. Am. Soc. Mass Spectrom|基于电子转移解离的蛋白质组学中分子内氢重排的实际影响

J. Proteome Res. 丨PepPre：利用准确和全面的前体离子信息提升多肽鉴定

Mol. Cell. Proteomics丨利用AlphaFold2与交联质谱建模柔性蛋白质结构

Anal. Chem.丨小型连续尺寸排除色谱（s3SEC）用于高灵敏度自上而下蛋白质组学检测高质量Proteoforms

J. Am. Soc. Mass Spec.|PNGase Rc色谱柱用于氢氘交换质谱中复杂糖蛋白的在线去糖基化

转载|大话 TopDown：“Proteoform”一词的前世今生

Nat. Commun. | 非变性纳米蛋白质组学捕获内源性心肌肌钙蛋白复合物的结构和动态性信息

J. Am. Chem. Soc.｜μMap光催化临近标记支持小分子结合位点映射

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

J. Proteome Res. 丨PepPre：利用准确和全面的前体离子信息提升多肽鉴定

Ching Tarn, Yu-Zhuo Wu, and Kai-Fei Wang. PepPre: Promote Peptide Identification Using Accurate and Comprehensive Precursors. Journal of Proteome Research 2024 23 (2), 574-584