DRUGAI
今天为大家介绍的是来自加拿大滑铁卢大学和郑州华中人工智能研究院的一篇论文。在质谱蛋白质组学中,肽段的鉴定对于理解蛋白质功能和动态至关重要。传统的数据库搜索方法虽然应用广泛,但依赖启发式评分函数,需要引入统计估计才能获得更高的鉴定率。作者推出了DeepSearch,这是一种基于深度学习的端到端串联质谱数据库搜索方法。DeepSearch利用改进的基于transformer的编码器-解码器架构,在对比学习框架下运作。与依赖离子对离子匹配的传统方法不同,DeepSearch采用数据驱动方法对肽段-谱图匹配进行评分。DeepSearch还能以零样本方式分析可变翻译后修饰。作者表明,DeepSearch的评分方案表现出较少的偏差,不需要任何统计估计。作者通过各种数据集验证了DeepSearch的准确性和稳健性,包括来自不同蛋白质组成物种的数据集和富集修饰的数据集。DeepSearch为串联质谱中的数据库搜索方法开辟了新途径。
质谱(MS)蛋白质组学中,肽段鉴定是蛋白质组学的一个基本挑战。在一种广泛采用的MS蛋白质组学形式中,蛋白质通过蛋白酶被消化成肽段,然后利用液相色谱串联质谱(MS/MS)分析这些肽段。MS/MS谱图包含所测量肽段碎片离子的质量和强度信息。数据库搜索是最广泛采用的肽段鉴定方法,它将实验获得的MS/MS谱图与从肽段序列数据库推导出的理论谱图进行匹配。然而,几乎所有现有的数据库搜索引擎都依赖启发式评分函数,这些函数大多匹配最常见的离子集合,而忽略了大量未知和卫星碎片(satellite fragmentations)。此外,这些评分函数可能对某些肽段组成表现出偏差。为了减少评分函数的潜在偏差以获得更高的鉴定率,需要引入基于统计显著性或贝叶斯概率估计的概率模型。
深度学习在蛋白质组学中的进步提高了从头肽段测序的氨基酸级准确性,这种方法无需任何先验信息,直接从MS/MS谱图推断肽段序列。DeepNovo引入了光谱卷积神经网络,并结合LSTM来预测MS/MS谱图中的肽段序列。PointNovo通过PointNet进一步提高了预测准确性,实现了无分辨率的谱图编码。此前的研究还通过在MS/MS谱图和肽段序列模态之间训练模型,证明了基于transformer的编码器-解码器架构的稳健性。然而,大多数现有的从头测序方法在蛋白质组成差异很大的数据集上表现出明显的性能下降。这些方法也缺乏肽段级别的准确性,无法识别可变翻译后修饰(PTM),而这些修饰在蛋白质功能和结构分析中至关重要。
最近在对比学习框架下引入的多模态基础模型显著提高了各种下游跨模态理解任务的性能,特别是在计算机视觉和自然语言处理领域。这些模型能够学习跨不同模态的联合嵌入空间,并在零样本学习任务中展现出了深远的效果。最重要的是,这些框架下的弱监督机制只需要跨模态数据对,无需其他标注,表现出对偏差的更高容忍度和跨数据集的增强稳健性。
模型部分
图 1
DeepSearch使用深度学习模型将实验MS/MS谱图与肽段序列进行匹配,而大多数传统数据库搜索引擎则是将实验MS/MS谱图与从肽段序列数据库计算得到的理论谱图进行比较(图1a)。从蛋白质数据库的体内酶解开始,DeepSearch对酶解产生的肽段和实验MS/MS谱图进行嵌入编码。DeepSearch不依赖于离子对离子匹配的启发式评分函数,而是使用相应嵌入之间的余弦相似度对PSM进行评分,这可以通过单次矩阵乘法高效计算(图1b)。为了解决PSM中密切相关负样本对的标注挑战,并减轻标注中搜索引擎的偏差,作者采用了批内对比学习框架。在训练过程中,DeepSearch随机采样一批以肽段质量为锚定的PSM,并将除采样PSM外的肽段-谱图对作为负样本对(图1c)。
作者使用改进的基于transformer的编码器-解码器架构,如图1d所示。实验MS/MS谱图通过谱图编码器进行编码,并通过注意力池化层得到谱图嵌入。为了融入经验性肽段碎片模式的领域知识,肽段序列与其对应的理论谱图通过单模态肽段解码器联合嵌入。一个可训练的CLS token被添加到肽段序列中,CLS token嵌入用于表示相应的肽段嵌入。作者将多模态肽段解码器与肽段推断任务联合训练,目标是最小化对比损失和从头测序损失的线性组合作为最终训练目标。多模态肽段解码器通过计算每个氨基酸对应的softmax logits的Phred质量分数来重新排序PSM(图1e)。此外,DeepSearch支持可变PTM分析,无需在PTM富集数据上进行预训练或微调。与之前将可变PTM编码为元素组成token的方法不同,作者通过将PTM质量添加到理论谱图中来获得带有相应修饰的肽段嵌入,如图1f所示。
DeepSearch有着更低的PSM评分偏差
作者对来自不同蛋白质组成物种的蛋白质组范围高能碰撞解离(higher-energy collisional dissociation,HCD)MS/MS数据集评估了DeepSearch的性能。作者将DeepSearch的结果与广泛使用的搜索引擎MSFragger、MS-GF+和MaxQuant在相似搜索配置下的结果进行了比较,使用了拟南芥(Arabidopsis thaliana)、HEK293、线虫(Caenorhabditis elegans)和大肠杆菌数据集。作者首先在拟南芥数据集上研究了DeepSearch对不同长度肽段的评分函数。
传统的使用离子对离子匹配的数据库搜索引擎可能对不同长度的肽段存在偏差,因为较长的肽段通常产生更多的碎片离子。相反,一个设计良好的评分函数应该不受肽段组成的影响,并且在使用适当策略生成诱饵序列的情况下,对诱饵序列和较低置信度的目标匹配产生类似的分数分布。为了评估这一点,作者根据长度将鉴定的肽段分为五组,并分析了所有搜索引擎的分数分布,如图2所示。
图 2
作者观察到MSFragger、MS-GF+和MaxQuant倾向于给较长肽段分配更高的分数,这是可以预见的,因为较长肽段通常有更多匹配的离子,因此得分更高。具体来说,当肽段长度在7到11个氨基酸之间时,其他三种搜索引擎报告的目标和诱饵肽段的中位数分数差异小于较长肽段的差异。这表明在没有统计估计的情况下,较短肽段的鉴定较少。此外,作者观察到MaxQuant对较长肽段报告的诱饵匹配显著较少,表明其评分函数可能存在偏差。相比之下,DeepSearch使用余弦相似度,在所有肽段长度组中表现出均匀的分数分布,如图2所示。然而,作者观察到在超过30个氨基酸的肽段中性能略有下降,这可能是由于基于transformer的模型在处理较长序列时效果降低。
作者在拟南芥数据集上,进一步比较了搜索引擎在1%假阳性率(FDR)下接受的PSM的评分函数,重点关注缺失碎片的数量。此前研究表明,随着缺失碎片数量的增加,基于深度学习的肽段鉴定方法的性能显著下降。作者首先比较了与肽段长度和缺失碎片数量相关的PSM总数。结果显示,大多数PSM的缺失碎片少于两个,DeepSearch报告的结果与其他所有搜索引擎一致。从直觉上讲,相对于肽段长度而言,缺失碎片比例较高的PSM可靠性较低,因此应该得到较低的分数。作者观察到,在没有离子对离子匹配的情况下,DeepSearch倾向于给具有更多缺失碎片的PSM分配较低的分数,与其他基准搜索引擎相比,这在短于16个氨基酸的肽段中尤为明显。然而,随着缺失碎片数量的增加,DeepSearch在较长肽段的分数分布上没有表现出显著差异,这表明还有改进空间。
作者在拟南芥、HEK293、线虫和大肠杆菌数据集上评估了1%FDR下接受的PSM数量,以评估统计估计的影响,如图3所示。PSM级别的FDR控制是通过分数、搜索引擎报告的期望值或估计的后验错误概率(PEP)进行的。对于MaxQuant,作者将报告的PEP视为期望值。作者观察到,当使用分数控制FDR时,DeepSearch在所有数据集上报告的PSM数量都比MSFragger和MaxQuant多,并达到了与MS-GF+相当的结果。在进行可变PTM搜索时,DeepSearch在HEK293和HeLa数据集上保持了一致性。
图 3
作者注意到这些搜索引擎可能依赖统计模型来获得更高的鉴定率。在多个数据集中,当使用原始分数控制时,MaxQuant在1%FDR下报告的PSM明显更少。在拟南芥数据集上,MSFragger在没有统计估计的情况下性能下降(图3a)。MS-GF+在所有搜索中也从其统计模型中受益。相比之下,当在1%FDR下使用不同标准控制时,DeepSearch报告的PSM数量保持一致。这种一致性在所有数据集的肽段和蛋白质水平上都得以保持。还需要进一步研究不同统计模型与靶向-诱饵搜索策略结合时对报告匹配质量的影响。
DeepSearch准确鲁棒的肽段判别
图 4
作者对人类蛋白质组范围的HEK293数据集上各搜索引擎报告的结果进行了系统分析。图4a显示了DeepSearch报告的分数分布,表明存在两个明显的簇,对应高置信度和低置信度匹配。尽管在训练中未包含诱饵序列,但低置信度目标匹配和诱饵匹配的分布高度相似,这是设计良好的评分函数的关键前提。
使用搜索引擎报告的分数或期望值控制FDR时,作者评估了谱图鉴定率,如图4b、c所示。当使用分数控制且FDR低于3%时,DeepSearch达到了与MS-GF+相当的结果,并且比MSFragger和MaxQuant具有更高的鉴定率。当使用期望值进行FDR控制时,在1%FDR下,MS-GF+和MaxQuant的谱图鉴定分别增加了约6%和10%,而DeepSearch保持了一致的性能。
图4d、e显示了1%PSM级FDR下基准搜索引擎的肽段鉴定结果。当使用分数控制时,DeepSearch鉴定的约89%的肽段至少被其他两个搜索引擎报告,表明DeepSearch在无实际离子匹配的情况下鉴定PSM的准确性。当使用期望值控制FDR时,这一比例增加到约92%,而DeepSearch鉴定的肽段数量保持不变。这进一步表明DeepSearch在不依赖统计估计的情况下可靠鉴定肽段的能力。此外,作者观察到MaxQuant在很大程度上依赖概率估计来鉴定被DeepSearch、MSFragger和MS-GF+共同发现的肽段。另外,即使在使用期望值控制1%FDR时具有第二高的谱图鉴定率,MaxQuant在鉴定的蛋白质组数量上仍然不足。
图 5
为了评估DeepSearch在蛋白质组成差异很大的物种的MS/MS谱图上的泛化能力,作者进一步研究了在拟南芥数据集上报告的鉴定结果。图5a显示了DeepSearch报告的分数分布,与HEK293数据集相比没有显著差异。这表明DeepSearch的评分函数可能在不同物种间有效泛化。与HEK293数据集一样,DeepSearch在两种FDR控制场景下都保持了相当的谱图鉴定率(图5b、c)。图5d、e显示了所有基准搜索引擎在1%PSM级FDR下报告的鉴定肽段。当用分数控制时,约90.1%的DeepSearch接受的肽段也被至少两个其他搜索引擎报告。当用期望值控制时,这一比例增加到92.2%,展示了DeepSearch在准确肽段鉴定中的稳健性。这些结果表明DeepSearch对统计估计不太敏感,这种模式在HEK293数据集中也有观察到。
零样本可变PTM分析
图 6
基于深度学习的肽段鉴定方法在识别可变PTM时常遇到困难,因为需要显著扩展token空间来编码这些修饰。一些之前的方法仅编码甲硫氨酸氧化,这是最常见的PTM之一。虽然也应用了迁移学习,但仍需要在PTM富集数据上进行训练。为解决这些问题,作者引入了零样本可变PTM分析方案,无需扩大token空间即可有效地跨可变修饰进行泛化。
作者使用HeLa磷酸化富集数据集评估了DeepSearch在可变PTM分析方面的能力。图6a显示了DeepSearch根据肽段修饰数量报告的分数分布。作者观察到,随着修饰数量的增加,高置信度鉴定的分数倾向于降低,而诱饵和低置信度鉴定的分数分布保持不变。这在零样本学习场景中是常见的性能下降。
当使用搜索引擎的分数控制FDR时,DeepSearch达到了与MS-GF+相当的结果。没有统计估计时,MSFragger报告的鉴定显著减少。与使用统计估计的MSFragger和MS-GF+相比,DeepSearch报告的带修饰PSM较少,这突显了PTM相关概率评估的必要性(图6b)。
在1%PSM级FDR下,作者进一步研究了DeepSearch报告的肽段及其PTM图谱的准确性(图6c、d)。不出所料,约82.1%的肽段和84.1%的PTM图谱被DeepSearch接受,也被MSFragger和MS-GF+报告。然而,有1,513个肽段和2,428个PTM图谱被MSFragger和MS-GF+共同报告,但未被DeepSearch鉴定。
编译|黄海涛
审稿|王梓旭
参考资料
Yu, Y., & Li, M. (2025). Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry. Nature Machine Intelligence, 1-11.