Nat. Commun. | 利用transformer模型将质谱数据序列翻译成肽段序列

学术   2024-09-12 14:44   韩国  

DRUGAI

今天为大家介绍的是来自William Stafford Noble团队的一篇论文。质谱基础蛋白质组学的一个根本挑战是识别生成每个获取的串联质谱的肽段。利用已知肽段序列数据库的方法无法检测到意外的肽段,并且在某些情况下不切实际或无法应用。因此,在没有事先信息的情况下将肽段序列分配给串联质谱(即de novo肽段测序)的能力,对于抗体测序、免疫肽组学和元蛋白质组学等任务非常有价值。尽管已经开发了许多方法来解决这个问题,但由于难以建模串联质谱的不规则数据结构,这仍然是一个突出的挑战。本文介绍了Casanovo,一种使用transformer神经网络架构的机器学习模型,将串联质谱中的峰序列翻译为组成生成肽段的氨基酸序列。作者从3000万个标记光谱中训练了Casanovo模型,并在跨物种基准数据集中证明该模型优于几种最先进的方法。作者还开发了一个针对非酶肽段进行微调的Casanovo版本。最后,作者展示了Casanovo的优异性能如何改进免疫肽组学和元蛋白质组学实验的分析,并使作者能够更深入地研究暗蛋白质组。

质谱目前是表征蛋白质组最流行的分析技术,通过识别和定量复杂生物系统中的蛋白质。在一次自下而上的质谱蛋白质组学实验中,生物样本中的蛋白质被酶解成肽段,测量其完整质量和电荷,并通过串联质谱进行碎裂。质谱蛋白质组学的根本挑战在于确定生成的串联质谱(MS/MS)光谱的氨基酸序列。解决这一光谱识别问题的标准方法是序列数据库搜索,通过从可能存在于生物样本中的蛋白质序列数据库(通常来自参考蛋白质组)中使用已知的消化规则进行模拟生成肽段。接下来,根据简化的肽段碎裂规则,将每个观测到的MS/MS光谱与候选肽段列表进行评分,并报告得分最高的肽段-光谱匹配(PSM)。SEQUEST算法开创了这一领域,随后开发了几十种数据库搜索引擎,并被广泛应用。


然而,序列数据库搜索的一个基本要求是预先知道样本中可能存在的蛋白质集合。对于来自基因组已经被详细研究的物种的样本,这通常是可能的,但依赖数据库会阻碍意外肽段的检测。这些意外肽段不仅包括来源于污染蛋白或样本处理过程中出现变异的肽段,还包括生物和临床相关的肽段,例如由于基因变异导致的偏离参考蛋白质组的肽段、具有意外翻译后修饰(PTMs)的肽段,以及来自外源如微生物或食物的肽段。此外,在某些任务中,生成一个肽段数据库可能不切实际甚至不可能。


最近,正如在许多其他领域一样,深度学习已成为de novo肽段测序的首选解决方案。DeepNovo结合了卷积神经网络和递归神经网络,在提供MS/MS光谱和肽段前缀时预测下一个氨基酸。SMSNet使用了类似的网络架构,但将预测的序列与用户提供的肽段数据库进行比对。PointNovo是DeepNovo的后继者,利用顺序不变的网络架构来建模高分辨率的MS/MS光谱。最后,pNovo 3首先使用动态规划为每个MS/MS光谱生成候选肽段,然后通过将光谱与每个候选肽段的理论光谱进行匹配来确定最终得分,该理论光谱是使用pDeep学习排序框架模拟的。尽管这些基于深度学习的方法在de novo肽段测序方面取得了进展,但它们仍然存在一些局限性。与序列数据库搜索相比,de novo工具通常只能注释少数MS/MS光谱,它们在本地编码高分辨率MS/MS数据时存在困难,并且使用复杂的神经网络架构和后处理步骤。


模型部分

图 1


Casanovo使用transformer架构执行从MS/MS光谱到生成肽段的序列到序列建模任务(图1)。transformer基于注意力机制,允许模型将序列元素进行情境化;因此,transformer模型可以学习序列元素之间的关系以及它们的交互方式应如何解释。因此,transformer架构不仅在自然语言处理中取得成功,还应用于生物序列。


在Casanovo中,观测到的MS/MS光谱中的每个峰被视为可变长度序列中的一个元素。每个峰的m/z和强度值分别通过一组正弦函数和一个学习的线性层进行编码,并将这些编码相加。然后将编码后的峰值输入transformer编码器,在MS/MS光谱的峰对之间学习上下文关系。这些情境化的峰编码随后作为输入,用于transformer解码器预测肽段序列。


解码过程以迭代的自回归方式进行。首先提供观测到的前体的质量和电荷。transformer解码器利用情境化的峰编码和前体信息开始预测肽段的氨基酸。对于第一个预测的氨基酸,保留排名前k的残基,其中k是用户选择的束搜索(beam search)中的束数量。在每个后续迭代中,将氨基酸添加到解码的肽段序列中,保留前k个序列,直到所有束的解码序列终止或超过前体质量。最后,保留得分最高的序列作为生成所提供的MS/MS光谱的假定肽段。


在生成预测时,Casanovo不可避免地会对某些MS/MS光谱生成不合理的肽段。例如,一些MS/MS光谱包含的碎片离子太少,无法可靠地测序,或者生成的真实肽段可能带有Casanovo未知的修饰。因此,作者使用一个简单的前体质量滤波器来优化Casanovo提出的PSM:任何肽段的m/z超出观测到的前体的指定公差范围,包括潜在的同位素,都会被丢弃。这个滤波器消除了许多得分较低的肽段。在评估中,本应被该滤波器移除的PSM被保留并在Casanovo分配的所有PSM中排名最后。


Casanovo优于当前的sota方法

图 2


为了评估Casanovo,作者首先使用Tran等人最初创建的九物种基准数据集,比较了四种de novo肽段测序算法的性能:Novor、DeepNovo、PointNovo和Casanovo。在这些比较中,使用了公开可用的预训练版本Novor来对基准数据集中的MS/MS光谱进行测序。DeepNovo、PointNovo和Casanovo通过交叉验证的方式进行训练,系统地在八个物种上训练并在剩余的物种上测试。对于DeepNovo,作者使用了Tran等人为每个交叉验证分割训练和提供的模型。对于PointNovo,作者从头开始交叉验证了九个模型,使用了Qiao等人提供的代码和设置。这个基准版本的Casanovo,称为,采用了简单的贪婪解码算法,而不是光束搜索解码。结果(图2a)显示,在肽段水平的测序性能上显著优于Novor、DeepNovo和PointNovo,的平均精度为0.81,而Novor、DeepNovo和PointNovo分别为0.58、0.70和0.74。这些结果在基准数据集的所有九个物种中是一致的。


作者假设,如果提供一个更大且质量更高的PSM训练集,Casanovo的性能可能会更好。因此,作者转向了MassIVE-KB人类MS/MS蛋白质组学数据光谱库。MassIVE-KB为作者提供了一个包含3000万个高置信度PSM的集合,这些数据之前用于训练作者的GLEAMS嵌入模型。这个数据集不仅包含由多种仪器生成的更多样化的肽段和MS/MS光谱,还包含额外类型的翻译后修饰。因此,作者使用相同的九个PRIDE数据集但包括七种不同类型的可变修饰(甲硫氨酸氧化、天冬酰胺脱氨、谷氨酰胺脱氨、N端乙酰化、N端氨甲酰化、N端NH3损失,以及N端氨甲酰化和NH3损失的组合)创建了一个新的九物种基准数据集。在此过程中,作者还修复了在先前基准中发现的几个问题,包括考虑同位素误差并消除在多个物种中出现的肽段。最终,修订后的基准数据集由343个RAW文件中的280万个PSM组成。


根据修订后的基准进行评估的结果表明,从更大规模的高质量PSM集合中训练的价值(图2b)。在MassIVE-KB数据集上训练后,Casanovo的平均精度从0.83提高到0.95。此外,Casanovo成功地使更多预测的m/z值落在观测前体的30 ppm范围内(由图2b中的菱形位置表示),比例从70%增加到97%。另外,对九物种基准数据集中所有de novo测序工具的光谱识别分析显示,Casanovo的正确PSM几乎包括了所有竞争de novo测序方法的正确识别,并且还额外多识别了约50%的仅由Casanovo正确识别的PSM。这一版本的Casanovo结合了束搜索解码,与相同模型的贪婪解码相比,束搜索解码提高了平均精度和覆盖率。


从某种意义上说,这样的比较并不公平,因为新版本基准中的某些光谱包含一些竞争方法无法识别的PTM。因此,作者从每个测试集中排除了这些光谱,并重新计算了精度-覆盖率曲线。结果基本没有变化,这表明PTM对观察到的整体性能差异贡献不大。


为了更好地理解为什么在MassIVE-KB上训练的模型优于在九物种基准上训练的模型,作者进行了两项后续实验。首先,作者在MassIVE-KB中随机抽样嵌套子集,范围从25万个光谱到全数据集的2800万个光谱,训练了一系列Casanovo模型。然后,每个模型都根据修订后的九物种基准进行评估。结果的学习曲线显示,测试集性能强烈依赖于训练集的大小,但在达到约一百万个PSM后,收益递减。其次,作者将一个从下采样的MassIVE-KB数据集训练的Casanovo模型与直接比较,后者平均包含9个在九物种基准上交叉验证的模型,这些训练集包含的肽段数量大致相同(Massive-KB为239,697,为246,713)。然后,作者使用修订后的九物种基准对两个模型进行评估。结果显示,从MassIVE-KB训练的模型明显优于,平均精度从0.83提高到0.90。因此,这些结果表明,MassIVE-KB模型的改进性能主要源于数据质量的提高,而不是数据集的大小。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Yilmaz, M., Fondrie, W. E., Bittremieux, W., Melendez, C. F., Nelson, R., Ananth, V., ... & Noble, W. S. (2024). Sequence-to-sequence translation from mass spectra to peptides with a transformer model. Nature Communications, 15(1), 6427.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章