Nat. Commun. | 推理速度提升89倍!肽段测序π-PrimeNovo适用于宏蛋白质组学大规模应用

学术   2025-01-26 00:32   韩国  

DRUGAI

今天为大家介绍的是来自上海人工智能实验室,北京生命组学研究所,复旦大学团队合作的一篇论文。串联质谱(MS/MS)在蛋白质组学中的肽段测序是至关重要的。与传统的数据库搜索相比,深度学习在从头肽段测序方面表现出色,即使是对于在现有数据库中缺失的肽段也能很好地处理。目前的深度学习模型通常依赖自回归生成,但这种方法存在错误累积和推理速度慢的问题。在这项研究中,作者提出了π-PrimeNovo,这是一个基于非自回归transformer的肽段测序模型。通过精心设计的架构和用于精确质量控制的CUDA增强解码模块,π-PrimeNovo在准确性方面取得了显著提升,且推理速度比最先进的方法快至89倍,这使其特别适合宏蛋白质组学等大规模应用。此外,该模型在磷酸化肽的挖掘和检测低丰度翻译后修饰(PTMs)方面表现出色,这标志着肽段测序技术取得了重大进展,在生物学研究中具有广泛的应用潜力。

蛋白质组学中,蛋白质鉴定至关重要,而基于质谱的鸟枪法蛋白质组学已成为主要方法。这种方法通过酶解将蛋白质分解成肽段进行串联质谱分析,从而获得反映肽段序列和结构的光谱图。从这些光谱图中解析氨基酸序列是蛋白质鉴定的关键。目前,数据库搜索是主要方法,包括SEQUEST、Mascot、MaxQuant/Andromeda、PEAKS DB和pFind等工具。然而,这些方法依赖于完整的序列数据库,这限制了它们在单克隆抗体测序、新型抗原鉴定以及缺乏已建立数据库的宏蛋白质组分析等领域的应用。


在过去二十年中,各种从头肽段测序工具推动了该领域的发展。这些算法通过分析光谱中碎片离子之间的质量差异来推断氨基酸组成和修饰。早期方法如PepNovo和PEAKS采用图论和动态规划方法。DeepNovo引入了基于深度学习的模型,将用于光谱峰分析的CNN与用于序列处理的LSTM相结合。PointNovo通过顺序不变网络提高了预测精度,而Casanovo则应用transformer架构,将测序视为翻译任务。Casanovo V2后来在3000万光谱数据集上进行训练,以进一步提升模型性能。最近的创新如PepNet使用全卷积网络来提高速度,GraphNovo则使用图神经网络来解决缺失片段化的问题。尽管取得了这些进展,在鸟枪法蛋白质组学中,基于深度学习的从头测序在标准基准测试中的肽段召回率仍然较低,仅为30-50%。


目前,所有用于从头肽段测序的深度学习模型都基于自回归框架,这意味着每个氨基酸的生成都严重依赖于其预测的前置氨基酸,从而导致单向生成过程。然而,在肽段测序中双向信息的重要性是至关重要的,因为一个氨基酸的存在与其两个方向上的相邻氨基酸都有内在联系。在自回归模型中,早期氨基酸预测中的任何错误都可能产生级联效应,影响后续的生成。


模型架构

图 1


这项研究中,作者提出了π-PrimeNovo(简称PrimeNovo)(图1),它通过采用非自回归方法有效解决自回归方法的单向问题,这代表着对传统自回归方法的重大突破。这一创新是该领域首个基于非自回归transformer的模型。这种设计实现了序列的同步预测,为每个氨基酸提供了全面的双向上下文信息。PrimeNovo的另一个关键进展是集成了精确质量控制(PMC)单元,这一单元独特地兼容非自回归框架,利用前体质量信息生成受控且精确的肽段序列。这种精确质量控制与双向生成相结合,显著提高了肽段水平的性能。


PrimeNovo达到64%的平均肽段召回率

与Casanovo V2的方法类似,作者使用了包含约3000万个肽段-光谱匹配(PSMs)的大规模MassIVE-KB数据集作为训练数据。随后直接在九物种测试基准集上评估了PrimeNovo的性能。需要注意的是,像PointNovo、DeepNovo和Casanovo这样的基线模型最初是在九物种数据集上使用留一物种交叉验证(CV)策略进行训练。这种策略每次在八个物种上训练,在第九个物种上评估。为了进行公平的比较,作者也使用相同的CV策略在九物种数据集上训练了PrimeNovo,采用了与其他基线模型相同的数据划分方式。

图 2


如图2a所示,使用这种策略训练的PrimeNovo CV大幅优于其他基线模型。值得注意的是,即使仅在九物种基准数据集上训练,PrimeNovo CV已经达到了在大规模MassIVE-KB数据集上训练的Casanovo V2的性能水平。当在MassIVE-KB数据集上训练时,PrimeNovo在九物种基准测试的所有物种上都创造了最优结果(图2b和补充图6)。平均肽段召回率显著提升,从Casanovo的45%提高到Casanovo V2的54%,并进一步提升到PrimeNovo的64%。这比Casanovo V2提高了10%,比Casanovo提高了19%。在召回率-覆盖率曲线(图2a)中,PrimeNovo在所有覆盖水平和物种上都保持领先地位,再次确立了其在de novo肽段测序中的领先地位。在氨基酸(AA)水平上,PrimeNovo通过AA召回率和AA精确度的衡量,展现出明显更高的准确性。如图2c所示,PrimeNovo在所有九个物种的AA召回率上都优于Casanovo V2,提升范围在3%到6%之间。这种性能优势在AA精确度上也同样明显,详细比较结果在补充信息中提供。此外,作者还在Casanovo V2引入的修订版九物种测试集上测试了PrimeNovo,该测试集具有更高的数据质量和更大的光谱数量,覆盖了每个物种更广泛的数据分布。在这个更新的测试中,PrimeNovo的平均肽段召回率在所有物种上达到了75%,相比之前Casanovo V2的65%有显著提升。这些结果的详细比较可在补充图4中找到。原始和修订版九物种基准数据集的结果都突出显示了PrimeNovo在各种物种中准确预测肽段的能力,证明了其有效性和通用性。


PrimeNovo推理速度快

PrimeNovo作为一个非自回归模型,利用其双向信息集成和并行生成过程,在测序任务的各个方面展现出其优越性,不仅仅体现在高预测准确率上。首先,作者的非自回归模型在推理速度上相比类似规模的自回归模型有显著提升,这要归功于其并发生成过程。如图2d所示,在相同测试条件下(即使用相同的CPU和GPU配置的机器),即使不使用精确质量控制(PMC)单元,PrimeNovo也比不使用束搜索解码的Casanovo V2快3.4倍。在加入后预测解码策略后(PrimeNovo使用PMC,Casanovo V2使用束搜索),PrimeNovo在推理速度上的优势变得更加显著,比Casanovo V2快超过28倍。值得注意的是,考虑到不使用PMC的PrimeNovo在九物种基准数据集上已经比使用束搜索的Casanovo V2平均高出6%(如图2b所示),在不部署PMC时用户可以获得高达89倍的速度提升,同时在预测准确率上只需做出极小的牺牲。作者还研究了其他因素,如批量大小对速度的影响,这些结果包含在补充信息中。


PrimeNovo卓越的预测稳健性

PrimeNovo在各种挑战下都表现出卓越的预测稳健性,包括光谱中不同程度的峰缺失、不同的肽段长度,以及容易混淆的氨基酸组合。为了说明这种稳健性,作者基于输入光谱中缺失峰的程度和目标肽段中氨基酸的数量,对九物种基准数据集上的预测进行了分类。每个光谱中缺失峰的计算遵循Beslic等人之前研究中概述的方法,即基于真实标签计算所有潜在y离子和b离子的理论m/z值,并确定这些理论峰中有多少在实际光谱中缺失。如图2e所示,随着光谱中缺失峰数量的增加,预测准确率下降是可以预料的。然而,PrimeNovo在所有缺失峰水平上都始终表现出优越的性能,并持续优于Casanovo V2。同样,图2f显示,无论预测的肽段长度如何,PrimeNovo相比Casanovo V2都保持着更高的准确率。在图2g中,作者进一步观察到PrimeNovo在准确预测那些由于质量相近(<0.05 Da)而难以识别的氨基酸方面表现出色。具体来说,所有四种相似氨基酸的氨基酸精确度平均比Casanovo V2高出超过10%。特别是在K和氧化M氨基酸上,精确度优势都超过了18%。


模型消融实验分析

作者进行了消融研究,以调查模型在九物种基准数据集上各个组件所带来的性能提升。从图2h可以看出,从自回归模型转变为非自回归模型时,肽段召回率提高了2%。当引入PMC时,性能提升显著增加(7%),这是因为在这类任务中可控生成很重要,能够提高生成序列的准确性。值得注意的是,当从CV训练数据转换到MassIVE-KB数据集时,非自回归模型带来的性能提升最为显著,这表明大量增加的训练数据对于学习测序任务中的潜在双向模式非常重要。最后,作者发现使用PMC配合增强训练数据能够达到最高的预测准确率,这进一步证明了PMC在不同数据可用性情况下的重要性。


PrimeNovo在各种MS/MS数据源中展现出强大的泛化能力和适应性

由于生物样本、质谱仪参数和后处理程序的差异,MS/MS数据可能会有显著变化,不同MS/MS数据集之间经常存在大量的分布偏移。为了展示PrimeNovo在各种不同MS/MS数据上的有效泛化能力以及在多种下游任务中的表现,作者对一些最广泛使用的公开可用MS/MS数据集进行了评估。随后将结果与当前最先进的模型Casanovo和Casanovo V2进行了比较。除了前面讨论的九物种基准数据集外,作者还选择了三个代表不同数据来源和应用场景的重要MS/MS数据集:PT、IgG1-Human-HC和HCC数据集,这些数据集的详细信息包含在补充材料中。

图 3


作者首先评估了PrimeNovo在零样本场景下的表现能力,即在不对模型进行任何特定调整以匹配目标数据集特征和分布的情况下进行测试。如图3a和补充图8所示,当直接在三个不同数据集上测试时,PrimeNovo在肽段召回率方面显著优于Casanovo V2和Casanovo。具体而言,PrimeNovo在PT、IgG1-Human-HC和HCC数据集上分别比Casanovo V2高出13%、14%和22%。与Casanovo相比,这种性能差距进一步扩大到30%、43%和38%。对于IgG1-Human-HC数据集,作者遵循文献7的方法,展示了每种人类抗原类型的评估结果,如图3b所示。PrimeNovo在所有六种抗原类型中都始终优于Casanovo V2,肽段召回率提升范围在9%到20%之间。作者进一步研究了在未见数据集上的氨基酸水平准确性。从图3c可以看出,PrimeNovo在模型输出的所有置信度水平上都具有显著的AA水平精确度优势。这表明PrimeNovo在预测氨基酸的存在和位置方面表现更好。


为了进一步评估零样本设置下的性能差异,作者使用各个数据集中MaxQuant鉴定的PSMs作为基准。然后比较了每个从头测序算法预测的PSMs与MaxQuant鉴定的PSMs之间的重叠数量。如图3d所示,Casanovo在HCC数据集上表现较差,仅有8个PSMs与MaxQuant结果重叠。相比之下,Casanovo V2识别出9050个重叠的PSMs,而PrimeNovo预测出高达22499个与MaxQuant鉴定结果完全匹配的PSMs。在PT数据集上,PrimeNovo、Casanovo V2和Casanovo与MaxQuant搜索结果的重叠PSMs数量分别为34747、26591和16814个。PrimeNovo展现出更加一致的预测行为,与高质量的传统数据库搜索肽段鉴定软件的结果高度一致。


接下来,作者研究了PrimeNovo在微调设置下的泛化能力。微调涉及快速调整模型以适应来自目标分布的新训练数据,而无需从头开始训练过程。这种方法允许模型利用其从最初训练的大型数据集中获得的知识,并通过最少量的额外训练将其应用到更具体的任务或领域。作者在PT和HCC训练数据集上对PrimeNovo进行了微调,以评估模型的适应性。为了衡量额外数据数量对微调性能的影响,作者分别使用了100、1000、10000和100000个额外数据点进行微调。作者还在相同设置下对Casanovo V2进行微调,以公平比较两个模型的适应性。如图3e右侧所示,增加用于微调的额外数据确实能提高模型在相应测试集上的预测准确率,因为模型对数据中的分布细微差异有了更好的理解。相比之下,PrimeNovo展现出更强的适应新数据分布的能力,在微调后比零样本场景达到更高的准确率。在相同的微调条件下,它始终优于Casanovo V2,当微调达到最佳性能时(图3e),在HCC和PT测试集上的肽段召回率分别高出18%和12%。值得注意的是,只有在微调过程中加入10000个以上的额外MS数据点后,预测准确率才会出现显著提升,这表明了未来涉及其他数据分布的微调工作的推荐数据规模。


需要注意的是,微调过程可能导致模型遗忘训练集中的原始数据分布,这被称为灾难性遗忘。如图3e左侧所示,当仅使用目标数据进行微调时,随着加入更多的数据样本,九物种基准数据集上的性能会出现显著且逐渐的下降(虚线所示)。然而,当目标数据与原始训练数据混合时,灾难性遗忘得到缓解,这从图3e右侧的虚线可以明显看出。确实,与使用混合数据进行微调相比,仅使用目标数据进行微调在目标测试集上能带来相对更高的性能提升(图3e中的实线),当用于微调的新数据量较大时,这种差异可达15%。


通过使用单一数据集对模型进行微调然后在其他数据集上测试,作者探索了不同数据集对之间数据分布的相似性和差异性。这种方法为了解各个MS/MS数据集之间的关联程度,以及模型在某一数据集上训练后知识迁移的程度提供了有价值的见解。在图3g中,不出所料,当训练和测试数据来自相同数据源时,模型表现出最强的迁移能力。值得注意的是,作为作者模型和Casanovo V2共同的训练集,MassIVE-KB在所有其他测试集上展现出最高的平均肽段召回率(65%)。这可归因于MassIVE-KB数据集包含了多样化的MS/MS数据源,覆盖了广泛的不同MS/MS数据。PT数据集的平均肽段召回率为56%,也被认为是一个具有良好迁移能力的高质量数据集。它已被用于多个其他从头测序模型的训练。然而,在HCC和九物种基准数据集上训练的模型对其他测试数据集的泛化效果不佳。九物种基准数据集仅覆盖了这九个物种的MS/MS数据且数据规模相对较小,而HCC数据集则特定于人类肝细胞癌。此外,作者观察到用九物种基准数据集和MassIVE-KB数据集训练的模型在应用于HCC数据集时表现相对较差,这表明它们的数据分布存在显著差异。


最后,作者对PrimeNovo与当前从头测序领域的其他方法进行了对比分析,以说明其方法的进步和有效性。作者的对比模型包括基于图的神经网络GraphNovo和基于CNN的神经网络PepNet,这些模型从不同角度利用最新的深度学习技术来解决问题。值得注意的是,GraphNovo和PepNet都是在各自指定的训练和测试数据集上训练其相应的模型版本。因此,作者采用了零样本评估方法,在它们各自的测试集上测试PrimeNovo,并将结果与它们报告的性能进行比较。作者仔细检查了所使用的数据,确保作者的训练数据集与GraphNovo和PepNet使用的测试集之间没有重叠。对于GraphNovo使用的三物种测试集,PrimeNovo在肽段召回率方面表现出显著改进,在A. thaliana、C. elegans和E. coli物种上分别超过GraphNovo 13%、13%和11%(见图3f)。此外,在PepNet测试集上测试时,当预测电荷为2和3的肽段时,PrimeNovo在肽段召回率上分别比PepNet高出14%和24%。


PrimeNovo有效的纠错机制

图 4


为了全面理解模型的行为,并分析PrimeNovo如何利用光谱数据得出最终结果,作者采用了一些最新的模型可解释性技术,详细检查了模型的每个组成部分。作者首先对PrimeNovo的encoder网络的注意力行为进行可视化,并将其与Casanovo V2进行比较。encoder的作用至关重要,因为它负责从光谱中提取特征,这显著影响了模型对输入光谱数据的利用效果。如图4a所示,Casanovo V2主要将大部分注意力权重分配给第一个输入位置(在peak token序列开始处添加的特殊token)。其余token的注意力权重稀疏、微弱,且主要集中在对角线方向。这种行为表明Casanovo V2主要在其特殊token中编码信息,对其他peak位置的利用有限。相比之下,PrimeNovo在不同输入peak之间展现出良好分布的注意力模式,每个peak都具有不同程度的信息密度。此外,作者观察到PrimeNovo的注意力更多地分配在与真实标签的b-y离子对应的peak上,这些peak是解码光谱最关键的信息(详见补充图19)。这突显了PrimeNovo能够更有效地从其认为重要的token中提取信息的能力,并且这种行为在所有九层中都保持一致。


此外,作者对两个模型的encoder网络所学习的Value矩阵进行了数值比较。Value矩阵投影中的每一列代表一个隐藏特征。为了评估Value矩阵中特征的多样性,作者计算了每对列之间的平均余弦相似度。如图4a中的柱状图所示,PrimeNovo的特征向量之间表现出更低的相似度,这一点从图中较低的平均余弦相似度值可以看出。这表明作者的模型的Value矩阵包含了更广泛的信息和更多样化的特征集。这一发现可能为模型的优越性能提供了额外的解释。关于Value矩阵投影正交性的更全面评估是通过测量Gram矩阵的范数来进行的(见补充图18)。


由于作者的非自回归模型一次性预测整个序列,因此可以检查九个模型层如何逐步改进整体序列预测。作者从模型的每一层解码整个序列,并观察氨基酸是如何随时间演变的。如图4c所示,氨基酸水平的准确性从第七层到第九层出现显著提升,且在每一层都呈现持续上升趋势。这表明每一层的预测准确性都在不断提高。通过研究图4b中的案例,作者发现这种准确性的提升是通过分层自校正机制实现的。在这个过程中,每一层逐渐调整整个序列中错误预测的氨基酸,使其更合理,更接近真实答案。非自回归模型使每个氨基酸能够参考周围氨基酸的信息,这一特性有助于在各层之间进行准确和有效的校正。PMC作为最后的错误防护,通过选择最符合质量约束的最可能序列来纠正模型预测错误。这个过程产生了与最后一层输出略有不同的序列,最终得到正确答案。


作者还采用了特征贡献技术显著性图谱来分析每个peak对预测结果的影响。这种技术生成贡献分数,可以快速查看每个peak对预测的影响。peak的贡献分数越高,表示对结果的影响越大。在PT测试集中,作者计算了每个光谱中所有peak的贡献分数。随后,根据贡献分数对所有peak进行降序排序,并选择了前10个peak。使用与这些光谱相关的已知肽段序列,通过自研脚本生成了所有可能的片段离子(仅考虑1+和2+离子)。然后,作者将前10个peak的m/z值与所有可能的片段离子的m/z值进行比较,如果差异在0.05 Da以内则视为匹配。最后,计算了可匹配的前10个peak的百分比。如图4d所示,约40%的光谱的匹配百分比超过50%。重要的是,作者的模型不仅关注主要peak,还考虑了内部片段离子。例如(图4e),在对应肽段序列SLEDLIFESLPENASHKLEVR的光谱中,贡献分数最高的前10个peak中,七个是b离子,其余三个分别对应中间片段离子FE((b8-c6)+)、LIFES((b9-b4)+)和PEN((x11-x8)+)。这些结果表明作者的模型从光谱中学习了一些有助于肽段推断的信息peak。


为了分析光谱中哪些peak导致模型产生错误预测,作者通过高亮显示与模型预测对应的离子peak来对光谱进行可视化。如图4f所示,Casanovo V2的预测序列主要将其y离子与输入光谱peak对齐,而很少有计算得到的b离子与输入peak对齐。这种行为是自回归模型从右向左预测方向的结果,这使得选择y离子peak进行预测更为自然。然而,由于光谱中存在噪声,当y离子被错误选择时,这种预测方法可能导致错误,如图4f所示。相比之下,PrimeNovo的预测表现出与输入光谱中的b离子和y离子都有对齐。这是因为作者的模型预测过程利用了双向信息,使其能够有效利用序列两端的peak信息。此外,作者进行了详细分析以识别最后一层预测错误的具体peak。这是通过计算每个输入peak的基于梯度的贡献分数来实现的,该分数通过梯度的大小来确定,作为哪个输入对输出影响更大的有力指标。如图4f左角所示,整个光谱中最高的贡献分数恰好与PrimeNovo错误预测的b离子对应的peak相吻合,这个关键信息被作者的PMC单元捕获并纠正。

编译|黄海涛

审稿|王梓旭

参考资料

Zhang, X., Ling, T., Jin, Z., Xu, S., Gao, Z., Sun, B., ... & Sun, S. (2025). π-PrimeNovo: an accurate and efficient non-autoregressive deep learning model for de novo peptide sequencing. Nature Communications, 16(1), 267.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章