DRUGAI
今天为大家介绍的是来自复旦大学乔亮团队的一篇论文。蛋白质的糖基化是蛋白质由糖基修饰的一种翻译后修饰,在多种生理和病理细胞功能中起着重要作用。糖蛋白质组学是研究蛋白质糖基化在整个蛋白质组层面的科学领域,利用液相色谱串联质谱(MS/MS)获取糖基化位点、糖基化水平和糖链结构的综合信息。然而,现有的糖蛋白质组学数据库搜索方法在确定糖链结构时常常面临挑战,因为结构决定性离子的出现有限。虽然光谱搜索方法可以利用片段强度来促进糖肽结构的识别,但其应用受到光谱库构建困难的限制。在这项工作中,作者提出了DeepGP,这是一种基于Transformer和图神经网络(GNN)的混合深度学习框架,用于预测糖肽的MS/MS光谱和保留时间。它采用了两个图神经网络模块来捕捉分支糖链结构并预测糖链离子强度,还实施了一种预训练策略以缓解糖蛋白质组学数据的不足。在多个生物数据集上的测试表明,DeepGP能够准确预测糖肽的MS/MS光谱和保留时间,其结果与实验结果高度一致。在合成和生物数据集上的综合基准测试验证了DeepGP在区分相似糖链方面的有效性。基于各种去卷积方法,结合数据库搜索的DeepGP能够提高糖肽的检测灵敏度。作者预计DeepGP将激发糖蛋白质组学领域的广泛未来研究。
翻译后修饰(PTMs)极大地增加了蛋白质组的复杂性。糖基化影响了超过50%的哺乳动物蛋白质,是最重要的翻译后修饰之一,在多种生理和病理细胞功能中起着关键作用。在蛋白质的糖基化过程中,糖分子通常附着在天冬酰胺(N-连接糖基化)或丝氨酸/苏氨酸(O-连接糖基化)氨基酸残基的侧链上。与DNA、RNA和蛋白质等其他生物大分子不同,糖基的生物合成不依赖模板,这导致了在连接方式、数量和单糖组成上的多样性。这种异质性导致了多种糖肽变体的存在,从而在区分糖肽异构体时带来了巨大挑战。
迄今为止,液相色谱串联质谱(LC-MS/MS)是糖蛋白质组学研究中的主要技术。在MS/MS中,糖肽片段离子可以被生成,例如来自肽键断裂的b/y和c/z离子以及来自糖链断裂的B/Y离子。当前已经开发了各种搜索引擎,例如pGlyco系列、StrucGP、MSFragger-Glyco、O-Pair Search、Byonic、Glyco-Decipher、GPSeeker等。这些引擎大多通过将前体和片段的质荷比(m/z)与蛋白质序列和糖链结构或组成数据库进行比对来识别完整的糖肽。
近年来,深度学习在预测肽的MS/MS光谱方面引起了显著关注。各种基于深度学习的MS/MS光谱预测工具被开发,其中pDeep2通过根据其原子组成编码每种PTM,展现出良好的预测各种PTMs的肽MS/MS光谱的能力。然而,具有相同原子组成的糖链可以有不同的结构。因此,糖肽的MS/MS光谱预测成为最具挑战性的任务之一。
模型部分DeepGP的构建与训练
DeepGP模型的架构如图1a所示。
图 1
DeepGP将糖肽作为输入,编码糖肽的多个特征,包括糖链结构、氨基酸序列、翻译后修饰(PTM)类型、PTM位置和前体电荷状态。糖链结构通过GNN进行嵌入,其中糖链被转化为一个图,节点表示单糖,边表示单糖之间的连接。整个肽段也被视为一个锚节点(n0)。这种表示方式允许对糖链进行编码并生成输出矩阵,从而捕获糖链的组成和拓扑结构。肽的氨基酸序列以特定批次中最长的肽段确定最大填充长度,并使用零填充来扩展其他肽段的长度。填充长度的上限设置为512,是基于作者工作中使用的双向编码器表示转换器(BERT)的配置。糖肽的其他特征也嵌入到与氨基酸序列相同维度的矩阵中。随后,通过矩阵加法将所有特征集成以进行下游预测任务。
学习到的糖肽表示被输入到一个Transformer模块中,以预测MS/MS和保留时间(RT)。额外的GNN模块用于预测糖链片段离子的强度。Transformer的输出被汇总为一个向量,代表肽节点(n0)的嵌入。GNN模块用于生成节点嵌入,然后通过多层感知机(MLP)将其转化为边嵌入,以预测糖链B/Y离子强度。Transformer的输出也用于通过其他两个MLP分别预测b/y离子强度和RT。
图1b和1c展示了使用两个糖肽作为示例的预测性能。这两个糖肽共享相同的肽序列(ALSPNSTISSAPK)和糖链组成(Hex(3)HexNAc(4)Fuc(1)),但具有不同的糖链结构:一个是分支岩藻糖基化(图1b),另一个是核心岩藻糖基化(图1c)。结果表明,预测的光谱与对应的实验光谱高度相似。
DeepGP对糖肽MS/MS和保留时间的预测
图 2
通过对五种小鼠组织的数据集进行评估,验证了DeepGP在糖肽MS/MS预测中的性能。每个数据集依次作为测试数据集,其余四个数据集用于训练数据。DeepGP在糖肽MS/MS光谱预测中展现了卓越的准确性,预测的MS/MS光谱与实验光谱的中位余弦相似度在所有数据集中均超过0.95(图2a,Intact)。此外,作者有意从测试数据集中移除了训练数据集中的糖肽。尽管进行了如此严格的排除,与原始结果相比,作者观察到余弦相似度仅有轻微下降,从0减少到0.007(图2a,Test-only)。
作者随后将由五种小鼠组织数据集训练的DeepGP应用于外部数据集。Mouse_6由不同的实验室使用不同的质谱仪和碰撞能量生成。尽管实验条件不同,DeepGP仍保持了稳健的性能,中位余弦相似度达到0.932(图2b,Intact),接近Mouse_6和Mouse_1–5的实验重复糖肽MS/MS光谱之间的中位余弦相似度0.944(图2b,Exp)。此外,作者仔细确保训练数据集中(Mouse_1–5)存在的糖肽未包含在测试数据集中(Mouse_6)。值得注意的是,作者观察到余弦相似度没有变化,差异不到0.001(图2b,Test-only)。
为了解决数据集之间的差异,作者采用了微调以进一步提高MS/MS预测的性能。结果表明,微调显著提高了预测准确性,测试数据集的中位余弦相似度达到0.977(图2c)。作者还使用五种小鼠组织数据集与Mouse_6的子集(Run2,Run3)的组合训练了DeepGP,并将该策略称为组合学习。作者还将数据集划分为HILIC子集用于微调,非HILIC子集用于测试。在这种情况下,微调策略同样显著提高了预测准确性,并优于组合学习方法(图2d)。
区分相似糖链的组成
图 3
如图3所示,作者计算实验MS/MS光谱与预测MS/MS光谱之间的平方根余弦相似度(sqrt-COS),并报告具有最高sqrt-COS的匹配结果。在分析了pGlyco3识别的总共632个MS/MS光谱后,608个光谱与原始目标糖肽匹配,这展示了DeepGP在区分相似糖链组成方面的高分辨能力。
通过光谱匹配识别糖肽
图 4
DeepGP在五个小鼠数据集中的四个数据集上进行了训练,排除用于测试的数据集,并用于预测每个候选糖肽的MS/MS光谱。在小鼠肝脏数据集中,当错误发现率(FDR)在pGlyco3分析中设置为1%时,DeepGP报告的结果中有84.7%对应于所有候选糖肽中pGlyco3的最大TotalScore(图4a);当FDR在pGlyco3分析中设置为100%时,具有最大TotalScore的DeepGP报告结果比例下降到69.1%(图4b)。较高FDR下识别的光谱通常比低FDR下的光谱更不可靠,因此在基于DeepGP的重新分析中比率有所下降。作者对小鼠大脑数据集进行了类似的分析,在pGlyco3在1% FDR下,52.1%的DeepGP报告结果具有最大TotalScore(图4c),而在100% FDR下为47.2%(图4d)。随后作者利用了DeepGP、pGlyco3和StrucGP对两个小鼠数据集的识别结果进行了比较分析,如图4e, f所示,三种方法在糖肽识别方面存在很大差异,这至今仍是糖蛋白质组学中需要解决的问题。
在本研究中,作者测试了DeepGP在缺乏诊断离子的情况下识别糖链结构的能力。对于小鼠肝脏数据集,有867个MS/MS光谱符合标准。对于这些光谱,作者保留了来自DeepGP的具有最高sqrt-COS的前两个候选者。然后从实验MS/MS中去除可区分两个候选者的诊断离子,并在去除诊断离子后的实验MS/MS与预测MS/MS之间计算sqrt-COS,以展示具有更高sqrt-COS的结果(图4g)。在去除诊断离子的实验MS/MS情况下,传统的Y离子匹配方法不应能区分前两个候选者。然而,通过DeepGP预测MS/MS的光谱匹配,867个MS/MS光谱中的842个保留了其原始识别。
DeepGP增强糖肽识别的灵敏度
由于能够通过光谱匹配识别糖肽,作者进一步通过DeepGP重新评分,以探索其在糖蛋白质组学中的价值。作者采用了数据库诱捕法,使用pGlyco3对裂殖酵母糖蛋白质组数据集(Yeast_1和Yeast_2)进行搜索,针对包含4,299种糖链的大型糖链数据库。
图 5
如图5所示,当DeepGP补充pGlyco3的识别时,在特定虚拟比率下灵敏度显著增强。对于Yeast_1,Venn图显示DeepGP+pGlyco3涵盖了几乎所有pGlyco3识别的glycoPSMs( 99.5%)和糖肽(99.5%)(图5b),同时在虚拟比率为5%时还识别了大量额外的glycoPSMs( 172.6%)和糖肽( 172.1%)。
如图5e所示,对于小鼠大脑数据集,DeepGP + pGlyco3识别的glycoPSMs数量比pGlyco3多。在5%虚拟光谱比率下,结合的方法比pGlyco3多识别了3,314个glycoPSMs。Venn图说明了DeepGP + pGlyco3和pGlyco3在5%虚拟光谱比率下识别的glycoPSMs和糖肽(图5f)。DeepGP + pGlyco3识别了pGlyco3识别中92.3%的glycoPSMs以及38.7%的额外glycoPSMs。在糖肽水平上,DeepGP + pGlyco3识别了pGlyco3识别中93.9%的糖肽以及31.8%的额外糖肽。图5g, h展示了在小鼠肝脏数据集上类似的表现。
讨论
DeepGP是一种基于GNN和Transformer的混合深度学习框架,专为糖肽MS/MS和保留时间的预测而设计。由于糖蛋白质组学数据的稀缺性和识别标准的不一致性,DeepGP通过预训练策略和GNN来克服这些挑战。它在糖链连接异质性及其他糖肽特征的识别上表现出色,能够有效区分相似糖链,并通过重新评分提升糖肽识别的灵敏度。与其他模型相比,DeepGP在预测准确性和处理复杂修饰方面均具优势。随着质谱技术和数据分析工具的发展,DeepGP有望推动糖蛋白质组学领域的研究,增强对其异质性和复杂性的理解,帮助生物学家深入探索糖生物学。
编译 | 于洲
审稿 | 曾全晨
参考资料
Zong Y, Wang Y, Qiu X, et al. Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics[J]. Nature Machine Intelligence, 2024: 1-12.