【佳作推荐】康奈尔大学和勒纳研究所发表Nat. Biotechnol论文:预测蛋白质相互作用,并揭示疾病突变引起的蛋白质组扰动

学术   2024-12-06 08:55   上海  

精准医学旨在通过全基因组/全外显子组测序识别患者的特定变异,实现个性化治疗。然而,传统的统计分析方法虽然能够发现疾病相关变异,但由于需要庞大样本量且无法直接阐明变异的功能机制,在将基因组研究成果转化为临床应用时面临重大挑战。而疾病的发生往往源于蛋白质突变所导致的特定蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)网络被破坏,因此准确地预测和表征蛋白质突变后的相互作用对于精准医学具有重要意义。然而PPI预测领域面临着两个挑战:首先,蛋白质相互作用网络及其复杂,单个蛋白质通常会与不同的蛋白质产生多种相互作用;其次,目前只有约9%PPI数据通过实验或传统同源建模方法获得了结构模型。尽管新兴的深度学习方法(如AlphaFold系列)在预测PPI方面展现出巨大潜力,但在处理数十万规模的完整相互作用组时仍面临效率瓶颈。

为了助力将遗传学研究发现应用于疾病病理机制的解析和治疗方法的开发,康奈尔大学于海源团队联合勒纳研究所程飞雄团队提出了一种集成式深度学习框架,命名为PIONEERProtein-protein InteractiOn iNtErfacE pRediction)。PIONEER能够预测人类及其他七种常见生物中所有已知蛋白质相互作用的特定结合伙伴界面,从而生成全面的结构化蛋白质相互作用组,研究表明,PIONEER的预测性能优于现有的最先进方法。作者还基于PIONEER的预测结果,揭示了一些蛋白质相互作用与患者生存率和药物响应的显著关系。此外,作者还将PIONEER作为一个网络服务器平台和软件包实现,可用于识别与疾病相关等位基因的功能后果,为精准医学研究提供支持。近日,该研究成果以A structurally informed human proteinprotein interactome reveals proteome-wide perturbations caused by disease mutations”为题,发表于Nature Biotechnology期刊上【1】。
1.模型概述
为了应对数据中非随机缺失特征的问题,PIONEER采用了如图1所示的混合架构,该架构由四个模型组成:分别为结构-结构模型、结构-序列模型、序列-结构模型和序列-序列模型。根据目标蛋白和伙伴蛋白是否具有结构信息,PIONEER将选择不同的模型进行预测。(结构信息来自PDB数据库、ModBaseAlphaFold2数据库中准确度较高的结构。)当两种蛋白均具有结构信息时,PIONEER使用结构-结构模块进行预测,该模型利用带有ARMA(自回归移动平均)滤波器的GCNs(图卷积网络)嵌入结构信息,同时使用带有GRUs(门控循环单元)的双向RNNs(循环神经网络)嵌入序列信息。模型随后将每个残基的嵌入、目标蛋白的嵌入和伙伴蛋白的嵌入连接,并输入到全连接层进行预测,最终确定目标蛋白中每个残基的相互作用界面。当两种蛋白均没有结构信息时,PIONEER使用序列-序列模块进行预测,该模型仅使用带有GRUs的双向RNNs嵌入序列信息并进行预测。而对于仅有部分结构信息的情况,PIONEER采用迁移学习策略,将结构-结构和序列-序列模型中预训练的GCNsRNNs模型应用于结构-序列和序列-结构模型中,以最大化每次交互中可用的信息从而获得最佳的预测效果,并避免可能导致过拟合的潜在偏差。

1. PIONEER的模型架构示意图。(a)(b)分别用于预测两种蛋白质均具有结构信息以及均缺乏结构信息时的蛋白质界面,GCNsRNNs分别用于嵌入结构和序列信息;(c)(d)用于预测仅一种蛋白质具有结构信息的蛋白质界面,并将结构-结构与序列-序列模块中预训练的GCNsRNNs作为训练的初始点以提高模型预测效果。

作者在蛋白质界面预测中综合利用了单蛋白特征和特定交互伙伴特征,以更全面地表征蛋白质-蛋白质相互作用表面。单蛋白特征包括多种生物物理特性、进化序列保守性以及蛋白质的结构属性,这些特征能够有效地捕捉所有可能界面残基的基本特性。然而,仅依靠单蛋白特征无法区分蛋白质与不同伙伴蛋白结合时的蛋白质界面的具体残基,而这些界面残基往往与蛋白质执行不同生物功能密切相关。为了提高预测准确性,作者进一步引入了特定交互伙伴特征,从而能够更精准地预测针对特定伙伴的蛋白质界面。这些特征包括氨基酸序列的共进化信息、蛋白质-蛋白质对接结果以及对位势,能够揭示蛋白质与其特定交互伙伴之间的独特相互作用模式。

模型使用的数据来自于多个物种的二元蛋白质-蛋白质相互作用,涵盖了人类、拟南芥、酿酒酵母、果蝇、秀丽隐杆线虫、小鼠、分裂酵母和大肠杆菌等物种。其中具有共晶结构的PPI数据有9123条,来源为PDB数据库(https://files.wwpdb.org/pub/pdb/data/structures/divided/pdb)。没有共晶结构的PPI数据来源包括Interactome3D数据库(https://interactome3d.irbbarcelona.org) AlphaFold2数据库(https://alphafold.ebi.ac.uk)以及ModBase数据库(https://modbase.compbio.ucsf.edu)。训练时四个模型均使用交叉熵损失函数和Adam优化器,GCN和全连接层采用核激活函数。所有模型均以mini-batch方式进行训练,每次训练使用单个蛋白对。
2.模型性能评估
PIONEER在测试集上的结果如图2所示,无论是否具有结构信息,PIONEER的预测效果都要优于所有现有方法。首先,作者使用与结构-结构模型相同的测试集进行公平对比,结果如图2a所示, PIONEER在与当前最先进的结合伙伴特异性和及非特异性方法(如PeSToScanNetMaSIF-site)对比时,预测性能达到了最高的水平。非伙伴特异性方法无法区分蛋白质与不同结合伙伴作用时的具体接触界面残基,而PIONEER能够充分利用结合伙伴特定的信息,从而大大提高了预测的准确性。此外,PIONEER的序列-序列模型,在仅依赖序列信息的情况下,也超越了所有基于结构的最新方法,如PeSToScanNetBIPSPI+MaSIF-siteDeepPPISPSASNetPIPGCN等,该结果表明PIONEER使用单蛋白和伙伴特异性特征的强大优势。

2. PIONEER的性能评估。(a)结构-结构模块与其他基于结构的方法对比;(b)序列-序列模块与其他基于序列的方法对比;(c)消融实验;(d)AlphaFold2对于性能的贡献。

消融实验的结果显示SASA特征(溶剂可接触表面积)对预测的贡献最大,进化和共进化信息也能够显著提高模型的预测效果。PIONEER还利用AlphaFold2预测了部分无相关实验数据的蛋白质结构,并基于这些结构显著地提高了蛋白质界面的精度。而与其他基于AlphaFold2的方法(如AF2ComplexFoldDockAlphaFold-Multimer)相比,PIONEER在蛋白质界面预测中不完全依赖于AlphaFold2预测结构的质量,从而避免了这些方法由于界面区域建模中的小偏差而对界面残基预测造成较大的影响。更重要的是,PIONEER在计算时间和资源消耗方面大大优于AlphaFold2-based方法,使得PIONEER在大规模基因组研究中更具优势。
3.PIONEER预测蛋白质组界面和富含疾病突变界面
如图3a所示,作者使用PIONEER成功预测了256946个二元相互作用的蛋白质界面,涵盖了其中132,875个相互作用。预测过程中,研究者们针对每个蛋白质的每个残基进行了伙伴特异性界面预测,最终生成了超过2.75亿个残基相互作用对。这些预测结果与已知的实验或同源模型相结合,形成了一个结构丰富的多物种相互作用组,其中的每个相互作用都包含了伙伴特异性界面信息和尽可能的原子分辨率三维模型。

作者对该相互作用组进行了分析。结果如图3b, 3c所示,带电氨基酸在蛋白质接触界面中更加丰富,而某些残基如半胱氨酸、色氨酸等则出现频率较低。该结果与文献报道的结果一致,进一步证实了生物物理化学特性在蛋白质界面预测中的重要性。作者还进行了大规模的突变实验,使用高通量酵母双杂交(Y2H)技术测试了2395个突变对6754个突变相互作用对的影响。实验结果如图3d所示,PIONEER预测的界面突变所导致相互作用破坏的比例与已知实验界面相似,且显著高于已知非界面的破坏率。这些结果验证了PIONEER预测的准确性。

3. 基于PIONEER构建的多物种相互作用组。(a)多物种相互作用组构建流程;(b)(c)相互作用组蛋白质界面残基分布;(d)PIONEER预测和已知界面中变异所导致PPI被破坏的比例。

特定PPI的破坏是引发许多疾病发生的重要因素,作者进一步测量了人类基因突变数据库(HGMD)中已知疾病相关突变在PIONEER预测界面中的富集程度,并与共晶结构的已知界面进行比较。结果如图4a所示,其中高置信度的PIONEER预测界面与已知界面在疾病突变富集率上表现出相似的趋势。而图4b则揭示了群体遗传变异的分布中,PIONEER预测界面和非界面的分布与已知界面和非界面的分布非常匹配,并且在已知和预测的界面中,非有害变体的数量减少,表明PIONEER能够有效地识别并预测界面中的重要变异。作者还将1000基因组计划(1KGP)和外显子组聚集联盟(ExAC)以及HGMD的疾病相关突变进行对比,发现HGMD的疾病相关突变在蛋白质界面中富集率更高,说明PIONEER预测界面的群体变异比预测的非界面的群体变异更有可能对蛋白质功能产生不利影响,证明了有害变异优先出现在蛋白质相互作用界面。

4. PIONEER预测疾病突变的蛋白质界面。(a)不同预测置信度结果和已知界面中疾病相关突变的富集率;(b)PIONEER预测结果和已知数据中各类变异的分布;(c)1KGPExACHGMD疾病相关种系突变在蛋白质界面的分布;(d)界面具有疾病相关突变的实例。

为了进一步评估疾病突变相关是否在PIONEER预测的PPI界面富集,作者还将HGMD的疾病相关的种系突变按七大疾病类别分类,发现PIONEER预测的蛋白质界面在多个疾病类别中普遍富含疾病相关突变。进一步的分析通过展示几个典型的蛋白质界面突变(如LMNAPPIAVHL–HIF-2α界面突变),说明了PIONEER在识别与疾病相关的重要界面变异中的作用。这些结果表明,PIONEER不仅能够预测重要的蛋白质界面突变,还在分子和等位基因水平上为理解疾病机制提供了关键的结构信息。

4.PIONEER预测肿瘤相关突变

为了探究蛋白质界面突变与肿瘤的关系,作者分析了来自33种癌症类型的体细胞突变,并将其与PIONEER预测的蛋白质-蛋白质相互作用界面进行了关联。结果如图5a所示,这些突变在预测的蛋白质界面中显著富集,几乎所有癌症类型中界面区域的突变都要显著多于非界面区域,并且该结果在不同数据来源中保持一致,说明了PIONEER预测结果的稳定性。而在进一步的分析中,他们识别了586个肿瘤相关PPI并进行了生存分析,发现KRAS–NF1SPOP–PTEN等界面突变与特定癌症类型的较差生存率相关。作者还分析了335E3连接酶的4614个肿瘤相关PPIoncoPPI),并发现其中多个突变显著地影响了患者的生存率、药物反应和肿瘤生长。这些突变包括FBXL17ANAPC1–ANAPC2ITCH–BRAFSTUB1–SMAD4TRIM24–H3C1等。此外作者还通过实验验证了(如NRF2突变)对患者生存率的影响,结果表明PIONEER预测的oncoPPI突变在患者生存率、药物响应和肿瘤细胞增殖中均表现出显著关联。上述结果说明了PIONEER能够揭示肿瘤发生的界面突变,并为理解癌症进展和患者生存提供了重要线索。

5. (a)33种癌细胞的相关突变在蛋白质界面和非界面中的分布;(b)(c)突变FBXL17以及NRF2对于患者生存率的影响。

总结

本文提出了一个用于预测蛋白质相互作用的深度学习模型PIONEER,能够精准预测人类及七种模式生物的蛋白质-蛋白质相互作用(PPI)界面,预测效果显著优于现有的最先进方法。并且预测结果能够与实际应用相联系,在疾病机制阐述和癌症治疗中能发挥重要作用。PIONEER可作为网络平台和软件包供科研人员使用,未来将随着更多PPI的发现和结构数据的加入而不断优化。PIONEER为蛋白质界面研究、疾病机制探索、药物设计等领域提供了新的视角,并有助于弥合基因组数据与结构蛋白质组分析之间的差距。PIONEER网络服务器的网址如下:(https://pioneer.yulab.org)

参考文献

[1] Xiong D , Qiu Y , Zhao J , Zhou Y , Lee D , Gupta S , Torres M , Lu W , Liang S , Kang J , Eng C , Loscalzo J , Cheng F* and Yu H* . A structurally informed human proteinprotein interactome reveals proteome-wide perturbations caused by disease mutations[J]. Nature Biotechnology:1-15[2024-12-03].DOI:10.1038/s41587-024-02428-4.


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章