DRUGAI
为了推动基因发现向疾病发病生物学和治疗发现的转化,研究人员提出了一种集成深度学习框架,称为PIONEER(Protein–protein InteractiOn iNtErfacE pRediction),可预测人类及七种常见模式生物中已知蛋白质相互作用的结合位点特异性界面,从而生成全面的结构信息驱动的蛋白质相互作用组。研究人员证明了PIONEER在预测精度上优于现有的先进方法,并通过实验验证了其预测结果。研究表明,疾病相关突变在PIONEER预测的蛋白质相互作用界面中富集,并探讨了这些突变对疾病预后和药物响应的影响。通过对约11,000个全外显子组的分析,研究人员发现586个显著的蛋白质相互作用(PPI)富含PIONEER预测的界面体细胞突变(称为oncoPPIs),并显示这些oncoPPIs与患者生存率和药物响应具有显著关联。PIONEER既作为一个网络服务器平台,也作为一个软件包实现,可识别疾病相关等位基因的功能后果,提供一种适用于精确医学的多尺度相互作用组网络深度学习工具。
Main
精准医学激发了大量聚焦于全基因组/全外显子组测序(WGS/WES)和开发统计分析工具的重大举措,旨在识别患者的可操作变异。大量DNA/RNA测序数据的核心在于其功能解释,这主要依赖于传统统计分析和性状/表型观察。统计学在指导识别疾病相关变异方面至关重要;然而,传统的WGS/WES研究在疾病风险变异/基因和药物靶标发现方面常常能力不足,因为通常需要非常大的样本量。此外,统计方法并不能直接揭示变异的功能后果。因此,使用传统统计方法将遗传和基因组研究成果转化为精准医学面临诸多挑战。
最佳信息需要了解突变蛋白所处的整个蛋白质相互作用(PPI)网络或相互作用组。平均而言,每个蛋白质直接与10-15种其他蛋白质相互作用;因此,任何突变的功能后果在相互作用组之外难以预测。先前的研究表明,大多数疾病突变破坏了特定的PPI,而不是影响突变蛋白涉及的所有相互作用。准确表征这些破坏对理解大多数疾病突变的病因至关重要。因此,确定全蛋白质组尺度上所有蛋白质相互作用的结构细节,尤其是相互作用界面的位置,对精准医学具有根本性的重要意义。实现这一目标的一个明显局限是,目前只有大约9%的蛋白质相互作用通过实验或传统同源建模方法获得了结构模型。基于AlphaFold方法的共同复合物结构预测正快速发展,体现在AlphaFold-Multimer、AF2Complex和FoldDock等模型上,但这些方法均耗时且无法扩展以解决包含数十万个PPI的完整相互作用组。此外,需要注意的是,基于AlphaFold2的FoldDock只能为大约2%的人类相互作用生成高质量模型。
研究人员提出了一种集成深度学习流程,称为PIONEER(Protein–protein InteractiOn iNtErfacE pRediction),用于生成下一代实验确定的PPI的结合伙伴特异性相互作用界面预测。通过结合现有的原子分辨率共晶结构和同源模型,研究人员建立了一个全面的多尺度结构信息驱动的人类相互作用组,其中包含来自人类及其他七种常用模式生物的282,095个相互作用,包括16,232个人类蛋白质的所有146,138个实验验证的PPI。利用这一资源,研究人员在PPI界面的结构信息驱动相互作用组中,在氨基酸分辨率下研究了与疾病相关的突变的网络效应,并进一步探讨了PPI在人体疾病中的广泛扰动及其对肿瘤预后和药物响应的显著影响。这一新构建的结构信息驱动相互作用组数据库随后与疾病相关突变和功能注释相结合,创建了一个用于全基因组功能基因组学研究的交互式动态网络服务器(https://pioneer.yulab.org),允许用户使用PIONEER框架按需执行界面预测。此外,研究人员将PIONEER框架转换为一个软件包向社区开放,以加速生物学研究。
结果
PIONEER的混合深度学习架构
迄今为止,绝大多数相互作用(约91%)仍然缺乏可靠的结构信息。为应对这一关键限制,研究人员构建了PIONEER流程,以生成没有结构信息的所有相互作用的结合伙伴特异性蛋白质界面预测。研究人员构建了用于训练、验证和测试分类器的标注数据集,特别优先选择同一蛋白质与多个结合伙伴通过不同界面相互作用的实例,以便模型更好地预测伙伴特异性界面。此外,要求任意两个数据集之间没有同源相互作用,以保证模型的稳健性、泛化能力以及评估结果的公正性。
研究人员使用了单蛋白和结合伙伴特异性特征的综合集合进行界面预测,这两组特征结合了生物物理、进化、结构和序列信息,对界面进行了深入表征。具体而言,单蛋白特征包括多种生物物理特征、进化序列保守性和蛋白质结构属性。然而,虽然这些单蛋白特征能够捕获所有可能的界面残基的特征,但它们无法区分蛋白质通过不同的结合伙伴蛋白与界面残基之间的关系,从而实现不同的生物学功能。研究人员先前已说明,涵盖伙伴特异性特征对伙伴特异性界面预测的重要性。因此,PIONEER的伙伴特异性特征包括氨基酸序列的协同进化、蛋白质对接和配对势。此外,研究人员将AlphaFold2预测的单蛋白结构引入PIONEER,以显著提高缺乏实验确定结构的蛋白质的结构特征覆盖率。
为了解决无法通过常用插补方法充分解决的非随机缺失特征问题,PIONEER框架采用了四种深度学习架构的集成,包括结构-结构、结构-序列、序列-结构和序列-序列模型。结构-结构模型用于双方蛋白均有结构信息的相互作用,而序列-序列模型则用于无结构信息的蛋白质相互作用。否则,根据交互中的蛋白质是否具有结构信息,采用结构-序列或序列-结构模型。这样可以最大限度地利用每个相互作用的可用信息,从而获得最佳的界面预测结果,同时避免可能导致过拟合的潜在偏差。
对于具有可用结构的蛋白质,PIONEER使用一种混合架构,将图卷积网络(GCNs)与自回归移动平均(ARMA)滤波器嵌入的结构信息与双向循环神经网络(RNNs)和门控循环单元(GRUs)嵌入的序列信息结合。对于没有高质量结构模型的蛋白质,仅通过带有GRUs的RNN嵌入序列信息。通过迁移学习,结构-结构模型中的预训练GCNs和RNN以及序列-序列模型中的RNN分别在结构-序列模型和序列-结构模型中应用于具有或不具有结构信息的蛋白质。此外,对于目标蛋白中的每个残基,PIONEER的独特架构结合了每个残基、整体蛋白质以及整体结合伙伴蛋白的嵌入,以实现最准确的界面预测。
PIONEER的基准评估
评估结果显示,PIONEER在预测具有或不具有结构信息的蛋白质界面方面,优于所有现有方法。研究人员首先使用与结构-结构模型相同的测试集来评估所有模型,以确保比较的公平性。结果表明,结构信息的引入显著提高了性能。随后,研究人员将PIONEER与结合伙伴特异性和非伙伴特异性的方法进行了对比,以全面评估其相较于当前最先进方法的表现。非伙伴特异性的方法(如PeSTo、ScanNet和MaSIF-site)会对不同的结合伙伴产生相同的界面预测,即使它们结合于蛋白质的不同位点。研究人员对所有方法的评估均为伙伴特异性,因为研究人员认为伙伴特异性信息对于许多生物学和生物医学应用非常重要。
值得注意的是,仅依赖序列信息的PIONEER的序列-序列模型,其预测性能优于所有最新的基于结构的方法,如PeSTo、ScanNet、BIPSPI+、MaSIF-site、DeepPPISP、SASNet和PIPGCN。这些方法大多数已使用了前沿的深度学习模型,表明使用单蛋白和伙伴特异性特征的全面集合的强大优势;也验证了研究人员在混合架构中包含GRU的RNN的设计选择,即使对于已知结构的蛋白质也是如此。有趣的是,研究人员还发现,即使是研究人员先前开发的含有结构信息的ECLAIR方法,其性能也显著优于上述基于结构的方法,并达到了第二高的表现。
研究人员在基准测试数据集上评估了PIONEER和ECLAIR的整体性能,发现带有ECLAIR特征的PIONEER模型明显优于ECLAIR,这证实了PIONEER独特的混合深度学习架构在特征信息捕获方面优于先前基于随机森林的模型。此外,向PIONEER模型添加新特征进一步提高了预测性能,表明新特征在蛋白质界面预测中的出色表现。这些改进清晰地展示了新的深度学习架构和特征对PIONEER的卓越PPI界面预测能力的重要贡献。研究人员通过特征显著性分析评估了PIONEER架构中不同特征的贡献。由于结构-结构模型使用了最全面的特征集,研究人员通过逐步去除每个特征重新训练模型,以进行特征显著性评估。结果表明,完整的PIONEER模型性能最佳,每个特征都对预测有所贡献,其中溶剂可接触表面积(SASA)特征贡献最大,协同进化和保守性信息也有显著贡献,强调了生物学特征在界面表征中的重要性。研究人员还比较了相对SASA与绝对SASA对界面预测的效果,发现相对SASA更具信息量。此外,加入AlphaFold2预测的无实验结构蛋白质显著提高了PIONEER的界面预测性能。
最近开发了几种基于AlphaFold的方法(如AF2Complex、FoldDock和AlphaFold-Multimer)来生成多链蛋白质复合体的结构模型。然而,它们计算量巨大,难以扩展到整个相互作用组。相比之下,PIONEER的运行速度比AF2Complex、FoldDock和AlphaFold-Multimer分别快约1,000倍、2,000倍和5,500倍,且内存消耗仅为它们的21.20%、18.24%和15.18%。显著的时间和资源效率优势确保了PIONEER在整个相互作用组中的适用性。基于不同pLDDT分数的性能比较显示,AlphaFold方法的性能随着pLDDT分数的提高而改善。然而,PIONEER并不依赖AlphaFold2预测结构的质量,即便从低质量结构区域中也能学习到有价值的信息,彰显了其稳健性。值得注意的是,不同于专注于寻找界面残基的PIONEER,AlphaFold方法侧重于预测整个复合物结构,即使小的偏移也可能显著影响界面残基预测。在一个示例中,AlphaFold方法将两种蛋白质放置在不同的复合物构象中,与已知实验结构不同,导致界面残基的错误分类。PIONEER和AlphaFold方法在应用上有根本区别:在基因组规模研究中,PIONEER显示出最佳的界面残基预测性能,是唯一适合整个PPI相互作用组建模的选择;而AlphaFold方法更适合研究特定PPI或复合体,特别是在需要三维原子模型的情况下。此外,与AlphaFold方法不同,用户可以轻松地根据自身需求修改和重新训练PIONEER模型,甚至在单GPU上实现,这确保了PIONEER对研究人员的高灵活性。
研究人员进一步在广泛使用的预测相互作用关键评估(CAPRI)基准诱骗集Score_set上应用了PIONEER。该数据集包含来自细菌、酵母、脊椎动物和人工设计蛋白质的对接模型,经过处理后,数据集中包含11个靶标及15,003个诱骗模型:12,986个不正确、732个可接受、799个中等质量和486个高质量预测。研究人员使用界面上PIONEER预测得分的平均值作为模型质量的评估标准,以测试PIONEER评估蛋白质复合物模型质量的能力。结果显示不同质量的诱骗模型之间有明显的区分,说明PIONEER的界面残基预测为模型质量提供了清晰的信号。
PIONEER的蛋白质组界面预测
研究人员整合了常用数据库(包括BioGRID、DIP、IntAct、MINT、iRefWeb、HPRD和MIPS)中的信息,汇编了人类及七种模式生物(拟南芥、酿酒酵母、果蝇、秀丽隐杆线虫、小鼠、裂殖酵母、大肠杆菌)的实验验证的二元PPI集合。研究人员专注于二元相互作用,因为界面的概念仅在两种蛋白质直接结合时适用。然后,研究人员使用完全优化的PIONEER流程,预测了256,946个无实验结构或同源模型的二元相互作用的界面,其中包括132,875个人类相互作用。由于为每个蛋白质的每个残基进行伙伴特异性界面预测,平均每个蛋白质有超过10个相互作用,最终预测了超过2.75亿个残基相互作用对。通过将PIONEER界面预测与25,149个已知实验或同源模型相结合,研究人员生成了一个多尺度结构化的人类相互作用组,其中所有相互作用均包含残基级别的伙伴特异性界面信息,以及尽可能的原子分辨率3D模型。进一步分析发现,带电残基在界面中更为丰富,而半胱氨酸、色氨酸、甲硫氨酸和组氨酸等残基在界面中较少,这些结果与先前的统计结果一致,进一步说明了生物物理化学特性在蛋白质界面预测中的重要性。
为全面评估预测界面的质量及其生物学意义,研究人员进行了大规模突变实验,以测量在不同置信水平下PIONEER预测界面中突变引发的相互作用破坏比例,与PDB中已知界面和非界面残基的破坏率进行比较。通过高通量酵母双杂交(Y2H)分析,研究人员在1,141种蛋白质上生成了2,395个突变,并检验了这些突变对6,754个突变相互作用对的影响。结果显示,PIONEER预测界面中的突变破坏PPI的频率与已知实验确定的界面中的突变非常相似,且显著高于非界面残基,表明PIONEER界面预测的高质量和流程的有效性。由于相互作用破坏对于理解疾病突变的分子机制至关重要,实验结果表明PIONEER预测的界面对疾病相关变异的优先排序和提出具体机制假设具有重要意义。
PIONEER预测的富含疾病突变的界面
由于特定PPI的破坏是许多疾病突变致病性的重要因素,研究人员进一步测量了人类基因突变数据库(HGMD)中已知的疾病相关突变在PIONEER预测界面的富集情况,并与已知的共晶结构界面进行了比较。结果发现,PIONEER高置信度预测的残基在疾病突变富集率上与已知界面相似,且在所有256,946个二元相互作用中,约98%至少包含一个或多个落入高或非常高置信度类别的预测界面残基。这表明PIONEER为几乎所有人类PPI提供了有意义的结构信息。每个置信度更高的界面预测区间更可能包含疾病相关突变,说明PIONEER预测评分与蛋白质功能之间的强相关性。进一步分析了群体遗传变异的分布,发现PIONEER预测的界面和非界面中的富集情况分别与已知界面和非界面相匹配。结果还表明,无害的常见变异在已知和预测界面中均呈现耗竭状态,表明PIONEER有效预测了功能上重要的界面变异。此外,与1KGP和ExAC中的个体变异相比,HGMD中的疾病相关突变更显著地富集于PPI界面。根据CADD和FoldX的预测,PIONEER界面中的群体变异比非界面变异更可能对蛋白质功能产生不良影响,这一发现确认了有害变异更倾向于发生在蛋白质-蛋白质界面。
为了进一步评估疾病相关突变在PIONEER预测的PPI界面中的富集情况,研究人员将HGMD中的疾病相关生殖系突变分为七大疾病组,包括自身免疫、癌症、心血管、代谢、神经、肺部以及其他类别。研究人员识别了10,753个PPI,其中5,684种蛋白质至少含有一个疾病相关的界面生殖系突变,其中约91%的相互作用在一侧蛋白质上含有界面突变(另一蛋白质标记为“邻近”),约9%在相互作用双方蛋白质上均有界面突变。这一网络分析显示,PIONEER预测的PPI界面因广泛的疾病相关突变而发生改变,跨越多个疾病类别。为突显PIONEER预测界面的功能,研究人员进一步分析了三种具有生殖系等位基因的PPI界面:LMNA和BAF的界面中的p.Lys542Gln突变与早衰症相关;PPIA–SYUA界面中的p.Ala53Glu突变与早发性帕金森病患者相关;HIF-2α界面中的p.Gly537Arg突变与真性红细胞增多症相关,并通过抑制HIF-2α的泛素化和蛋白酶体降解来破坏VHL结合。这些结果表明,PIONEER预测的蛋白质相互作用界面突变在分子和等位基因层面上提供了关键结构信息,有助于解析疾病机制的功能后果。
PIONEER预测的33种癌症类型中的oncoPPI
在癌症类型中的33种中,研究人员利用PIONEER预测的蛋白质相互作用界面,分析了癌症患者的体细胞突变,发现这些突变在PPI界面区域显著富集。通过对11,000个肿瘤中的170万个错义体细胞突变的分析,结果显示在几乎所有癌症类型中(包括突变负荷高低不一的类型),界面区域的突变显著多于非界面区域。这一富集模式在不同数据来源(实验结构、同源模型、PIONEER预测)中一致,验证了PIONEER预测的稳健性。
进一步分析识别出586个显著富集体细胞突变的oncoPPIs,这些界面突变与患者生存率显著相关。在广泛的临床数据集中(MSK-MET队列),研究发现特定oncoPPI突变(如KRAS–NF1和SPOP–PTEN)在癌症类型中与患者生存率密切相关。通过PIONEER预测的oncoPPI网络,研究人员还揭示了其他关键相互作用(如CCND1与CDK4、TSC2的独特界面),实验验证结果显示,不同界面突变可分别影响不同结合伙伴,从而引发癌症发生的特定分子机制。
PIONEER预测的肿瘤等位基因对E3泛素连接酶的泛素化影响
E3泛素连接酶通过靶向蛋白降解参与细胞转化和肿瘤发生。研究人员分析了4,614个由PIONEER预测的oncoPPI,这些相互作用涉及355个来自E3Net和UbiNet2.0数据库的E3连接酶。随后,研究聚焦于204个与患者生存率和药物响应显著关联的oncoPPI。
在这些oncoPPI中,FBXW7拥有最多的oncoPPI。研究发现,PIONEER预测的FBXL17–KEAP1界面突变(如KEAP1的p.Ser102Leu)在非小细胞肺癌中显著与生存率降低相关。另一个RING E3连接酶复合物ANAPC1–ANAPC2受PTEN/PI3K/AKT通路调控,与细胞周期的泛素依赖性进程相关。PIONEER预测的ANAPC1–ANAPC2突变在PI3K抑制剂BKM120的耐药性中表现显著。
研究还发现HECT型E3连接酶ITCH在BRAF激酶的泛素化和黑色素瘤细胞增殖中起重要作用。PIONEER预测的BRAF–ITCH界面突变,如p.Val600Glu和p.Lys601Glu,显著与对dabrafenib的敏感性相关。此外,研究发现U-box型E3连接酶STUB1在SMAD4降解过程中具有重要作用,PIONEER预测的STUB1–SMAD4界面突变(如p.Gly419Arg和p.Leu540Pro)与结直肠癌的生存率显著相关。
另一个重要的E3连接酶TRIM24作为乳腺癌中过表达的致癌共转录因子,PIONEER预测的TRIM24–H3C1界面突变与对EGFR信号抑制剂GDC0941的耐药性相关。EGFR抑制剂可抑制TRIM24表达和H3K23乙酰化,进而抑制EGFR驱动的肿瘤生长,支持了PIONEER预测的oncoPPI结果。
KEAP1作为E3连接酶的适配器蛋白,负责感知氧化应激并介导NFE2L2/NRF2的降解,NRF2在多种癌症中是关键的转录因子。非小细胞肺癌患者中,PIONEER预测的NRF2界面突变(如p.Thr80Lys)显著影响NRF2与KEAP1的结合,从而保护NRF2免于泛素化和降解,促进肿瘤细胞增殖。总体而言,PIONEER预测的oncoPPI突变在患者生存率、药物响应和肿瘤细胞增殖中均表现出显著关联。
讨论
本文提出了一个综合性的多尺度结构化相互作用组框架和Web服务器PIONEER,将基因组级数据与结构蛋白质组分析无缝结合。基于集成深度学习框架,PIONEER能够精准预测人类及七种模式生物中所有PPI的伙伴特异性相互作用界面,表现优于包括先前开发的ECLAIR在内的其他方法。大规模统计分析和突变实验表明,PIONEER预测的界面在生物学上与已知界面相似,并显示出显著意义。进一步分析显示,PIONEER在揭示疾病病理生物学方面发挥了重要作用:PIONEER预测的界面突变在癌症和疾病突变中富集,与癌症患者的生存率和肿瘤细胞系及PDX模型中的抗癌响应高度相关。PIONEER既可作为网络服务器平台,也可作为软件包供广泛科研社区采用和进一步开发。
当前的人类二元相互作用组远未完整,尽管已有大量实验和计算方法(如HuRI、BioPlex、OpenCell、PrePPI、HIGH-PPI)投入用于识别人类蛋白质的相互作用对。随着更多人类PPI的发现,PIONEER将定期更新,以对新增的PPI进行界面预测。此外,蛋白质序列资源的增长速度远快于结构资源,即使PIONEER可通过序列信息进行预测,但结构信息的引入显著提升了性能。因此,PIONEER在缺乏结构信息的蛋白质上未能发挥其全部潜力。未来,PIONEER的性能可通过整合PrePPI的结构信息和蛋白质语言模型表示进一步优化。此外,探索捕获蛋白质几何信息的模型也是值得关注的领域。
随着测序技术的迅速进步和TCGA、精准医学计划、阿尔茨海默病等大规模基因组/外显子组测序项目的推进,PIONEER生成的结构化相互作用组将有助于弥合基因组数据与结构蛋白质组分析之间的差距。凭借高质量和全面的蛋白质界面图谱,PIONEER为研究突变在蛋白质界面中引发的生物物理效应提供了宝贵的扩展方向,包括疾病病因学、药物优先排序和特定疾病病理生物学的预测。PIONEER生成的结构化相互作用组的伙伴特异性属性也使得基因的多效性效应成为可能。因此,PIONEER框架不仅推动了广泛的研究,且在药物设计和治疗领域中开辟了潜在的新途径。
整理 | WJM
参考资料
Xiong, D., Qiu, Y., Zhao, J. et al. A structurally informed human protein–protein interactome reveals proteome-wide perturbations caused by disease mutations. Nat Biotechnol (2024).
https://doi.org/10.1038/s41587-024-02428-4