分子动力学(MD)模拟技术在研究蛋白-蛋白复合物的构象多样性和动态行为方面发挥了关键作用。然而,这种技术在采样效率和计算成本方面存在显著的局限性。为了突破这些局限,生成模型近年来得到了快速发展,并已广泛应用于蛋白质构象采样,但这些模型在深入挖掘蛋白-蛋白复合物的复杂构象景观方面仍有诸多限制。湖南大学曾湘祥课题组针对这一问题,开发了基于Transformer的生成模型框架,用于快速探索蛋白-蛋白复合物的构象集合。研究人员首先通过MD模拟获取蛋白-蛋白复合物的构象数据,然后训练AlphaPPImd模型学习模拟结果的数据分布,用于生成新的蛋白质构象集合。实验结果证明该模型能够生成超越MD时间尺度且较为合理的新构象,为探索蛋白-蛋白复合物的构象系综提供了新的视角。近日,该项研究工作发表在美国化学会出版的计算化学核心期刊Journal Of
Chemical Theory And Computation(J. Chem. Theory
Comput. 2024, 20, 4469−4480)【1】。研究人员首先通过MD模拟构建数据集,利用多段短MD轨迹进行训练。Barnase-barstar复合物存在非常强的蛋白-蛋白相互作用,故使用该复合物的晶体结构(PDB ID: 1BRS)在OpenMM中进行6次独立的100 ns MD,时间步长设置为2 fs,将轨迹数据分割成300个集合作为训练集,每个集合包含1000帧。随后对轨迹进行预处理,得到两条链的序列长度、序列组成和氨基酸残基类型,计算选定残基的扭转角和,采用basin编码【2】,将蛋白三维信息简化为文本信息。后续对氨基酸序列添加位置嵌入和生成帧嵌入,将basin编码帧与氨基酸在序列中的相对位置及其类型相关联。完成每一帧嵌入后,将其输入到模型的编码器模块进行特征提取。AlphaPPImd模型基于Transformer架构,利用多头注意力机制,使用两个编码器学习蛋白-蛋白复合物每条链的构象状态。解码器层学习和捕获不同类型和位置残基对蛋白-蛋白复合物构象的贡献程度,包括掩码多头自注意力层、归一化层和前馈神经网络层。注意力模块将蛋白-蛋白复合物的残基嵌入作为Q,将全局特征视为K和V,计算注意力权重。模型输出由和表示的复合物新状态,并通过Modeller解码为构象预测结果。研究人员从barnase-barstar复合物的MD轨迹中随机选取了1000帧构象,输入到模型中生成了1000个新的basin帧,并将这些帧重建为复合物的新构象,使用准确率、均方根误差(RMSD)、DockQ和新颖性进行性能评价。
图-1 AlphaPPImd模型架构
通过比较MD模拟和AlphaPPImd模型生成的蛋白-蛋白复合物构象与参考晶体结构的RMSD值(均小于2 Å),研究人员验证了AlphaPPImd具有生成接近真实结构的构象的能力,且大多数由模型产生的蛋白-蛋白复合物构象质量是可接受的(DockQ≥0.23)。
图-2 蛋白-蛋白复合物构象RMSD分布及生成的构象的DockQ评分
研究人员利用ProDy对从MD轨迹中随机选取的1000个构象和AlphaPPImd模型生成的1000个构象进行PCA分析,结果表明,在排除了DockQ评分低于0.23的模型后,深度生成模型能够覆盖MD轨迹未涉及的构象空间,生成新的构象。
图-3 PCA可视化结果
AlphaPPImd的注意力机制捕获了关键残基之间的注意力权重,权重越高表示相互作用越强。结果证明,barnase-barstar复合物两条链之间影响动态行为和构象的关键残基对通常位于蛋白-蛋白相互作用界面、loop区和螺旋区。接触图和距离图进一步揭示了蛋白质结构中残基间的相互作用强度和距离,其中接触图颜色越深表示更强的相互作用,而残基之间的距离越短,相互作用越强。
图-4 可解释性分析,包括注意力分数、接触图及距离图
研究人员选择MDM2-p53复合物验证模型的泛化能力,首先进行10次独立的30 ns MD,利用模型生成并重建出复合物的新构象。结果表明,AlphaPPImd模型成功捕捉到位于MDM2-p53相互作用界面上的关键残基,表明该模型可以推广到其他蛋白-蛋白复合物中。
图-5 MDM2-p53复合物新构象预测效果及关键残基捕捉小结:
本研究基于Transformer架构的生成模型,提出了一种加速蛋白-蛋白复合物构象采样的策略,成功生成了大量质量可接受的新构象,并通过注意力分数揭示了影响蛋白-蛋白复合物构象和动力学机制的关键残基。尽管生成模型在构象精度上可能不及分子动力学MD模拟所得的物理构象,但通过深入挖掘蛋白-蛋白复合物的MD轨迹数据,如将连续的接触图或距离图作为训练输入,有望提高生成构象的质量。综上所述,AlphaPPImd模型通过整合蛋白-蛋白相互作用的详细信息,不仅能够更精确地预测相互作用位点,还能有效地探索构象空间,弥补传统MD模拟的不足。通过这种增强的构象空间探索能力,AlphaPPImd模型有望揭示那些在传统MD模拟中可能被忽略的潜在结合模式和调节机制,为药物发现提供新的思路。参考文献
【1】 Jianmin Wang,
Xun Wang, Yanyi Chu, Chunyan Li, Xue Li, Xiangyu Meng, Yitian Fang, Kyoung Tai
No*, Jiashun Mao*, and Xiangxiang
Zeng*, Exploring the Conformational Ensembles
of Protein–Protein Complex
with Transformer-Based Generative Model, J. Chem. Theory Comput, 2024,
20 (11), 4469-4480. DOI: 10.1021/acs.jctc.4c00255
【2】Ariel Fernández, Artificial Intelligence Deconstructs Drug
Targeting In Vivo by Leveraging a Transformer Platform, ACS Med. Chem. Lett.,2021, 12 (7), 1052-1055. DOI: 10.1021/acsmedchemlett.1c00237