多肽由于其良好的生物活性和较低的毒性,一直是新药开发的重要来源。 计算工具和算法的发展在预测多肽结构、相互作用和药代动力学特性方面起到了至关重要的作用,促进了肽类药物的开发。分子动力学模拟和分子对接等传统方法使研究人员能够探索多肽的构象空间并以较高的精度预测其与靶蛋白的亲合性。然而,由于多肽结构的灵活性和蛋白质-多肽复合物结构数据的稀缺,多肽配体的设计仍然具有挑战性。最近,北京大学来鲁华研究小组针对这一问题,从大量蛋白-蛋白复合物界面数据中整理出了一个大型数据集PepPC-F,并开发了一种基于SE(3)-等变扩散模型的序列-结构协同设计的生成模型DiffPepBuilder。该模型能够在已知作用界面的情况下设计结合多肽的结构和序列并在结构中引入二硫键稳定多肽构象,并且设计的多肽配体在多项测试中表现良好。近日,该项研究工作发表在美国化学会出版的计算化学核心期刊Journal of Chemical Information and Modeling期刊上【1】。 DiffPepBuilder的架构如图1所示。模型将完整受体蛋白作为输入,并根据用户指定的结合位点信息生成初始的蛋白-多肽复合物结构,而后该初始复合物结构输入后续扩散模块中。其中每个残基被参数化为刚体,经过逐步推理得到全原子结构,其中多任务解码器的输出为平移和旋转分数、预测的残基类型、预测的扭转角和熵。而后,基于得到的氨基酸残基序列与结构,DiffPepBuilder识别熵超过指定阈值的多肽残基,在二硫键片段库中搜索匹配的几何构象,并用二硫键连接的半胱氨酸残基替换原始残基,得到最终多肽配体的序列与结构。
图1:DiffPepBuilder模型架构
模型的训练在人工收集的合成蛋白-多肽复合物结构数据集——PepPC-F上进行。作者从PDB中收集蛋白-蛋白复合物的结构,并提取在界面上被包埋的多肽片段。其中提取的基本假设为,在游离配体蛋白中暴露并在与靶蛋白结合时被包埋的肽片段,代表了良好的结合多肽。这些多肽配体片段与其相应的受体蛋白共同构成了PepPC-F数据集。PepPC-F数据集中的多肽配体长度限制为8至30之间,类似于PepBDB等数据库【2】,其中的多肽被划分为螺旋肽(螺旋占比>0.5)与非螺旋肽. 经过冗余和数据清洗后,PepPC-F中有14,897个复合物,包括4,241个螺旋肽和10656个非螺旋肽。 模型训练完成后,作者对模型在重现已知蛋白-多肽复合物中的多肽配体方面进行了测试。为此,作者构建了一个外部测试集PepPC-F (PepPC High binding Affinity),其中包含30个非冗余蛋白-多肽复合物,具有高分辨率结构(小于2.5 Å)和较强的亲合性。对于这30个非冗余蛋白质-多肽复合物,DiffPepBuilder生成的多肽配体的平均L-RMSD为4.76 Å,而RFdiffusion+ProteinMPNN与AfDesign分别为13.62和10.76 Å。此外,DiffPepBuilder可以生成与原始多肽配体序列相似的多肽,其最佳平均序列相似度为52.38%,而RFdiffusion+MPNN和AfDesign设计序列的平均最佳相似度分别为45.03%和33.72%。图2a和2b中展示了L-RMSD与序列相似度的分布,结果表明DiffPepBuilder在重现测试上表现良好。
图2:重现测试中,DiffPepBuilder生成多肽配体相较原始多肽配体L-RMSD与序列相似度分布
作者随后对DiffPepBuilder从头设计多肽配体的能力进行了测试(图3)。 进行测试的靶标分别为3CLpro、ALK1 和 TNF-α。测试结果表明,除3CLpro靶点上稍差于RFdiffusion+MPNN外(MM/PBSA计算的结合自由能ddG分别为-23.38与-23.16kcal/mol),其余两个靶点上DiffPepBuilder生成多肽配体的结合自由能与多样性pTM-score均优于其余两模型生成的多肽配体。
图3: DiffPepBuilder多肽配体从头设计测试中的表现(图3a、3c和3e分别为在3CLpro、ALK1和 TNF-α三个靶点上多肽的结合ddG、包埋不饱和氢键、非极性残基暴露比率和8-15个残基结合ddG的分布
此外,为了克服线性肽在溶液中不稳定且与受体蛋白结合时熵损失较大的情况,作者在生成神经网络后引入了SSBuilder模块,用以设计生成多肽中的二硫键。在以上三种测试情景中,作者进一步使用DiffPepBuilder生成含二硫键的多肽分子进行比较分析。作者对每个生成的多肽配体进行了100 ns的MD模拟,并计算了轨迹最后20 ns的平均RMSD,结果如图4所示。在生成3CLpro多肽配体的算例中,SSbuilder构建了两个二硫键,其中一个将某loop区域的起始和结束处联结为环状结构,另一个位于环状loop与alpha-螺旋连接的铰链区域,稳定了螺旋结构。在生成TNF-α多肽配体的算例中,模型生成的二硫键也位于两个螺旋结构之间的铰链区,将两个螺旋结构锚定在一起,从而使RMSD 从 5.6 Å降低至 3.4 Å。在ALK靶点上,具有二硫键的多肽配体倾向于保留或形成更稳定的氢键和疏水相互作用,不仅具有明显较低的结合自由能,而且 L-RMSD 也较小。
图4 DiffPepBuilder生成多肽配体中二硫键影响的案例分析
小结:作者通过构建多样化、高质量的蛋白-多肽数据集PepPC-F在一定程度上缓解了蛋白质-多肽复合物数据稀缺的问题,并开发了数据驱动的基于扩散的生成模型 DiffPepBuilder。测试结果表明DiffPepBuilder能够生成构象与天然配体相似度较高的多肽配体,并具有探索更优结合自由能的多肽的潜力。为了稳定结合构象,DiffPepBuilder增加了SSBuilder模块在生成的多肽配体中构建二硫键。分子动力学模拟和MM/PBSA计算表明:在生成的多肽配体分子中整合二硫键确实可以稳定其结合构象并增强其亲合性。针对三个药物靶点的多肽配体从头设计结果表明:DiffPepBuilder在性能上优于现有方法,在生成具有强结构多样性以及高亲合性的多肽配体方面表现出色。但是DiffPepBuilder目前仅包含二硫键作为构象限制方法,未来有望通过引入更多元的环化方法拓宽设计多肽分子的应用范围,结合训练数据集的扩增,进一步提高模型的性能。
参考文献:
(1) Wang, F.; Wang, Y.; Feng, L.; Zhang, C.; Lai,
L. Target-Specific De Novo Peptide Binder Design with DiffPepBuilder. J.
Chem. Inf. Model. 2024, acs.jcim.4c00975.
(2) Wen,
Z.; He, J.; Tao, H.; Huang, S.-Y. PepBDB: A Comprehensive Structural Database
of Biological Peptide-Protein Interactions. Bioinformatics 2019, 35(1), 175–177.