【佳作推荐】多伦多大学Philip Kim等人JCIM论文:一种用于抗体重链设计的基于分数的生成模型Antibody-SGM

学术   科学   2024-09-20 08:49   上海  

近几十年来,抗体因其公认的优秀特异性和对靶标高亲合性而成为针对疾病相关分子的极有希望的治疗候选药物然而抗体的设计因其复杂的结构、功能和抗原特异性而面临重大挑战。传统的抗体设计计算方法主要为随机突变,而后进行能量函数评估以筛选候选抗体。深度学习生成模型通过捕捉氨基酸之间的高阶相互作用为抗体的生成设计提供了一种更高效的替代方案。目前,已有多项基于扩散模型(Denoising Diffusion Probabilistic Model, DDPM)的抗体设计算法得到发表,然而这些方法通常仅关注主链结构或序列,导致对整体结构的描述不完整,容易在设计过程中引入偏差。多伦多大学Philip M. Kim等人针对这一问题,提出了Antibody-SGM,一种联合生成抗体主链结构与序列的基于分数的生成扩散模型,并通过多方面的测试证明了Antibody-SGM的有效性。近日,该项研究工作发表在美国化学会出版的Journal of Chemical Information and Modeling期刊上(J. Chem. Inf. Model. 2024, 64 (17), 6745–6757)。1

Antibody-SGM主要通过无条件生成抗体重链的可变区,并根据抗原设计重链的互补决定区(CDR)。图1展示了Antibody-SGM的整体架构。在经过SDE扩散过程加噪后,模型通过反向SDE扩散过程学习并生成真实的抗体约束,而后生成的蛋白质序列与约束传递给Rosetta进行固定骨架设计以及固定序列全原子优化,最终产生与约束相对应的蛋白质结构。

1 Antibody-SGM整体架构

Antibody-SGM使用6D特征表征蛋白结构(图2),包括Cβ-Cβ 距离 (d)、扭转角 (ω θ) 以及平面角 (ϕ),同时添加一额外的通道使用独热编码方式编码序列信息。作者在文章中提出,使用6D特征而非扭转角及旋转平移编码蛋白结构主要原因在于扭转角编码对于角度的微小偏差很敏感,在较大的蛋白质结构中可能会导致错误的累积。

2 Antibody-SGM 蛋白6D特征表示

对于抗体CDR区的生成,作者选择将抗原表位定义为额外的氨基酸残基,可以类似的6D特征形式对CDR区进行编码(图3)。为了实现这一生成任务,需要添加额外的标签通道对异链残基进行标记用以和同链残基进行区分。与图像修复类似,使用该方法可以对缺失的H1H2H3区域进行多样的合理设计。

3 异链间蛋白6D特征表示

模型的训练数据来自abYbankAbDbSAbDab。该三种数据集为广泛使用的抗体序列和结构数据集。无条件生成使用抗体重链数据集进行训练,其结构长度范围从 89128个残基。CDR 特异性修复模块使用来自 SAbDab 的抗原-抗体结合复合物进行训练。

训练完成后,作者对模型的性能进行了多方面的评估。对于模型的无条件生成,在10000个生成抗体结构中,大多数生成的数据在编码结构特征(d、ω、θ φ)方面与训练数据具有非常相似的分布。此外,作者还比较了生成数据和训练数据之间的序列相似性,大多数生成的数据与训练数据序列相似性超过 65%,表明生成的数据与训练数据同源。

为了评估模型在实际场景中的表现,作者使用模型设计了与磷酸化Tau (416-430) 复合的抗Tau抗体rb86fab片段 (PDB id: 5dmg)重链。作者评估了设计结构在500 ns的分子动力学模拟中的结构稳定性(图4)。计算出的RMSD曲线显示,重链原子在 200 纳秒后达到新的平衡位置。计算出的均方根波动 (RMSF) 曲线显示,设计的重链的 C 端片段比野生型重链结构中的 C端片段显示出更显著的结构波动。值得注意的是, Tau 肽与设计和野生型抗体结合时具有相似的 RMSD 曲线。设计和野生型抗体最具代表性簇的结构叠合表明,尽管两种抗体之间的肽构象略有差异,但Tau 肽的结合模式仍然稳定。

4 通过MD模拟评估无条件设计的抗体重链结合稳定性

在该项研究工作中,作者提出了一种基于分数的扩散模型的抗体重链序列及结构协同设计模型Antibody-SGM,可以实现抗体重链的无条件生成或以抗原为条件的CDR区设计与优化,在多方面的测试中展示了其在新抗体设计中的潜力。但同时模型也存在一定的优化空间:例如模型使用6D特征进行编码,虽然在一定程度上避免了结构上微小错误的累积,但是在下游环节需要Rosetta的结构还原和优化,模型无法进行端到端的优化,并且可能会在结构还原期间引入意想不到的偏差。同时,在文章中作者对模型生成结构与训练数据的相似性进行了诸多测试,对模型生成数据的新颖性以及多样性并未作充分的测试,有可能会导致模型仅能模拟训练数据中的结构而缺乏生成新颖结构的能力。但总体而言,模型在实际应用上的表现仍然可圈可点,在经过进一步的优化和测试之后,有望成为一种优秀的抗体设计算法,为新颖抗体设计提供新的思路。

参考文献

(1) Xie, X.; Valiente, P. A.; Lee, J. S.; Kim, J.; Kim, P. M. Antibody-SGM, a Score-Based Generative Model for Antibody Heavy-Chain Design. J. Chem. Inf. Model. 2024, 64 (17), 6745–6757.


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章