Nat. Methods | 独立于预训练结构预测模型的去噪扩散网络用于蛋白质从头设计
学术
2024-10-20 20:02
北京
大家好,本周为大家分享一篇发表在Nature Methods上的文章De novo protein design with a denoising diffusion network independent of pretrained structure prediction models,通讯作者是来自中国科学技术大学的刘海燕/陈泉教授团队,他们的主要研究方向是蛋白质设计。
蛋白质从头设计的主要问题是生成可设计且物理上合理的蛋白质结构,即存在某些氨基酸序列能够折叠至这一结构。最近RFdiffusion在广泛的实验测试中取得了无与伦比的性能,它采用了去噪扩散概率模型(DDPM),通过对预训练的结构预测网络RoseTTAFold进行微调以实现不同的主链去噪任务。然而,DDPM对预训练结构预测网络的依赖导致它对真实数据外的分布不敏感,即可能生成某些不可设计的骨架结构。因此开发新训练的DDPM以补充RFdiffusion等模型是有价值的。本文作者设计了SCUBA(sidechain unknown backbone arrangement,侧链未知骨架排布)-diffusion模型(SCUBA-D),该模型使用被不同水平噪声破坏的天然蛋白质结构作为初始骨架进行训练,模型内部使用AF2类似的单一序列表示(Single rep.)和二维的结构成对表示(Pair rep.)。在训练过程中,通过AF2使用的FAPE loss衡量结构偏差,通过预训练的ESM模型衡量序列偏差,且成对表示用于更新单一表示,以促使模型学习到序列知识。除此之外,模型还通过两个判别器对抗模型纳入了两种对抗性损失,用于检查局部的骨架构象和残基间的包装是否合理。训练的SCUBA-D模型随后可接受随机噪音、草绘的粗糙骨架结构和带有预定义基序的噪音作为输入。通过随机噪音作为输入,作者证明了SCUBA-D无条件生成蛋白的性能可类比RFdiffusion,且能够探索额外的结构空间,设计含有更多β片层的骨架;通过草绘的骨架排布作为输入,作者证明了SCUBA-D可以设计具有重复结构域的骨架,且也能推广到天然蛋白质以外的结构空间;通过提取天然蛋白中的血红素结合位点和Raf-Ras相互作用界面处的两个Raf片段,作者展示了SCUBA-D还可用于设计新的血红素结合蛋白和Ras结合蛋白。这些设计均经过了实验验证。总之,与其他仅考虑恢复原始数据分布的DDPM不同,作者训练的SCUBA-D网络额外考虑了最小化对抗性损失,以提高生成骨架的可设计性,且避免了预训练结构预测网络的固有偏差,与现有的蛋白质设计模型形成了很好的互补。原文链接:https://www.nature.com/articles/s41592-024-02437-w文章引用:DOI:10.1038/s41592-024-02437-w