Sci. Adv|语言模型Pro-PRIME设计高稳定性高活性蛋白

文摘   2024-11-29 07:45   广东  

语言模型Pro-PRIME设计高稳定性高活性蛋白


近日,上海交通大学洪亮教授领衔的联合科研团队,在《Science Advances》杂志上发布了Pro-PRIME模型。该模型是一个预训练的零样本小样本预测方法。经过湿实验验证,它在蛋白功能优化方面,能提升蛋白质的稳定性、活性,耐受性乃至选择性等性质。

正文

2024年诺贝尔化学奖一半给了AlphaFold2,它解决了蛋白结构预测问题。一个常识是:一条蛋白质序列只要突变1%,95%的新蛋白活性大幅降低甚至丧失功能。 而依赖MSA的AlphaFold2,去预测这些突变蛋白,它们结构基本没有变化。也就是说,依赖MSA的AlphaFold2对突变不敏感基于AlphaFold2改进的AlphaMissense模型解决了此问题。

为了更好地解决蛋白突变或功能预测问题,上海交通大学洪亮教授团队提出了Pro-PRIME模型。

经湿实验检测,在5款蛋白质中(图一),Pro-PRIME模型的零样本预测的top-45的单点突变阳性率都超过30%,其中有的是提高蛋白的催化活性,有的是热稳定性,有的是抵抗极端pH,有的是合成非天然底物的能力,说明该模型的通用能力。

而通过小样本微调方法,在不到100个湿实验样本下,2-4轮进化就能产生非常优异的蛋白突变体,例如T7 RNA聚合酶经过4轮干湿迭代,成功获得了具有高活性高稳定性的多点突变体,最高的多点突变体Tm高出野生型12.8℃,活性是野生的近4倍。

图一. Pro-PRIME在5款蛋白质上的湿实验结果,其中上面3个蛋白质只做了单点突变,下面两个蛋白质Cas12a和T7 RNA聚合酶在不超过4轮干湿迭代下做到10-15点位突变体

Pro-PRIME基于“温度感知”语言模型进行预训练,依赖9600万带有温度标签的蛋白质序列数据集,结合token层面的掩码语言建模(MLM)任务,和序列层面最优生长温度(OGT)预测目标,并通过多任务学习引入correlation loss项来对齐token和序列层面的任务信息,使得大模型更好地捕捉蛋白质序列的温度特征。这种方法使得PRIME倾向给予具备高温耐受性的蛋白序列,以优化其稳定性和生物活性。在完全没有湿实验数据的情况,可使用PRIME的零样本预测能力进行少量单点突变实验,随后使用实验数据迭代监督学习预测多点突变体。

图二. Pro-PRIME的预训练方法和单点突变零样本预测方法,以及干湿迭代策略

综上所述,Pro-PRIME的通过结合深度学习和大数据资源,为蛋白质工程提供了一种高效且实用的新途径。它不仅提升了蛋白质突变稳定性和活性设计的成功率;还在资源有限的条件下,提高了实验效率。

文献

Fan Jiang et al. ,A general temperature-guided language model to design proteins of enhanced stability and activity. Sci. Adv.10,eadr2641(2024).DOI:10.1126/sciadv.adr2641

https://www.science.org/doi/10.1126/sciadv.adr2641

进群交流

进群请认真填问卷!

广告勿扰,广告勿扰

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于AI蛋白相关的论文解读&学术速运


历史文章

  1. AlphaFold3 图解

  2. AlphaFold3 万字长文解读

  3. AlphaFold3 预测蛋白突变亲和力变化?

  4. 一文看懂 Binder 设计

  5. 蛋白结构和序列的共同设计

  6. 深度学习如何助力抗体设计

  7. 蛋白计算海内外课题组汇总

  8. Meta AI 蛋白语言模型ESM系列

  9. COMPSS 酶蛋白从头设计的筛选方法

  10. 简述酶的定向进化

  11. Cell 综述:从头蛋白设计之结构到功能

  12. CSH 综述文章:结构预测与蛋白设计

  13. CSH 综述文章:蛋白质序列的生成模型

  14. Nat. Biotech. 蛋白设计专刊

  15. Nat. Biotech. 深度学习与功能蛋白设计

  16. Nat. Biotech. 功能蛋白从头设计的星火

  17. ProteinBench 蛋白设计最全的Benchmark

  18. ProteinGym 蛋白突变最好的Benchmark

  19. DiG 预测蛋白构象分布

  20. MaSIF 基于表面指纹的蛋白从头设计

  21. SaProt 结构感知的蛋白质语言模型

  22. InstructPLM 语言模型与逆向折叠的结合

  23. CRISPR-GPT 基因编辑的大模型智能体

AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章