语言模型Pro-PRIME设计高稳定性高活性蛋白
近日,上海交通大学洪亮教授领衔的联合科研团队,在《Science Advances》杂志上发布了Pro-PRIME模型。该模型是一个预训练的零样本小样本预测方法。经过湿实验验证,它在蛋白功能优化方面,能提升蛋白质的稳定性、活性,耐受性乃至选择性等性质。
正文
2024年诺贝尔化学奖一半给了AlphaFold2,它解决了蛋白结构预测问题。一个常识是:一条蛋白质序列只要突变1%,95%的新蛋白活性大幅降低甚至丧失功能。 而依赖MSA的AlphaFold2,去预测这些突变蛋白,它们结构基本没有变化。也就是说,依赖MSA的AlphaFold2对突变不敏感。基于AlphaFold2改进的AlphaMissense模型解决了此问题。
为了更好地解决蛋白突变或功能预测问题,上海交通大学洪亮教授团队提出了Pro-PRIME模型。
经湿实验检测,在5款蛋白质中(图一
),Pro-PRIME模型的零样本预测的top-45的单点突变阳性率都超过30%,其中有的是提高蛋白的催化活性,有的是热稳定性,有的是抵抗极端pH,有的是合成非天然底物的能力,说明该模型的通用能力。
而通过小样本微调方法,在不到100个湿实验样本下,2-4轮进化就能产生非常优异的蛋白突变体,例如T7 RNA聚合酶经过4轮干湿迭代,成功获得了具有高活性高稳定性的多点突变体,最高的多点突变体Tm高出野生型12.8℃,活性是野生的近4倍。
Pro-PRIME基于“温度感知”语言模型进行预训练,依赖9600万带有温度标签的蛋白质序列数据集,结合token层面的掩码语言建模(MLM)任务,和序列层面最优生长温度(OGT)预测目标,并通过多任务学习引入correlation loss项来对齐token和序列层面的任务信息,使得大模型更好地捕捉蛋白质序列的温度特征。这种方法使得PRIME倾向给予具备高温耐受性的蛋白序列,以优化其稳定性和生物活性。在完全没有湿实验数据的情况,可使用PRIME的零样本预测能力进行少量单点突变实验,随后使用实验数据迭代监督学习预测多点突变体。
综上所述,Pro-PRIME的通过结合深度学习和大数据资源,为蛋白质工程提供了一种高效且实用的新途径。它不仅提升了蛋白质突变稳定性和活性设计的成功率;还在资源有限的条件下,提高了实验效率。
文献
Fan Jiang et al. ,A general temperature-guided language model to design proteins of enhanced stability and activity. Sci. Adv.10,eadr2641(2024).DOI:10.1126/sciadv.adr2641
https://www.science.org/doi/10.1126/sciadv.adr2641
进群交流
进群请认真填问卷!
广告勿扰,广告勿扰。
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运