近日,宋杰课题组与上海交通大学洪亮教授团队合作,在《Science Advances》杂志上发布了突破性研究成果——Pro-PRIME模型。该模型通过自建预训练模型实现零样本预测和小样本微调方法,在蛋白质功能优化领域实现了前所未有的低成本短时间显著提升蛋白质的性质。经湿实验验证,Pro-PRIME的预测准确率超越传统高通量筛选十倍以上,成功开发出多款具有高活性和超高稳定性的蛋白质突变体,部分性能超越全球生物科技巨头的同类产品。这一成果标志着蛋白质工程进入了一个全新AI落地时代,打开了生物制药和工业应用的新局面。
在本研究中,以FANA聚合酶Tgo-D4K 为起点,我们利用Pro-PRIME系统地筛选了 Tgo-D4K 不同结构域中的潜在突变位点。最终,在27个有希望的突变位点中筛选出了12个FANA聚合能力更强的突变体,并且发现了一种能够将Tgo-D4K聚合速率提高约3.2倍的突变体。
论文链接:https://www.science.org/doi/10.1126/sciadv.adr2641
研究背景
1
蛋白质功能预测
2024年的诺贝尔化学奖奖励给了DeepMind,由于DeepMind团队开发的AlphaFold2解决了生物学上长达大半个世纪的难题,蛋白质序列到三维结构的预测。后Alphafold时代,蛋白质科学的关键问题是什么?一定是蛋白质功能,因为只有具备好的功能(高活性,高选择性,高稳定性)才能成为商业化的蛋白产品。然而蛋白质功能预测非常困难。一个常识是:一条蛋白质序列只要改变1%,获得的新蛋白95%活性大幅降低甚至完全没有生物功能,而用AlphaFold2去预测这些序列的结构基本没有变化。这表明蛋白质结构不等于功能,结构是功能的必要非充分条件,而且非常不充分。
为了解决蛋白质功能预测,上海交通大学洪亮教授组织的联合团队(上海交通大学自然科学研究院,物理天文学院,药学院,张江高等研究院,生命科学技术学院,上海人工智能实验室,华东理工大学信息与科学工程学院,上海科技大学生命科学与技术学院)在过去几年长期致力于数据收集,清洗,打标签,AI模型探索,打造了Pro系列,并以《A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity》为题发表在《Science Advances》期刊上。
经湿实验检测,在5款蛋白质中(图1),Pro-PRIME模型的零样本预测得到的top-45的单点突变阳性率都超过30%,这比传统高通量随机筛选高出十倍以上的准确率。其中有的是提高蛋白的催化活性,有的是热稳定性,有的是抵抗极端pH,有的是合成非天然底物的能力,说明该模型的通用能力。而且通过小样本微调方法,在不到100个湿实验样本下,2-4轮进化就能产生非常优异的蛋白质突变体,例如T7 RNA聚合酶经过4轮干湿迭代成功获得了具有高活性和高稳定性的多点突变体,最高的多点突变体Tm高出野生型12.8℃,活性是野生的近4倍,且部分产品性能超越国际领先的生物科技公司统治市场10年之久的同类产品。
2
非天然核酸FANA聚合酶
Tgo是从嗜热菌Thermococcus gorgonarius中筛选出来的一种DNA聚合酶。TGO最先被发现能够用于FANA的合成,但是只能以~15 nt/min的速率催化DNA模板上的FANA合成,该速率远低于其合成DNA的速率(~400 nt/min),这限制了FANA在信息存储、疾病治疗等领域的成为DNA替代品的可能。FANA聚合酶的进化不仅需要对结合亲和力,而且还需要对催化活性和进行性进行全面评估。FANA区别于DNA和RNA的独特的化学和生物物理特性,也给FANA聚合酶的进化带来了挑战。迄今为止,FANA聚合酶的进化仅依赖于体外的随机突变方法,例如区室化自我复制(CST)等。利用CST策略得到的Tgo-D4K是目前为止合成速率最快的FANA聚合酶,能够以~80±27 nt/min的速率在DNA模板上延伸FANA,但这仍然远低于Tgo合成DNA的速率。因此,需要方法来对现有的聚合酶进行进化以筛选具有更高FANA合成速率的聚合酶。
图1.Pro-PRIME在5款蛋白质上的湿实验结果
研究方法
Pro-PRIME(Protein language model for Intelligent Masked pretraining and Environment prediction)模型能够在不依赖提前实验数据的情况下,预测特定蛋白质突变体的性能改进。Pro-PRIME基于“温度感知”语言模型进行训练,依赖9600万带有温度标签的蛋白质序列数据集,结合token层面的掩码语言建模(MLM)任务,和序列层面最优生长温度(OGT)预测目标,并通过多任务学习引入correlation loss项来对齐token和序列层面的任务信息,使得大模型更好地捕捉蛋白质序列的温度特征。这种方法使得PRIME天然地倾向给予具备高温耐受性的蛋白序列更高的分数,以优化其稳定性和生物活性。Pro-PRIME模型,在完全没有湿实验数据的情况,首先使用PRIME的零样本预测能力进行少量单点突变的测试,随后使用实验数据迭代监督学习预测多点突变体,在总共不超过4轮湿实验迭代,只进行几十个突变体实验情况下成功设计多款性能优异的蛋白质。
图2. Pro-PRIME的预训练方法和单点突变零样本预测方法,以及干湿迭代策略
研究结果
Pro-PRIME模型在目前公共突变数据库中的283个蛋白质实验中,表现出超越现有最先进模型的强大预测能力;同时在野生型蛋白质溶解温度Tm预测和最适酶促反应温度Topt预测中都取得了超越现有最先进模型的强大预测能力。在湿实验中,选择了五种蛋白质进行实际验证,包括LbCas12a、T7 RNA聚合酶、肌酸酶、非天然核酸FANA聚合酶,以及一个特异性纳米抗体的重链可变区。在top 30-45个单位点突变的实验检验中,超过30%的AI推荐单点突变体在关键性能,如热稳定性、酶促活性、抗原-抗体结合亲和力、非天然核酸聚合能力或者极端碱性条件下的耐受性等方面明显优于野生型蛋白,个别蛋白质的阳性率超过50%。
在本研究中,以FANA聚合酶Tgo-D4K 为起点,我们利用Pro-PRIME系统地筛选了 Tgo-D4K 不同结构域中的潜在突变位点。通过对其合成FANA速率的测试,最终在27个有希望的突变位点中筛选出了12个FANA聚合能力强于Tgo-D4K的单位点突变体,其中合成速率最快的突变体的合成速率提高约3.2倍。
此外,Pro-PRIME还展示了一种高效的方法,可快速获得具备增强活性和稳定性的多位点突变体。通过这种高效的小样本微调方法,在不到100个湿实验样本下,2-4轮进化就能产生非常优异的蛋白质突变体。在LbCas12a、T7 RNA聚合酶的实验中Pro-PRIME能将阴性单点突变叠加得到阳性多点突变,这表明PRIME从序列数据中学习到蛋白质突变的上位效应,这对传统蛋白质工程意义重大。综上所述,Pro-PRIME在蛋白质工程中,表现出了广泛的适用性。
总结
Pro-PRIME提供了一种全新的蛋白质突变体设计方法,不需要庞大的实验数据积累,极大地提高了突变体筛选的效率和准确性。通过有效减少实验筛选的依赖,Pro-PRIME不仅在突变体的设计上提高了成功率,还为传统方法未能解决的工程难题提供了创新的解决方案。它能够有效预测出一种蛋白质的多种属性,为科学家在不熟悉的蛋白质领域也能获取成功设计提供了宝贵的工具。
借助 Pro-PRIME,我们进化出了合成速率更快的FANA聚合酶,这为探索FANA的更多应用场景提供了有利的工具。目前,非天然核酸的酶学合成仍然面临着诸多问题,这也限制了其应用。未来,借助这项创新,我们有希望以更低的成本,更快的进化速度,开发出更多适用于其他非天然核酸的聚合酶,推动非天然核酸的应用。
综上所述,Pro-PRIME的创新性通过结合深度学习和大数据资源,为蛋白质工程提供了一种高效且实用的新途径。它不仅提升了蛋白质稳定性和活性设计的成功率,还在资源有限的条件下,提高了实验效率。随着这项技术的持续开发和应用,蛋白质工程领域以及核酸生物工程领域都有希望迎来新的突破,推动科学研究和工业应用的蓬勃发展。