近日,中国农业科学院生物技术研究所农业微生物蛋白设计与智造创新团队与北京畜牧兽医研究所微生物与酶工程创新团队合作,开发了预训练蛋白语言大模型技术支撑的的蛋白高表达预测与设计新策略。相关研究成果发表在《先进科学 (Advanced Science)》。
高效的可溶性异源表达是酶蛋白转化为酶产品的关键核心环节。传统的蛋白表达策略包括更换表达宿主、表达载体或添加分子伴侣等。但这些策略不仅依赖研究人员的个人经验且需大量的实验验证。本研究利用迁移学习理论,开发了国产化的预训练蛋白质语言模型MP-TRANS,创新性地提出了氨基酸表达指数(AEI)和相对氨基酸偏好强度(SRAB)的概念,为蛋白质表达提供了精确的量化工具。
通过对MP-TRANS模型进行下游任务的微调,分别构建了表达量预测模型MPB-EXP和突变体生成模型MPB-MUT,其中MPB-EXP是目前支持最多表达宿主(88种)的预测模型,平均预测准确率为0.78。实验验证,木聚糖酶、纤维素酶及PET塑料降解酶在大肠杆菌中可溶性表达量均显著提升。本研究通过将蛋白质语言大模型与基因表达深度融合,为高效创制高性能蛋白产品提供了新的思路与工具。
该研究得到国家重点研发计划、国家自然科学基金、中国农业科学院创新工程项目的资助。模型构建过程中,得到河北人工智能计算中心提供的计算资源支持。中国农业科学院北京畜牧兽医研究所田健研究员、黄火清研究员和中国农业科学院生物技术研究所关菲菲副研究员和刘波研究员为论文共同通讯作者,硕士研究生刘拓宇和张铱洋为论文共同第一作者。
图示: 预测和生成突变体以增强蛋白质可溶性表达的工作框架