Science重磅：AI完成定向蛋白质进化，特性提升100倍

学术 2024-11-22 08:58 中国

大自然擅长设计蛋白质。科学家甚至更擅长，人工智能（AI）有望帮助人类多次实现定向蛋白质进化。

来自哈佛医学院、麻省理工学院等多家顶尖学术机构联合组成的研究团队在这一领域带来了新的突破，他们开发了一个人工智能（AI）平台 EVOLVEpro，将蛋白质设计精准度推向新高度——

EVOLVEpro 平台基于少样本主动学习框架，结合蛋白质语言模型（PLMs）和回归模型，无需依赖结构信息、专家经验或其他先验数据，仅通过蛋白质序列进行高效优化，实现了快速预测高活性蛋白突变体。

更重要的是，EVOLVEpro 在 RNA 生产、基因编辑及抗体结合等应用中展示出了优越的性能，能使所需特性提升 100 倍。研究结果显示，平台在癌细胞中大幅优化了基因编辑工具的活性，同时也改良了抗体的结合能力和表达水平。

此外，针对新型脂质纳米颗粒（LNP）的优化实验表明，EVOLVEpro 几乎完全消除了基因编辑工具的脱靶效应，为精准医疗的应用提供了坚实基础。

相关研究论文以 “Rapid in silico directed evolution by a protein languagemodel with EVOLVEpro” 为题，已发表在权威科学期刊 Science 上。

这种创新方法为跨领域应用提供了全新可能性，从抗体优化到基因编辑工具改良，都展现出了优异性能。

攻克蛋白质优化与基因编辑难题

在生物医学领域，如何优化蛋白质以提高其特定活性始终是极具挑战的任务。这种优化对于抗体研发、基因编辑工具改良以及疫苗设计等领域至关重要。

然而，传统技术如深度突变扫描（DMS）或定向进化，往往需要大量实验验证，不仅耗时费力，还容易陷入局部最优解。

基因编辑技术也面临类似难题。例如，CRISPR-Cas9 技术尽管显著推动了基因编辑的进展，却在精准性和递送效率上面临瓶颈。一方面，脱靶效应使得编辑可能产生非预期突变，带来副作用风险；另一方面，现有的 mRNA 递送系统在目标细胞中表现出较低的稳定性，限制了基因治疗的效果。

近年来，深度学习技术的发展为蛋白质优化领域注入了新动能。蛋白质语言模型通过大规模序列数据库训练，能够捕捉蛋白质序列与其结构和功能之间的复杂关系。

然而，这些模型在优化蛋白质活性时表现有限，在优化蛋白质活性时，它们难以精准捕捉复杂适应度景观，特别是在涉及蛋白质非结合特征的任务中。

为突破这一困境，研究团队开发了 EVOLVEpro。该平台结合深度学习与主动学习策略，不仅降低了对实验数据的依赖，还通过智能选择最优突变体进行实验验证，大幅减少了实验次数。

图｜开发用于蛋白质语言模型引导工程的 EVOLVEpro 并进行基准测试

与传统的定向进化和现有 AI 方法相比，EVOLVEpro 显现出三大优势：

突破数据依赖：无需蛋白质结构信息、专家知识或复杂实验数据，完全基于少量蛋白质序列实现高效优化。
高效主动学习：通过主动学习框架，EVOLVEpro 能够智能选择最优突变体进行实验验证，大幅减少实验次数。
跨领域应用潜力：在 mRNA 递送、基因编辑工具改良等多个领域表现出卓越的性能。

研究团队通过 12 个深度突变扫描数据集，优化了 EVOLVEpro 参数，采用网格搜索选择最佳蛋白质语言模型（如 ESM2），并测试了不同回归模型（如随机森林、k 近邻回归器）对性能的影响。

全方位突破：从抗体优化到基因编辑工具

为了验证 EVOLVEpro 的实际性能，研究团队以 C143 抗体和抗人转铁蛋白受体的 aCD71 抗体为目标，评估了它在抗体结合能力优化中的表现。

研究结果显示，经过四轮优化后，C143 抗体的最佳轻链突变体 N28R 显著提升了结合亲和力，其结合半数抑制浓度（IC50）降至 60 pM，多突变体结合亲和力提高至野生型的 35 倍。

图｜利用 EVOLVEpro 对高活性微型 CRISPR 核酸酶进行改造

在针对 aCD71 抗体优化实验中，则发现最佳重链突变体 S92A 结合 IC50 达到 29 pM，进一步设计的多突变体结合 IC50 效率达到 19 pM，同时提升了抗体的表达水平和亲和力。

而在与多种蛋白质语言模型比较中，ESM-2 15B 参数模型作为 EVOLVEpro 的潜在空间模型，在多数数据集上表现优于其他模型，返回的高活性突变体比例最高，且只有少数蛋白质语言模型的预测准确性明显高于独热编码，突出了基础层模型对 EVOLVEpro 性能的关键重要性。

在基因编辑工具方面，研究团队将目标锁定在微型 CRISPR 核酸酶 PsaCas12f 和 Bxb1 整合酶的活性改良上。通过四轮单突变体优化，PsaCas12f 在多个靶点的插入缺失效率显著提高。

图｜用 EVOLVEpro 对 prime editor 进行进化

研究发现，最佳变体 PsaCas12f K333V 在 RNF2 基因位点的插入缺失效率提高至 40%，进一步组合的多突变体则将效率提升至约 50%。组合多突变体的平均编辑活性提高 2.2 至 44 倍，相较其他 Cas12f 效应子表现优异。

类似地，在 Bxb1 整合酶进化实验中，经过多轮进化得到的突变体活性提升至野生型的 2.6 倍以上，在基因组中基因货物的整合效率提高多达 4 倍，为基因组编辑和大基因货物整合提供了更强的工具。

此外，针对 mRNA 生产中的 T7 RNA 聚合酶，EVOLVEpro 通过多轮进化显著提升 T7 RNA 聚合酶性能。

在 T7 RNA 聚合酶进化实验中，经过四轮优化，最佳突变体 E643G 产生的荧光素酶 mRNA 较野生型的翻译效率提升 34 倍，免疫原性比野生型降低 98%。

在临床相关的 IVT 环境下，与野生型和之前工程改造的突变体比较，优化版 epT7 酶生产的 mRNA 在体外转录实验中，翻译效率较野生型高 120 倍，免疫原性低 256 倍。

图｜为高产且低免疫原性的 mRNA 生产对 RNA 聚合酶进行工程改造

此外，研究人员还进行了多维度性能验证与机制解析，不仅验证了 EVOLVEpro 的优越性能，也揭示了突变提升活性的机制。

通过 AlphaFold3 对不同蛋白质的结构预测以及对模型关注残基的分析，研究团队发现，PsaCas12f 中的 K333V 突变通过稳定结构和调节模板结合增强了活性，而 T7 RNA 聚合酶中的 E643G 突变则显著减少了免疫反应。

图｜epT7 在环状 RNA 生产及体内生物发光方面的应用

不足与展望

尽管 EVOLVEpro 展现了极大的潜力，但研究团队也指出了一些存在的挑战。

EVOLVEpro 在一定程度上克服了蛋白质语言模型的一些问题，但蛋白质语言模型固有的局限性依然存在影响。例如，蛋白质语言模型是通过学习掩码序列重建任务训练的，自然序列不一定选择最优蛋白质活性，导致其学习的活性景观与实际蛋白质活性景观常不相关，即使增加蛋白质语言模型的参数也未必能更好地预测蛋白质活性及其他下游任务。

其次，在一些蛋白质的研究中，如不同蛋白质的适应度与活性之间的关系虽然通过分析有了一定的了解，但整体上这种关系还不够明确和稳定，不同蛋白质呈现出不同的相关性情况，给准确预测和优化带来一定难度。

为此，研究团队计划，随着自回归蛋白质语言模型或下一代表示模型的出现，将继续改进 EVOLVEpro 模型，利用其模块化设计将新的模型优势整合进来，进一步提高模型的性能和预测准确性。

他们表示，将把 EVOLVEpro 应用到更多类型的蛋白质和生物医学相关领域，进一步探索其在不同蛋白质特性优化、不同应用场景下的表现，深入研究蛋白质活性提升的各种机制以及不同突变之间的复杂相互作用，以更好地实现蛋白质工程的目标，满足生物医学等领域对高性能蛋白质的需求。

研究人员还将尝试基于生物物理的模型与 EVOLVEpro 建立的回归顶层方法相结合，进一步提高预测准确性，并实现对功能获得性突变体的更快速准确识别，从而更高效地优化蛋白质的各种特性。

EVOLVEpro 的问世为蛋白质优化与基因编辑工具的研发提供了全新视角。从抗体设计到精准基因编辑，再到高效 mRNA 生产，EVOLVEpro 通过 AI 驱动的高效突变体筛选，正在重新定义生物医学的研发效率与可能性。

随着技术的持续迭代与优化，未来生命科学或将迎来更多突破性发现，为癌症治疗、基因疗法以及新药研发提供新的可能。

作者：田小婷

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593983&idx=1&sn=cf99ac8ea9d80680dc68a0d499e4e992

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

李德毅院士：认知机器的结构和激活

OpenAI 同日发布两篇论文：「外部」和「自动」红队测试新进展

Science重磅：AI完成定向蛋白质进化，特性提升100倍

首个端到端车载 VLM 框架；谷歌提出「无启发式多教师学习」方法｜大模型日报

谷歌AlphaQubit重磅发布，实时为量子计算机纠错，研究登上Nature

机器人「手转」钢笔，100% 成功率；文继荣团队：通过奖励引导树搜索增强 LLM 推理｜大模型日报

五大建议！OpenAI最强竞对Anthropic：正确的大模型评测应该是怎样的？

大模型后训练新范式，中科院、阿里和小红书团队提出“验证器工程”｜大模型日报

清华、北大团队推出LLaVA-o1：让视觉语言模型逐步推理；快手推出检索框架KuaiFormer｜大模型日报

大揭密！马斯克与 OpenAI 的「混乱分手」内幕：人才争夺、AGI、权力斗争

Mistral 发布开源多模态模型 Pixtral Large，聊天助手 Le Chat 全面对标 ChatGPT

清华姚班校友马腾宇，发布了他的首个多模态嵌入模型：「多模态检索」实现SOTA

综述：智能体的安全、隐私和道德威胁；FinVision：用于股市预测的多智能体框架｜大模型日报

AI反诈“奶奶”上线，24小时花式套路诈骗分子；AMD 全球裁员4%，约1000人｜一周热门

性能提升在即！吴恩达谈 LLM 新方向：优化智能体工作流

国防科技大学推出 AI 材料科学家 MatPilot；Anthropic 提出 LLM 越狱缓解新方法｜大模型日报

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉