Science最新| 蛋白质语言模型驱动的定向进化方法

文摘   2024-12-24 08:35   江苏  

论文的研究目标和意义

本文的研究目标是开发一种名为EVOLVEpro(通过语言模型引导的蛋白质变异探索进化系统) 的新型计算机模拟定向进化 方法,用于加速和优化蛋白质工程。作者想要解决的实际问题是,传统的深度突变扫描(DMS) 方法在探索蛋白质突变空间时存在实验通量低、成本高、难以优化多个性质等局限性。这限制了在抗体、基因编辑、RNA合成等领域开发高性能蛋白质工具用于医学应用。

Directed protein evolution is central to biomedical applications but faces challenges like experimental complexity, inefficient multi-property optimization, and local maxima traps.

随着合成生物学和基因治疗的发展,利用定向进化高效开发高活性、低免疫原性的蛋白质分子工具(如抗体、CRISPR、聚合酶等)在产业界有巨大需求。本研究提出的 EVOLVEpro 方法有望大幅加速此类蛋白质的优化过程,推动相关产业的发展。


论文提出的新方法及其特点

EVOLVEpro 是一种结合蛋白质语言模型(PLM) 和顶层回归模型 实现少样本学习 的计算机辅助定向进化方法,其主要特点包括:

  1. 利用在海量蛋白质序列上预训练的 PLM (如ESM2)提取蛋白质突变体的信息丰富的嵌入向量 表征,建立序列-功能映射。
  2. 通过主动学习 策略,用少量(10-100个)突变体实验数据训练随机森林回归器 ,学习 PLM潜在空间 到功能空间的映射,预测序列的功能评分。
  3. 迭代式地预测和筛选高功能突变体,并用实验数据更新模型,从而在少数轮次内快速找到高活性variants。

EVOLVEpro surpasses current methods, yielding up to 100-fold improvements in desired properties. We demonstrate its effectiveness across six proteins in RNA production, genome editing, and antibody binding applications.

与之前方法相比,EVOLVEpro 在以下方面表现出优势:

  • 通过 PLM 捕捉进化信息,具有更强的泛化性,适用于不同蛋白家族。
  • 少样本学习范式降低了所需的实验通量,加快筛选。
  • 主动学习避免局部最优陷阱,高效探索序列空间。
  • 多目标优化能力,可同时改善活性、稳定性等多种性质。

EVOLVEpro is a highly capable protein engineering model in that it (i) has high rates of success, (ii) requires no special knowledge about the protein, (iii) can be used for multi-objective function or property optimization, and (iv) is highly modular, allowing for any protein property with a quantifiable assay to be used as an input without extensive finetuning.


蛋白质语言模型驱动的定向进化方法EVOLVEpro在抗体、基因编辑酶、聚合酶等多个系统中实现了高效优化

一、EVOLVEpro在12个DMS数据集上的基准测试结果

作者首先在12个公开的深度突变扫描(DMS)数据集上,评估了EVOLVEpro相比于其他方法的表现。结果表明:

  1. 以ESM2为底层的EVOLVEpro在绝大多数数据集上取得最佳表现,体现了大规模预训练蛋白质语言模型的优势(图1B)。

ESM2-15B has the highest average percent success in high activity variants prediction. (Fig. 1B)

  1. 主动学习让EVOLVEpro以更少的实验数据实现了比预训练模型高得多的优化效率(图1C)。

Active learning drastically reduced the overall number of mutants required: EVOLVEpro with only 5 rounds of evolution (16 mutants per round) was equivalent in performance to EVOLVEpro pre-trained with 160 mutants, whereas 10 rounds of evolution (16 mutants per round) was equivalent to pre-training with 500 mutants. (Fig. 1C)

  1. 不同于穷举搜索,EVOLVEpro可引导突变体向高活性方向演化,在多个数据集上实现了活性翻倍(图1D)。

With 16 mutations per round, EVOLVEpro found variants with significantly enhanced activity by round 5 across every dataset (Fig. 1D)

图1

这些在基准数据集上的测试突破了以往基于语言模型的蛋白质工程方法在搜索效率和优化幅度上的瓶颈,为后续在真实蛋白质体系中的应用奠定了基础。

二、EVOLVEpro实现抗体亲和力和表达量的同步优化

在两个治疗性单克隆抗体C143和aCD71上,EVOLVEpro实现了亲和力和表达水平的多目标优化。

对于C143抗体:

  • 4轮进化获得亲和力提高16倍(IC50从3nM到190pM)的N28K突变体(图2C)
  • 第5轮多突变体进化获得亲和力提高50倍(IC50为60pM)的N28R/Q40K/R39K突变体(图2C)

At round 4, we found significant improvement with a light chain mutant (N28K), with an IC 50 of 0.19 nM (Fig. 2C). Using our 4 rounds of single mutations, we had EVOLVEpro design multi-mutant combinations for a fifth round. The best multi-mutant (light chain N28R/Q40K with heavy chain R39K) bound to the SP6 spike antigen with an IC 50 of 60 pM (Fig. 2C)

对于aCD71抗体:

  • 4轮进化获得亲和力提高19倍(IC50从551pM到29pM)的S92A突变体(图2F)
  • 第5轮多突变体T70A/S92V的IC50达到19pM,亲和力提高29倍(图2F)

At round 4, we found the best single mutant heavy chain S92A to bind to the antigen with an IC 50 of 29 pM, significantly higher than that of the WT at 551 pM (Fig. 2F). We also asked the model to rank multi-mutants based on the single mutant data from the first four rounds and performed one round of multimutant testing. We improved binding and expression in the multi-mutant round 5 with heavy chain T70A/S92V mutant. The multi-mutant binds to the hTfr protein with an IC 50 of 19 pM (Fig. 2F).

图2

结构分析揭示这些突变主要通过改变抗体变区构象影响抗原结合(图2H-I)。EVOLVEpro学到的突变路径与PLM预测的进化适应度地形呈现明显分歧(图2J-K),说明蛋白质活性优化并非总是遵循自然进化规律,需要主动学习来辅助探索。

三、EVOLVEpro优化的PsaCas12f实现了高效基因编辑

在拥有紧凑结构但活性较低的PsaCas12f系统中,EVOLVEpro通过4轮突变体筛选,获得了切口效率提高5倍的K333V突变体(图3B),并通过组合之前获得的有益突变,获得了切口效率提高近6倍的I178A/K333V/K454P多突变体(定义为epPsaCas12f)。

After four rounds of evolution of 12 single mutants per round, EVOLVEpro yielded point-mutants of PsaCas12f with up to 4.9- fold improvement in indel formation. This top variant, PsaCas12f K333V , had >40% indel efficiency at the RNF2 site (Fig. 3B and fig. S5A). To identify synergies between EVOLVEpro nominated mutations, we combined the top-performing variants from previous rounds in a fifth round. We evaluated a set of these multi-mutants and found that PsaCas12f I178A/K333V/K454P generated ~ 50% indel activity at the RNF2 locus (fig. S5A).

系统评估表明,epPsaCas12f在10个基因组位点上实现了比多个已发表的Cas12酶高2-50倍的切口效率(图3C),在小鼠肝脏细胞中下调PCSK9(图3F),展示了其作为紧凑型基因编辑工具的应用前景。

图3

结构分析揭示topPsaCas12f突变通过影响sgRNA结合、蛋白质稳定性等多种机制发挥作用(图3G)。EVOLVEpro学到的活性适应度地形与PLM预测的进化适应度地形呈现弱相关(图3I-L),提示对该酶的理性优化设计需要整合实验数据。

四、EVOLVEpro优化引物编辑酶和整合酶的活性

在引物编辑酶PE2上,EVOLVEpro通过3轮进化将46bp DNA片段的插入效率提高2-4倍(图4B),优化获得的A660S/L670C等突变主要集中于逆转录酶结构域,可能通过影响模板切换过程发挥作用(图4C)。

We explored the likelihood of the top EVOLVEpro nominated mutations relative to training data and known antibody variants observed in nature. We analyzed the top 10 mutations for both occurrence in hotspot regions and deviation from the germline sequence... This shows EVOLVEpro's ability to insightfully choose novel mutations not seen in the training input of the PLM base layer.(Fig.4E)

在Bxb1整合酶上,8轮EVOLVEpro进化获得的T166R突变体(命名为epBxb1)在4个基因组位点上将大片段整合效率提高3-4倍(图4I),优化突变主要集中在DNA结合区域(图S8),表明通过调节DNA亲和力可显著提升该酶的重组效率。

图4

五、EVOLVEpro优化的T7聚合酶大幅改善mRNA的产量和品质

在T7 RNA聚合酶上,EVOLVEpro以RNA产量、蛋白质表达量和免疫原性为三重目标,6轮进化获得的epT7突变体使mRNA的翻译水平提高57倍、免疫原性降低500多倍(图5C),主要得益于E643G突变降低了双链RNA副产物的合成(图5D-E)。

Over successive rounds of optimization, we found that EVOLVEpro progressively learned the activity landscape of the RT of PE2, yielding improved variants after the initial random selection round and substantially improving upon PE2-based editing by round 4 (Fig. 4A and fig. S6A).

应用epT7合成mRNA可使荧光素酶表达量提高4-120倍,免疫原性降低4-256倍(图5D),环化RNA的产量提高25%、纯度提高一倍(图6E)。小鼠体内实验表明,epT7合成的修饰mRNA可使荧光素酶表达量提高11倍(图6I)。

We used AlphaFold 3 to model the structure of the anti-CD71 and C143 antibodies (Fig. 2, H and I, and data S7). We found two major clusters of exploration by EVOLVEpro on C143 antibody in the framework region with light chain mutations S14, Q40, L50, and K45 co-located and R39, S63, and E89 in close proximity on the heavy chain. These mutations likely alter binding through structural changes in the variable region. Additionally, was a CDR mutation, N28, on the light chain located in the CDR-L1 region that likely directly alters the interaction between the C143 anti- body and the antigen, which is not possible to model with AF3 due to a low confidence score of the complex (Fig. 2H). For the anti-CD71 antibody, we found all the best mutations clustered around one region in the heavy chain domain. As they are all in the framework region, they likely alter the binding affinity indi- rectly, a hypothesis supported by the increase in expression rela- tive to the WT sequence (Fig. 2I).

图5

结构分析揭示E643G突变可能通过增强模板DNA结合来提高转录保真度(图5F),EVOLVEpro学到的适应度地形再次与PLM预测的自然进化地形出现明显分歧(图5I-K),突出了数据驱动优化的重要性。

EVOLVEpro在抗体、基因编辑酶、聚合酶等多个蛋白质系统中实现了2-100倍的活性提升,推动了相关技术在治疗和合成生物学中的应用,展示了机器学习辅助定向进化作为一种通用优化策略的巨大潜力。这些案例研究凸显了整合预训练蛋白质语言模型和主动学习的新范式在加速生物分子优化中的重要作用。未来结合结构生物学、生物物理学等知识,EVOLVEpro有望实现从头设计新功能蛋白质,推动蛋白质工程研究的新突破。


研究成果的影响和应用前景

EVOLVEpro 开创了利用 AI 加速蛋白质定向进化的新范式,其广泛适用性和高成功率有望推动以下领域的技术突破和产业化应用:

  • 新型生物药物开发
    : 高亲和力、低免疫原性的治疗性抗体、蛋白质的快速优化。
  • 基因治疗和细胞治疗
    : 高效、安全、可递送的基因编辑工具(CRISPR、整合酶、反转录酶)的定向进化。
  • 合成生物学
    : 高产量、高稳定性的蛋白质元件(如聚合酶)设计用于生物合成等。
  • 蛋白质组学研究
    : 高通量优化蛋白质探针,推动蛋白相互作用网络、蛋白质功能的研究。

We anticipate EVOLVEpro will continue to improve with new foundation models and enhanced search strategies and will be broadly useful for protein engineering.

未来研究人员可利用 EVOLVEpro 平台,针对不同应用场景,通过整合特异性筛选实验,加速开发高性能蛋白质分子工具。同时 AI 辅助定向进化策略有望与其他生物物理模型结合,进一步扩大适用范围。


未来研究方向和商业机会

尽管本研究在多个蛋白质体系上证实了 EVOLVEpro 的有效性,但将其推广应用到更多蛋白质家族,特别是从头设计新功能,还需要在以下方面开展进一步的研究:

  • 整合更强大的蛋白质语言模型和序列生成模型,拓宽 EVOLVEpro 的搜索空间。
  • 引入结构信息和生物物理特征,提高稀疏区域变异体的预测准确性。
  • 针对不同蛋白质功能开发特异性筛选实验,建立标准化自动化优化流程。
  • 探索从头设计某些特定功能蛋白质(如药物靶点的配体)的可行性。

These de novo designed sequences may be suitable for combination with EVOLVEpro to create an end-to-end de novo design and evolution framework where de novo generated sequences can be rapidly optimized for state-of-the-art activity and thus real-world deployment.

随着以上研究的推进,基于EVOLVEpro的蛋白质定向进化平台有望催生一系列应用:

  • 创新药物研发服务:利用EVOLVEpro加速治疗性抗体、细胞因子、酶等的优化。
  • 基因治疗工具开发:高效低毒基因编辑元件的自动化、定制化设计。
  • 合成生物学试剂盒:面向生物合成、生物传感的标准化蛋白质元件库。
  • 蛋白质组学研究工具:高性能蛋白质探针、传感器的高通量定制设计服务。


Critical Thinking

  • PLM 预测能力的限制:对于进化保守性低、功能未知的蛋白质区域,预训练 PLM 可能较难准确预测突变体的功能效应。如何整合结构、进化、生物物理知识来提高预测准确性,还需进一步探索。
  • 主动学习策略的优化空间:目前采用的贪婪采样策略可能错过一些有价值的变异区域。未来可探索更复杂的采样策略如不确定性估计、curiosity driven等。

While this greedy approach might risk overlooking some areas of the fitness landscape, we believe it aligns well with the goal of rapidly identifying and optimizing top-performing protein variants in a limited number of experimental rounds.

  • 实验验证的局限性:论文中只在少数几个模式蛋白上做了实验验证,在更多蛋白质家族上的适用性还需进一步检验。其中体内实验的重复数偏少,一些conclusions有待更多生物学重复来确认。
  • 与传统定向进化方法的比较:本文缺少与传统定向进化技术如饱和突变等的系统性比较,两类方法的优劣互补性有待深入分析。
  • 计算成本:超大规模 PLM 在大批量突变体嵌入时推理成本较高,在部署应用时可能面临一定挑战。


Biosyn导师:Omar O. Abudayyeh

https://www.abugootlab.org/team

Omar Abudayyeh博士是一位在生物学领域探索可编程系统的杰出科学家。他的实验室致力于开发能够前所未有地控制基因组、转录组和细胞的分子工具。Abudayyeh博士将这些创新方法与单细胞技术相结合,以解决遗传疾病、癌症、衰老和再生等领域尚未解决的难题,并开发下一代治疗方法。

他的实验室围绕四个主要主题开展研究:

  1. 天然可编程系统的工程化
  2. 研究细胞分子衰老的根本原因以及如何通过干扰来恢复细胞活力
  3. 应用人工智能对大规模生物数据进行建模
  4. 研究细胞的分泌组以及细胞间通讯在体内是如何产生的

在这些主题下,实验室追求一些令人兴奋的问题,例如:

  • 基因组中每个分泌蛋白的作用是什么?这些蛋白在衰老中扮演什么角色?
  • 哪些转录因子驱动衰老?这些回路能否被逆转?
  • 我们如何构建一个能准确模拟细胞状态并预测/控制细胞行为的"虚拟细胞"?
  • 我们能否识别出调节细胞功能的新类多肽,并开发多肽药物来治疗各种疾病,增强人类能力?
  • 将核酸递送到肝外组织进行基因和细胞治疗的最有效方法是什么?

这些探究推动了新型工具和方法的发展,突破了我们对细胞生物学认知的界限,为治疗衰老和常见疾病铺平了道路。

Abudayyeh博士目前是哈佛医学院的助理教授,布莱根妇女医院和马萨诸塞总医院基因与细胞治疗研究所的研究员,同时与哈佛大学干细胞与再生生物学系有关联。此前他曾是MIT的McGovern研究员,并在此之前作为Feng Zhang实验室的博士生在哈佛医学院和MIT broad研究所进行CRISPR酶的研究,用于基因组编辑、治疗和诊断。

Abudayyeh博士因其杰出贡献获得了众多荣誉,包括MIT技术评论35岁以下创新者、彭博新经济催化剂、Endpoints 20 under 40 下一代生物技术领袖、2022 Termeer学者、2018福布斯30 under 30等。他于2012年以Henry Ford II奖学金和Barry M. Goldwater奖学金获得者的身份从MIT机械工程和生物工程专业毕业,并曾在哈佛医学院学习两年。



Biosyn世纪
施一公:“我相信,21世纪是生命科学的世纪,而华人生物学家将在其中发挥极为重要的作用。”
 最新文章