蛋白质功能-序列空间压缩 📦
2024年11月11日,清华大学张数一团队在Nature Methods上发表题为EvoAI enables extreme compression and reconstruction of the protein sequence space 的文章。文中提出一个名为EvoScan的方法,以求全面分割和扫描高适应度序列空间,以获得能够捕捉其基本特征的“锚点”,特别是高维中的情况。
关键词
蛋白质设计 | 酶设计
背景
蛋白质工程和设计能够创造出具有优化功能的蛋白质,用于生物技术、医学和合成生物学中的各种应用。而蛋白质工程的根本挑战在于理解和操纵蛋白质适应性景观,这是给高维其复杂的空间。
这些实验方法通常也局限于低维突变,没有考虑到自然选择压力在高维空间中塑造蛋白质适合度景观,如噬菌体辅助连续进化(PACE)或OrthoRep,主要提供有关导致高适应度变异的轨迹的信息,这不足以对整个适应度景观进行建模。
而且这些计算方法由于受限于训练数据缺少了很多重要的生物学因素。
相关工作
下面我们介绍一些过去传统的探索适应度景观(Fitness Landscape)的方法:
深度突变扫描(DMS):
深度突变扫描(deep mutational scanning, DMS)又称饱和突变筛选(saturated mutagenesis screen),是一种高通量地研究蛋白序列——功能相关性的实验方法,以高效和相对低的成本大规模地量化遗传变异的影响。
每一种蛋白质变体的活性都是用条形码平行测定的通过与野生型蛋白的活性比较,确定了每种突变的影响。虽然有可能分析每一个可能的单一氨基酸变化,由于组合两个或更多的并发突变是很难测试。深突变扫描实验也被用来推断蛋白质结构和蛋白质之间的相互作用深度突变扫描(Deep Mutational Scanning)是变异效应多重分析(MAVEs)的一个例子,这是一系列方法,包括对dna编码的蛋白质或调控元件进行突变,然后对功能的某些方面进行多重分析。
其他一些实验手段见公众号过去发布的文章《简述酶的定向进化》。
方法
1. EvoScan
文章中首先提出一种进化扫描方法,该方法通过结合基于 EvolvR 的分段诱变系统来适应噬菌体辅助非连续进化 (PANCE)
之后开发了一个基于深度学习的大语言模型,利用“锚点”重建整个序列空间并设计新的蛋白质,从而无需依赖于同源或者结构信息
2. EvoAI
这是研究人员所提出的一种基于经验查询,然后构建模型,压缩和重建序列空间的一种方法;
在本文中,利用82个“锚点”足以压缩高适应度的序列空间,压缩比为10^48,空间的可压缩性为应用生物分子设计和自然进化提供了新的信息。
讨论
平衡现实和适应度优化和序列空间的均匀采样,能够快速探索高维的空间,生成更加多样化的突变体
通过在EvoAI中集成经验进化扫描和深度学习模型,可以利用深度学习模型来动态的引导扫描过程;未来可解释人工智能的发展可能会揭示更多潜在的规则,并了解蛋白质是如何克服这些进化的约束
文章方法可以进化和研究缺乏结构信息或者具有不同功能的蛋白质的锚点,文章方法应该与任何可以与转录输出耦合的生物分子功能兼容,因此可以用于研究各种生物分子的序列空间
设计空间的可压缩性可能会说明,自然界通过进化在相对较短的地球生命周期里,以某种方式找到了在无限空间中搜索的方法,例如在大型有性群落中,染色体区域的基因重组可能会是这种维度压缩促进进化
文献
[1]. Ma, Z., Li, W., Shen, Y. et al. EvoAI enables extreme compression and reconstruction of the protein sequence space. Nat Methods (2024).https://doi.org/10.1038/s41592-024-02504-2
[2]. LI Yifan, WANG Yi, ZHANG Kaili, LI Shuai. Application of deep mutational scanning technology in protein research[J]. Chinese Journal of Biotechnology, 2023, 39(9): 3710-3723.
[3]. DMS_INTRO_In_Wiki, https://en.wikipedia.org/wiki/Functional_genomics#Deep_mutational_scanning
[4]. Carlos L. Araya, & Douglas M. Fowler (2011). Deep mutational scanning: assessing protein function on a massive scale. Trends in Biotechnology, 29(9), 435-442.
AI4Protein 2024 大事件
感谢读者的投票,帮助我们了解AI4Protein领域的2024!
本投票结果,将在2024年的最后一天推送在公众号文章。
进群交流
进群请认真填写问卷!
广告勿扰,广告勿扰!
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运