简述酶的定向进化🦍
Machine-learning-guided directed evolution
定向进化是酶工程中最为闪耀的一颗明珠,近些年在合成生物学中大放异彩,同时也和机器学习的发展一起逐步发展壮大。本文将主要介绍定向进化(Directed Evolution)这一技术的发展和机器学习在定向进化中的相关工作。
关键词
深度学习|酶工程|定向进化
目录
背景介绍 实验流程
构建突变文库 选择和筛选 连续定向进化 相关工作
DeepSequence EVmutation UniRep ECnet
1. 背景介绍
1.1 酶和酶催化
酶(Enzyme) 的化学本质是具有催化活性的蛋白质(少部分是RNA)其具有一下性质:
经酸碱水解的最终产物是氨基酸,且被蛋白酶水解失活 是具有空间结构的大分子 是两性电解质,在不同pH条件呈现不同的离子状态 不能通过半透膜等胶体性质 酶促反应(Enzyme catalysis)又称为酶促反应或酵素催化作用,指的是由酶作为催化剂进行催化的化学反应。
生物体内的化学反应绝大多数属于酶促反应,酶作为一种生物催化剂在催化一个化学反应时,既具有一般的催化剂的特征,又具有不同于一般催化剂的特殊性。
1.2 酶工程
对酶的的开发和利用来说,酶是至关重要的一个生物技术内容。酶工程(Enzyme Engineering)主要研究酶的生产、固化、纯化技术、酶分子结构的修饰和改造以及在食品生物医学界的应用。
酶工程主要分为:化学酶工程 和 生物酶工程
化学酶工程:初级酶工程,酶化学与化学工程技术相结合的产物。即通过对酶的化学修饰或固定化处理,改善酶的性质以提高酶的效率和降低成本,甚至通过化学合成法制造人工酶
生物酶工程:高级酶工程,酶学与现代分子生物学技术相结合的产物。用基因重组技术 生产酶以及对酶基因进行修饰或设计新基因,从而生产性能稳定,具有新的生物活性及催化效率更高的酶。
1.3 定向进化
定向进化(Directed Evolution) 是通过试管中模拟达尔文进化的进程,通过随机突变和重组并按照需求加以一定的选择压力,从而选择出具有特定特征的蛋白质。在2018年诺贝尔化学奖颁发Frances H. Arnold以表彰她实现了酶的定向进化这一技术。
2. 实验流程
2.1 构建突变文库
2.1.1 体外突变法
原位易错PCR(In situ error-prone PCR, Is-epPCR)
通过将DNA连接酶的引入,建立了“变性-退火-延伸-连接”的循环PCR,实现了环状质粒的指数级PCR扩增,该方法所用引物为还有与模板质粒不同筛选标记的线性双链DNA,可以将模板质粒直接从筛选平板上提取。定点饱和突变(sequence saturation mutagenesis)
相比于易错 PCR 较高的随机性,饱和突变的目的性很强,操作也更为精确、简单,但是仍然存在明显的氨基酸偏好性(与易错 PCR 类似)、突变体库过于庞大等问题,因此在一定程度上增加了筛选成本。合成文库(synthetic library generation)
在硅基芯片上应用大规模平行寡核苷酸合成技术,然后进行有效的基因组装,每种突变体均采用计算机模拟设计,并在合成前进行筛选,因此消除了不需要的序列偏倚、提前出现的终止密码子和多余的基序。2.1.2 体内突变法
基因突变体库的另一大类构建方法是体内突变法,即在胞内诱导特定基因的突变,无需进行 基因克隆与转化,很大程度上缩短了定向进化的实验周期。例如:
基于单链DNA重组的多元自动化基因组工程技术 CRISPR-Cas系统介导的重组技术 正交易错复制系统 2.2 选择和筛选
2.2.1 平板筛选法
平板筛选是一种简单且直接的筛选方法,通常是利用平板培养基上不同重组细胞的表型(生长、水解等)在视觉上产生的区分度,将含有目标突变体的重组细胞筛选出来,缺点是仅适用于突变体库的初筛且通量较低
2.2.2 荧光筛选法
荧光筛选法是指针对本身无光学特性的酶反应,通过对底物进行荧光标记,根据由化学键断裂或形成导致的样本荧光信号的改变,来表征突变体的催化活性
2.2.3 质谱法
在不需要标记的高通量筛选方法中,质谱法作为一种高灵敏度和高特异性的检测方法,在蛋白质工程中应用极广
2.3 连续定向进化
连续进化(phage-assisted continuous evolution, PACE) 由噬菌体辅助。连续进化希望在无人为干预的情况下,能够完成基因突变、蛋白表达、表型选择和筛选的迭代实验。连续定向进化通过缩短每轮进化的时间。
3. 相关工作
在预测突变效应的效果,目前小编关注了几个自己用过的模型:
DeepSequence EVmutation UniRep ECnet 3.1 DeepSequence
DeepSequence 是一个生成性的、无监督的生物序列潜变量模型,给定一个多重序列比对作为输入,它可以用来预测可获得的突变。通过具有非线性依赖关系的潜在变量模型来获得生物序列中的高阶依赖关系。
3.2 EVmutation
即Epistatic model(上位效应模型),一种无监督的概率模型,考虑了所有残基对之间的相互作用(上位效应),因为一个位点的突变可能会受到另外一个位点的影响。
推荐阅读:《神经网络从深度突变扫描数据中学习蛋白质序列-功能关系》
3.3 UniRep
仅使用少量功能特征化的训练变体(Low-N)即可实现对序列空间的大规模探索,开发了一种在大型未标记蛋白质序列数据集上进行训练的深度学习模型UniRep。UniRep从头开始,仅从序列开始,就学会了将蛋白质的基本特征(包括生物物理,结构和进化信息)提炼成整体的统计摘要或表示形式。
3.4 ECnet
利用进化上下文来预测蛋白质工程的功能适应性Fitness。该算法整合了来自同源序列的局部进化背景与全局进化背景,这些序列明确地对蛋白质的残基-残基互作进行建模,以及编码来自庞大蛋白质序列空间的丰富语义和结构特征。
推荐阅读:《ECNet,学习进化信息指导蛋白质工程》
参考文献
[1] Wang W W, Zhang Y C, Liu M J. One-step construction of mutagenesis libraries via in situ error-prone PCR[J]. Microbiology China, 2014, 41(4): 719-724.
[2] Luo, Y., Jiang, G., Yu, T., Liu, Y., Vo, L., Ding, H., Su, Y., Qian, W. W., Zhao, H., & Peng, J. (2021). ECNet is an evolutionary context-integrated deep learning framework for protein engineering. Nature Communications, 12(1), Article 1. https://doi.org/10.1038/s41467-021-25976-8
[3] Wang, Y., Xue, P., Cao, M., Yu, T., Lane, S. T., & Zhao, H. (2021). Directed evolution: Methodologies and applications. Chemical Reviews, 121(20), Article 20. https://doi.org/10.1021/acs.chemrev.1c00260
[4] Hopf, T., Ingraham, J., Poelwijk, F. et al. Mutation effects predicted from sequence co-variation. Nat Biotechnol 35, 128–135 (2017). https://doi.org/10.1038/nbt.3769
[5] Riesselman, A.J., Ingraham, J.B. & Marks, D.S. Deep generative models of genetic variation capture the effects of mutations. Nat Methods 15, 816–822 (2018). https://doi.org/10.1038/s41592-018-0138-4
[6] Alley, E.C., Khimulya, G., Biswas, S. et al. Unified rational protein engineering with sequence-based deep representation learning. Nat Methods 16, 1315–1322 (2019). https://doi.org/10.1038/s41592-019-0598-1
[7] Ellis, H. M., Yu, D., DiTizio, T., & Donald L. Court. (2001). High efficiency mutagenesis, repair, and engineering of chromosomal DNA using single-stranded oligonucleotides. Proceedings of the National Academy of Sciences, 98(12), 6742–6746. https://doi.org/10.1073/pnas.121164898
[8] Jakočiūnas, T., Pedersen, L. E., Lis, A. V., Jensen, M. K., & Keasling, J. D. (2018). CasPER, a method for directed evolution in genomic contexts using mutagenesis and CRISPR/Cas9. Metabolic Engineering, 48, 288–296. https://doi.org/https://doi.org/10.1016/j.ymben.2018.07.001
[9] Ravikumar, A., Arzumanyan, G. A., Obadi, M. K. A., Javanpour, A. A., & Liu, C. C. (2018). Scalable, Continuous Evolution of Genes at Mutation Rates above Genomic Error Thresholds. Cell, 175(7), 1946–1957.e13. https://doi.org/10.1016/j.cell.2018.10.021