合成生物学的使能技术与核心理论

学术   2024-11-20 13:16   湖北  

摘要:合成生物学为生命科学研究提供了一个新的范式(“构建以学习”)并开启了生物技术的未来之旅(“构建以使用”)。在这里,我们讨论了合成生物学使能技术主流中各种原理和技术的进步,包括基因组的合成与组装、DNA存储、基因编辑、分子进化和功能蛋白的从头设计、细胞和基因回路工程、无细胞合成生物学、人工智能(AI)辅助合成生物学,以及生物铸造厂。我们还介绍了定量合成生物学的概念,它正引导合成生物学朝着更高的准确性和可预测性或真正的合理设计方向发展。我们得出结论,随着使能技术的迭代发展和核心理论的成熟,合成生物学将建立自己的学科体系。

1.引言

合成生物学,也称为工程生物学,是一门新兴的跨学科学科。它整合了生物科学、化学、物理、材料科学、计算机和信息科学以及工程概念,重新设计或从头设计和构建生物系统,创造了被称为“构建以学习”的生物研究新范式,并为当前生物技术提供了新的动力,称为“构建以使用”。合成生物学由三个相互关联的方面组成:理论、使能技术以及应用研究。

半个多世纪前,在理解了核酸和蛋白质的基本结构后,科学家们实现了从化学合成小分子到生物大分子的历史性飞跃。开创性的研究包括牛胰岛素的全合成、遗传密码的多核苷酸合成以及氨基酸转运RNA。世纪之交,随着人类基因组计划的完成以及DNA测序和合成技术的进步,合成生物学实现了从核酸合成到基因组合成的新飞跃。从简单到复杂,科学家们已经合成了病毒基因组、细菌基因组以及酵母染色体。这些开创性的方法为合成生物系统的合成提供了基础,证明了合成基因组可以完全执行自然生物功能。

在同一时期,工程概念被引入到生物系统的设计和创建中,如基因回路、生物装置和模块、最小基因组和底盘细胞。这些概念通过许多人工逻辑生物装置和基因组得到了很好的解释,例如基因开关、转录调节因子的合成振荡网络、基于群体感应的细胞间通信回路、用于程序化模式形成的合成多细胞系统、执行逻辑操作的RNA装置以及可编程的微生物杀伤开关。这些开创性的探索旨在实现生物组件的标准化、底盘细胞的通用化以及基于工程原理设计生物系统的可预测性。

然而,由于其持续的遗传变异、代谢多样性和动态性以及生物质的灵活性,生物系统是极其复杂的系统。我们对生物设计的知识远远不足以满足工程标准。高通量、多循环和自动化的“试错”生物铸造厂应运而生,其效率正通过嵌入人工智能(AI)而得到极大的提高。特别是,DeepMind的AlphaFold和Baker实验室的RoseTTAFold等先进算法已经彻底改变了蛋白质3D结构的预测。这意味着AI辅助的蛋白质从头设计将蓬勃发展。

因此,我们可以区分两种模式:数据驱动的“黑箱”和知识驱动的“白箱”。大量的知识输入和数据输出使我们能够进行计算机建模,使生物设计具有准确性和可预测性。这种建模被称为定量合成生物学,它正成为合成生物学理论的核心部分。其有效性和可靠性已在研究细菌在新可用栖息地的定居能力和阐述大肠杆菌生长与细胞周期之间的定量关系中得到证明。

在2009年和2012年期间,中国、美国和英国的国家科学与工程院举行了一系列的合成生物学联合研讨会(http://www.nap.edu/catalog.php?record_id=13316)。在上海举行的活动的主要议题是“合成生物学的使能技术”(http://www.sippe.ac.cn/yjdy/hcswx/hczxxx/201812/t20181214_5212243.html)。合成生物学的使能技术是一系列新颖或迭代技术,如基因组合成和组装、基因编辑和基因组重编程、蛋白质的进化和从头设计、底盘细胞、计算机辅助设计和模拟新的生物大分子和生物系统、DNA信息存储、生物系统生产自动化、遗传密码扩展和半合成生物体等。随着使能技术的创造和发展,合成生物学将广泛实现其目标,建立生物科学研究的新范式,并对生物技术和其应用产生革命性影响。

2021年12月24日,我们成功举行了“合成生物学使能技术与核心理论论坛”。在这里,我们总结了该论坛上进行的讨论。然而,由于议题众多且篇幅有限,本文未能涵盖一些关键议题,如基于遗传密码扩展的正交遗传系统,以及生物伦理、生物安全和生物安保,我们希望在其他机会上讨论。相关链接请参见:https://blog.sciencenet.cn/video.php?mod=vinfo&pid=1530。

2.定量合成生物学

2.1.合成生物学研究的层次

生命系统由于其层次结构和相互作用层而相当复杂(图1A)。复杂系统所展示的属性通常被称为“新兴属性”,这些属性是组件之间相互作用的结果,即使对所有部分有完整的了解也无法预测。例如,识别一个生物体中的基因和蛋白质就像列出飞机的所有部件一样,这不足以理解飞机如何飞行。因此,理解生命属性如何在层次结构中出现仍然是生命科学中最基本问题之一。

图1 通过定量合成生物学理解功能涌现。A,生命系统在其层次结构中的功能涌现,仅了解单个部分是无法理解的。B,方法论的层次结构。C,定量合成生物学研究中的原则和理性设计相互促进。提出的定量合成生物学研究范式整合了理性设计、构建和测试。

合成生物学利用生物学和工程原理,旨在设计生物模块/反应/系统以实现所需的功能/产品。从生物分子工程、基因组工程到人造细胞设计,合成生物学家可以在任何层次上接触层次化的生物系统。在每个层次上,合成生物学家的目标是创造一个更合成和复杂的入口,因此合成生物学的进步往往导致最复杂和不自然的系统。总的来说,合成生物学研究如何通过自下而上的策略,即“通过构建来理解”,在层次化的生命系统中出现生命属性。

正如理查德·P·费曼(Richard P. Feynman)所说:“我们不能创造的,我们就不能理解。”

合成生物学已被证明是探索生命属性所有三个维度的有价值工具,即以前存在的功能、现存的功能以及尚未存在的功能。它允许创造人工系统,如基于硅的生命和单染色体酵母,以探索生命的边界并揭示“生命是什么”的基本问题。相比之下,这些人工系统可以超越自然细胞的能力,这将极大地促进生物技术的发展,改变我们的日常生活,即探索不存在的生命功能。通过工程/重建生物系统,合成生物学使我们能够从传统生物学中提取无法获得的信息,并帮助我们理解生命的原则(现存功能)。最后,合成生物学家通过简化和建模研究复杂生物系统。这些努力推进了我们对其底层物理的理解,这将有助于阐明早期地球环境中可能的进化路径(现存功能)。

尽管在理解生命系统方面取得了这些显著进展,但仍然缺少一个成熟的合成生物学方法。为了解决这个问题,我们首先总结了以前系统的一般范式。一个综合生物学研究实践通常包括三个层次,称为部分、拓扑和功能。功能来自部分,但在复杂系统中很难获得它们之间的端到端关系。因此,增加了一个拓扑中间层。拓扑如何从部分中出现被称为机制,功能如何从拓扑中出现被称为原理(图1B)。原理更通用,而机制特定于所使用的部分。例如,艾伦·图灵提出了反应-扩散原理,该原理广泛调节自然界中的模式形成。基于这一通用原理,研究人员构建了化学Belousov-Zhabotinsky反应、生物昼夜节律振荡以及工程DNA/酶反应网络等人为反应-扩散系统,以遵循它们各自的机制。因此,理解这些原理为合理设计奠定了基础,这反过来又加速了合成生物学朝着更高的复杂性和效率发展,推进了我们对生命系统基本原理的理解(图1C)。我们称之为合理设计的理想的合成生物学实践,是基于感兴趣的原理设计基本组件以实现预期功能。

2.2.定量合成生物学:研究功能出现的范式

成功的合理设计仅限于一些特征良好的系统,例如早期研究中的切换开关和振荡器。最近的示例包括形态素介导的人为细胞分化以及使人为光合作用系统能够进行光动力二氧化碳固定。然而,感兴趣的生物功能的原理常常难以捉摸。在这种情况下,研究人员可以根据对感兴趣功能的定量分析制定新原理,然后测试它们;或者他们可以依赖于定义良好的组件并进行微调以探索它们的潜在功能。因此,当一个功能的基本原理未知时,合成生物学研究中的日常工作涉及繁琐的试错和在微调中的运气。虽然这种试错研究范式在产生关键信息和扩展我们对复杂生物系统的理解方面取得了成功,但在未来几十年中,合成生物学的合理设计将有很高的需求,以有效地探索生命系统的基本原理。

如何在没有感兴趣原理的情况下实现合理设计?合理设计系统是为了可预测性而设计,即基于输入组件和参数预测结果的能力。

这要求我们量化自然现象,使我们摆脱定性描述的模糊性和主观性,允许我们发展理论并进行预测。有两种模型指导我们量化自然系统:知识驱动的“白盒”模型和数据驱动的“黑盒”模型。白盒模型是基于宏观实验观察建立的。通过综合分析,我们可以用数学公式描述这些复杂的观察结果,从而提取出一般的理论框架和基本原理。例如,刘等人开发了一个包含多个偏微分方程的反应-扩散模型,描述了细菌菌落范围扩张系统中的细胞生长、细胞运动等,再现了这个系统中自发出现的的空间模式;郑等人发现了细胞质量与染色体复制-分离速率之间的线性关系,为理解细胞周期调控和编程细胞大小提供了定量基础。特伦斯·华的团队制定了一些细菌生长法则,并建立了蛋白质组资源分配的原则,为理解细菌对生理扰动的反应和设计合成代谢途径提供了预测模型。相比之下,黑盒建模关注输入和输出之间的直接相关性。大量的已知输入和输出数据将被用来训练和改进算法,然后可以用来预测相关系统的结果。例如,DeepMind开发的AlphaFold,通过已知的氨基酸序列-蛋白质结构关系训练,成功预测了98.5%的人类蛋白质结构。

白盒和黑盒建模都已被证明是生物设计中有价值的工具:通过开发机制模型和系统地分析模型,周等人识别了能够实现细胞自发极化的网络拓扑。基于模型的预测,他们成功构建了在酵母中产生极化蛋白质分布的合成基因回路。陆等人开发了一个机器学习算法来预测PET(一种主要的塑料类型)水解酶如何突变以提高它们的效率和鲁棒性。在该算法的指导下,团队设计了野生型酶,并获得了一个具有更优越PET降解活性的突变体。尽管采取了不同的途径,但这两种方法都旨在通过定量关系构建自然现象,实现预测性设计。因此,我们提出了定量合成生物学作为一种紧迫的研究范式,以应对当前理性设计的瓶颈。

定量合成生物学是定量生物学和合成生物学的交叉。它从底层研究合成生物学系统,并使用简化的定量关系描述复杂的生物现象。在白盒和黑盒建模的指导下,可以获得对生活系统的定量理解,从而我们可以发展复杂生物系统的理论,并探索它们的根本原理。对基本原理的理解将促进理性设计,从而加速真正的合成生物学工程的实现。白盒和黑盒建模都涉及大量数据,这可以通过建立自动化和高通量的实验设施以及标准化的协议、算法和工作流程(测试)来实现。最后,应进一步发展使能技术,以精确控制/重建生物系统,如高效和精确的DNA合成技术、基因组编辑、基因回路设计和蛋白质定向进化(构建)。因此,我们提出了合成生物学的未来研究范式,包括设计、构建和测试(图1C)。我们设想这个研究周期将把当前定性的、描述性的和有限的合成生物学研究转变为具有定量的、理论的和系统特征的新阶段。这场革命将通过回答关于生命如何运作的基本问题来推动生物学的前沿,这反过来将帮助我们设计具有更好预测能力的合成系统。

3.基因组合成与组装

3.1.基因组合成的简史

合成基因组学的历史可以追溯到1970年,当时经过5年的努力合成了77个碱基对的酵母tRNA基因。2002年,化学构建了7.5 kb的脊髓灰质炎病毒互补DNA。一年后,仅用两周时间就创造了5.5 kb的Φ174噬菌体基因组。受到这一成功的鼓舞,一些团队开始构建583 kb的Mycoplasma genitalium JCVI-1.0基因组,并于2008年实现。随后,合成了1.1 Mbp的Mycoplasma mycoides JCVI-syn1.0基因组,并证明其功能。迄今为止,合成基因组大多模仿了自然模板DNA。2016年,科学家们使用三个设计-构建-测试周期,将1.1 Mbp的JCVI-syn1.0基因组最小化为功能性的531 kbp JCVI-syn3.0。

除了评估基因组内容的可塑性,基因组合成还允许重新编程遗传密码。2016年,设计了一个3.97兆碱基、57个密码子的大肠杆菌基因组,并在合成基因组的63%上进行了实验验证。三年后,创造了一个具有61个密码子的合成基因组的大肠杆菌变体,实现了整个基因组意义密码子的首次压缩(图2)。在合成病毒和细菌基因组的同时,启动了一项名为合成酵母基因组项目(Sc2.0)的尝试,以合成真核基因组,这项工作目前才接近完成。Sc2.0的目标是合成整个酿酒酵母(约12 Mb,分为16条染色体)的基因组,并进行许多改变,以探索关于基因组功能的基本原理问题。2016年,提出了一个更为雄心勃勃的项目——基因组编写项目(GPW),以重写千兆碱基大小的复杂基因组。然而,当前的DNA合成能力和成本是构建如此大基因组的主要限制因素,因此迫切需要在DNA合成和基因组组装方面取得突破。

图2 合成基因组学中的里程碑。棕色代表病毒和细菌基因组合成的进展。蓝色表示真核生物基因组合成的里程碑。

3.2.基因合成和基因组组装的技术发展

3.2.1.寡核苷酸合成

目前,寡核苷酸合成最常用的技术是20世纪80年代开发的固相磷酸酰胺化学合成方法。在这种方法中,每个核苷酸单体的添加通过四个步骤的循环进行:脱保护、偶联、封端和氧化。然后通过去除保护基团,为下一个碱基重复该循环。这种方法的稳健性和准确性使其能够自动化和工业化。自20世纪90年代以来,基于这种方法的DNA合成器已经被开发出来,可以同时合成96-1536个不同的寡核苷酸。相比之下,阵列基础的寡核苷酸合成技术理论上可以显著降低成本并提高产量。然而,作者指出,由于不可避免的合成相关错误,合成质量通常随着寡核苷酸长度的增加而降低。尽管不断努力优化合成过程,合成的寡核苷酸通常不超过200个核苷酸长度。酶促从头合成寡核苷酸,早在20世纪60年代就被提出,由于化学合成的长度限制和危险废物问题,已成为一个有希望的替代方案。目前,末端脱氧核糖核酸转移酶(TdT)是最佳选择。经过多年的努力,据报道酶促合成可以产生约300个核苷酸的寡核苷酸,超越了化学合成。迄今为止,已有几家公司成立,以推进酶促DNA合成的商业化。未来实现快速、高通量按需合成长DNA分子将大大加速系统生物学中的设计-构建-测试循环。

3.2.2.基因合成

基因合成中的“基因”一词指的是长的双链DNA序列,而不是基因的经典定义。商业合成的基因通常在200到3000个碱基对之间。具有互补重叠序列的单链寡核苷酸是组装这种双链合成DNA的原料。早期的方法是基于连接的,通过DNA连接酶酶促连接相邻的寡核苷酸。自从20世纪80年代聚合酶链反应(PCR)发明以来,PCR介导的方法已被广泛用于从寡核苷酸组装所需的DNA序列。此外,Gibson及其同事开发了体外和体内一步法直接组装寡核苷酸到质粒中。目前,上述方法已经迭代改进,并在大多数商业和学术应用中使用。此外,由于需要廉价的合成DNA,还开发了使用微阵列基础的寡核苷酸池进行基因合成的方法。

除了基因,各种应用需要超过10 kb甚至100 kb的更长DNA分子,这导致了开发一系列组装短DNA的方法,如BioBrick、BglBrick、iBrick和HVAS。然而,这些基于内切酶的技术产生的“疤痕”序列可能会影响最终构建的功能或引入不需要的变异。II型限制酶的特点是切割位点仅距离识别位点几个碱基,使它们成为“无疤痕”组装的理想解决方案。基于这一原理,开发了金门方法和工具包,并获得了显著的流行。此外,为了消除对限制酶的需求,已经建立了几种无缝组装方法,如Gibson组装、连接循环反应、序列和连接独立克隆、圆形聚合酶扩展克隆和酵母组装。目前,使用哪种组装技术是一个偏好问题。重要的是,上述大多数方法可以自动化,以提高构建长合成DNA的通量。

3.2.3.基因组组装

要合成小型基因组,限制性克隆或聚合酶循环组装(PCA)方法通常就足够了,而构建更大规模(超过100千碱基)的合成染色体或基因组则需要使用不同的工具组合。

尽管Gibson组装已被报道可以组装高达数百千碱基的DNA分子,但体外程序的效率随着DNA长度的增加而下降,使其主要成为构建数十千碱基合成DNA的商业化工具。相比之下,酵母组装的上限似乎要高得多。除了在100 kb以内或左右的DNA组装效率高,一锅酵母转化产生了数百千碱基甚至超过1 Mb的几个合成基因组,如来自5个片段的两个Phaeodactylum tricornutum染色体(497 kb和441 kb),使用25-25 kb片段生成的583 kb细菌基因组,使用16个兆片段(38-65 kb大小)的786 kb Caulobacter ethensis-2.0以及通过11个100 kb重叠中间体的1.08 Mb JCVI-syn1.0基因组。酵母同源重组对于Sc2.0中合成染色体的组装也至关重要,这些染色体与其自身基因组具有高度相似性。常规克隆、金门、Gibson组装或酵母组装的组合被用来生成“巨块”(30-60 kb),这些巨块被顺序引入酵母中,通过称为逐步替换辅助营养缺陷以促进整合(SwAP-In)的策略替换它们的天然对应物。这些结果共同突出了酵母宿主在DNA吸收和组装方面的巨大能力。所有16个酵母染色体可以被重新组织成一个单一的线性或圆形染色体的事实表明,酿酒酵母可能能够构建超过10 Mb的DNA分子。

除了酿酒酵母,枯草杆菌、沙门氏菌和大肠杆菌是另外三个体内基因组组装的宿主。通过“尺蠖”方法,一个3.5 Mb的基因组被组装进枯草杆菌基因组。使用枯草杆菌基因组(BGM)载体,16.3-kb的小鼠线粒体基因组和134.5-kb的水稻叶绿体基因组通过同源重组成功整合进枯草杆菌基因组。通过称为逐步整合滚动圈放大片段(SIRCAS)的过程,200 kb的沙门氏菌片段被合成DNA替换。在大肠杆菌中,一种基于共轭的策略,结合重复复制子执行以增强通过程序化重组的基因组工程(REXER),使得约4 Mb的重编码基因组的合成成为可能。

3.3.合成基因组学的展望

自下而上的基因组合成使得同时整合密集和复杂的全基因组变化成为可能。合成基因组学不仅在生命科学中返回了宝贵的发现。而且可能导致食品、医疗和化学生产方面的新工业革命。例如,合成病毒已经改变了疫苗的设计和生产,合成基因组正被用来通过人源化猪器官移植来拯救生命。然而,目前基因合成的成本对于数百万个碱基或更长的基因组仍然是高不可攀的。此外,还有许多技术障碍需要克服。首先,目前设计的基因组通常在微生物宿主如大肠杆菌或酿酒酵母中组装;然而,某些DNA序列对宿主的毒性常常导致组装失败。其次,长DNA片段的逐步组装受到序列重复性的限制,如高等真核生物中的中心粒和端粒。第三,从宿主到目标生物的组装DNA片段的转移仍然是一个挑战。目前,只有支原体的圆形基因组已成功移植。高通量DNA合成和组装技术的最新发展应该大大加快合成基因组的构建。使用高密度微芯片的新DNA合成技术、酶促DNA合成和使用微流体学的自动化基因组装将继续降低基因合成的价格。除了在体内组装大DNA片段外,合成和放大大DNA片段的新体外技术也将出现。在未来五年内,预计超过1 Mb长度的DNA的基因合成成本将达到每个碱基0.001美元。与此同时,大约1 Mb大小的染色体可以在体外完全合成,转移到目标生物体并重新启动宿主,开启合成基因组学的新纪元。与基因组组装相关的一个研究方向是基因组简化,其目标是识别一个活生物体的最小基因组。例如,J. Craig Venter的团队移除了近一半的分枝杆菌基因组,以研究细胞生存所必需的基因组组成。基于合成染色体重排和通过LoxPsym介导的进化(SCRaMbLE)的基因组压缩策略揭示了至少60%的合成染色体臂(synXIIL)上的基因对细胞生存是可有可无的。这些研究大大提高了构建具有最小基因组和理想特性的微生物底盘的可行性。未来对多个合成染色体或整个基因组的基因组最小化的探索将大大扩展我们对真核生物核心功能的知识。

4.DNA数据存储技术:BT-IT融合的新范式

4.1.新兴的DNA数据存储

信息存储一直是人类文明的驱动力,是知识积累、文化传承和技术代代相传的必要条件。用于保存信息的技术可以追溯到古代中国的造纸术和结绳记事,后来在历史上,纸张和印刷术的出现。直到大约半个世纪前,基于磁光硅的存储技术,如硬盘、固态硬盘和磁带,不断改变着信息存储的方式。现代数据存储和处理技术使人类进入了数字时代,地球上的数字数据总量呈指数级增长。然而,当前的存储介质面临着许多挑战:密度的理论极限、短暂的持续时间、高能耗和环境污染。因此,需要开发新一代的信息归档技术。令人惊讶的是,DNA,作为一种自然保存遗传信息的介质,被发现是潜在的人工数据存储介质,具有高密度、长期耐用性和低维护成本。使用合成DNA进行高密度和长期数据存储已成为一个非常有前景的研究领域,吸引了全球政府和工业投资者的相当兴趣。半导体行业协会、国防高级研究计划局、国家科学基金会、半导体研究公司和情报高级研究计划活动都为美国的DNA数据存储技术和相关半导体做出了贡献。欧盟委员会还特别资助了DNA数据存储并启动了地平线2020计划。中国科协在2018年将DNA数据存储列为60个重大科技工程问题之一。中国的第十四个五年计划明确促进了DNA存储等前沿技术的发展。微软和西部数据,以及Twist Biosciences和Illumina在2020年宣布创建“DNA数据存储联盟”。其“共同目标是充分发挥DNA数据存储作为一种新型存储介质在现有和新兴的归档存储用例中的全部潜力”。迄今为止,已有50多家公司和学术机构加入了该联盟(https://dnastoragealliance.org/)。DNA数据存储的概念和工作模式 如图3A所示,DNA数据存储的基本概念包括三个基本组成部分:(i)一个编码系统,可以将二进制字符串编码为DNA字符串,并适应反向过程——将DNA字符串解码为二进制字符串;(ii)一个可以制作具有特定序列或结构的实际DNA分子的写入设备;(iii)一个能够读取DNA分子序列的读取设备。值得一提的是,到目前为止,数字信息存储在DNA中有两种不同的策略。对于第一种策略,使用具有特定序列的DNA分子来记录信息。通过从头合成DNA或组装生成具有特定序列的DNA分子进行数据写入。第二种策略使用预先存在的DNA分子作为数据记录的主干。然后,信息存储在双链DNA(dsDNA)或单链DNA主干上的预定位置,通过基因编辑或DNA杂交产生精确的序列或结构修改。第一种策略提供了更高的存储密度,但由于需要DNA合成,写入成本较高。第二种策略预计比第一种策略的写入成本更低,因为它绕过了昂贵的DNA合成阶段。然而,其存储密度的降低可能会限制未来的应用。因此,DNA数据存储技术可以根据写入、复制、存储和读取的技术细节进行划分,即体外“硬盘模式”和体内“CD-ROM模式”(图3B和C)。

图3B显示了体外“硬盘模式”,它使用高通量DNA合成来写入数据,并且具有高密度数据存储的潜力,类似于普通的硬盘。这种模式中的数据写入和读取过程相对简单,因为没有细胞膜屏障。然而,根据研究,体外存储已被证明与复制过程中的DNA链丢失、高复制成本和存储过程中的DNA降解有关。图3C所示的体内“CD-ROM模式”使用人工染色体来存储和分发大量数据。这种体内模型具有一个保护环境,其中有效的复制和修复酶系统自然出现,提供了在耐用性、保真度和低复制成本方面的重要优势。与体外“硬盘模式”相比,“CD-ROM模式”的主要优势是染色体DNA作为细胞复制的一部分的低成本、可靠的复制,这可以用于快速、低成本的数据复制和传播。此外,体内存储通过构建复杂的细胞内生物电路,如通过基因编辑进行随机读写、加密和解密以及与生物信息流的通信,更容易实现更高级的存储功能。这些额外的选项为体内模式开辟了更多可能性,允许更广泛的潜在应用场景,如细胞事件记录、环境毒素检测和疾病标记监测。

图3 DNA数据存储的基本概念和存储模式。A,DNA数据存储的基本概念。为了实现基本的数据写入和读取操作,DNA数据存储需要三个基本组成部分:编码系统、写入设备和读取设备。B,基于体外合成和测序大量DNA片段的“硬盘模式”。C,基于体内染色体DNA操作的“CD-ROM模式”。两种存储模式的详细信息在正文中描述。

4.2.DNA数据存储的主要进展和当前状态

体外“硬盘模式”的可行性已在实验室规模上得到验证。哥伦比亚大学的研究人员引入了喷泉码(Fountain codes)到DNA数据存储中,以提高编码效率并防止GC富集、复杂的DNA序列,这些序列难以构建和测序。在2MB(兆字节,106字节)的数据规模下,实现了每克DNA 215215PB(拍字节,1×1015字节)的高存储密度。2018年底,华盛顿大学的研究人员在200MB(
108字节)的规模上实现了可靠的随机数据访问。此外,构建了一个完全集成的DNA存储系统,能够自动写入、存储和读取单词“hello”。初创公司CATALOG采取了不同的方法,使用“DNA活字”进行高速数据写入。他们于2019年宣布,可以在12小时内将所有16GB(千兆字节,109字节)的维基百科文本写入DNA,这比任何其他当前使用的技术快近1000倍。以色列理工学院的研究人员设计了复合DNA字母的概念,通过利用碱基组成信息来提高每个合成周期的写入能力,从而最小化写入成本。Gao等人通过等温扩增实现了低偏差DNA链扩增。天津大学的Chen等人使用低密度奇偶校验(LDPC)和里德-所罗门(RS)算法将3MB的总大小的视频剪辑和文本编码为DNA。为了解决DNA存储的序列兼容性问题,Ping等人设计了一个“阴阳”编码系统。大肠杆菌DNA CD-ROM范式的早期概念验证研究使用了质粒存储数据。后来的研究集中在实现遗传电路,如切换开关,用于数据存储。然而,这些系统的存储容量显然有限。Shipman等人利用CRISPR-Cas9技术在细菌细胞中存储数字电影,并能够使用高通量测序进行解码。后来,Tang和Liu通过使用两个CRISPR介导的模拟多事件记录装置系统,在细胞群体中记录了大量的细胞活动。最近,天津大学的Chen等人从头设计并合成了一个长度为254,886 bp的人工染色体用于数据存储。这项研究首次展示了组装的人工染色体可以通过可靠和低成本的细胞复制用于大规模数据分发。还提出了“万物DNA”、“生物正交信息存储”、“真正的随机数生成”、“DNA中的数据加密”等新概念和想法,为DNA存储和计算的潜在应用铺平了道路。最近的一项综述为这些主题提供了优秀的总结。

4.3.未来展望

DNA数据存储涉及一系列关键技术,包括DNA合成、测序、微流控、微纳米制造,需要多学科的努力,以实现将DNA存储转化为实际应用的最终目标。尽管先前的研究在数据量、稳定性和随机访问方面取得了显著进展,成本,特别是写入成本,已成为DNA数据存储实际应用的主要障碍。据估计,DNA数据存储需要将写入成本降低7-8个数量级,超过目前使用的基于磁带的存储技术。尽管有几次尝试,如非终止TdT、DNA打孔卡、DNA活字、复合DNA字母和低质量合成,降低成本的竞争路线仍然不明确。每个信息存储介质在其早期阶段都面临着相同的高生产成本挑战。现代存储技术已根据摩尔定律广泛使用了几十年。值得一提的是,DNA合成和测序,作为DNA数据存储中的两项关键技术,其发展速度超过了摩尔定律的预测。在DNA存储的简短历史中,自从Church等人在2012年首次发表基于芯片的DNA数据存储以来,数据规模扩大了300多倍,显示出快速上升的趋势。总之,作者认为,随着酶促DNA合成、数据写入和读取方法的不断发展,实用的DNA数据存储技术将在未来几年内变得可用。作为一种环保、高容量和长期存储介质,DNA有望弥补当前存储介质的不足。

5.基因编辑

在生命科学中,长期以来一直有一个目标,即能够以可编程、特异性和高效的方式编辑所有活细胞的DNA序列,这在基因研究、基因治疗、遗传育种和合成生物学中具有无限价值。以前的方法,如巨型核酸酶、锌指核酸酶(ZFNs)和转录激活因子样效应物核酸酶(TALENs),依赖于复杂和特定的蛋白质-DNA相互作用,将蛋白质效应子靶向到所需的DNA序列。虽然这些方法对靶向特定位点有效,但将这些蛋白质结构域的靶向重新编程到新的基因组位点是困难的。成簇规则间隔短回文重复序列(CRISPR)系统的发现和工程,为基因组编辑领域带来了新的激动人心的复兴。

5.1.严格的基于蛋白质的基因组编辑系统

巨型核酸酶、锌指核酸酶(ZFNs)和转录激活因子效应子核酸酶(TALENs)是强大的生物学工具,可用于基因组编辑(图4A)。

图4 基因组编辑技术的概览。A,基于核酸酶的基因组编辑技术,这些技术针对DNA,包括巨型核酸酶、锌指核酸酶(ZFNs)、转录激活因子样效应子核酸酶(TALENs)、CRISPR-Cas9、CRISPR-Cas12以及新的小型Cas变体。B,精确的DNA基因组编辑技术,包括胞嘧啶碱基编辑器、腺嘌呤碱基编辑器和首要编辑器。C,RNA编辑技术,包括CRISPR-Cas13、CRISPR-Cas7-11,以及像REPAIR、RESCUE等RNA碱基编辑方法和其他无Cas的RNA编辑方法。

巨型核酸酶(也称为归巢内切酶)是大型蛋白质复合体,能够识别特定的DNA序列。这些蛋白质依赖于蛋白质本身与目标DNA序列之间的复杂相互作用网络。尽管先前的努力已成功地将巨型核酸酶应用于新的、用户定义的基因组序列,但这一过程极其繁琐、耗时且技术上具有挑战性。巨型核酸酶的应用基本上依赖于整个蛋白质复合体的大规模重新编程,使其能够识别新的DNA区域。因此,迫切需要使用高通量方法识别针对新定义的蛋白质序列的新变体,这需要变体库。因此,需要更多的可编程方法用于热稳定的DNA靶向。锌指蛋白是能够识别特定三个DNA碱基序列的小蛋白质模块。这些蛋白质在自然界中很常见,先前的研究发现了决定特定3碱基对DNA结合序列的单个锌指模块的关键组成部分。可以将模块化的锌指阵列融合在一起,以实现基于特定DNA序列的DNA靶向。此外,研究人员巧妙地将这些涉及DNA靶向的大型锌指蛋白与FokI蛋白融合,该蛋白可以切割DNA。为了最小化活细胞中所有不希望的随机DNA切割,研究人员巧妙地将FokI蛋白分成两半,每一半都被招募到使用特定锌指的目标DNA区域。因此,两个锌指核酸酶(ZFNs)的组合可以特异性和精确地切割DNA。这些ZFNs已被证明在人类、动物和植物细胞中起作用,因此在可编程基因组编辑中发挥着重要作用。在发现锌指蛋白之后,研究人员从植物病原体中鉴定出转录激活因子样(TAL)效应子。与ZFs不同,每个TAL效应子(TALE)与单个DNA碱基结合。这种效应可以被编程为结合特定的DNA序列。TALEs与FokI二聚体结合,产生TALE核酸酶(TALENs),这是一种完全基于蛋白质的可编程基因组编辑技术。与ZFNs相比,TALENs显示出更好的编程能力,因为每个DNA碱基由单个单元识别,而不是锌指的三联体编码属性,但TALENs比ZFNs大,因此递送仍然是一个挑战。此外,需要构建蛋白质复合体,这在寻求广泛编辑活细胞基因组时并不容易。

5.2.CRISPR-Cas系统

在研究细菌基因组时,研究人员鉴定了一个名为成簇规则间隔短回文重复序列(CRISPR)阵列的重复DNA序列。通过随后的研究,研究人员证明CRISPR阵列及其附近的蛋白质,CRISPR相关(Cas)蛋白,作为细菌针对外来入侵核酸的免疫系统。当细菌暴露于致病DNA片段时,免疫系统隔离一小部分外来DNA,并将该序列整合到细菌基因组中的CRISPR阵列本身。这一发现对于CRISPR-Cas作为革命性基因组编辑技术的发展至关重要。CRISPR阵列被鉴定为编码与Cas蛋白相关的RNA序列,并针对DNA中的基于间隔子的核酸序列。随后的工程证明,CRISPR RNA中的靶向序列可以被轻易替换和编程为用户定义的序列(图4A),这将完全改变并重新编程Cas蛋白靶向序列。这一发现在基因组编辑领域中发挥着重要作用,因为这是第一次基因组编辑试剂可以通过替换核酸序列轻松重新编程,与以前需要复杂和高通量蛋白质工程的方法不同。一旦与目标DNA序列结合,Cas蛋白就会启动双链DNA的切割,从而在活细胞的基因组中造成损伤。

5.3.新的CRISPR蛋白

Cas蛋白是CRISPR基因组编辑技术的关键组成部分。化脓性链球菌(Sp)Cas9是第一个为基因组编辑应用而设计的Cas蛋白,并且在开发新的编辑技术时仍将被广泛使用。所有Cas蛋白都需要一个间隔子相邻基序(PAM),这是一小段直接位于目标基因组位点旁边的DNA。这种Cas蛋白的靶向范围限制在尝试在细胞基因组的其他位置进行编辑时仍然是一个挑战。研究人员已经发现了大量的具有不同PAM要求的新Cas蛋白,从而扩大了CRISPR基因组编辑技术的靶向范围。此外,蛋白质工程和定向进化的努力已经成功地改变了Cas蛋白的PAM要求,这有助于使用CRISPR Cas开发一系列基因组目标。

最近,许多新的小型Cas蛋白被发现。SpCas9的长度为1368个氨基酸,这在基础编辑器和先导编辑器中通过效应蛋白进一步扩展。基因组编辑蛋白的长度增加会对其稳定性和传递产生负面影响。新的CRISPR-Cas蛋白,如Cas12f,以前称为Cas14,CasΦ,CasX,都比许多先前发现的Cas蛋白小(图4A)。然而,需要进一步的工程、发现和进化努力来提高这些新Cas蛋白的编辑效率。

5.4.基因敲除

巨型核酸酶、ZFNs、TALENs和DNA靶向CRISPR-Cas系统都通过切割双链DNA来运作。在生成DNA双链断裂(DSBs)之后,细胞的内源性修复机制迅速修复这些损伤。完美的修复可以作为额外编辑的底物,直到非同源末端连接(NHEJ)或微同源介导的末端连接(MMEJ)修复导致目标位点周围的随机小DNA插入或缺失(INDELs)。INDEL导致基因敲除,这在某些情况下很有用,但缺乏精确性。同源定向修复(HDR)是一个竞争性修复过程,其中使用核酸供体模板来修复DNA。尽管HDR是可编程的,但与NHEJ/MMEJ修复相比,其效率极低。因此,需要新的基因组编辑技术来高效、精确地编辑DNA序列。

5.5.基础编辑

基础编辑是一种可编程、高效且精确的基因组编辑技术,它建立在将DNA结合蛋白定位到感兴趣序列的能力之上。第一类设计的基础编辑器称为胞嘧啶基础编辑器(CBEs),利用Cas蛋白结合并解开目标区域的DNA成单链DNA状态的能力(图4B)。CBEs由单链特异性胞嘧啶脱氨酶组成,该酶与Cas蛋白融合,脱氨酶作用于Cas蛋白靶向的内源性DNA区域。DNA中胞嘧啶碱基的脱氨产生尿嘧啶,尿嘧啶可以通过内源性细胞过程复制和修复为胸腺嘧啶。为了提高编辑效率,CBE还包括尿嘧啶糖苷酶抑制剂(UGI),以抑制内源性尿嘧啶N-糖苷酶(UNG),该酶专门识别细胞基因组中尿嘧啶碱基的存在。局部UGI的存在将进一步延长尿嘧啶中间体的寿命,从而促进修复后胸腺嘧啶的永久整合。为了进一步促进编辑,Cas蛋白被转化为切口酶,切口酶切割与编辑链相对的链,使用包含新基础编辑尿嘧啶的DNA的对侧链作为修复模板,操纵细胞修复机制替换切口链。这最终实现了从一条DNA链到两条DNA链的永久编辑,显著提高了基础编辑的效率。

腺嘌呤基础编辑器(ABE)是第二类开发的基础编辑器。ABE由实验室进化的腺苷脱氨酶组成,该酶将DNA中的腺嘌呤碱基转换为肌苷(图4B)。肌苷随后被内源性细胞聚合酶识别为鸟嘌呤。先进的定向进化方法进一步提高了编辑效率,并扩大了腺嘌呤基础编辑的实用性。

最初的基础编辑方法使用Cas蛋白解开DNA并暴露单链DNA序列作为脱氨酶的底物。一类新的称为DddA衍生的胞嘧啶基础编辑器(DdCBEs)的基础编辑器利用一种自然存在的双链DNA胞嘧啶脱氨酶DddA,在不解开DNA的情况下执行基础编辑。DNA结合蛋白,如TALEs或ZFs,可以与分裂的DddAs和UGIs融合,将胞嘧啶基础编辑导向目标DNA序列,无需Cas蛋白。此外,通过将催化受损的DddA变体与腺嘌呤脱氨酶TadA8e融合,实现了人类线粒体中靶向A到G的编辑。

CBE、ABE和DdCBE都可以精确高效地编辑DNA,以创建CG到TA(CBE和DdCBE)或AT到GC碱基(ABE)转换。然而,还有许多其他类型的基因组编辑,如其他碱基转换和可编程插入和删除,这需要更新的精确编辑技术。

5.6.先导编辑

先导编辑是一种精确的基因组编辑技术,它利用Cas蛋白结合DNA并切口DNA的能力(图4B)。与基础编辑器不同,先导编辑器在Cas结合后切口解开的单链R环DNA。在特定切口这条链之后,释放的DNA可以作为引物执行随后的DNA聚合。先导编辑器的另一个关键组成部分是先导编辑指南RNA(pegRNA),它编码一个与Cas蛋白切口释放的单链R环互补的引物结合位点,以及编码特定所需DNA编辑事件的模板区域。在RNA-DNA杂交之后,与Cas蛋白融合的逆转录酶蛋白可以使用pegRNA作为模板扩展基因组DNA。一个针对先导编辑3'区域的正交Cas蛋白指南RNA可以进一步增强编辑。在随后的DNA复制和修复之后,新合成的DNA序列可以永久整合到基因组中,从而实现由pegRNA序列决定的可编程和多功能编辑。先导编辑的最初演示编辑效率相对较低,然而,程序的后续修改,如最优引物结合熔解温度,使用两个pegRNAs,DNA修复操作,RNA稳定性基序和逆转录酶酶的修改大大提高了先导编辑效率。

5.7.RNA编辑

在RNA中进行基因组编辑可以避免对基因组的永久性改变,从而降低非目标DNA编辑的风险。一类针对Cas蛋白的RNA,如Cas13a和Cas7-11,可以通过CRISPR引导序列(图4C)程序性地靶向RNA序列。类似于DNA碱基编辑器的发展,研究人员通过将RNA特异性腺苷脱氨酶与靶向RNA的Cas蛋白融合,开发了RNA碱基编辑器(图4C)。腺苷脱氨酶RNA特异性(ADAR)蛋白通过“RNA编辑与程序化A到I替换(修复)”技术与Cas13a融合,将腺嘌呤转化为肌苷(类似于ABE DNA碱基)。同样,工程化的ADAR蛋白能够使RNA中的胞嘧啶脱氨,用于开发“RNA编辑特定CU交换(RESCUE)”技术,该技术将RNA中的胞嘧啶碱基转化为尿嘧啶(类似于CBE DNA碱基编辑器)。新的不依赖CRISPR的RNA编辑系统已经被开发出来,通过利用RNA核酸招募内源性蛋白与RNA发生化学反应,实现位点特异性的RNA编辑(图4C)。此外,一项平行技术表明,较长的RNA可以自然招募ADARs进行A到I的RNA编辑。最近,RNA的聚集设计和环设计大大提高了RNA编辑技术的编辑效率和特异性。过去十年标志着新基因编辑技术的快速发展。从最初的基于蛋白质的方法到精确的基因编辑技术,如先导编辑,操纵活细胞和生物体的基因组的能力越来越令人兴奋。RNA编辑技术也开始变得更加精确和高效。迫切需要继续开发更小、更精确、更准确、更高效的基因编辑工具,特别是在治疗、农业和生物研究等领域的应用。

5.8.基因编辑的应用

基因编辑技术的发展在生物医学和农业领域取得了巨大进步。生物技术公司在开发新的基因编辑药物方面取得了一系列进展。最近,研究人员利用CRISPR-Cas9和碱基编辑等体内基因编辑技术治疗镰状细胞性贫血、早衰症、转甲状腺素淀粉样变性或遗传病如高胆固醇血症(https://ir.vervetx.com/news-releases/news-release-details/verve-therapeutics-doses-first-human-investigational-vivo-base)。基因编辑在农业的应用为未来生物作物育种带来了新的兴奋点。抗病性和除草剂抗性是许多作物种类中发展最为成熟的两个领域。最近,研究人员展示了四次同时多重编辑事件,使小麦植物具有抗病性和增加产量。此外,许多内源性编辑已被证明可以产生强大的除草剂抗性。基因编辑将继续使创造有价值的农业作物品种成为可能。

6.蛋白质的分子进化

体外蛋白质分子进化加速了蛋白质的自然进化,在试管中创造了无限的机会,用于蛋白质科学和应用。该方法的最初贡献者Frances H. Arnold分享了2018年的诺贝尔化学奖。近年来,人们做出了巨大努力,以建立更有效的定向蛋白质进化方法,这不仅有助于深入理解蛋白质的基础科学,还可以创造出优于自然或不存在的酶和抗体,并促进合成生物学的应用。

6.1.基于结构的进化

基于对蛋白质结构-功能关系的深刻理解,一种称为合理设计的策略,可以在短时间内产生所需的突变体。精确定义突变“热点”是实现期望结果的关键。此外,构建更小但智能的突变库可以显著加快进化过程。随着生物信息学的快速发展,“热点”预测变得流行,因为某些残基位置的突变限制可以对酶的特定功能产生重大影响。已经开发了计算工具来识别和评估有利的热点。例如,ConSurf网络服务器可以分析蛋白质结构的进化保守模式,LigPlot+程序可以生成蛋白质-配体相互作用的示意图,CAVER 3.0可以在隧道和通道中可视化蛋白质结构。PoPMuSiC网络服务器可以估计近期蛋白质稳定性的变化,ASRA和Innov’SAR算法非常适合作为饱和突变在结合口袋内位点的指南,以增强立体选择性和活性。

各种专注于活性位点工程的稳健策略已经相继开发出来,并已应用于脂肪酶、葡聚糖酶、木聚糖酶以及其他酶进化的主要成就中。通过对硫酯酶TesA的底物结合口袋中多个残基进行结构导向的突变筛选,强烈改变了其底物选择性。活性位点稳定(ACS)策略通过增加导向活性位点内的刚性,有效增强了脂肪酶CalB的酶促动力学稳定性。非标准氨基酸(ncAA)技术通过整合可能促进材料制造的新化学功能,显著扩展了合成多肽材料的功能范围。点击反应修饰被应用于蛋白质修饰,以增加蛋白酶的分子量,并且使用右旋糖酐作为修饰剂,成功优化了蛋白酶在羊毛生物毡化处理中的应用。通过结构和系统发育分析,环重塑在几个突变步骤内重新构建了一个具有PTE样乳糖活性的磷酸三酯酶(PTE),展示了环重塑在快速区分新酶功能中的潜在作用。逐步环插入策略(StLois)通过对相应酶的结构和功能分析来识别目标区域,有效地扩展了环区域的残基,为新催化属性提供了新的酶活性位点结构。域交换有助于揭示重要调节因子的结构和功能信息,如β抑制因子和衰减加速因子。

半理性设计在选定残基处引入随机突变,饱和突变在选定残基处创建了一个包含所有可能突变的小突变体库,其中一些可能对突变蛋白有益。值得注意的是,在密码子简并性的帮助下,组合活性位点饱和突变检测(CAST)和迭代饱和突变(ISM)的扩展版本被有效地构建。在创建“智能库”方面取得了相当大的进展。这些方法已被报道成功改善了酶的性质,如热稳定性、催化活性和对映选择性。酶工程与系统代谢工程的结合也显著增加了目标产物的代谢通量。

6.2.随机突变

定向进化不依赖于酶的结构信息,而依赖于酶的序列信息,提供了一个有希望的方法,在几个月而不是数百万年的时间里在实验室中获得所需的突变体。变异的序列空间非常大,例如,在四个残基处突变可能会产生160,000(204)个序列。

定向进化中的一个关键问题是如何在有效生成突变体库。一般方法是易错PCR(epPCR),它引入了基因的变化。研究人员通过改变PCR反应条件显著增加了突变率。Zaccolo等人通过改变PCR条件和突变PCR循环次数,将突变率重新调整为每五个碱基对一个突变。迄今为止,epPCR已经取得了许多成功,例如提高酶和底物的活性、亲和力和稳定性。最重要的是,epPCR也是通过分析大规模序列多样性来研究分子进化的强大方法。DNA重组模仿自然同源重组,这是自然进化的另一种机制。在DNA重组过程中,两个或更多的相关起始基因被重组,产生具有新随机序列组合的变异基因池。与epPCR相比,DNA重组结合了相关功能蛋白的片段,产生与所需蛋白结构和功能兼容的新序列的可能性相对较高。一个例子是利用催化酶改变选择性,从过氧化氢酶中生成活性卤化酶变体,以扩大未活化C-H键的酶促卤化能力。同样,基于BRC重复模块性的基序重组被用来生成更强的嵌合体,它们可以结合到RAD51。

最近,已经开发出一些有前景的技术用于体内蛋白质进化(图5)。这些方法通过将突变酶或核酸酶定位到DNA中,直接在宿主生物体内产生多个随机突变。CRISPR/Cas9开创了基因组编辑的新时代,也被应用于蛋白质工程。EvolvR系统由Cas9-nickase和易错DNAP I组成,在gRNAs的指导下不断在可调窗口中产生突变。更具体地说,一种新的体内突变方法,CRISPR-Enabled Traceable Genome Engineering (CREATE),利用CRISPR/Cas9系统和条形码跟踪盒来突变多个位点并跟踪它们。它可以为整个蛋白质序列形成单碱基库,构建一个饱和库,其中每个氨基酸残基都被替换。噬菌体辅助序列进化(PACE)是另一种体内进化策略。它利用M13噬菌体的生存能力来突变大肠杆菌中的基因。一般来说,PACE能够进化任何与基本噬菌体基因表达相关的蛋白质。由于噬菌体生命周期的快速代时,一天内可以发生数十轮进化,而无需人为干预。此外,T7 RNA聚合酶因其对DNA的结合亲和力被用于几个体内蛋白质进化系统中。Mutator T7是一种包含T7 RNA聚合酶和胞嘧啶脱氨酶的嵌合蛋白,可以编辑或突变T7启动子下游的特定基因。最近,基于T7 RNA聚合酶的进化平台,开发了通过T7 RNAP(TRIDENT)的靶向体内多样化,利用增加的突变多样性和更高的体内突变率。

图5 新兴体内诱变方法概览。A,PACE的原理图。PACE利用M13噬菌体的存活来在大肠杆菌中突变基因。MP,诱变质粒;AP,辅助质粒;SP,选择质粒。B,EvolvR的原理图。EvolvR利用一个由易错Pol I和Cas9的切口变异体组成的嵌合蛋白,通过gRNA特异性地突变目标基因。nCas9,Cas9的切口变异体。C,CREATE的原理图。CREATE利用CRISPR-Cas9技术,通过条形码追踪突变来进行多重基因组工程。

6.3.高通量筛选

高通量筛选是一种从大型变体库中获取所需突变体的技术。基于微孔板的筛选方法是酶定向进化中最常用的方法。这些系统具有安装简单、操作方便和适应性强的优点。然而,筛选能力相对较低,通常限于每天103-104个菌落。为了提高筛选速度,已经开发了自动化设备,如机械液体处理单元和菌落挑选系统。在高通量筛选方法中,通常使用比色或荧光底物来测量酶活性。这种筛选还可以与pH指示剂或产生吸收或荧光信号的酶级联结合,以创建高通量筛选方法。生长互补选择是一种强大的筛选方法,每当目标酶对宿主细胞生存至关重要时。这种方法已广泛应用于与主要代谢途径相关的酶,包括tRNA合成酶、蛋白酶、氨基酸合成异构酶等。同样,可以通过拯救含有关键位置点突变的缺陷抗生素抗性基因来筛选具有所需功能的酶,如碱基编辑器。荧光激活细胞分选(FACS)和荧光激活滴液分选(FADS)的筛选通量大于10^6个/小时,使它们成为超高通量筛选技术的标准。在开创性研究中,为糖基转移酶设计了可以自由进出细胞的荧光底物,荧光产物可以在细胞内捕获并通过流式细胞仪筛选。对于不能吸收所需底物或保留荧光信号的细胞,FADS使用滴液作为酶微反应器来分离单个细胞。微流控芯片系统允许进行多种操作,如滴液产生、细胞裂解、试剂添加、孵化、荧光检测和双通道筛选。最近,发明了一种结合FACS和FADS的方法,可以使用商业FACS仪器选择完整的双重乳液滴液。蛋白质展示技术是筛选蛋白质或肽结合活性的重要平台。噬菌体表面展示最初用于研究抗原-抗体结合。随后发明了各种细胞展示方法,如细菌展示和酵母表面展示。细胞展示方法也广泛用于定向进化,如提高β-内酰胺酶的稳定性和扩大DNA聚合酶的底物谱。同样,无细胞展示方法如核糖体展示和mRNA展示加速了酶的定向进化。与噬菌体展示相比,细胞表面展示提供了更大的展示表面,并且如果有关荧光检测可用,也可以通过FACS/FADS进行筛选。此外,无细胞展示系统克服了基于细胞的展示方法在转化效率上的限制,因为它可以处理高达10^14个成员的库,也适合生成有毒或不稳定的蛋白质。

7.计算机辅助设计功能蛋白

蛋白质是具有多种生物功能的细胞大分子,构成生物系统的基本构建块。然而,由于蛋白质系统的序列结构-功能空间相当大,因此从数学上解决与蛋白质相关的问题极其具有挑战性。合成生物学的核心任务之一是高效设计蛋白质,以可接受的准确性显著压缩搜索空间。计算蛋白质设计的目标是使用算法创建能够折叠成特定结构并具有所需功能的蛋白质。随着蛋白质结构计算预测的突破和序列设计算法的不断出现,已经有可能开发支持合成生物学的计算蛋白质设计平台。

7.1.设计蛋白质结构的算法

目前,蛋白质序列通常是根据现有蛋白质结构的数据,用固定的主链设计。与给定的狭窄结构空间相比,相应的蛋白质序列空间相当大,并且上位性负面影响可以显著削弱设计蛋白质的折叠能力。因此,序列设计需要开发针对性的算法和策略。常用的计算蛋白质设计方法可以分为以下几类。(i)主链生成:根据序列设计的要求构建主链构象模型。(ii)侧链布局:根据给定的蛋白质框架结构,选择一组合适的氨基酸侧链构象以满足主链结构的要求。这需要实际设计序列,也称为蛋白质序列设计。(iii)刚体放置:固定蛋白质/蛋白质或蛋白质/小分子之间的相对空间位置和方向。(iv)负影设计:增加非目标状态的能量并实现有效折叠,可以被视为侧链布局算法的优化和补充。计算蛋白质设计通常涉及三个步骤。

首先,将离散的侧链构象放置在主链上。接下来,计算插入的侧链与原始侧链之间以及侧链与主链之间的能量。最后,通过搜索算法(图6)优化序列和构象的组合。整个过程涉及通过搜索算法优化一系列序列组合及其相应的结构。事先给出固定的主链框架(例如,从天然蛋白质结构中获得)。每个主链位置的氨基酸残基类型及其侧链构象未知,需要计算。结构状态的可能组合以及不同位置残基的选择构成了氨基酸序列和侧链结构空间。在此空间中定义的能量函数用于评估特定的序列和构象组合。搜索算法自动搜索未知数量的序列空间和侧链构象,以找到设计蛋白质结构的最低能量解决方案。为了正确模拟突变的侧链构象,需要重新设计现有结构。这一步通常使用软件的依赖于主链的转子分子库来执行,而侧链的优化是能量依赖的。能量函数是表征每个序列组合不同构象结构的基础。不同的算法使用不同的能量函数,主要包括物理能量项(非共价范德华相互作用、静电能量、氢键能量、溶剂化自由能)和统计能量项(主链二面角、侧链扭曲)。最广泛使用的能量函数是Rosetta能量函数(主要由物理能量项决定)和基于主链的氨基酸使用调查(ABACUS)/侧链未知主链排列(SCUBA)能量函数(主要由统计能量项决定)。在固定主链的蛋白质设计中,共价键的长度和角度通常是恒定的,需要考虑的主要相互作用是非共价的。在Rosetta能量函数中,使用Lennard-Jones势来计算范德华相互作用能量。使用CHARMM分子力场的原始原子电荷分布计算静电能量,并通过组优化进行调整。使用电静模型和特殊的氢键模型计算氢键能量,并将氢键分为四种类型:长程主链氢键、短程主链氢键和主链与侧链原子之间的氢键。侧链之间的氢键单独计算。Lazaridis-Karplus隐式高斯排斥模型可以包含各向同性和各向异性溶剂化自由能,以描述溶剂化效应。统计能量项代表通过将数据库中存在的概率分布转换获得的能量。从统计热力学的角度来看,在平衡状态下,系统不同微观状态的能量和概率遵循玻尔兹曼分布。

图6 计算机辅助蛋白质设计的原理和实例。

另一种观点是,从纯粹的统计角度来看,假设给定主链结构的氨基酸序列分布可以写成条件概率,序列设计要解决的问题是找到具有最大条件概率的序列。因此,ABACUS结合了不同的结构特征:氨基酸位置的结构类型;主链二面角;溶剂可及性;相对位置;以及残基之间的统计信息,以获得侧链转子(转子异构体)和原子包装能量。此外,SCUBA利用神经网络从以主链为中心的结构变量能量景观中学习显式能量项。SCUBA和ABACUS共同为人工蛋白质的设计提供了全面的解决方案。搜索算法对于蛋白质序列设计至关重要,以避免在相当大的序列空间和更大的构象空间中遍历所有构象组合。因此,作为一种随机软件,Rosetta基于蒙特卡洛方法设计,以对多次模拟生成的构象进行统计分析,然后获得数值解。Rosetta首先使用随机数生成器生成随机图像。然后确认随机扰动,并为新构象打分,接受所有得分更高的构象以及以一定概率得分较低的构象,直到在给定的周期数内选择最佳得分。然而,这种迭代算法通常被困在局部最小值。为了获得全局能量最小构象,除了分子动力学模拟外,还使用了动量物理概念。想象一个小球从一个高能量函数滚下来。当动量足够高时,球不会被卡在小坑里,而是会冲向最终的峡谷。迭代不仅考虑当前能量,还考虑之前的能量变化。提出了几种基于统计和机器学习的算法。受到算法trRosetta结构预测成功的启发,Baker等人进一步开发了Hallucination蛋白质从头设计方法。首先,将随机序列输入到trRosetta中以预测残基接触图。然后,使用蒙特卡洛方法对氨基酸序列空间进行采样,并计算序列之间的KL散度,以获得可折叠的序列和预测结构。Hallucination方法提出了基于卷积神经网络的DeepDream算法,该算法将输入转换为训练数据空间,并产生(注意时态)类似梦境的幻觉。因此,Hallucination方法可以用来快速设计与输入序列相似且符合trRosetta学习到的序列结构关系的蛋白质序列,但与自然序列有很大不同。

7.2.合成生物学中的蛋白质设计

从蛋白质结构设计的序列无法直接满足合成生物学对所需功能性蛋白的需求。蛋白质的计算设计主要包括蛋白质骨架的设计、蛋白质-大分子相互作用和蛋白质-小分子相互作用的设计。这些相互作用可以被工程化以优化天然蛋白质作为合成生物学组分的功能,同时创造具有所需功能的生物传感器、生物催化剂和疫苗。蛋白质框架被设计用来增强天然蛋白质的鲁棒性,稳定疫苗表位,并在特定条件下修改蛋白质稳定性。为了开发新型冠状抑制剂,并基于新型冠状S蛋白和人类血管紧张素转换酶2(ACE2)复合物的结构,Baker等人使用与S蛋白受体结合区域结合的ACE2的螺旋片段作为起点。通过添加两个额外的螺旋尝试稳定结构。此外,使用微蛋白库中的蛋白质分子对接和蛋白质界面设计,设计了能够在皮摩尔浓度下抑制2019-nCoV的小蛋白。Correia等人开发了TopoBuilder系统,用于从头设计能够稳定复杂预定义构建块的蛋白质。对于不同的表位,作者列举了合适的二维蛋白质拓扑,并使用理想的二级结构构建三级结构模型。这种方法被用来设计同时呈现三种抗原的蛋白质。吴等人结合物理能量项、统计能量项和生物信息学分析,开发了一种基于单点预测算法和“贪婪”算法融合的蛋白质工程的贪婪累积策略(GRAPE策略),用于计算重塑PET塑料水解酶,该突变通过单点突变增加了最终突变的热熔解温度31°C。

设计蛋白质-大分子相互作用可用于合成细胞中的信号转导和调控。Baker等人计算设计的生物传感器可以利用自然发生的信号通路中的相互作用蛋白。在没有检测目标的情况下,传感器的lucCage蛋白的锁定域与笼子域结合。相比之下,在检测目标存在的情况下,lucCage域的末端区域与检测目标结合,lucCage蛋白打开并与传感器的lucKey蛋白结合,激活荧光素酶发出荧光。该团队还设计了逻辑门来调控蛋白质结合,构建了从头设计的背骨螺旋框架,并构建了氢键网络以优化序列。设计了具有特定异二聚体的多个蛋白质对,使用单体或连接单体作为输入。门控单元被构建为通过设计的氢键网络编码接受不同的输入。蛋白质和小分子的相互作用设计可以获得新的酶催化组分、转录因子和小分子传感器。通过设计具有底物选择性的酶,可以为直接用于生物工业催化以及新途径设计生成新的生化反应。在这种情况下,Kortemme等人筛选了四个残基结合模块,用于结合法尼基焦磷酸(FPP)到天然蛋白质的结构。然后他们设计了可以通过与各种框架界面增强进一步优化的FPPs的生物传感器。Ranganathan等人使用直接耦合分析提取了多重序列比对(MSA)中隐含序列结构函数空间的统计约束。他们设计了一个与天然酶活性相当的莽草酸转位酶。吴等人使用固定背骨设计,结合多个并行短时动力学模拟来补偿固定背骨和侧链的不均匀采样。因此,获得了由天冬氨酸酶催化的非天然氨基酸的水合反应。

7.3.简短总结

在过去的十年中,通过计算方法创造具有定制活性和特异性的功能性蛋白质取得了令人印象深刻的进展。算法发展的惊人速度不断提高研究人员操纵蛋白质结构和功能的能力。展望未来,预计有许多关键趋势将加速功能蛋白质的发现、设计和应用。通过AI预测蛋白质结构的计算方法的进步提高了生物分子社区的信心,随后的功能设计可能在模型基础和数据基础方法的结合帮助下,提供对目标反应的需求。随着蛋白质结构数据库和标准实验数据的不断增长,更先进的计算方法将为解释潜在的催化机制创造进一步的研究机会,最终导致对功能蛋白质的结构-功能关系有更清晰的认识。基于计算蛋白质设计的相当成功,预计未来将见证更高效、定制化的蛋白质为合成生物学的产生。

8.细胞和基因电路工程

无论是使用传统的生物工程还是当前的合成生物学,设计具有有益功能的细胞一直是一个相当大的挑战。在合成生物学时代,工程细胞的一个标志是强调在系统和定量水平上设计和重现非自然的细胞行为,这通常需要多个组分形成具有特定拓扑和功能的交互网络。这些可设计的生物网络由蛋白质、DNA、RNA或每个细胞内的任何遗传部分等大分子组成,称为基因电路。值得注意的是,这样的网络在逻辑上可以超越单细胞水平,换句话说,通过直接或间接的细胞间接触或通信形成交互的多细胞系统,称为细胞电路。工程化细胞和基因电路面临两个基本挑战:(i) 强调正交性和模块性的可用遗传组件,以及(ii) 提供可预测电路行为的理论指导的电路模块设计原则。此外,设计过程高度依赖于复杂的计算建模能力,以分析和预测更大电路和参数空间中的电路行为。因此,合成细胞的计算辅助设计将进一步加强未来细胞工程中的自动化和人工智能,我们将在下文讨论。

8.1.合成基因电路和定量细胞行为

基因电路概念上源自电子电路,但由于大量组件之间的生化或生物物理相互作用以及这些组件之间的非线性连接引起的巨大复杂性,与电子电路有实质性的不同。与天然细胞中的基因电路类似,合成基因电路包括两种基本类型:(i) 基于蛋白质的信号电路(或蛋白质电路)和(ii) 转录基因调控电路(或遗传电路)。然而,这两种类型的区别很小,并且协同工作以控制细胞功能。具体来说,蛋白质电路通过膜受体蛋白质(或传感器)在更快的时间尺度(从秒到分钟)上处理环境信号,然后将信号传递给下游基因调控电路,发生在更长的时间尺度(从分钟到小时)。在过去的几十年中,对合成电路的广泛研究导致了具有集成功能的遗传电路的成功构建,如逻辑门、带通、振荡、适应和极化。虽然许多这些研究仍处于概念验证阶段,但这些合成电路的复杂性和规模的增加显著提高了我们设计和构建具有提高效率和准确性的复杂遗传电路的能力。合成电路的一个主要发展方向是充分利用计算机辅助设计和自动化。为此,需要进行广泛的研究工作,包括良好表征和标准化的遗传组件、实验验证的算法和用于构建和模拟硅电路的软件,以及定制开发的自动化实验设备。值得注意的是,由于遗传操作的困难和各种蛋白质或核酸工具的限制,哺乳动物细胞的电路工程发展不足。例如,哺乳动物电路工程中使用的启动子数量通常是个位数。在现有的启动子工具箱中,目标基因的转录强度难以连续调节,这成为电路设计中电路参数条件实验验证的主要障碍。此外,许多可诱导哺乳动物启动子的基因转录动态范围极低,不利于构建需要低基础但高可诱导基因转录的电路。与细菌细胞类似,不同哺乳动物细胞系中启动子强度和诱导的一致性难以预测。蛋白质工程比启动子工程更具挑战性。蛋白质功能由由20种氨基酸组成的三维结构决定,这比由4种核酸组成的一维序列要复杂得多。至于传感器,受体工程已成为建立正交细胞间信号传导的重要领域,导致感应给定的细胞外信号,如合成细胞因子和生长因子,或将细胞重定向到特定疾病信号。嵌合抗原受体(CAR)激活的T细胞一直是抗癌治疗的重要例子。哺乳动物细胞中存在许多类型的蛋白质,它们在不同水平上建立信号通路,包括蛋白激酶/磷酸酶、蛋白酶、适配器/支架蛋白、转录因子或表观遗传调节蛋白。从病毒中采用的一些蛋白酶工具已被重新用于控制多个细胞功能水平。最近的研究还表明,基于这些工程蛋白酶的复杂逻辑功能的蛋白质电路构建主要是基于这些工程蛋白酶。最后,从头开始的蛋白质设计正变得越来越强大,特别是作为工程化可编程蛋白质-蛋白质相互作用的工具。值得注意的是,AI算法的最新发展将在未来的蛋白质工程中发挥重要作用。毫无疑问,蛋白质工具的发展仍然是哺乳动物合成生物学中一个困难但必不可少的任务。

哺乳动物合成生物学面临的另一个挑战是自然进化的“黑箱”所控制的复杂行为。这些复杂行为表现出定量属性,其原理仍不清晰。这些原则几乎支配着所有重要的细胞过程,包括细胞周期、大小和数量控制、稳健性和异质性、稳态和生长、细胞分化和死亡等。迄今为止,很少有合成生物学研究能够涵盖这些生命之谜。令人鼓舞的是,合成生物学的自下而上方法已经展示了新的途径,以比以往认为的更详细地理解复杂生物系统的构建。一个引人注目的例子是控制许多基本生物过程(例如,细胞周期、昼夜节律、信号响应、节段发生)的振荡电路。作为下一步,预计这种振荡电路将充当“中央处理器”,智能控制工程细胞的功能(图7)。

图7 用于治疗的合成细胞和基因回路。在单细胞水平上,工程设计将集中在三大方面:(i) 能够识别疾病或环境信号作为生化反应的传感器;(ii) 基因回路作为“中央处理器”处理各种输入信号,产生(iii) 定量定义的输出功能以控制细胞功能。在多细胞水平上,合成细胞因子分泌或直接的配体-受体相互作用使得各种细胞间通信能够形成拓扑有序的细胞回路或空间有序的类器官模式。这些单一或多个工程化的活细胞可能作为强大的药物平台,用于治疗复杂疾病,如癌症和代谢性疾病。

我们设想,哺乳动物细胞工程,连同新工具和技术,将成为合成生物学的下一个关键步骤之一。

8.2.基于细胞间通信的细胞电路

哺乳动物合成生物学的一个新兴领域是工程化多细胞系统。这将基于细胞间通信形成具有特定电路结构和功能的相互作用。对于细菌细胞,一个明确的方向是重建从多样的自然环境和疾病相关的肠道到农业重要土壤的微生物群落。对于哺乳动物细胞而言,它们自然存在于多细胞相互作用的背景下,甚至在结构良好的器官中也是如此。因此,多细胞水平的细胞工程代表了合成生物学的另一个主要途径(图7)。

自然系统中的细胞间通信以三种方式发生:(i)发送细胞产生和分泌的蛋白质或小分子扩散,并在接收细胞中激活表面受体蛋白或细胞内传感器;(ii)信号分子(通常是小的第二信使分子)通过通道蛋白传输到直接接触的邻近接收细胞;(iii)发送细胞上的膜配体和接收细胞上的膜受体之间的直接相互作用。很可能发送者的信号触发了接收细胞中的转录事件。无论如何,这些细胞级电路将导致高度复杂的群体行为,这些行为在单细胞水平上不会起作用。细菌和哺乳动物细胞中的空间组织模式可以通过典型的带通电路或逻辑门形成。最近,合成群体感应电路已成功部署以控制细菌和哺乳动物细胞中的细胞群体大小。

然而,这种细胞电路仍处于早期发展阶段。未来需要克服两大挑战。首先,当前研究中使用的信号分子太少。相比之下,人体内存在数百种细胞因子和生长因子,这些因子涉及大量细胞类型的多重调节。因此,工程化合成细胞因子或其他因素以构建未来的细胞电路是吸引人的。其次,为直接接触通信设计的正交受体和配体对很难。最成功的示例是合成Notch(synNotch)信号,它通过细胞外识别域使任何配体的结合成为可能,并触发可编程的下游基因转录。几项示范性研究已经将synNotch系统应用于空间有序的多细胞结构。

除了与基因电路类似的技术挑战外,结构决定电路功能的原理难以理解,特别是鉴于细胞群体时空调节的复杂性不断增加。例如,如何设计具有精确控制的生物稳定性或多稳定性的电路,对于合成细胞分化来说意义重大?哪些电路拓扑结构能够在疾病治疗中实现高效信号放大,具有高保真度和稳健性?细胞电路如何控制稳态下细胞群体的大小和类型?我们设想,这些问题需要定量和全面地考虑细胞电路层面的基本设计原则。

8.3.工程化活细胞治疗

细胞和遗传电路工程的另一个主要趋势是将目前在“玩具”系统中的验证概念扩展到与疾病相关的临床应用。与传统的分子药物形式相比,活细胞药物作为部署有效载荷药物或执行复杂功能(例如,细胞溶解、伤口愈合)的集成平台具有显著优势,这些功能可以由集成的基因或细胞电路智能控制。通过这样做,细胞药物可以在最小化副作用的同时显著提高疾病治疗效果。例如,重新配置的细胞因子信号通路可以作为细胞因子开关,感知并消除促肿瘤细胞因子,并创造一个促免疫细胞因子的微环境。在CAR-T细胞中,部署具有逻辑门或超敏功能的蛋白质电路,以产生对肿瘤抗原的更特异性识别。CAR-T免疫疗法已经展示了活细胞作为一种药物形式的力量,即细胞治疗。在另一个案例中,光遗传学控制的基因电路成功地通过闭环控制策略智能控制动物血液中的稳态葡萄糖水平。这些引人注目的例子表明,合成活细胞药物在治疗顽固性疾病方面迎来了一场新革命。由于对人类健康的重要性,细胞治疗目前的成功率主要基于使用免疫细胞,特别是T细胞,作为治疗性细胞底盘。最近,其他免疫细胞,如自然杀伤细胞、巨噬细胞,不仅在癌症治疗中而且在治疗传染病方面显示出相当的潜力。虽然许多作为药物的工程化细胞仍处于概念验证阶段,我们预计一旦我们能够设计出更精确和功能性的基因和细胞电路,工程化初级细胞水平将变得更加容易。一些最近的研究表明在临床水平上有实质性的改善。值得注意的是,多细胞系统将为细胞治疗提供额外的优势,通过将功能电路模块分配到不同的亚细胞类型中,可以显著降低工程成本。一组具有良好编程的相互作用电路的细胞将作为一个整体工作,以实现更有效、更安全、更经济的治疗功能。

9.无细胞合成生物学

无细胞合成系统代表了与细胞工程平行的合成生物学的另一条技术路线。无细胞合成生物学的目标是一个没有细胞结构的开放系统,专注于所需的代谢网络,使用相应的活性组分,如酶和辅酶,来补充复杂的生化反应。无细胞合成生物学起源于爱德华·布赫纳关于“非活性酵母裂解液的无细胞乙醇发酵”的开创性发现(1907年诺贝尔化学奖)。另一个里程碑是尼伦伯格和马泰发现遗传密码及其在蛋白质合成中的功能(1968年诺贝尔生理学或医学奖)。对于无细胞合成生物学的发展,提出了两种无细胞系统:基于细胞提取物的系统和基于纯化酶的系统(图8)。基于细胞提取物的系统一直用于无细胞蛋白质合成(CFPS),以实现中心法则(DNA到RNA,RNA到蛋白质)的基本过程在细胞外进行。基于纯化酶的系统由许多纯化或部分纯化的酶组成,以实现复杂的级联酶反应,主要用于功能性生物分子和生化产品的生物制造。与在细胞内进行的系统相比,无细胞合成生物系统具有许多优势,如高产量、快速反应速率、高工程灵活性、加速的设计-构建-测试-学习周期、对有毒环境的高耐受性以及易于放大。这些特性使无细胞合成生物学成为许多应用的重要使能技术。

图8 无细胞合成生物学系统的各种应用,包括基于细胞提取物的无细胞蛋白质合成(CFPS)系统和纯化酶基础系统。

9.1.无细胞生物系统用于蛋白质合成和应用

用于蛋白质合成的无细胞生物系统由粗细胞提取物、DNA模板、ATP再生系统、氨基酸、核苷酸、辅因子和缓冲液组成。可以根据要求选择来自大肠杆菌、酿酒酵母、小麦胚芽、兔网织红细胞、昆虫细胞和中国仓鼠卵巢细胞的几种细胞提取物。该系统可用于合成有毒或膜蛋白、生物功能的原型设计、蛋白质修饰和生物传感器。在体内高产量过表达有毒蛋白是困难的,因为有毒蛋白可能会干扰细胞代谢途径,而膜蛋白总是以包涵体的形式表达。无细胞生物系统可用于合成如限制性内切酶、细胞毒性扩张毒素和人类微管结合蛋白等有毒蛋白,因为体外系统对有毒环境具有耐受性。通过添加表面活性剂、脂质体或纳米圆盘,可以在无细胞生物系统中表达膜蛋白。许多膜蛋白,如G蛋白偶联受体、四环素泵、ATP合酶和丙型肝炎病毒膜蛋白,都是由基于细胞提取物的无细胞生物系统生产的。

对于生物功能的原型设计,如遗传元件、遗传回路和代谢途径,无细胞生物系统提供了一个重要的体外平台,并允许在细胞内实施。对于单个遗传元件(启动子、核糖体结合位点和终止子),可以通过PCR突变生成线性表达模板的变体库,然后,在微流控技术的帮助下,可以提取含有单个基因变体的细胞,并将其封装在皮升级的液滴中。除了探测单个遗传元件,无细胞生物系统还可以用来确定这些元件如何在合成遗传控制网络或“回路”中协同工作。已经组装并原型设计了众多无细胞遗传回路,包括由正交聚合酶或sigma因子顺序表达驱动的级联,以及前馈环和负自调控器。以工程化细胞代谢为目标,无细胞生物系统为阐明这些代谢途径提供了巨大的可能性。使用无细胞生物系统中的细胞提取物进行蛋白质合成,其中酶编码DNA模板的表达可以导致途径在单一反应中的自组装,这将是一个相当大的优势。迄今为止,已有几份报告证实了这种方法。例如,分别包含三个和六个酶的两条途径通过无细胞生物系统从线性表达的DNA中重新鉴定出来,分别生产N-乙酰葡萄糖胺和肽聚糖前体。一个将色氨酸转化为紫质的五酶途径也得到了展示。此外,最近使用组合策略构建了一个17步的酶途径用于n-丁醇。结合数据驱动设计,无细胞生物系统可以用来快速评估数百种途径组合在大肠杆菌提取物中以增强丁醇和3-羟基丁酸在革兰氏阳性厌氧菌中的生产,展示了无细胞和体内途径性能。

对于广泛的蛋白质修饰,包括糖基化、磷酸化、聚乙二醇化和非天然氨基酸(uAAs)的插入,无细胞生物系统提供了强大的控制和多功能性,绕过了与基于细胞的毒性和渗透性相关的限制。研究细胞内蛋白质的修饰通常很具挑战性,因为很难在细胞内获得具有均匀修饰的蛋白质。无细胞生物系统已被证明具有高度均匀的蛋白质修饰功能。一个经典的例子是蛋白质上特定位点的糖基化。许多治疗性蛋白质高度依赖于高效和均匀的糖基化。

使用大肠杆菌细胞提取物的无细胞生物系统是检测糖基化的理想测试平台,因为大肠杆菌没有原生的糖基化功能。因此,使用无细胞技术加速无细胞中碳水化合物筛选的能力可能对设计糖基化治疗和疫苗产生变革性影响。开放的无细胞生物系统特别适合使用由非天然tRNA和氨酰tRNA合成酶组成的正交翻译系统,在mRNA的UAG琥珀色终止密码子上添加uAAs。将uAAs整合到蛋白质中为使用修饰蛋白作为治疗剂提供了无限的可能性。一旦uAAs被精确地整合到目标蛋白质上,它们就作为生物正交化学手柄,与功能化小分子反应生成治疗缀合物,如抗体-药物缀合物(ADCs)。

当我们评估无细胞生物系统作为生物传感器的角色时,它们比整个细胞生物传感器提供了几个实际优势。无细胞生物系统中可以检测到细胞壁不渗透或细胞毒性的分析物,并且它们更可靠,因为整个细胞传感器中可能发生突变和质粒丢失。无细胞生物系统的蛋白质合成特性可以用来托管基于基因回路的传感器,这些传感器可以以极高的灵敏度和特异性检测核酸和小分子。为了检测主要来自致病病毒和细菌的核酸,将从含有病原体的样本中提取的RNA添加到一个无细胞生物系统中,该系统被编程为只在存在目标核酸序列的情况下通过设计的toehold开关核糖调节器产生报告蛋白。它可以取代逆转录PCR(RT-PCR)用于更快速的诊断测试。使用这种策略,可以快速检测许多病毒,包括埃博拉、寨卡、诺如病毒、黄瓜花叶病毒、SARS-CoV-2和某些肠道定植细菌。这种无细胞病毒检测系统可以通过冻干技术固定在纸上,以提高其便携性和稳定性,为满足当前Covid-19和未来病毒大流行的紧急诊断需求提供另一种选择。与核酸检测相比,无细胞检测小分子(例如,环境毒素或细胞代谢物)的进展较慢,因为没有合成核糖调节的类似物用于构建任意小分子的传感器。大多数报道的无细胞小分子传感器检测环境毒素,如汞和氟化物、药物,如γ-羟基丁酸或细菌群体感应信号,如N-丁酰-L-高丝氨酸内酯。研究表明,无细胞传感器可以被冻干并在纸基质上干燥后保持活性数月,为无细胞系统解决易于分发和低成本传感的未满足需求提供了另一种手段。

9.2.基于纯化酶的无细胞生物系统在生物制造中的应用

基于纯化酶的无细胞生物系统指的是构建由多个纯化/部分纯化的酶组成的生物催化系统,这些系统通过工程化的反应途径将特定底物转化为所需的化合物。在这里,我们关注的是使用淀粉、葡萄糖、纤维素和二氧化碳等可持续底物进行生物制造的无细胞生物系统。

肌醇(以下简称为肌醇)和氢气是由无细胞生物系统直接从淀粉中产生的两种典型产品。肌醇在化妆品、制药和食品工业中广泛使用。它通过酸水解植酸获得。这种方法使用昂贵的原料,并产生严重的磷污染。张等人和Atomi等人分别构建了一个包含四个酶促反应的无细胞生物系统,该系统可以将淀粉转化为肌醇,理论产品产率达到100%。这个生物系统中的所有酶都是嗜热的,因此可以通过热处理和高温反应来轻松纯化酶,避免微生物污染。与传统化学方法相比,这种从淀粉生产肌醇的新方法具有生产绿色肌醇的巨大潜力。目前,博浩达生物(中国)正在建设一个工业设施,以扩大这种新颖方法生产肌醇。许多其他增值化学品,如氨基葡萄糖、阿洛糖和(-)-维博醇,可以通过类似的淀粉酶处理合成。

氢气是未来的交通燃料,通过燃料电池提高能源效率有潜力减少温室气体排放,并为最终用户提供零污染物。自然细胞代谢途径每摩尔葡萄糖只能产生高达4摩尔的H2。张和同事进行了一个概念验证实验,通过包含13个纯化酶的无细胞生物系统每摩尔葡萄糖产生12摩尔的H2。该生物系统几乎可以定量地将淀粉转化为H2和CO2,总的化学计量如下:C6H10O5+7H2O=12H2+6CO2。这个生物系统可以稍作修改,以开发能量密度比锂离子电池高一个数量级的糖生物电池。这个无细胞生物系统为氢气生产奠定了未来糖-氢车辆的基础。

当葡萄糖作为底物在无细胞生物系统中使用时,乙醇、异丁醇和预尼化天然化合物的生产如下所述。乙醇是最重要的汽油添加剂,异丁醇是与当前内燃机和输运管道兼容的四碳液体酒精。Sieber和同事设计了一个无细胞生物系统,可以通过丙酮酸从葡萄糖中生产乙醇和异丁醇。与传统的10个酶在自然糖酵解途径中使用相比,这个生物系统仅使用四个酶将葡萄糖转化为丙酮酸,然后可以转化为乙醇和异丁醇。这个无细胞生物系统即使在4%(v/v)异丁醇存在的情况下也能产生大量的异丁醇,而即使是低浓度(例如,1%-2% v/v)也会阻止微生物产生异丁醇。这一进展表明,无细胞生物系统对有毒环境具有高度耐受性。为了生产预尼化天然化合物,Bowie和同事设计了一个由20多个酶组成的无细胞生物系统。这些酶可以分为4个主要反应模块:一个从葡萄糖中生产丙酮酸的糖酵解模块;一个从丙酮酸中生产乙酰辅酶A的乙酰辅酶A模块,以及一个从乙酰辅酶A中生产香叶基焦磷酸(GPP)的甲羟戊酸模块;以及一个生产所需预尼化产品的预尼化模块。预尼化模块也可以通过使用替代酶和底物来调节,以生产各种预尼化化合物,如异戊二烯(重复词)和大麻素。经过系统优化后,这个无细胞生物系统产生了1.25 g L−1的大麻素滴定度,这至少比使用活细胞的已发表结果高两个数量级。

当纤维素作为底物时,一个典型例子是由无细胞系统从纤维素中生产淀粉。这个生物系统包含内切葡聚糖酶、细胞葡聚糖水解酶、纤维二糖磷酸化酶和α-葡萄糖磷酸化酶,用于预处理生物质一锅法酶转化淀粉。高达30%的纤维素中的脱水葡萄糖单元可以转化为淀粉。由于纤维素原料的年来源质量约为食品和饲料淀粉的40倍,这种将非食品纤维素转化为淀粉的成本效益转换可以重塑生物经济,解决食品、生物燃料和环境的三重困境。

中国科学院天津工业生物技术研究所的研究人员构建了一条人工淀粉合成途径(ASAP),利用CO2和氢气合成淀粉。ASAP是一个化学-生物混合系统,包括一个化学系统和一个无细胞生物系统。化学系统将CO2和氢气转化为甲醇。

无细胞生物系统包含11种核心酶和三种辅助酶,将甲醇转化为淀粉。经过条件优化,包括模块化组装和替换以及三种速率限制酶的蛋白质工程,这种化学-生物混合系统将二氧化碳转化为淀粉的速率为22纳摩尔每分钟每毫克总催化剂,比玉米底物系统高出8.5倍。这种方法提供了一个潜在的全球粮食供应策略,更重要的是,为探索其他星球时的食物来源问题提供了一个潜在的解决方案。总之,无细胞合成生物学提供了一个改变游戏规则的工具,绕过活细胞固有的限制。在不同领域有大量的研究,包括基因表达、遗传网络、蛋白质修饰、按需生物传感和使用无细胞生物系统的生物制造,无细胞合成生物学的前景是显而易见的。然而,要实现无细胞生物系统的真正潜力,需要克服几个挑战,包括这些生物系统的寿命和不稳定的天然辅因子的再生。在解决这些不足之后,无细胞合成生物学将把生物学和生物技术带入一个新时代,带来许多有趣的结果。看到无细胞合成生物学与材料科学、电子学、计算机和人工智能等其他尖端学科相结合,这是令人兴奋的。

10.人工智能和合成生物学

获得理想的生物组件是构建合成生物系统的基础。随着最近计算能力的增加,人工智能(AI)已被证明在各种具有挑战性的任务中表现出色,如图像生成、自然语言处理和合成生物学应用。这一节将简要描述依赖AI的方法,这些方法在挖掘复杂的生物属性和设计优化的合成生物组件(生物部件)方面取得了越来越多的成功,特别是基因调控序列。有关特定应用的深入讨论,如代谢工程、基因治疗和药物发现,有优秀的综述可供参考。

10.1.AI引导的生物部件逆向设计的一般框架

生物部件设计是一个重要但复杂的任务,旨在基于特定目标属性逆向工程新的生物分子。实验上很难穷尽地搜索潜在的序列空间以发现新的生物部件(例如,100个碱基对的DNA序列形成一个潜在的序列空间4^100)。因此,虚拟筛选为探索这个广阔的空间提供了一个有希望的替代方案。有了可以估计序列空间适应度景观的计算模型,现在可以选择合适的设计候选者,并采用迭代过程实现生物部件的高效虚拟筛选(图9A)。

图9 A,生物部件设计的设计与构建-测试-学习(DBTL)流程图。生物部件设计将AI引导的虚拟筛选、生物部件合成、生物测量和功能特征学习整合到一个闭环框架中。B,关于生成模型和预测模型的框架。

从机器学习的角度来看,生物部件的逆向设计问题可以抽象为估计生物部件功能联合分布的数学问题,并从中采样目标生物部件x和目标功能y。针对目标功能y,生物部件设计问题可以用概率术语表述为寻找最大化联合概率p(x,y)的相互兼容的序列-功能对。使用概率链规则,我们可以得到 p(x,y) = p(y|x) * p(x),(1) 其中第一项代表给定序列x的函数y的条件概率,第二项代表序列x的生物兼容性,受化学和生物物理属性的约束。机器学习方法的发展,特别是深度学习,使得对适应环境的估计越来越准确,并大大提高了生成满足生物约束的候选设计的效率。将虚拟筛选和高通量实验筛选结合在一个闭环中,促进了虚拟筛选的迭代优化,并进一步加快了设计进度(图9A)。

10.2.合成生物学的深度学习模型

随着计算能力和高通量组学数据的增加,深度学习已成为学习复杂模式和隐式或显式估计数据分布的有效方法。我们简要介绍两类在生物组件设计中广泛使用的深度学习模型:预测模型和生成模型。预测模型:为了估计项p(y/x),构建了预测模型来评估输入生物部件x条件下的属性y。预测模型的输入是生物部件的序列,输出是这些序列的预测属性。例如,我们向模型提供了一个启动子序列,并让它预测下游基因的表达水平。一个广泛使用的模型是基于卷积神经网络(CNN),它可以有效地学习序列中的局部模式,如转录因子结合位点及其组合。例如,Zrimec等人使用CNN模型预测启动子、5′UTR、3′UTR和终止子序列的基因表达,并在预测S. cerevisiae mRNA丰度方面取得了0.822的R平方值。基于CNN模型的另一个著名应用来自AlphaFold。在蛋白质结构预测的第一阶段,他们使用了64个残差卷积块来预测距离和扭转分布,并在比较CASP 13系统上取得了相当大的改进。基于递归神经网络(RNN)模型和基于注意力的神经网络的预测模型也被广泛用于捕捉不同调控元素之间的长期相互作用。RNN是一种使用序列信息提取长期相关的人工神经网络。Quang等人提出了一种混合卷积和递归深度神经网络来量化DNA序列的功能。注意力是一种模仿认知注意力的技术,可能与单个序列中的不同位置相关,并在自然语言理解任务中取得了令人印象深刻的结果。注意力机制的优势在于它可以注意感兴趣的区域或模式,无论距离如何,从而有助于理解DNA或蛋白质序列中的长距离语法。注意力模型最突出的应用是AlphaFold2,它在蛋白质结构预测方面显著优于其他方法,包括AlphaFold。AlphaFold2在预测模型中使用注意力机制而不是AlphaFold中的卷积层。这种改进表明,注意力机制在未来的结构和适应度预测应用中具有相当的潜力。生成模型:生成模型旨在理解数据的底层分布p(x)。深度生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),使用深度神经网络通过将样本空间映射到低维表示空间并从中生成新样本来隐式估计样本空间中的分布。最先进的生成模型在计算视觉任务中生成生动图像方面取得了相当的成功。这些最先进的性能背后的理念是,生成模型可以估计受复杂属性限制的样本分布,这有助于研究人员在样本空间中实现高效的模型引导导航,并生成以前从未见过的全新样本。同样的方法也可以用于估计只占总体序列空间一小部分的功能生物分子序列的分布,这些序列空间受到生物物理属性和长距离相互作用的限制。深度生成模型可以帮助研究人员更有效地探索更有可能具有功能的候选序列。

10.3.使用人工智能工程生物部件

人工智能算法已被应用于合成生物部件的设计,包括设计顺式调控序列、小分子药物和小肽。有了足够数量的带有功能注释的序列样本(x)以及设计良好的人工智能模型,现在可以从零开始合理地计算设计生物部件。一种方法是将预测模型与随机筛选、遗传算法或梯度搜索结合起来,虚拟筛选适应度景观以找到可能的功能生物部件。例如,Van Brempt等人使用超过250,000个合成序列的训练集来预测表达,然后应用随机筛选选择表达差异的大肠杆菌sigma 70启动子,并实验验证了Spearman等级相关因子等于0.909。Kotopka等人实现了遗传算法和梯度搜索优化,为高表达设计了组成型和诱导型酵母启动子。Bogard等人基于预测模型通过梯度上升优化设计了替代聚腺苷酸化位点,该模型将替代聚腺苷酸化位点的位置权重矩阵(PWM)输入映射到异构体数量。Bryant等人在预测模型的指导下,逐渐远离自然AAV血清型序列,设计了高度多样化的腺相关病毒2型(AAV2)衣壳蛋白变体。除了获得更好的预测模型外,另一个重要方向是获得更好的样本分布估计,以更有效地生成新的生物部件候选者。以高表达启动子序列设计为例(图9B),Wang等人使用生成对抗网络调查了超过10,000个自然序列,并在大肠杆菌中应用了新的启动子设计。生成模型首先从自然启动子数据集中学习启动子分布。生成器检测关键的调控模式,如转录因子结合位点(TFBSs),并可以生成与序列签名匹配的新样本。然后训练一个预测模型来估计样本的属性。结合生成和预测模型,可以通过虚拟筛选获得合成高表达启动子候选集。最后,包括基于人工智能的虚拟筛选和实验验证的迭代过程(图9A)有助于模型高效学习生物部件的功能。结果,高达70.8%的人工智能设计的启动子在实验上被证明是功能性的,其中很少有序列与大肠杆菌基因组表现出显著的序列相似性。在另一个例子中,Repecka等人提出了一种基于自注意力的生成对抗网络的变体,以学习自然蛋白质序列多样性,其中24%的生成序列是功能性的,包括一个高度突变的106个氨基酸替换变体。Shin等人还引入了一个深度生成模型,成功设计并测试了一个多样化的105纳米体库,即通过探索新的序列空间。Biswas等人应用了一个具有长短期记忆的深度生成模型,以捕获均匀的蛋白质序列分布,并计算探索蛋白质景观,在10^7到10^8变体范围内。他们成功地从野生型序列构建了荧光蛋白avGFP和酶TEM-1β-内酰胺酶,作为训练数据,仅在24或96个表征的序列变体中。有了处理复杂数据的计算能力,人工智能已成功应用于各种合成生物学问题,并显示出前所未有的效率,比传统实验方法加速了逆向设计任务数个数量级。基于人工智能的方法,如深度预测模型、深度生成模型和强化学习方法,在合成调控序列设计和药物发现方面带来了显著改进。将人工智能模型集成到闭环生物过程优化框架中将大大加快全面设计过程。尽管取得了这些最新进展,人工智能在合成生物学中的应用仍处于起步阶段。一个主要原因是现有人工智能方法的能力受到训练样本大小的限制。与计算机视觉和自然语言处理任务相比,这些任务通常有数百万甚至数十亿的训练样本,生物数据的样本量太小,无法充分发挥这些深度学习模型的能力。因此,为社区提供带有序列到功能注释对的标准化样本以更好地训练人工智能模型是很重要的。另一点是,最先进的人工智能框架,如卷积神经网络和基于注意力的模型,源自非生物领域,如计算机视觉或自然语言处理任务。现在至关重要的是开发新的人工智能框架,更好地整合来自生物领域的知识。例如,合成基因回路与细胞内的复杂多级调控之间的相互作用仍有待研究。此外,细胞中的功能生物部件通常在时间序列中显示出动态变化,因此如何测量和捕获生物部件的动态分布也是一个需要解决的重要问题。克服这些挑战将为合成生物学和人工智能在不久的将来带来巨大的潜力机会。

11.生物铸造厂—合成生物学中的流程自动化

11.1.使用生物铸造厂实现DBTL自动化

如前两节所讨论的,由于缺乏预测模型,通常采用试错过程来创建具有理想特性的生物系统。通过物理和信息自动化(图10),生物铸造厂承诺实施并加速设计-构建-测试-学习(DBTL)周期,将其作为合成生物学的工程框架。计算机辅助设计(CAD)、机器人技术和高通量仪器的集成允许高效探索遗传和过程变量,并快速生成数据,以推荐使用主动学习算法进行下一次DBTL迭代的实验计划。此外,材料、硬件、协议和数据报告的标准化消除了个体特有的偏见和错误(Beal等人,2020)。增强的可重复性使得跨批次、项目和机构的大数据分析成为可能,以获得工程生物学的机制和统计模型。目前,全球的公共机构和私营公司正在建设生物铸造厂(表1)。已经开发了许多机器人工作流程,用于自动构建和测试基于生物学的合成遗传构造和生物体,主要关注微生物细胞工厂用于化学/生化生产。

图10 生物铸造厂提供了一个集成基础设施,通过物理和信息自动化来自动化合成生物学的DBTL循环。构建:由机器人脚本编程,自动化仪器构建基因盒、途径/电路和合成基因组,随后进行细胞培养、遗传转化和克隆选择。测试:测试自动化允许在不同尺度上进行快速和大规模的基因型-表型映射,使用可发现、可访问、可互操作和可重用(FAIR)的元数据进行DBTL迭代,使用自适应学习算法。

11.1.1.构建自动化:DNA构建

在生物铸造厂中,机器人协议可以应用于大规模制造表达盒、代谢途径、遗传回路甚至整个基因组,使用合成或克隆的DNA片段。II型限制和同源定向方法广泛用于自动化兼容的DNA组装,主要是因为它们允许使用标准程序进行一步、无疤痕的多个片段组装。对于II型限制方法,Golden Gate方法可以在一个名为iBioFAB的学术生物铸造厂中一步组装多达15个片段,每天可以创建400个结构。对于同源定向方法,多达12个DNA片段可以在S. cerevisiae中通过转化相关重组(TAR)组装,实现每天超过1500个构造的吞吐量。然而,DNA组装并非无误,机器人筛选对于快速和大规模识别正确组装的结构是必要的。例如,结构分析可以自动化qPCR分析以检测组装的接头,以及毛细管电泳(CE)分析以匹配限制模式。此外,借助于机器人NGS文库制备期间引入的多重DNA条形码,下一代测序(NGS)验证可以设计为在单次运行中分析数百到数千个组装结构。

11.1.2.构建自动化:工程生物体

使用机器人系统进行生物体工程的基本程序包括细胞培养、遗传转化和克隆选择。对于这些程序,有现成的仪器可用,并且可以轻松集成以自动化处理好氧模型微生物,如上所述,当E. coli和S. cerevisiae被用作机器人DNA组装的重组宿主时。对于非模型生物,需要特别设计的设备和实验室来支持自动化工作流程。例如,一个铸造平台完全封闭在环境控制室中,用于机器人操纵严格的厌氧细菌。此外,尽管可以进行大规模电穿孔以96孔格式进行,但某些微藻的遗传转化需要在微流体学中进行单细胞电穿孔。此外,需要定制修改商业菌落挑选器以纯化同源二倍体转化子,并挑选多核丝状真菌的菌丝。对于那些对机器人协议具有挑战性的生物体,相应无细胞系统的自动化提供了一个可行的替代方案,如在伦敦生物铸造厂快速原型Bacillus megaterium启动子所示。

11.1.3.超越光学测定的测试自动化

测试自动化不仅允许在DBTL周期中快速验证设计,而且还允许在缺乏合理设计规则的情况下进行大规模基因型-表型映射。光谱学是微孔板格式中常见的测试方法,但通常限于光学活性分析物和与生长相关的表型。否则,需要化学/酶促转化或转录生物传感器将目标表型与光谱信号联系起来,但测定开发通常需要时间和劳动力。为了扩展测试能力,传统上缓慢但信息丰富的分析方式越来越多地被整合到生物铸造厂中。例如,质谱(MS)提供了无标记分析,具有优越的分子特异性和覆盖范围;虽然它非常适合细胞工厂的代谢分析,但通常受到耗时的色谱分离的限制(5-60分钟)。RapidFire MS、Echo MS、MALDI-MS系统与自动化样品准备相结合,消除了色谱步骤,从而实现了细胞培养的快速化学分析,每个样本1-10秒。机器人创建微生物库,然后进行高通量MS分析,已成功用于基于生物学基础识别理想的酶和菌株变体。

11.1.4.DBTL 自动化:近期实例

除了在构建和测试中的孤立机器人步骤外,最近建成的设施展示了在完全自动化DBTL循环中取得的进展。例如,通过整合iBioFAB铸造厂、贝叶斯算法和预测模型,构建了BioAutomata平台,以研究在启动子强度中自主探索变量空间,以优化番茄红素生产的生物合成通量,无需研究者干预。在三个自动化的DBTL循环中,BioAutomata的性能比随机搜索高出77%,在仅评估了所有可能变体的不到1%之后。同样,由Agile BioFoundry开发的自动化推荐工具(ART)结合了机器学习和贝叶斯集成方法来预测生产水平,并指导后续DBTL迭代的实验。当与基于约束的机械基因组规模模型结合时,ART成功地增加了酿酒酵母中色氨酸的生产。此外,在英国合成生物化学铸造厂,通过实验设计(DoE)方法指导的反向生物合成设计、酶筛选和路径优化的迭代DBTL循环,在85天内迅速在大肠杆菌菌株中创造了17种材料单体的生产。

11.2.生物铸造厂面临的挑战和未来发展

尽管这些概念验证成功,但要实现生物铸造厂的全部潜力,需要解决三个主要挑战,即人机适应、应用可扩展性和信息自动化以实现自主发现。

11.2.1.人机协同

首先,现有的实验室软件、设备和合成生物学中的协议通常针对人类,将其转化为机器人执行并非易事(工程生物学研究联盟,2019年)。例如,某些手动步骤难以自动化(例如,在DNA沉淀过程中尽可能完全去除酒精上清液);定制硬件(即微流体学)与商业机器人和相关软件不兼容。然而,由于缺乏生物铸造厂的高级协议编译器,实验室生物学家直接使用与机器相关的编程语言开发机器人工作流程的学习曲线可能很陡峭。为了促进人与机器之间的双向适应,有必要开发具有适当抽象和形式化的模块化和分层软件包。通过这种方式,科学家、工程师、程序员和系统集成商可以在各自的专业领域独立工作,同时协作开发分子工具、硬件、软件、流程和应用。

11.2.2.物理自动化:灵活性和多功能性

其次,生物铸造厂的早期实施只解决了合成生物学的一系列核心需求,应用领域有限。例如,大多数当前的工作流程集中在DNA组装或工程大肠杆菌和酿酒酵母作为化学生产宿主。其他备受追捧的应用,如生物传感和生物修复,不受生物铸造厂的良好支持。新应用和相关技术需要不断定制和重新配置软件、硬件和工作流程。从概念上讲,通过解耦单元操作,可以在不影响上游或下游步骤的情况下纳入新流程,从而提高流程灵活性(工程生物学研究联盟,2019年)。然而,当前的生物铸造厂测试模型大多限于行业标准的微孔板。由于表型受到遗传设计和环境限制的影响,微孔板中的测试结果可能无法很好地转化为实际部署。例如,振动孵化器中的深孔板无法复制反馈生物反应器中的动态调节环境。在这种情况下,硬件集成必须超越机器人样本在组件设备之间的传输。例如,通过集成微流体传感器和执行器,BioLector系统能够实时监测和反馈微孔板培养模型中的pH值、溶解氧张力和光密度。

11.2.3.通过标准化和社区努力实现信息自动化

第三,信息自动化与物理自动化同样重要,以便以可发现、可访问、可互操作和可重用(FAIR)的方式生成实验结果和流程元数据(工程生物学研究联盟,2019年)。此外,生物铸造厂中统一的实验室软件、机器人和集成软件将有助于开发协议和数据标准,以增强可复制性和互操作性。共同制定标准确实是最近成立的全球生物基金联盟(GBA)的一项基本任务。采用这种方法,构建和测试中的自动化和标准化不仅生成了高质量的大规模数据集,而且还实现了机器学习模型和合成生物学验证之间的迭代反馈的复杂实验设计。我们设想,尽管缺乏对机械原理的理解,数据驱动方法的预测能力将解决生物系统设计中的挑战。

11.3.总结

通过物理和信息自动化,世界各地的合成生物学铸造厂可以预见到前所未有的大规模生产合成DNA结构和工程有机体。然而,基础生物学研究的最终目标不是一次自动化一个特定生物系统的黑箱优化,而是加速一般理论和工程生物学设计规则的科学发现。通过持续的工程和创新,可以实现假设生成AI代理和自动化实验之间的紧密耦合,从而导致一个自主驱动的铸造厂的发展,用于生物学的预测性设计。

12.结论与未来展望

大规模合成DNA的能力开启了编写基因组的大门,代表了解决基本生物学问题的强大方法,使得创造具有有用属性的工程有机体成为可能。人类基因组测序的成本已经下降了一百万倍,所需时间从15年减少到几天甚至几小时。在同一时间框架内,DNA合成的成本仅线性下降。高通量DNA合成和组装技术将显著加速基因组工程。重要的是,计算机辅助蛋白质结构预测将允许科学家从头开始设计具有新功能的基因组。

DNA存储,是信息技术应用中DNA合成和DNA测序技术的一个巧妙结合,是一项真正的尖端技术。然而,由于上述原因,写入和读取的成本非常高。在数据存储需求呈指数增长的推动下,这些问题仍需迫切解决。

CRISPR/Cas基因编辑已成为合成生物学中的一项常规技术。除了DNA编辑外,RNA编辑可以避免基因组中的永久性变化,降低非目标突变的风险。单碱基编辑系统可用于治疗由单碱基突变引起的各种疾病。考虑到合成生物学通常需要复杂的基因操作,一个更准确、高效和多目标的基因组编辑系统是迫切需要的。

通过随机突变引导的蛋白质定向分子进化在酶工程中取得了巨大成功。随着生物信息学的快速发展,基于对蛋白质结构和功能深入理解的合理设计变得越来越现实。蛋白质结构预测的最新算法突破可能会推动蛋白质设计从固定骨架设计转向从头设计。想象一下,一个由200个氨基酸残基组成的蛋白质有20200种可能的序列,远远超过自然进化在数十亿年中形成的序列数量;设计新蛋白质的机会将是无限的。

通过非天然氨基酸和负责复制、转录和翻译的分子机器扩展遗传密码子,不仅为重新考虑地球上的生命形式打开了一扇窗口,而且还为创造半合成有机体提供了前所未有的手段。例如,通过向细胞培养中添加非天然氨基酸,可以大量生产含有非天然碱基对的合成病毒。然而,在没有非天然氨基酸的情况下,合成病毒无法在人体内复制,同时保持完全的免疫原性。这一策略确保了疫苗开发的安全性和有效性,其协议原则似乎是潜在的通用的。然而,天然细胞并不轻易接受非天然代码。为了提高与宿主细胞自身遗传系统的正交性,有必要建立一个不干扰自然细胞系统的非天然系统。另一个新概念是镜像生物学。镜像合成生物学系统由D-氨基酸和L-DNA组成。同样,镜像生物大分子抵抗自然酶系统的降解,并避免触发免疫反应,这可能形成一个强大的生物正交系统,能在活细胞中起作用。

细胞工程是合成生物学中各种技术的合成。底盘细胞是一个吸引人的概念,假设遗传电路和模块在底盘上是“即插即用”的。由于遗传背景更清晰,当前的底盘细胞基于模型微生物基因组的优化和最小化,或通过部分重写基因组而创建。然而,到目前为止,还没有真正通用的底盘细胞。各种基因电路插件的适应性或底盘细胞的稳健性通常需要大量的试错实验或计算机辅助的合理设计。相比之下,基于植物和动物的底盘细胞仍在开发中,因为它们的基因组和细胞内环境复杂,但已经有一些令人兴奋的应用。此外,包含设计好的细胞间通信和共代谢的人工共培养系统,以及包含序列酶催化模块的无细胞系统,是单培养生物制造的替代品。器官工程,包括器官芯片、3D打印器官和类器官工程,是另一项旨在克服使用人体进行医学实验的困难的多细胞、多层次任务,为生理学、病理学、再生医学研究和药物开发提供体外手段。

人工智能在合成生物学中扮演着越来越重要的角色。它的影响几乎涵盖了从从头设计蛋白质、底盘细胞设计到生物铸造厂运营的所有方面。一个近期的例子是计算机辅助设计的抗体纳米笼,其中多达30个抗体被精确组装成这些结构。DNA分子携带的大量遗传信息使得蛋白质结构具有无限的多样性,这决定了我们的生活系统是一个巨大的复杂系统。生物学与人工智能的结合可以帮助我们有效地探索这个系统。这反过来将加速定量合成生物学的发展,从而提高合成生物学的合理设计能力和可预测性,支持“功能出现”的实现。

识别微信二维码,添加抗体圈小编,符合条件者即可加入抗体圈微信群!
请注明:姓名+研究方向!



本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(cbplib@163.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。                               

抗体圈
关注生物药行业动态,对热点进行深入解析。
 最新文章