诺奖得主 David Baker 与合成生物学丨再创

学术   2024-10-12 11:28   广东  

引言 /Introduction

当前,人工智能、计算机科学、和合成生物学的结合正处于一个迅速发展的十字路口,推动科学家设计出前所未有的生命系统。「因为计算蛋白质设计」而获得 2024 年诺贝尔化学奖的 David Baker 的系统性工作正是这一时代的缩影。生物技术的突破不再仅仅依靠实验室中的反复试错,计算技术为科学家提供了更多预测与设计的可能性。人工智能不仅加速了蛋白质结构的预测,还为我们创造前所未有的蛋白质功能提供了工具。今天,蛋白质设计也已经成为推动合成生物学领域发展的核心力量之一。 
我想很多文章已经系统性就 David Baker 在物理模型以及人工智能驱动的蛋白质设计方向的成果做出了优秀的总结 (比如参考文末的综述推荐)。作为专注在合成生物学领域的自媒体,我将在此文章通过几篇关键的工作,带领大家了解 David Baker 在合成生物学领域的关键工作。我将这些工作进行了主题总结,并大致按照时间线顺序进行了介绍。

 2024 年诺贝尔化学奖画像—David Baker。同期获得诺贝尔化学奖的还有在蛋白质结构预测上做出突出贡献的科学家— Demis Hassabis 以及 John M. Jumper。图源:诺贝尔奖官网。

孟凡康 / 作者


// 合成生物学的早期推动者

2006 年,《科学美国人》发表了一篇题为《Engineering Life: Building a FAB for Biology》的文章。这篇文章的作者群星璀璨,包括合成生物学领域的多位耳熟能详的学者:Ron Weiss、Jim Collins、George Church、Christina Smolke、Drew Endy 和 Jay Keasling 等等,当然其中也有我们今天的主角:David Baker。

 《Engineering Life: Building a FAB for Biology》文章截图。图源:《科学美国人》网站

这篇文章从多个方向论述了合成生物学未来发展所需要的重要支撑,其中两个关键论在今天看来也不过时:长片段 DNA 的合成技术和生物铸造厂(BioFab)的建设。文章总提到,未来的生物工程需要能够快速、廉价、且高效合成数千甚至数百万碱基长的 DNA 片段。这不仅是实现复杂基因网络设计的基础,也是构建新型生物材料、酶类、代谢网络的前提。在当时,DNA 合成技术仍处于初步阶段。常规合成方法只能生成较短的 DNA 片段,通常限制在几十到几百个碱基长度。对于合成生物学来说,这远远不够。构建一个简单的基因网络往往需要上千个碱基的 DNA 序列,而设计复杂的生物系统,如新型代谢通路或合成微生物的基因组,则需要数十万甚至上百万个碱基长度的 DNA 片段。

David Baker 当时便意识到了这一问题的紧迫性。他与其他科学家一同提出,长片段 DNA 的合成将是合成生物学走向大规模应用的关键。从现在看来,尽管在 DNA 合成和组装技术在过去的二十年中取得了长足进步,但长片段 DNA 的合成仍然是一个巨大的技术挑战。当前的高通量合成技术在合成较短 DNA 序列方面已经取得了成功,但当序列长度达到上千甚至上万碱基时,合成的成本和出错率仍然较高。因此,如何有效合成长片段 DNA 仍然是整个领域的核心难题。如今,基因组工程的需求越来越高,尤其是在生物制造、医药和农业领域,解决这一问题对于整个生物技术产业的未来发展至关重要。

 长片段 DNA 的合成与组装。图源:纽约时报

同时包括 David Baker 在内的多位作者也预见到未来的生物工程师不仅仅是在实验室里合成一两个基因,而是需要构建复杂的基因电路和生物系统,类似于电子工程中的集成电路。在文章中,他们提出了一个重要类比:合成生物学需要自己的‘生物铸造厂’,就像半导体芯片制造工厂一样。所谓“生物铸造厂”(因为对应 BioFab 或者现在更常提到的 Biofoundry),最初的设想是一个类似于半导体制造工厂的基础设施,能够批量生产标准化的生物部件。这一概念受到了电子工程的启发,特别是半导体行业中 Jean Hoerni 在 1957 年发明的“平面技术”。平面技术通过使用光掩模模板在硅晶圆上层叠和蚀刻金属与化学品,允许工程师快速、批量地制造集成电路,并随着时间的推移通过技术改进大幅提升生产效率和成本效益。

David Baker 和文章的作者们意识到,合成生物学领域也需要类似的基础设施。生物铸造厂将成为合成生物学中批量合成和标准化生物元件的核心设施,通过规模化、自动化的操作,使得生物系统的设计和制造效率成倍提升。正如电子元件库推动了半导体产业的发展,标准化的生物元件也将加速合成生物学的发展。生物铸造厂不仅可以帮助科研人员大规模生产 DNA、蛋白质和其他生物材料,还能够通过高通量的合成方法,加速复杂基因网络的设计和优化。

自这个概念提出以来,生物铸造厂逐渐从设想变为现实。全球范围内的生物制造设施如雨后春笋般涌现,美国、欧洲和中国的多个城市都在建设现代化的生物铸造厂,提供 DNA 合成、蛋白质生产、酶类设计、生产发酵等关键支撑性服务。中国的深圳,尤其是在这方面取得了突破,合成生物研究重大科技基础设施(简称“大设施”)建立了世界上最大的生物铸造厂之一。这些设施的规模化和技术进步,使得复杂的生物系统设计成为可能,正在推动生物制造业的快速发展。

 合成生物研究重大科技基础设施(简称“大设施”)。图源:网络媒体。

// 生物燃料的探索

在能源危机和气候变化的双重压力下,生物燃料多次成为全球关注的热点。物燃料,特别是乙醇和生物柴油,曾被视为替代化石燃料的潜在解决方案。它们可以通过微生物发酵过程,将植物中的糖类转化为能源。然而,传统的生物燃料生产存在几个关键问题,限制了其大规模应用。首先,早期的生物燃料生产主要依赖于粮食作物(如玉米和甘蔗)作为碳源,这导致了“粮食与燃料之争”。随着对粮食安全的关注不断增加,科学家们开始寻找非粮食作物作为替代原料,如木质纤维素和藻类等。此外,生物燃料生产的成本与化石燃料相比仍然较高,尤其是在处理复杂的植物结构时,需要耗费大量的能量和化学品来分解植物细胞壁,释放出可用于发酵的糖类。

David Baker 及其合作者敏锐地意识到了这些问题。在 2012 年,Baker 与合作团队共同在《科学》上发表了一篇论文,提出了利用海藻作为生物燃料原材料的设想。相比传统的粮食作物,海藻具有多个关键优势,使其成为潜在的理想生物燃料原料。首先,海藻的种植不需要耕地、淡水和化肥,这意味着海藻的生产不会与粮食作物竞争土地资源,也不依赖于淡水资源的供给。尤其是在土地资源稀缺的地区,海藻成为了一种可持续的选择。其次,海藻富含多糖类物质,如藻酸盐和甘露醇,这些化合物可以在微生物发酵过程中转化为乙醇等燃料。而且,海藻不含木质素,这使得它比木质纤维素作物更容易处理,避免了复杂的预处理过程,从而大幅度降低了生产成本。

 「An Engineered Microbial Platform for Direct Biofuel Production from Brown Macroalgae」图源:《科学》官网

Baker 及其合作者团队提出的策略是通过合成生物学手段改造微生物,使其能够高效降解和代谢海藻中的多糖。他们发现了一种来自灿烂弧菌(Vibrio splendidus)的代谢途径,可以用来编码藻酸盐转运和代谢相关的酶,通过将这一外源代谢途径整合到微生物基因组中,设计了能够同时降解、摄取和代谢藻酸盐的微生物平台。同时相关技术不仅局限于海藻,还可以扩展到其他类型的生物质,如木质纤维素和工业废物。

在能源价格波动和政策变化的背景下,历史上的生物燃料领域经历了多次起伏,此处不再多论。笔者读到此篇文章时,更多确是惊喜—没有想到 David Baker 也曾在生物燃料上做出过探索。此外,包括 Baker 在内多位学者也早在 2008 年就为此技术提前了申请了相关专利:WO2009046370A2。

 WO2009046370A2 专利。图源:Google Patent


// 面向合成生物学的蛋白质设计

蛋白质是生命活动的核心执行者,在几乎所有生物过程中发挥至关重要的作用。合成生物学的最终目标之一,就是设计和制造新的生物系统,而实现这一目标的关键则是掌握对蛋白质的精确设计与操控能力。

 「Computational protein design for synthetic biology」。图源:Google Books

在这篇于 2013 年出版的书籍《Synthetic Biology》的第六章节中,David Baker 等提出了「面向合成生物学的计算蛋白设计」。这篇文章主要探讨了计算蛋白质设计(Computational protein design, CPD)在合成生物学中的重要性和潜在应用。计算蛋白质设计的目标是通过计算方法设计具有全新功能的蛋白质,这些功能是自然界中尚未进化出现的。自然界的蛋白质功能是为了生物体的生存和维持,因此功能较为有限。通过 CPD,科学家可以设计出具有新功能的蛋白质,拓展合成生物学的应用前景,特别是在无法通过自然进化获得的领域。

文章探讨了 CPD 在合成生物学中的六大潜在应用领域:

1. 设计全新的蛋白质-蛋白质和蛋白质-小分子相互作用,操控信号传导通路,并根据特定刺激改变基因表达。
2. 设计专门与靶标蛋白结合的蛋白质,阻止或激活目标生物体中的特定反应。
3. 通过设计新的催化活性,构建全新的生物合成途径,创造能够分解环境污染物或毒素的合成生物体。
4. 设计蛋白质-小分子相互作用,可以开发新的生物传感器。
5. 设计自组装蛋白质结构,开发新的生物材料,如药物传递容器或用于生物能源应用的导电纤维。

6. 通过蛋白质的热稳定设计,增强蛋白质的稳定性,从而提升合成生物学应用的耐久性。

文章标题「面向合成生物学的计算蛋白设计」既包含了作者对这一领域的倡议,也可以看作是对其工作内容的总结。首先,这篇工作反映了作者对于计算蛋白设计在合成生物学中的重要性的主张,即通过 CPD 可以设计出自然界未曾出现的新功能蛋白,推动合成生物学的发展。同时,文章详细介绍了 CPD 的实际应用、方法以及过去几年中取得的成果,因此也是作者对自己工作内容和领域进展的总结。文章列举了多个具体的成功案例,包括蛋白质相互作用设计、酶催化活性重设计、新蛋白质折叠的设计等,展示了 CPD 在合成生物学中的潜力和应用价值。


// 合成免疫系统设计

自 2017 年起,美国 FDA 陆续批准了多种 CAR-T 细胞疗法,用于治疗白血病等恶性肿瘤。这种疗法通过改造患者自身的 T 细胞,使其能够识别并攻击癌细胞,开创了癌症治疗的新纪元。然而,CAR-T 疗法也存在一些显著的挑战,尤其是 T 细胞的过度活化可能引发严重的毒性反应,甚至导致生命危险。 

为了应对这一问题,David Baker 与合作团队通过设计新的受体蛋白来调控 CAR-T 细胞的活性,减少不必要的免疫毒性。2018 年,他们在《科学》报道了正交细胞因子受体对的开发,这些受体能够特异性地与人工设计的配体结合,传递免疫信号,但不会与天然的细胞因子或受体相互作用。这意味着,T 细胞的扩增和功能不再依赖于常见的免疫因子(如白细胞介素 -2,IL-2),从而显著降低了免疫疗法带来的全身性毒性反应。

 「Selective targeting of engineered T cells using orthogonal IL-2 cytokine-receptor complexes」。图源:《科学》官网

// 新冠疫情中的科学应对:从病毒检测到疫苗设计

2020 年初,新冠疫情爆发,迅速成为全球范围内的公共卫生危机。科学界立刻投入了前所未有的资源和精力来应对这一病毒,David Baker 和他的团队也加入了这一紧急行动,为病毒检测和疫苗开发提供了技术上的支持。

面对新冠病毒带来的全球性挑战,David Baker 的团队在《自然》基于从头设计的蛋白传感器,可以用于包括 SARS-CoV-2 在内等多种病原信号的检测。相比于传统的传感器,此设计通过笼-闩(Cage-latch)的设计,仅需要一个特异的蛋白质结合域即可实现对于目标分子的高灵敏检测。这一技术为快速诊断提供了可靠的工具,尤其适用于疫情早期的检测和追踪。

 「De novo design of modular and tunable protein biosensors」。图源:《自然》官网

除了病毒检测,Baker 团队还致力于探索针对新冠病毒的疫苗新设计。David Baker 团队在《科学》报道了一种全新的策略——利用从头设计的蛋白质构建多价抗体纳米笼。多价抗体展示能够显著增强抗体依赖性信号传导,使抗体与病毒靶标的结合更为紧密,从而提高疫苗的有效性。这种抗体纳米笼在中和 SARS-CoV-2 病毒时表现出更强的效能,有望成为下一代疫苗设计中的重要工具。

 「Designed proteins assemble antibodies into modular nanocages」。图源:《科学》官网

// 工欲善其事,必先利其器:合成生物学调控元件的设计与开发

合成生物学的核心理念是将生物系统视为可编程的工程系统,通过构建和优化基因线路,操控生物体的行为。这一过程需要复杂的调控工具来实现多层次的控制。David Baker 及其团队致力于开发一系列新的调控工具,这些工具为后续合成生物学中的基因线路设计提供了重要的支持。

响应药物分子的蛋白质二聚体设计

复杂的基因线路往往需要多层次的控制,而这种控制不仅依赖于 DNA 调控元件,还依赖于蛋白质相互作用的精确设计。Baker 及其合作者团队于 2019 年在《自然•生物技术》报道了一系列蛋白质二聚体系统的开发过程,这些蛋白质能够以高度特异的方式相互作用,而不会干扰细胞中其他天然的蛋白质交互。蛋白质二聚体的相互作用可以被设计为响应外部信号如 FDA 批准的药物分子,从而触发下游基因的表达或抑制。

 「Multi-input chemical control of protein dimerization for programming graded cellular responses」。图源:《自然•生物技术》官网

LOCKR 蛋白质开关:变构调节的突破

蛋白质功能的变构调节在生物学中广泛存在,但设计全新的可变构蛋白质系统一直是从头蛋白质设计领域的一个关键挑战。David Baker 及其团队于 2019 年在《自然》报道了称为 LOCKR 的蛋白质开关系统,LOCKR 系统的核心是一种五螺旋笼状结构,其中的一条“闩锁”螺旋与笼子内部相互作用,保持蛋白质的关闭状态。当设计好的“钥匙”肽与闩锁螺旋结合时,闩锁被移开,暴露出藏在笼子内部的功能性区域。这一设计允许通过外部信号激活或关闭蛋白质的功能,控制基因表达、蛋白质降解或其他重要的细胞活动。

 「De novo design of allosterically switchable protein assemblies」。图源:《自然》官网

转录调控:序列特异性 DNA 结合蛋白(DBP)的设计

转录调控蛋白是调控基因表达的核心工具。传统的转录因子在生物体中高度保守,科学家只能通过对这些天然蛋白质进行改造来实现新功能。而 Baker 团队则采用了一种更为大胆的方法—从头设计新的序列特异性 DNA 结合蛋白(DBP)。这篇 2023 年上线于预印本的研究展示了如何通过计算设计小型 DBP,这些蛋白能够识别并结合特定的 DNA 序列,精确调控靶基因的转录表达。文章中设计的 DBP 展现了极高的特异性和亲和力,在多达 6 个碱基位置上与目标 DNA 序列紧密匹配。通过这种方式,我们能够开发出一系列调控元件,用于精确控制合成基因线路中的转录活动。

 「Computational design of sequence-specific DNA-binding proteins」。图源:BioRxiv 官网


// 高质量元件驱动的基因线路设计

David Baker 等开发的优质工具进一步推动了复杂基因线路的设计,使得合成生物学中的基因线路能够实现更加精准和复杂的控制。

生物反馈控制的实现

反馈控制是合成基因线路设计中的一个重要概念。通过设计反馈机制,科学家可以让系统根据输入信号自动调节自身的行为,维持稳定的功能表现。Baker 团队于 2019 年在《自然》报道了基于 LOCKR 蛋白质开关技术的蛋白质开关系统-degronLOCKR 的开发。该研究团队利用 degronLOCKR 来控制 GPCR 通路中关键蛋白的稳定性,从而实现对合成回路的反馈调控。这种设计为实现更加复杂的生物系统提供了灵活的工具,特别是在涉及动态信号调节的场景中。

 「Modular and tunable biological feedback control using a de novo protein switch」。图源:《自然》 官网

逻辑控制与细胞行为的升级

在设计基因线路时,常常需要将多个输入信号整合到一个控制模块中,以实现逻辑控制功能。David Baker 在 2020 年于《科学》报道了了通过人蛋白质的特异性相互作用来实现复杂的逻辑控制的工作,描述了从头设计的蛋白质构建的双输入 AND、OR、NAND、NOR、XNOR 和 NOT 门的设计,并展示了在多种生物系统中实现了复杂的细胞生物过程的逻辑调控。控制元件的模块化和协同性,加上从头设计本质上无限数量的蛋白质成分的能力,应该能够在广泛的生物功能上设计复杂的翻译后控制逻辑。

 「De novo design of protein logic gates」。图源:《科学》 官网


// 总结

蛋白质是生命的执行者,能够突破现有自然所存蛋白质的种类,具有巨大的潜力。蛋白质也作为合成生物学中的最重要的工具之一,所以 David Baker 的蛋白质设计方向是天然与合成生物学的方向契合在一起的。

多层次的合成调控工具的开发将为复杂生物系统设计提供更多可能性,帮助我们更好地理解和操控生命系统。David Baker 的工作展示了从头蛋白质设计的无限潜力,它为合成生物学中的生物系统设计开辟了新的路径,也为合成生物学作为底层技术解决现有在工业制造、医疗、能源、环境等方面的各种挑战奠定了基础。

// David Baker 相关的综述文章推荐

1. Principles for designing ideal protein structures 设计理想蛋白质结构的原则

https://www.nature.com/articles/nature11600

2. The coming of age of de novo protein design从头蛋白质设计时代的到来

https://www.nature.com/articles/nature19946 2016

3. The road to fully programmable protein catalysis 完全可编程蛋白质催化之路

https://www.nature.com/articles/s41586-022-04456-z 2022

4. Deep learning and protein structure modeling 深度学习和蛋白质结构建模

https://www.nature.com/articles/s41592-021-01360-8

5. Blueprinting extendable nanomaterials with standardized protein blocks 用标准化蛋白质块绘制可延伸纳米材料的蓝图

https://www.nature.com/articles/s41586-024-07188-4

END \

再创丨Regenesis
机器,正在生物化;而生物,正在工程化。
 最新文章