基因组深度挖掘驱动微生物萜类化合物高效发现

2024-08-14 00:37   湖北  

摘 要

萜类天然产物广泛分布于动物(包括海洋无脊椎动物)、植物、微生物中,具有复杂的化学结构和丰富的生物活性。人们通过从植物和微生物中直接分离提取的方式获得了大量萜类天然产物,然而随着越来越多化合物被发现,使用基于自然筛选的传统挖掘方式很难获得新的萜类天然产物。随着基因组测序技术和合成生物学使能技术的不断发展,我们进入了基因组挖掘驱动天然产物发现的时代,萜类天然产物的挖掘也进入了“井喷式”发现新阶段。针对基因组挖掘在微生物萜类天然产物发现方面的应用,本文综述了近年来使用的主要研究策略和最新研究进展,介绍了多种高效微生物底盘、基因组深度挖掘策略、人工智能与自动化平台等驱动的萜类化合物挖掘的最新研究进展,讨论了基因组挖掘萜类天然产物面临的挑战,展望了未来萜类化合物创新发现的发展趋势。通过在多种微生物中强化前体供应途径,人们打造了多个萜类化合物合成底盘,突破了异源合成萜类天然产物时“产量低”和“产物难获取”的瓶颈;针对萜类天然产物生物合成基因簇或萜类合酶进行深度挖掘,可以有效地解决“重复发现”和“集中度低”的难题;随着人工智能和自动化技术在合成生物学领域的发展和应用,萜类化合物的发现也进入了高通量智能发现时期,显著地改善了“研究通量低”的现状,高效获得了大量新结构萜类天然产物。在未来,更多萜类化合物将开发成药物、进入工业化生产应用,更多萜类“暗物质”会走进我们视野。



全 文

萜类化合物是一类化学结构上最多样化的天然产物家族,有超过18万个成员,它们广泛存在于自然界中,具有多种生理和生态功能,在食品、药品、化妆品、保健品、农业、生物能源与生物材料等领域有着广泛应用。

萜类化合物以异戊烯基焦磷酸 (isopentenyl diphosphate,IPP)和二甲基烯丙基焦磷酸(dimethylallyl diphosphate,DMAPP)作为通用前体,在细菌、原生动物和植物细胞的质体中,主要通过2-C-甲基-D-赤藓糖醇-4-磷酸(2-C-methyl-D-erythritol-4-phosphate,MEP)途径生成;而在真核生物和古菌中,主要通过甲羟戊酸(mevalonate,MVA)途径生成。异戊烯基转移酶 (prenyltransferase,PT)将IPP和DMAPP组装成不同链长的异戊二烯单元——香叶基焦磷酸(geranyl pyrophosphate,GPP)、法尼基焦磷酸(farnesyl pyrophosphate,FPP)、香叶基香叶基焦磷酸(geranylgeranyl diphosphate,GGPP)、香叶基法尼基焦磷酸(geranylfarnesyl pyrophosphate,GFPP)、六聚异戊烯基焦磷酸(hexaprenyl diphosphate,HexPP),并经萜类合酶(terpene synthase,TPS)作用生成具有多个手性中心的碳氢化合物核心骨架——单萜(monoterpenoid,C10)、倍半萜(sesquiterpenoid,C15)、二萜(diterpenoid,C20)、二倍半萜(sesterterpenoid,C25)、三萜(triterpenoid,C30)、四萜(tetraterpenoid,C40)以及多萜(polyterpenoid,>C40),这些萜类化合物骨架在细胞色素P450氧化酶(cytochromes P450,CYP)、甲基转移酶、酰基转移酶、糖基转移酶等一系列后修饰酶的作用下进一步形成结构和功能上丰富多样的萜类化合物,如青蒿素(artemisinin)、紫杉醇(paclitaxel;taxol)、脱落酸(abscisic acid)、截短侧耳素(pleuromutilin)等。此外,人们还发现了一类非典型萜类化合物,它们通过非常规方式进行生物合成,主要包括C11萜类化合物(如2-methylisoborneol和2-methylenebornane)以及C16萜类化合物(如sodorifen)。其中,C11萜类前体为2-甲基-GPP,C16萜类以索多芬基焦磷酸(presodorifenyl diphosphate, PSPP)为前体,两者由相应甲基转移酶对GPP或FPP进行甲基化修饰产生。常规萜类化合物和非常规萜类化合物共同组成海量萜类化合物库(图1)。


图1  萜类化合物的种类及代表性萜类化合物


迄今为止,研究人员已开发了天然产物直接分离提取、沉默基因(簇)同源激活以及异源表达三大策略,将其用于微生物萜类化合物的挖掘。三大策略共同推进了萜类天然产物的大量发现,然而已表征的萜烯合酶和萜类化合物骨架仍然只是大自然巨大萜类宝库中的冰山一角。如何破解萜类化合物挖掘的“三低”瓶颈(产量低、结构新颖性低和研究通量低),并进一步开发出高效的萜类天然产物挖掘策略,成为目前研究的热点。

随着基因组学的发展,人们将挖掘对象从植物样本提取和微生物大规模发酵,一定程度上转移至萜类天然产物生物合成基因(簇),通过构建高效的前体供应底盘,可以促进萜类天然产物的异源合成;为了拓宽萜类天然产物的挖掘范畴,人们还将目光投向了深海、极地等极端地理环境中的微生物资源,为寻找天然产物提供了更多可能;同时,合成生物学与组合生物合成的迭代更新,也为天然产物的生物合成创建了新的路径,扩展了萜类的合成空间;高通量自动化平台与底盘的结合,显著提升了异源表达的研究通量,加速了萜类化合物的发现;人工智能的快速发展及其在合成生物学领域的应用,进一步提升了基因挖掘的准确度和效率,开创了天然产物的智能化挖掘模式,引领着更多萜类“暗物质”的创新发现。针对基因组挖掘驱动的微生物萜类天然产物发现研究,本文就如何实现新型萜类化合物的高效挖掘与创新发现展开探究,主要介绍高效前体供应微生物底盘、生物合成基因(簇)深度挖掘、人工智能与自动化平台在驱动萜类化合物高效发现方面取得的最新研究进展。


1  用于萜类化合物挖掘的高效微生物底盘


次级代谢产物生物合成基因簇(biosynthetic gene cluster,BGC)的异源表达驱动了系列天然产物的发现,有效地规避了同源激活策略存在的缺陷及本底菌株难获得的问题,被广泛地应用于天然产物挖掘及生物合成研究。异源表达通常选择具有完善遗传操作系统以及明确遗传背景的微生物作为底盘细胞,通过异源表达各生物合成元件或基因(簇)来阐明其功能。受限于异源表达宿主的合成天然产物的能力,仅能对其中高丰度的产物进行获取和结构鉴定,而低丰度的化合物在很大程度上难以获取或被忽略。因此,构建高效的微生物底盘细胞,可以在微生物体内进行代谢流的重新分配,进而提高目标产物的滴度,实现萜类化合物的绿色制造。

国内外多个课题组在微生物萜类化合物底盘开发方面取得了突破性进展。如刘天罡教授团队创新性地提出“定向合成代谢”理念,通过合成途径的体外优化结果指导体内MVA代谢途径的改造,搭建了高效供应IPP和DMAPP前体的大肠杆菌(Escherichia coli)底盘,实现了法尼烯、番茄红素、虾青素、紫杉二烯等萜类化合物的高效合成,充分证明了前体高效供给底盘的通用性和高效性。在此基础上,团队进一步提出“基于微生物高产底盘的天然产物创新挖掘”策略,阐述了“一类钥匙开一把锁”的研究理念和“近源性、同类性和完备性”的原则,通过使用近源宿主解决基因(簇)异源表达适配性差和产量低的问题,并相继构建了大肠杆菌、酿酒酵母(Saccharomyces cerevisiae)、丝状真菌米曲霉(Aspergillus oryzae)等萜类前体高效供应底盘,加速了单萜、倍半萜、二萜、二倍半萜、三萜等的发掘和生物合成机理解析。其他课题组也相应开发了毕赤酵母(Komagataella phaffii,原名Pichia pastoris)、解脂耶氏酵母(Yarrowia lipolytica)、构巢曲霉(Aspergillus nidulans)、白色链霉菌(Streptomyces albus)等微生物底盘,实现了一系列高价值萜类化合物的发现和高产,下文将针对其中主要的萜类合成微生物底盘及典型应用进行介绍,并将主要微生物底盘优缺点汇总于表1。


表1  用于萜类化合物挖掘的主要微生物底盘


1.1  大肠杆菌底盘


大肠杆菌因其遗传操作简单、培养周期短等优势,在萜类化合物挖掘中备受青睐,采用过表达大肠杆菌内源MEP途径中的关键酶或引入异源MVA途径的策略,大幅加快了新型萜类化合物生物合成元件及产物的挖掘进度。如Bian等通过对不同异戊二烯前体合成模块和多功能萜类合酶模块进行组合,在大肠杆菌中搭建了一个基于MVA途径的高效萜类合成平台,充分释放了丝状真菌来源二萜合酶FgGS和二倍半萜合酶FgMS的合成潜能,检测到包括多个新骨架在内的单萜、倍半萜、二萜以及二倍半萜化合物50种,鉴定了8个新的萜类化合物。Reddy等在引入MVA途径的大肠杆菌底盘中,对不同细菌来源的22个潜在的Ⅰ型TPS进行筛选,鉴定了15个细菌来源TPS的功能,具有单萜合酶、倍半萜合酶和二萜合酶活性和广泛的底物宽泛性。

在大肠杆菌中异源表达萜类生物合成基因,特别是CYP时,往往面临着很大的挑战,我们应该如何改造大肠杆菌底盘,使其可以用于挖掘包含CYP的萜类BGC呢?最近Lin等给出了一个解决方案:通过在大肠杆菌中引入与前体供应、电子传递和调控相关的31个重组基因,使其拥有可以适配不同CYP的氧化还原电子传递系统,用于挖掘萜类CYP及其氧化产物。使用该平台表征位于萜类环化酶基因附近的64种细菌CYP,发现了40个具有功能的CYP,将它们与17个萜类环化酶进行组合,构建了1088条合成途径,产生了大量氧化的萜类化合物。值得一提的是,对比植物中可以修饰ent-kuarene骨架的44种酶,其中16种可以被新发现的细菌CYP替代。这些成果彰显了该平台在挖掘细菌萜类CYP与合成萜类衍生物方面的强大应用潜力,可以用于高通量探索萜类化合物的化学结构多样性。


1.2  酿酒酵母底盘


酿酒酵母具有重组效率高、食用安全等特点,是萜类合成的强大平台。酿酒酵母具有内源的MVA途径,因此仅调节关键酶的表达强度,如增加主要限速酶HMGR拷贝数,即能显著提高前体供应能力。Bian等在酿酒酵母中过表达tHMG1,构建了倍半萜底盘YZL141,随后过表达ERG20(FPP合成酶基因)用于探究禾谷镰刀菌来源倍半萜合成酶FgJ03939(FgFS)的合成潜力,最终分离得到8个倍半萜化合物,其中包括3个5/7双元环和5/6/3三元环稀有倍半萜新骨架化合物,进一步丰富了倍半萜化合物的骨架组成;该底盘还被用于研究嵌合二萜合酶CgDS的合成潜能,在此基础上首次表征了丝状真菌来源Clade Ⅱ-D进化分支萜类合酶的C1-Ⅲ-Ⅳ产物环化模式。Chen等进一步开发YZL141底盘应用潜能,通过引入GFPP合酶(GFPPS)搭建了一个二倍半萜酵母底盘,使用连接肽GSTGS将嵌合型萜类合酶PTTS与GFPPS融合,增强二倍半萜合酶代谢通量,成功实现了34个活性PTTS的鉴定,挖掘到两种新型环状二倍半萜化合物。

基于酿酒酵母内源MVA途径全面强化的高产底盘,可以快速筛选萜类合酶,实现低滴度化合物的异源高效合成。如李晓东等通过在酵母基因组串联整合MVA途径,构建了倍半萜高效底盘,随后异源表达真菌来源倍半萜合酶ec38-cs,实现了α-新丁香三环烯在酵母中的首次从头合成。Siemon等在酿酒酵母中系统表达整个MVA途径,构建了高产前体IPP和DMAPP的酵母底盘JCR27,通过异源表达禾谷镰刀菌来源倍半萜合酶FgJ02895并增加拷贝数,高效合成了骨架化合物guaia-6,10(14)-diene,与有机合成方法相结合,驱动了具有显著抗肾癌活性的倍半萜明星分子englerin A的高效合成,实现当时报道的最高产率。Dong等首先调整关键基因表达,将tHMG1整合至酵母染色体上,敲除旁路角鲨烯合酶基因ERG9得到酵母基底DH02,并进一步将ERG20-mERG20(ERG20 F96C突变,具有GGPPS功能)融合基因整合到DH02染色体中,构建了一个高效供给GGPP的二萜底盘。Mukherjee等基于过氧化物酶体富含乙酰辅酶A的特性,在酿酒酵母中通过靶向定位MVA途径到细胞质和过氧化物酶体,建立了双定位协同的酵母底盘,可应用于单萜、倍半萜、三萜等萜类合成。Ma等通过前体加强、诱导调控等策略构建了GPP、FPP和GGPP的多前体萜类通用酵母合成平台。这些强化前体供应底盘的构建与优化,为萜类化合物的批量化挖掘奠定了良好基础。


1.3  丝状真菌底盘


丝状真菌具有可以正确识别和剪切真菌来源内含子的能力,蛋白分泌能力强大,是一个适合真菌来源萜类生物合成基因(簇)异源表达的真核宿主,在工业生产方面具有广泛的应用,如黑曲霉(Aspergillus niger)被用于有机酸和酶制剂的工业发酵,土曲霉(Aspergillus terreus)是降血脂药物洛伐他汀的工业生产菌,米曲霉常在酿造行业被用来制作酱油、清酒等食品。因此,打造一个强化萜类前体合成的丝状真菌底盘,用于高效挖掘真菌来源的萜类化合物,是一个具有较好应用前景的基因挖掘策略。Yuan等以具有合成萜类及其衍生物天然优势的A. oryzae NSAR1为宿主,将MVA途径和限速步骤tHMG1基因在基因高表达位点进行加强表达,搭建了两个通用且高效的A. oryzae萜类高产底盘菌株A. oryzae AO-S85(基因多拷贝随机插入型)和A. oryzae AO-S95(基因高表达位点同源重组型)。该策略可以突破底盘适配性问题困扰,便于其他真菌来源萜类化合物的快速挖掘和高效合成。Lin等在构巢曲霉A. nidulans中建立了一个天然产物异源表达平台,首先通过敲除8个高表达BGC以降低复杂次级代谢物背景,再加入7个可选择的标记以促进基因筛选,开发了遗传去重复菌株A. nidulans LO11098,该菌株具备异源表达烟曲霉来源聚酮二萜BGC和其他物种中沉默BGC的潜力。


1.4  链霉菌底盘


链霉菌是最具代表性的放线菌之一,具有产生丰富的天然产物的能力,被广泛应用于以氨基酸为基础的天然产物生产。随着复杂的基因编辑系统在模式链霉菌中的建立,链霉菌也被开发为萜类化合物合成底盘,用于挖掘新的细菌萜类化合物。其中,白色链霉菌、变铅青链霉菌(Streptomyces lividans)等被广泛用作异源表达宿主。Myronovskyi等以通用菌株S. albus J1074为出发菌株,通过14个步骤删除15个BGC,得到了一个具有干净次级代谢背景的底盘S. albus Del14,并通过增加phiC31整合位点(attB位点)的数量来提高基因整合效率,是用于异源表达生产天然产物的新一代优良底盘。类似地,Ahmed等敲除了菌株S. lividans TK24的9个BGC得到S. lividans ΔYA9,是链霉菌底盘的又一有益补充。以上具有简化代谢背景的改良底盘,有助于产物的检测和纯化,为天然产物的高效发现奠定了基础。而Hu等则探索将S. albus J1074打造为一个更适用于萜类化合物生产的通用底盘。首先利用番茄红素的产量水平直观评价四种链霉菌底盘对萜类前体的供应能力,并探究了发酵条件和启动子对萜类产量的影响,结果表明链霉菌底盘能够提供足够的萜类合成前体。研究团队最终基于白色链霉菌S. albus J1074,通过启动子强度调控建立了一套简便高效的细菌萜类BGC表达平台S. albus J1074M,不仅可以用于细菌来源萜类BGC高效表达,还可以用于细胞色素P450等萜类后修饰基因的表征,是未来探索细菌萜类化合物的重要底盘。


2  基因组深度挖掘驱动萜类化合物系统发现


随着基因组学和生物信息学的兴起和蓬勃发展,微生物天然产物挖掘从依赖生物样本的自然筛选发现阶段,进阶到组学大数据驱动的智能筛选新征程。根据在线基因数据库JGI GOLD(https://gold.jgi.doe.gov/),截至2023年11月30日,已有418 036种细菌、47 625种真核生物、5099种古细菌等共计488 845种生物体的基因组测序工作完成或正在进行。随着“后基因组时代”的到来,基因组挖掘助力了大量萜类化合物及相关生物合成BGC的发现与表征,取得了一系列突破性进展,不仅加速了天然产物挖掘进程,还为萜类乃至其他天然产物的研究提供了系统高效的新方案。萜类化合物的结构多样性由种类和功能多样的酶决定,首先在核心萜类合酶的作用下形成萜类化合物核心骨架,随后经系列后修饰酶的作用后,形成结构复杂多样的萜类化合物。基于萜类生物合成的特点,人们不仅针对核心酶和其所在BGC开展了基因组深度挖掘,还对非常规萜类和特殊生境萜类化合物开展了高效挖掘,发现了大量新颖的萜类化合物。


2.1  萜类合酶的精准挖掘


萜类化合物的化学结构新颖性在很大程度上取决于核心萜类合酶,因此基于核心酶序列的微生物基因组挖掘,可以快速实现具有新颖结构的萜类化合物的发现。如Yang等以鸟巢烷二萜环化酶EriG蛋白序列为探针进行基因组挖掘,发现了在细菌和真菌中广泛存在的UbiA类二萜环化酶新家族,并且成功鉴定了该家族中七个新的二萜环化酶,还确定了相应的产物结构,其中包含新骨架二萜化合物lydicene。Sun等从丝状真菌绿色木霉(Trichoderma viride)中发现了一种新颖的Ⅰ型倍半萜合成酶Tvi09626,其产物是一种新颖Brasilane型5/6双环倍半萜化合物。Chen等完成担子菌白囊耙齿菌(Irpex lacteus)的全基因组测序,通过生物信息学分析从中锁定了一个潜在的tremulane倍半萜合成酶IlIS,其在米曲霉中异源表达可以产生四种新的倍半萜iltremulanols A~D,该工作填补了tremulane骨架生物合成研究的空白。Li等通过基因组挖掘,基于序列相似性网络分析(sequence similarity network,SSN)在白网链霉菌(Streptomyces albireticuli)中发现了自然界中首个反式eunicellane萜类合酶AlbS,进一步利用AlbS和顺式eunicellane萜类合酶Bnd4进行标记实验,揭示了细菌中顺式和反式eunicellane形成机理的区别。

随着海量基因组数据的产生和数字化实验数据的实时共享,研究人员不再局限于挖掘单个物种的基因组数据,而是从数以万计的基因组等数据库中大规模批量化分析目标基因,极大程度提高了研究通量。Chen等筛选了来自NCBI、Uniprot和JGI数据库中已经完成基因组测序的477株真菌,从中筛选出了227个嵌合型萜类合酶PTTS;借助二倍半萜前体高效供给的酿酒酵母底盘,并结合自动化高通量(automated high-throughput,Auto-HTP)平台,批量挖掘了34个PTTS,成功鉴定了24个二萜和二倍半萜产物,其中包括两个结构新颖的二倍半萜化合物sesterevisene和sesterorbiculene,如图2所示。值得关注的是,在此项工作之前,仅有大约20个PTTS进行了功能表征,因此该研究挖掘的PTTS数量超过了此前已知的PTTS数量。这些基于萜类合酶的基因组挖掘成果,不仅凸显了微生物基因组是新型萜类化合物的宝贵来源,丰富了萜类化合物的资源库,还进一步拓展了我们对于萜类合酶的认识。


图2  基于批量挖掘真菌嵌合型萜类合酶PTTS发现24种萜类化合物


2.2  萜类BGC的深度挖掘


萜类化合物的BGC不仅包含萜类合酶,还拥有多种萜类骨架后修饰酶,其中萜类合酶决定萜类核心骨架的结构,后修饰酶则进一步增加其结构的多样性,因此基于萜类合酶对其所在BGC开展深度挖掘可以显著提升萜类化合物的多样性。微生物基因组富含大量萜类BGC,人们不仅可以通过挖掘单个萜类BGC发现新骨架萜类化合物,还可以针对多个基因组数据开展BGC的规模化挖掘,批量发现萜类化合物。如Wang等在嗜热放线菌(Amycolatopis arida)中发现了一个BGC-ari,在模式链霉菌中异源表达,得到了三种具有6/7/5三环结构的新颖eunicellane型二萜衍生物aridacins A~C;Li等在委内瑞拉链霉菌(Streptomyces venezuela)中鉴定了一个萜类BGC-ven,经异源表达后发现了两种二萜产物Venezuelaenes A和B,均具有结构新颖的5/5/6/7四环骨架,揭示了单个萜类BGC的合成潜力。Yuan等对五株基因组测序的丝状真菌进行生物信息学分析,通过Ⅰ型TPS保守结构域DDXXD/E和NSE/DTE,对含有不同生物合成基因的萜类BGC进行筛选。通过在米曲霉底盘中进行模块化组合重构了5种真菌来源的39个Ⅰ型萜类BGC(26个BGC有产物),获得了185个萜类化合物,其中包含103个倍半萜、59个二萜和23个二倍半萜。该工作有效地解决了产物集中度低的问题,不仅构建了一个具有丰富产物结构的萜类化合物库,还分离得到了一系列mangicol类产物(mangicols H~L),其中二倍半萜mangicol J具有高效抗炎活性,开发的潜力巨大[图3(a)]。


图3  基于基因组数据的萜类BGC规模化挖掘


相比于真菌,人们较少发现来源于细菌的萜类天然产物,但随着细菌基因组信息爆发式的增长,大量功能未知的萜类BGC浮出水面,因此人们将目光投向了挖掘细菌来源的萜类化合物,如Hu等使用已知萜类合酶的隐马尔可夫模型(hidden Markov model,HMM)为探针,从282株细菌的基因组中确定了756个潜在的萜类合酶,进一步基于序列相似性网络SSN分析,锁定了16个萜类BGC(13个BGC有产物),随后在高效萜类前体供应底盘S. albus中对其进行了表征,通过产物的分离和结构鉴定,得到共计31个萜类化合物,包括3个新颖的萜类骨架分子和18个新颖的萜类衍生物,进一步丰富了细菌萜类化合物库[图3(b)]。


2.3  非常规萜类化合物的创新挖掘


应用合成生物学原理,将不同生物合成模块进行组合生物合成,还可以构建非天然生物合成途径,实现萜类化合物的人工智造。如Tang等将来自不同真菌的α/β-佛手柑素合酶与多功能P450单加氧酶进行组合生物合成,得到了一系列具有新骨架的倍半萜类化合物。Tsukada等通过基因组挖掘在5个真菌基因组中发现了5个潜在合成含萘烷的二萜吡咯酮化合物(DDP)的BGC,随后通过在米曲霉中逐步异源表达生物合成基因,重建了5条天然途径和1条分流途径,并且通过组合生物合成构建了4条非天然拓展途径,成功得到了22种DDP,其中15个为新化合物,为扩大萜类化合物的化学多样性提供了新路径。

Duan等针对C16萜类化合物 sodorifen展开研究,发现其BGC至少包含一个萜类合酶TPS和一个甲基转移酶MT,在C-甲基转移酶SpSodMT作用下,FPP进行甲基化修饰合成C16前体PSPP,并进一步在SpSodTPS作用下生成sodorife。因此作者将SpSodMT和SpSodTPS的蛋白序列作为探针,在NCBI RefSeq基因组数据库中进行搜索,发现739种已测序细菌基因组中的BGC都编码SpSodMT与SpSodTPS同源蛋白;为了研究这些BGC的功能,从上述基因簇中随机选取了40个BGC在强化FPP前体供应的酿酒酵母底盘进行异源表达,发现所有可溶的MT都会产生相同的C16前体PSPP,其在18种TPS的进一步催化下,可以形成47种C16萜类化合物,如图4所示。这类不同寻常的非经典C16萜类化合物大多数具有复杂且新颖的双环和三环骨架,充分展示了细菌中非常规碳前体模块在扩展萜烯生物合成方面的巨大潜力。


图4  基于酵母底盘挖掘细菌来源非常规C16萜类化合物


2.4  特殊生境萜类化合物的挖掘


相比于陆地等普通生境,深海、沙漠、极地、盐沼、热液喷口、冷泉、冰川和永久冻土等极端环境为微生物提供了特殊的生态环境,微生物已经进化出区别于普通生境微生物的独特代谢机制来应对极端的环境压力,这些代谢途径可产生多种结构特殊、生物活性显著、药理性质优良的天然产物。其中,海洋萜类化合物具有优良的药用特性,特别是抗菌、抗炎和抗癌活性。

海洋是天然产物的巨大宝库,Carroll等连续多年对每年发表的有关海洋天然产物的文献进行综述,如2021年报告的416篇文献中描述了1425个新化合物,2020年报告的420篇文献中描述了1407个新化合物,2019年报告的440篇论文中有1490个新化合物,可见海洋微生物是结构和活性新颖萜类等天然产物的丰富来源,然而目前关于海洋天然产物的研究表明海洋环境中微生物的多样性及天然产物的丰富性还有待进一步探究。基因组挖掘使这些“微生物暗物质”重见光明,如Guo等在研究中获得了一株海洋真菌Aspergillus ustus 094102,该菌株代谢产生大量的萜类化合物,包含具有良好抗肿瘤耐药活性的二倍半萜蛇孢菌素。进一步分析发现该菌株基因组序列中还存在包含BGC-Au11189在内的多个双功能萜类合成基因(簇),随后在米曲霉中对双功能萜类合酶Au11189及其上游细胞色素P450酶Au11188进行异源表达,共分离鉴定了9个化合物,全部为新颖的二倍半萜结构,其中2个具有抗肿瘤活性,为新药研究提供了新的先导物。此外,Zhang等从海洋来源的真菌黄曲霉(Aspergillus flavipes)中鉴定出一个Ⅰ型双功能二萜合成酶tndC,并在酿酒酵母中表征了该酶,发现了具有5-8-6稠环结构的talarodiene型萜类新骨架。这些研究成果不仅展示了海洋微生物是新颖萜类化合物的重要来源,还暗示着深海等极端环境仍有待进一步挖掘和探索。


3  萜类化合物的智能发现与自动化批量发现


3.1  工程改造萜类合酶拓展萜类化合物的多样性


通过多轮突变和筛选进行酶的定向进化(directed evolution),以及依据序列和结构信息对酶的关键位点进行理性设计(rational design),可以实现对萜类合酶的工程改造,进而产生新的萜类化合物。如Li等基于蛋白结构对二萜合酶VenA进行了理性改造,使其拥有可以容纳更长底物的活性口袋,将VenA的底物谱从GPP、FPP和GGPP进一步拓展到GFPP,获得了包含单萜、倍半萜、二萜以及二倍半萜在内的多个萜类化合物,对萜烯合酶的催化能力进行了丰富和扩展。

哥本哈根大学的Kampranis教授团队在非常规萜类化合物合成方面进行了探究,他们使用非常规模块扩展了萜类的生物合成。2018年,Ignea等通过融合表达ERG20p和PlGPPMT(假单胞菌GPP甲基转移酶)合成了C11前体2-甲基-GPP,进一步通过定点突变将单萜合酶转换为特异性合成C11非常规萜类的专用酶,在酵母中成功地合成了40个C11萜类化合物。2022年,Ignea等借助相似的研究思路,在酵母中成功地合成了一系列C16非天然萜类分子。他们首先将甲基转移酶SpSodMT引入在工程酵母中,建立FPP的甲基化途径;随后通过点突变方法进行蛋白质理性设计,构建了一个包含55种不同SpSodMT单残基突变体文库;这些模块进一步被萜烯合酶识别用于构建非常规C16萜烯骨架,再经由细胞色素P450酶修饰,最终合成了28种具有不同结构和不同氧化程度的非常规C16萜类化合物,显著地增加了萜类化合物的结构多样性。


3.2  自动化高通量平台助力萜类化合物的批量挖掘


在BGC批量化挖掘和酶工程改造规模化筛选的背景下,海量的工程化试错实验需求和传统的劳动密集型研究弊端凸显,自动化高通量平台在合成生物学的推广应用也应运而生。2014年,赵惠民教授团队参与设计、搭建、运行了全自动合成生物设施iBioFAB;2019年,该团队将iBioFAB自动化系统与机器学习算法相结合形成BioAutomata系统,显著提升了番茄红素产生菌株的筛选效率;2022年,该团队进一步搭建了多功能自动化PlatmidMake平台,以高通量的方式完成质粒无痕构建。

自动化高通量平台打破萜类化合物研究的传统模式,显著提升了挖掘通量和效率,如Leferink等搭建了一种适用于筛选不同的单萜合酶文库的Auto-HTP工作站,通过使用与GC-MS耦合的机器人液体处理平台,可以实现数据的自动提取分析,是对现有萜类合酶定向进化高通量筛选的有益补充。依托高效的Auto-HTP平台,Yuan等进行了质粒和菌株的批量化构建,大大加快了实验进程,经过两轮自动化构建,实现了批量扩增580个片段、构建173个质粒和208个米曲霉突变株。Yuan等在对羊毛甾烷型四环三萜类化合物灵芝酸(GA)的研究中,建立了一个高通量自动化迭代筛选平台,通过CYP表达载体构建、功能性CYP高通量体内筛选、酵母宿主代谢工程这三个模块对158个灵芝来源的CYP进行功能鉴定,发现了多个可以形成Ⅱ型灵芝酸的关键CYP,破解了GA生物合成的关键节点,展示了高通量筛选平台的巨大应用潜力。目前全球范围内已建成或在建多个大型工程化自动化设施平台,用于合成生物学研究支持和应用变革,如国外的Amyris公司、Ginkgo Bioworks公司、Zymergen公司、Transcriptic公司等;国内有浙江大学杭州国际科创中心生物与分子智造研究院,已经建设完成并上线合成生物学自动化装置iBioFoundry;中国科学院天津工业生物技术研究所牵头建设的国家合成生物技术创新中心,以及中国科学院深圳先进技术研究院正在牵头建设的“深圳合成生物研究重大科技基础设施”等 ,这些高通量自动化铸造平台未来在萜类等天然产物挖掘方面必将大放异彩。


3.3  萜类BGC新型挖掘工具和方法的更新换代


微生物拥有丰富的次级代谢途径和大量相关的BGC,而如何从大量候选基因中定位到感兴趣的基因则具有挑战性。生物信息学研究结果显示,自然界中尚有海量“沉默的”BGC有待挖掘。伴随着高通量测序方法的发展和海量基因组数据的产生,各种基因组挖掘方法和工具也被开发,以快速发现和表征负责合成新型萜类产物的隐藏BGC,打开萜类化合物发现之旅的新大门。

作为最庞大的天然产物类群,萜类化合物的化学文库、生物合成途径及其应用方面的知识仍然是有限并且彼此缺乏关联的,专门用于研究萜类化合物的工具较少,这严重阻碍了萜类化合物的发现和开发,全面的萜类化合物数据库亟待开发。巫瑞波教授团队在2020年建立了萜类化合物综合数据库TeroKit,为萜类化合物的化学和生物学研究提供了广阔的平台。2022年,该团队基于TeroKit还开发了萜类化合物数据库TeroMOL,用于收集萜类及其衍生物,以可视化方式分析萜类化合物的骨架和生物来源。2023年,此团队进一步开发了TeroENZ和TeroMAP模块,前者收集了全面的萜类生物合成相关酶的综合数据,后者可用于萜类化合物生源代谢网络的可视化分析,两者均已整合至TeroKit平台。截至2023年11月,TeroKit已经收录了18万多个萜类化合物分子、1.3万多个萜类相关酶、4200多个反应、1.4万多个生物来源、3900多个靶点信息,全面反映萜类化合物的化学空间、生物活性和生物合成途径。

现将微生物萜类BGC挖掘和核心酶预测常用工具和数据库汇总于表2。


表2  萜类BGC挖掘的网络工具和数据库


3.4  智能学习驱动更多萜类“暗物质”的解锁


近年来,机器学习、深度学习等人工智能概念正在为合成生物学领域注入新活力,也为萜类等天然产物带来底层理解、途径设计和创新挖掘的新变革。其中AlphaFold是一种基于机器学习的新颖方法,将蛋白质结构的物理和生物知识结合起来,利用多序列比对设计深度学习算法。从2018诞生到2020年AlphaFold 2版本迭代,再到2023年AlphaFold 3新版本发布,AlphaFold驱动的蛋白质折叠预测工具,为大分子结构设计提供了强大的驱动力,在萜类等天然产物的挖掘方面也具有巨大应用潜力。

刘天罡教授团队在利用高效酿酒酵母底盘挖掘萜类天然产物过程中,发现两种丝状真菌来源Ⅰ型嵌合萜类合酶TvTS和MpMS,能够直接以IPP和DMAPP或者HexPP为底物合成三萜核心骨架,这一发现颠覆了所有三萜化合物都经由角鲨烯合成的固有认知。在充分解析Ⅰ型嵌合三萜合酶的结构-功能关系后,建立了基于AlphaFold和底物分子对接的精准挖掘策略:利用AlphaFold2批量预测潜在的萜类合酶的三维结构,结合底物分子对接,成功预测并筛选获得另外两个三萜合酶(CgCS和PTTC074),它们都能够合成新三个非角鲨烯三萜化合物colleterpenol,夯实了Ⅰ型嵌合萜类合酶催化HexPP环化生成三萜骨架的普遍性机理。这项三萜化合物生物合成路径的颠覆性发现,不仅拓展了萜类天然产物生物合成机制的多样性,也凸显了人工智能用于拓宽新型天然产物深度挖掘和精准发现的潜力。



展 望

微生物高产底盘的构建助力了大量新颖萜类化合物的高效发现,充分释放了萜类合酶的合成潜能,提升了低丰度新骨架萜类天然产物的检出率,显著地加快了萜类化合物的基因组挖掘进程。随着合成生物学底盘构建技术和策略的不断精进,人们已经在多种模式微生物和非模式微生物中搭建了相应的前体高效供应平台用于特定类型萜类的高效合成,如单萜底盘、倍半萜底盘、二萜底盘、二倍半萜底盘等。值得注意的是,微生物的物质代谢和能量平衡受到严格而又复杂的代谢网络调控,底盘中前体供应并不是越多越好,还需要考虑中间产物积累产生细胞毒性的问题。如Ma等在构建萜类酵母底盘时实现了“生长”与“生产”的调控:首先利用葡萄糖诱导调控系统调控酵母生长和产物合成的代谢流;随后通过引入外源性两步磷酸化利用途径(IUP)实现IPP/DMAPP高效合成,减少与宿主自身生长资源的竞争,构建了GPP、FPP和GGPP的多种前体高效供给的萜类通用性合成平台。萜类的生物合成途径较长,涉及的酶可能定位于不同的物理空间,在底盘构建时如何避免中间体的损失和副反应的生成呢?多酶组装策略的使用有助于解决上述问题,目前人们已经陆续开发了RIAD-RIDD、mPKSeal等多酶组装策略,将功能各异的酶级联组装成一个整体可以形成“底物通道”,使萜类合成前体更多地走向下游目标途径,进一步强化底盘中萜类前体的供应。

基因组测序技术的飞速发展,驱动了海量的基因序列数字资源库的创建;基因组挖掘工具的迭代更新,使人们可以从数据库中快速精准锁定到目标BGC;高效精准的基因编辑技术的开发和不断精进,为探索萜类天然产物提供了先进的使能技术,如CRISPR/Cas9、CRISPR/Cas12a(Cpf1)、CRISPR/Cas13等。中国科学院天津工业生物技术研究所还开发了首个面向微生物基因编辑序列设计的云平台——AutoESD(https://autoesd.biodesign.ac.cn/),云平台拥有强大的高通量自动化性能,能够在几分钟内并行处理数百个设计任务。基于多学科交融的基因组挖掘策略,促进了萜类BGC和新颖萜类产物的快速、高效、精准挖掘。然而,萜类化合物的基因组挖掘还存在一些挑战:

(1)虽然已经开发了多种生物信息学工具,用来在众多的基因序列中识别具有潜在价值的BGC,但相比于聚酮类(PKS)和非核糖体肽类(NRPS)天然产物,萜类BGC挖掘可用的甚至专用的数据库及挖掘工具还较少,BGC预测的精准性还有待加强。

(2)萜类BGC很难展现化合物的结构特征,BGC产物的分子结构预测仍有较大挑战。目前已经有研究通过创建代谢基因组数据集,将天然产物与对应的BGC相匹配,但该类方法主要应用于细菌代谢产物及其生物合成研究,在具体应用中也主要围绕NRPS、PKS等化合物,萜类化合物很少有应用案例;2023年,Caesar等将代谢基因组学首次应用于真菌天然产物预测,但是主要针对的是已知BGC的检测。对于沉默BGC以及新颖BGC,未来仍需要很多探索才能使用BGC实现萜类化合物的精准预测。

(3)迄今为止,绝大多数萜类化合物是从植物和真菌中分离出来的,只有不到1.5%来自细菌,而且相比于海量的微生物资源,大自然中可培养微生物只占很小一部分,未培养微生物基因组中还蕴含着大量未知的BGC。研究人员也在不断扩宽研究范畴,如从深海等极端环境收集微生物资源开展BGC深度挖掘,然而目前缺乏这类特殊微生物的专用工具,包括遗传操作系统、合成与调控元件、底盘细胞等,亟需解决上述问题以便最大程度开发特殊生境微生物的天然产物生物合成潜能。

(4)人工智能为合成生物学带来新的变革,处于学科交融的浪潮,机器学习、深度学习等人工智能也对我们提出了更高标准的要求,需要更加与时俱进的思想,以及更快的适应与融入,但不可否认,是挑战也是机遇,将生物底层设计、生物大数据与人工智能等有机结合,将给萜类等天然产物的挖掘开启全新篇章。



通讯作者及团队介绍


陶慧,武汉大学药学院教授、博士生导师,武汉大学泰康生命医学中心PI,入选国家海外高层次青年人才项目、湖北省百人计划,主持国家重点研发计划青年科学家项目。主要从事复杂天然产物的合成生物学研究,在NatureNature CommunicationsJ. Am. Chem. Soc.Angew. Chem. Int. Ed.等国际知名期刊作为第一作者或者通讯作者发表多篇论文。主要研究方向:(1)活性天然产物的生物合成解析、结构创新与代谢工程等研究;(2)酶催化元件的挖掘表征、催化机理解析与定向进化等研究;(3)工程微生物与疾病治疗等研究。


刘天罡,上海交通大学生命科学技术学院特聘教授、武汉大学药学院教授,博士生导师,入选湖北省楚天学者特聘教授、武汉市优秀青年科技工作者、湖北省新世纪高层次人才、中组部万人计划科技创新领军人才等,荣获湖北省科学技术进步奖一等奖、武汉大学第七届“研究生教育杰出贡献校长奖”、武汉大学青年五四奖等。主要研究方向:(1)定量合成代谢理性指导天然产物高产;(2)天然产物的高效挖掘;(3)天然产物与人体互作关系研究。



代谢主义
生命在于代谢 人生在于折腾
 最新文章