「注:在植物学和生态学中,禾状草(graminoids)一般指具有类似于禾本科形态的草本植,包括禾本科,莎草科,灯芯草科植物。非禾状草(forbs)一般指所有草本的被子植物中不属于禾状草的植物(在本文中也不包括豆科植物)。禾状草和非禾状草是草地生态系统中主要的植物功能群。虽然非禾状草贡献了大部分的物种多样性,但禾状草通常具有更高的优势度 (Bråthen et al. 2021; Seabloom et al. 2013)。」
夏威夷拟苇
背景介绍
禾本科(Poaceae)隶属于单子叶植物禾本目,大约在1亿年前(100 Mya)起源。禾本科包含780个属和超过11,000个物种(见图1A),作为全球各生态系统的基础生产者。在经济层面,禾草涵盖了重要的作物,包括水稻、小麦和玉米等含有丰富淀粉胚乳的谷物,它们提供了全球超过50%的热量(卡路里)。禾草还包括关键的工业作物,如甘蔗和高粱,这些作物生长迅速,能产生大量生物质用于生物能源生产。小麦和大麦是大约12,000年前在新月沃地最早被驯化的植物,玉米和水稻分别是在大约9,000年前在现在的墨西哥和长江下游地区被驯化。禾草的驯化历史和遗传基础已被广泛研究,揭示了所谓的“驯化综合症”,包括减少收获前落粒(非裂果)和增加种子大小的选择。
图1 已测序的禾本目植物基因组,追溯禾本科植物代谢创新的进化历史
禾草类植物展现了一系列独特的形态学、生理学和代谢特征。例如,禾草具有独特的花序——穗状花序,这也是驯化过程中失去裂果特性(非裂果)的目标特征之一。禾草还在初级代谢方面展现了显著的进化创新,导致其具有独特的化学成分和性质,这些特征有助于禾草在各种环境和农业系统适应。尽管淀粉通常在质体中合成,禾草能够在质体和细胞质中同时合成淀粉,这使得禾草种子(如谷物和籽粒)具有丰富的淀粉内含物。此外,禾草具有两条合成木质素的途径(见图1B),木质素是次生细胞壁中的主要酚类聚合物,占禾草干重的30%至50%,对于植物的机械强度、水分蒸腾和物理屏障至关重要。木质素为高价值材料和燃料提供了可再生的芳香族原料,许多木质素原料来自生物能源禾草(如莎草和高粱)。木质素通常通过芳香族氨基酸L-苯丙氨酸(Phe)合成,经过专一的苯丙氨酸氨基裂解酶(PAL,见图1B)。值得注意的是,禾草还具备一条额外的合成途径,通过L-酪氨酸(Tyr)合成木质素,且该途径由双功能苯丙氨酸/酪氨酸氨基裂解酶(PTAL)酶介导的酪氨酸氨基裂解酶(TAL)活性实现。这一PTAL途径在诸多禾草物种中存在,约占禾草木质素生物合成的近一半,可能有助于许多禾草的快速生长,并在其分散的维管束中积累大量木质素(见图1B)。然而,这些独特的代谢酶和途径是何时以及如何进化的,目前仍然未知。
近期基因组测序的不断发展使得我们能够追溯全基因组复制(WGD)、基因家族进化和基因创新。单子叶植物基因组进化史的几个关键特征包括质体基因组的三次重排、多次多倍化事件,如发生在禾本科祖先谱系上的ρ全基因组复制(ρWGD)(见图1A)。ρWGD促进了复杂性状和新物种的进化,并与MADS-box基因的扩增以及禾本科的形态可塑性和成功密切相关。ρWGD可能还导致了代谢过程相关基因的重复,如禾草种子的胚乳中细胞质淀粉的合成。
目前,禾本目中已测序的基因组大多数来自禾本科,尤其是谷物作物,因为它们在农业中十分重要。最近,非核心禾草——扭芒竺(Streptochaeta angustifolia Soderstr.,隶属于禾本科柊叶竺亚科(Subfamily Anomochlooideae)的基因组被测序,揭示了ρWGD及随后的基因丢失对扭芒竺伪穗状花序形态的潜在贡献。禾草具有许多有助于其进化成功和生态优势的衍生功能特征,但除了花序结构和产量等方面,关于这些特征的分子基础和进化机制仍知之甚少。禾本科的姐妹群包括两个科:沟秆草科(Ecdeiocoleaceae,N=3)和拟苇科(Joinvilleaceae,N=4)。目前这两个科的参考级别的质量基因组组装尚未完成,但若能够完成,将有助于比较基因组学的研究,并促进与禾草特有功能特征相关的基因组和分子特征的鉴定。
为了研究禾草及其独特代谢特征的进化历史,我们在本研究中为非核心禾草——原禾(Pharus latifolius L.)、两种非禾草类禾状草植物——夏威夷拟苇(Joinvillea ascendens Gaudich. ex Brongn. & Gris)和沟秆草(Ecdeiocolea monostachya F.Muell.),以及代表禾本目其他科姐妹谱系的宽叶香蒲(Typha latifolia L.)进行了高质量的基因组测序。禾本科及其姐妹群大约在1亿年前发生分化,早于ρWGD,香蒲科和禾本目其余科的祖先大约在1.2亿年前发生分化(见图1A)。通过整合基因组学和生化分析,我们揭示了禾本目中禾草亲缘物种的进化历史及禾草关键代谢创新的分子基础。研究强调了全基因组和串联基因重复在这些进化创新中的关键作用,并提供了基因编辑靶点,可以在非禾草植物中引入双重木质素合成途径。本研究获得的禾本目基因组为解析禾本科在这一关键植物类群中独特演化出的多样的复杂特征提供了宝贵资源。
结果
夏威夷拟苇、沟秆草、原禾和宽叶香蒲基因组提供了研究禾草进化的关键资源
包括禾本科(Poaceae)及其姐妹群(如拟苇科和沟秆草科)的物种在内的比较基因组分析(见图1A)对于理解禾草功能性状的进化至关重要。沟秆草是一种原产于西澳大利亚的野生多年生植物,是沟秆草科(Ecdeiocoleaceae)中的三种物种之一(见图1A)。采样工作选取了来自西澳大利亚的沟秆草样本,并通过流式细胞术估算其染色体数为38至42条,单倍体基因组大小为980 Mb(4C值约为4.0 pg),这一结果与其为异花授粉物种的特性一致,估计的染色体数(2N)为38。基因组组装采用了PacBio HiFi长读长的HiFiAsm技术进行。基因模型预测采用了基于从头预测、同源和证据的RNAseq基因模型,RNAseq数据来自于叶鞘、根和花组织。最终组装的单倍体基因组来自于一个杂合的二倍体沟秆草分离株(EM_001),该基因组总的大小为897 Mb,包含1,114个scaffold,N50为1.7 Mb,共预测到了27,801个基因,覆盖了97.9%的BUSCO基因(见表1)。
我们对禾本科服叶竺亚科(Pharoideae)下的原禾(Pharus latifolius)的基因组进行了测序,服叶竺亚科是一个小的谱系,在柊叶竺亚科(Anomochloideae)之后分化、姜叶竺亚科(Puelioideae)和BOP-PACMAD谱系之前。同时,还对沟秆草(Ecdeiocolea monostachya)和夏威夷拟苇(Joinvillea ascendens)基因组进行了测序,后者与禾草科为姐妹群,并且对宽叶香蒲(Typha latifolia)进行了测序,香蒲作为禾本目其余科的姐妹谱系(见图1A)。这三个基因组通过HiFiAsm进行了组装,HiFiAsm结合了PacBio HiFi长读长和Hi-C数据,并使用RACON进行改进(见方法)。Scaffold的定向、排序和连接基于Hi-C接触图谱。基于证据的基因注释是通过Illumina RNAseq和PacBio IsoSeq读长完成的。
原禾(Pharus latifolius)基因组测序深度为44x,得到一个涵盖1.12 Gb、包含198个scaffold的染色体级基因组组装。基因模型推断了32,144个编码蛋白的基因,包括98.4%的BUSCO基因。与马等人发布的原禾基因组相比,使用PacBio HiFi读长数据,生成了较少的contigs(222个vs. 535个),并且我们最终组装的基因组更大(1.12 Gb vs. 1.00 Gb)。
夏威夷拟苇(Joinvillea ascendens)原产于夏威夷群岛和大洋洲,是拟苇科(Joinvilleaceae)中的四个物种之一。夏威夷拟苇基因组测序深度为125x,获得了一个包含18条染色体、基因组大小为1.21 Gb、N50为63.7 Mb的scaffold级别的基因组组装,共有29,122个蛋白编码基因(见表1),其中98%的基因出现在BUSCO基因列表中。
宽叶香蒲(Typha latifolia)基因组测序深度为74.70x,得到一个染色体级别的基因组组装,大小为215 Mb,预计包括15条染色体及一个额外的54 Kb的 scaffold(见表1)。在宽叶香蒲基因组中,共鉴定出22,107个蛋白编码基因,包含99.7%的BUSCO基因。
我们使用GENESPACE工具对禾本目各物种基因组结构进行了比较,GENESPACE结合了序列相似性和基因顺序,可以稳健地估算直系同源关系。保守性模式与先前估算的ρWGD发生时间一致,该事件发生在禾本科与其姐妹群分化之后(见图1A)。同时,共线性图显示了在120个百万年的禾本目演化历史中染色体区块的重排(见图1C)。
为了研究禾本目基因家族的分化和保守性,我们在系统发育基因组学分析中使用了39个物种,这些物种的完整基因组代表了基部被子植物(ANA进化阶)、木兰类、真双子叶植物和单子叶植物,其中重点分析了禾本目物种(见表S1)。经过筛选,最低包含20个物种的数据集,我们使用了10,255个直系同源群进行系统发育重建。使用基因组的多倍体进化位置分析(PUG3)估算了来自10,255个直系同源群树的2,493,258对假定的同源基因对。共评估了330,476个基因树节点,使用这些推断出的同源基因对(见表S1)。最终,24,517对假定的同源基因对支持符合PUG搜索标准的物种树复制事件。经过筛选,基因树中具有80或更高bootstrap支持值(BSV)的节点,最终保留了21,105个独特的重复事件用于全基因组倍增(WGM)评估(见图1D)。我们评估了特定分支上基因复制事件与先前描述的WGM事件之间的关系。发现小麦(Triticum aestivum)和大麦(Hordeum vulgare)最后共同祖先分支上基因复制事件最多,共计3,200个。ρWGD事件——先前被认为发生在禾草分化之前——得到了支持,发现有3,004个基因复制事件发生在所有禾草的最后共同祖先分支上(见图1D,表S2)。我们还发现分别与σWGM事件、τWGM事件和玉米异源多倍化事件相关的基因复制分别为1,122、972和2,196个(表S2)。此外,868和936个独特的基因复制事件分别被映射到BOP-PACMAD谱系分化之前和PACMAD谱系分化之前(表S2),这些可能代表了ρ复制事件之间的同源交换或可能是其他类型的重复事件。最后,我们还发现了γ事件(1,212次复制),发生在葡萄(Vitis)与其他Pentapetalae分化之前,以及803个独特的复制事件,发生在耧斗菜(Aquilegia)与其他真双子叶植物分化之前(表S2)。总之,沟秆草、夏威夷拟苇、原禾和宽叶香蒲的基因组为确定ρWGM事件的精确时间提供了重要依据,并为研究禾草及禾本目植物的进化提供了关键资源。
禾草进化过程中参与淀粉和脂肪酸生物合成背后的基因重复
淀粉是植物中主要的非结构性碳水化合物,负责储存碳和能量,以维持植物的代谢和生长。禾草具有较高的淀粉储备,尤其是在它们的胚乳中,淀粉的生物合成不仅发生在通常储存和合成淀粉的质体内,还发生在细胞质中(见图2A)。在细胞质中的淀粉生物合成可以利用非光合作用质体中相对丰富的ATP池,而不需要将ATP导入质体,以供ADP-葡萄糖焦磷酸化酶(AGPase)催化反应使用。这种细胞质中的淀粉生物合成途径使禾草能够高效地储存淀粉,特别是其种子中的淀粉,支持幼苗快速生长,并为人类提供主要的热量来源(例如,谷物种子和谷粒)。然而,这一禾草特有的代谢特征是何时以及如何进化而来,仍未完全明了。
图2 禾本科淀粉和脂肪酸生物合成途径的演化
为了研究细胞质淀粉生物合成的起源,我们构建了三个与细胞质淀粉生物合成相关的基因的系统发育树——AGPase大亚基和小亚基(分别为LSU和SSU)以及ADP-葡萄糖转运蛋白(见图2A)。禾草具有四种类型的AGPase LSU,其中Type 3 AGPase LSU的重复可能产成了具有细胞质AGPase LSU的Type 2 AGPase LSU。与这一观点一致,我们的系统发育树显示,Type 3和Type 2 AGPase LSU分别形成了两个独立且支持度较高的分支,这两个分支均包含了扭芒竺和原禾的序列,而夏威夷拟苇和沟秆草的序列则位于外群中(见图2B和图S1A),表明这一重复事件发生在禾本科内。同样,AGPase SSU也在禾草中发生了重复,形成了Type 1 AGPase SSU(见图2C和图S1B),这种类型的AGPase SSU具有双重定位功能,但在胚乳中主要定位于细胞质,而Type 2 AGPase SSU则被定位到叶片中的质体。
由细胞质AGPase合成的ADP-葡萄糖随后被通过质体ADP-葡萄糖转运蛋白转运到质体中(见图2A)。我们在所有禾本科共同祖先中检测到了基因重复(见图2D),这一重复产生了Type 2质体腺嘌呤核苷酸转运蛋白(PANTs)家族中的质体ADP-葡萄糖转运蛋白,这些转运蛋白属于线粒体载体蛋白家族(MCF)。通向禾草特有质体ADP-葡萄糖转运蛋白的长枝提示这一基因可能经历了新功能化的正选择。值得注意的是,夏威夷拟苇和所有禾草,包括扭芒竺和原禾,都具有Type 1和Type 2 PANTs(见图2D),这表明禾草和非禾草类禾状植物的共同祖先可能经历了早期的基因重复事件,产生了Type 2 PANTs。
禾草还具有一个独特的脂肪酸生物合成功能。与其他植物中在细胞质和质体分别存在异源和同源的原核型与真核型乙酰辅酶A羧化酶(ACCase)不同,禾草在细胞质和质体中均拥有同源的真核型ACCase。这使得禾草抑制同源ACCase而不抑制异源ACCase的除草剂敏感。两者都有同源ACCase可能还会降低脂肪酸合成的效率,这与禾草在两个区室中高效的淀粉合成有所不同(见图2A)。有趣的是,同源真核型ACCase在非禾草类禾状植物中发生了重复,产生了在禾草及夏威夷拟苇和沟秆草中的质体同源真核型ACCase(见图2E)。这些结果揭示了禾草特有的代谢特征的关键代谢基因的进化历史,其中一些基因早在禾草出现和ρWGD事件之前就已存在。
PTAL基因在禾草和非禾草类禾状植物(如拟苇)的共同祖先中起源,发生在ρWGD和禾草出现之前
利用这些新的基因组资源,我们进一步探讨了禾草特有的双重木质素合成途径的进化历史(见图1B)。我们首先对含有PAL/PTAL基因的基因组区域进行了同源分析,使用了代表性禾草、非核心禾草、非禾草类禾状植物以及禾本目的多个基因组数据。夏威夷拟苇基因组中有两个PAL/PTAL同源基因(Joasc.05G060400.1、Joasc.05G060500.1),这两个基因位于同一同源区块内,位于5号染色体上(见图3A)。凤梨基因组中相应的同源区块也有四个PAL/PTAL同源基因中的一个。在禾草中,PAL/PTAL同源区块进一步发生了重复,这可能是由于ρWGD事件,而在两个重复区块中的一个,PAL基因在核心禾草中发生了扩张(见图3A)。在这些禾草的同源区块中,其中一个PAL/PTAL拷贝编码了先前已经表征或预测的PTAL基因,除了二穗短柄草仅有一个PTAL,可能是由于一个PTAL重复基因的丧失。根据同源分析中的Ks分布(见图S2),这些PAL/PTAL同源区块的平均Ks值始终高于禾草中代表ρWGD的最大峰值的最低Ks值。结果表明,夏威夷拟苇中串联重复的PAL/PTAL同源基因出现在ρWGD之前,因此发生在非禾草类禾状植物和禾本科(Poaceae)分化之前。随后的ρWGD进一步促进了禾草中PAL和PTAL基因的扩张。
图3 PTAL酶在禾本科植物出现之前就已通过串联复制产生且早于ρWGD事件
为了进一步研究PAL/PTAL同源基因的功能,我们使用氨基酸和CDS序列构建了单子叶植物PAL和PTAL的最大似然(ML)基因树。来自夏威夷拟苇和沟秤草的PAL同源基因形成了一个grade,进化到一个包含来自夏威夷拟苇、沟秤草以及所有禾草的PTAL同源基因的分支,而所有禾草的PAL同源基因则形成了一个由不同ρWGD同源基因组成的簇(见图3B,图S3,图S4)。通过将基因树映射到物种树上(使用TreeSolve工具),我们得到了25,000个优化树,形成了一个共识树,100%支持夏威夷拟苇和沟秤草基因(Joasc.05G060500.1和Emoptg000374l_1G000600.1)属于PAL簇,而其他基因(Joasc.05G060400.1,Emoptg000374l_1G000630.1)属于PTAL簇(见图S5A)。通过TreeSolve进行的重复-转移-丧失(DTL)调和分析显示,优化后的基因树比原始基因树的调和成本更低(389 vs. 448),因此在物种树的背景下是更为可能的树。值得注意的是,非禾草类禾状植物夏威夷拟苇和沟秤草,以及非核心禾草扭芒竺和原禾的PTAL候选基因,形成了一个grade,进化到核心禾草的PTAL簇。结合同源数据(见图3A),这些结果表明,单子叶植物的PAL酶在非禾草类禾状植物的共同祖先中发生了分化,随后PTAL酶通过PAL酶的新功能化而出现(见图3B,图S3)。
His140残基位于底物结合口袋内,之前的研究表明其对于细菌TAL酶中酪氨酸底物的识别至关重要。我们注意到所有禾草的PTAL酶,包括扭芒竺的两种酶(strangu_020769−RA和strangu_019386−RA),以及来自夏威夷拟苇(Joasc.05G060400.1)和沟秤草(Emoptg000374l_1G000630.1)各一种酶中都含有相应的His140残基,这表明这些蛋白是双功能的PTAL酶。为了通过实验验证这一假设,我们克隆、表达并纯化了来自扭芒竺、夏威夷拟苇和沟秤草的PAL/PTAL同源基因的重组酶,以及来自高粱(SbPAL和SbPTAL)和二穗短柄草(BdPAL和BdPTAL)的PAL和PTAL作为阳性对照。这些纯化的酶首先与底物苯丙氨酸或酪氨酸(浓度为1 mM)混合,通过高效液相色谱(HPLC)分析生产的肉桂酸(CA)或对香豆酸(pCA),分别用于检测PAL和TAL活性。所有酶都能有效地将苯丙氨酸转化为肉桂酸(见图3C),其转化效果远高于对照组(如热处理酶或无底物对照组,见图S6)。在包含SbPTAL、BdPTAL、strangu_020769−RA、strangu_019386−RA、Emoptg000374l_1G000630.1和Joasc.05G060400.1的反应混合物中,酪氨酸被有效转化为对香豆酸(见图3C)。与对照组相比,Joasc.05G060500.1、Emoptg000374l_1G000600.1、BdPAL和SbPAL也有可检测的TAL活性,但远低于上述PTAL酶(约50倍)(见图3C)。这些结果表明,含有His140残基的PAL/PTAL同源基因是双功能PTAL酶,除了具备PAL活性外,还具有TAL活性。因此,我们暂时将含有His140的扭芒竺中的酶、沟秤草和夏威夷拟苇中的酶命名为SaPTAL-a、SaPTAL-b、EmoPTAL和JaPTAL,而含有Phe140的沟秤草和夏威夷拟苇中的酶命名为EmoPAL和JaPAL(见图3B)。
为了进一步定量这些PTAL(SbPTAL、BdPTAL、SaPTAL-a、SaPTAL-b、EmoPTAL、JaPTAL)和PAL(JaPAL、EmoPAL、BdPAL、SbPAL)酶的TAL和PAL活性,我们分别使用不同浓度的酪氨酸和苯丙氨酸底物来测定它们的酶动力学参数(见图3D、图S6、表S3)。PTAL酶对酪氨酸的表观Km值为11至19 μM,而PAL酶的Km值则高得多(3449-6211 μM),因此在利用Tyr时效率较低。TAL活性的kcat值对于PTAL酶(0.04到0.09 s-1)是PAL酶(0.02到0.04 s-1)的约两倍(见图3E,表S2)。因此,PTAL酶的TAL活性催化效率(kcat/Km)(2.55到7.96 s-1μM-1)比PAL酶(0.01 s-1μM-1)高得多(平均高485倍)(见图3E,表S3)。这些定量数据进一步支持扭芒竺、沟秤草和夏威夷拟苇中至少有一种酶具有较强的TAL活性。我们还发现,JaPTAL(6.8 s-1μM-1)的PAL活性(kcat/Km)远低于JaPAL(78.8 s-1μM-1),且其kcat(0.5 s-1对比1.9 s-1)和Km(66 μM对比24 μM)值显著较低(见图3E,表S3)。此外,禾草PTAL酶对苯丙氨酸的Km值(150-227 μM)高于非禾草类禾状植物的PTAL酶(64-66 μM)(表S3),导致禾草PTAL酶的TAL/PAL活性比比非禾草类禾状植物高约3.1倍(见图S7A)。这些实验数据表明,双功能PTAL酶在禾草和非禾草类禾状植物(如夏威夷拟苇)的共同祖先中出现,并在禾草中获得了更高的TAL/PAL比值。
Ile112和His140在禾草类PTAL酶获得TAL活性中的关键作用
为了实验验证His140在禾草类PTAL酶获得TAL活性中的作用,我们对上述已表征的禾草和非禾草类禾状植物的PAL和PTAL酶进行了定点突变。对于PAL酶,我们将对应于Phe140的残基突变为His,生成了JaPALF140H、EmoPALF134H、BdPALF137H和SbPALF135H突变酶。与对应的野生型酶相比,所有这些PAL突变体的TAL活性显著增强(平均kcat/Km提高了9.7倍),并且其对酪氨酸的Km值显著降低(见表S3)。相应地,PTAL酶的突变体——SbPTALH123F、BdPTALH123F、SaPTAL-aH118F、SaPTAL-bH126F、EmoPTALH127F和JaPTALH125F——也表现出TAL活性显著下降(平均kcat/Km降低了0.01倍),并且其对Tyr的Km值显著增加(见图S7B;表S3)。这些结果支持了His140残基在PTAL酶中识别酪氨酸底物的关键作用,这与之前的研究一致。
然而,仅引入His140并不足以将PAL酶转化为PTAL酶。PALF140H突变体的TAL活性催化效率(kcat/Km)仍然远低于野生型PTAL酶(约为10%),因为它们的Km值(222-450 μM)远高于野生型PTAL(11-19 μM)(见图S7B;表S3)。此外,PTALH140F突变体的TAL活性仍高于野生型PAL酶(例如,Km值为531-765 vs. 3448-6211 μM)。因此,与细菌TAL酶不同,禾草及其近缘非禾草类禾状植物的PTAL酶获得强TAL活性还需要其他残基的参与。
为了鉴定在这一植物谱系中PAL向PTAL转变的关键残基,我们首先使用dN/dS(非同义替代与同义替代的比率)进行了正选择分析,使用PAML软件进行计算。我们比较了禾本植物中PTAL和PAL簇的基因,发现两者之间共有30个具有高于0.7的正选择概率的位点(见表S4)。接下来,我们通过利用功能性PAL和PTAL酶的系统发育分布,进行了系统发育引导的序列比较(见图3)。在单子叶植物PAL和PTAL的氨基酸比对中(见图4A,图S8),我们识别出了16个残基,除了His140之外,这些残基在PTAL酶中高度保守,且所有这些残基均被发现受到正选择(见表S4)。其中,8个残基(图4A中的品红色)在PAL和PTAL两组中高度保守,但在两组之间有所不同;另外8个残基(图4A中的紫色)仅在PTAL酶中高度保守,而在不同的PAL酶中则具有变异性(见图4A,表S4)。为了研究这些残基在蛋白结构中的位置,我们使用已知的欧芹(parsley)PAL结构(PDB:6F6T82)作为模板,构建了JaPAL的同源模型。结果发现,这16个残基大多位于活性位点附近,除了几个在紫色中高亮显示的外围残基外(见图4B)。
图4 两个突变——F140H和S112I,将PAL转变为PTAL酶
为了探讨这些残基在TAL活性中的作用,我们生成了两个JaPAL突变酶:一个突变了8个品红色残基,另一个同时突变了品红色和紫色(共16个)残基,从PAL类型转变为PTAL类型(见表S4),此外还进行了F140H突变(分别为JaPALF140H_MUT8和JaPALF140H_MUT16)。酶动力学分析显示,JaPALF140H_MUT8的表观Km值(17.9 μM)明显优于JaPALF140H单一突变体(222.7 μM),并且接近于野生型JaPTAL的Km值(10.9 μM),同时kcat值相似(见图4C,表S3)。JaPALF140H_MUT8的PAL活性显示出对Phe的Km值是野生型JaPTAL的2倍,但kcat值相当(见图4C)。JaPALF140H_MUT16突变体的TAL活性Km值也明显优于JaPALF140H(和JaPAL野生型),但改善程度低于JaPALF140H_MUT8(17.9 μM,见图4C)。因此,这些结果表明,除了His140之外,8个品红色残基中的某些残基参与了非禾草类禾状植物PTAL酶的高效TAL活性。
为了确定这8个品红色残基中哪些对于PAL转变为PTAL酶至关重要,我们对JaPALF140H_MUT8中的每个残基逐一进行了PAL类型的突变,并检测它们对催化效率的影响。七个残基的替代对整体的TAL和PAL活性几乎没有影响,或者只有轻微影响(见图4D)。相反,当在JaPALF140H_MUT8中引入I112S突变(这是PTAL酶中一个正选择的残基)以生成JaPALF140H_MUT8_I112S时,TAL和PAL活性显著下降,原因是Km值急剧增加,而kcat略有减少(见图4D;表S3)。基于使用欧芹PAL和高粱PTAL蛋白模型分别构建的JaPAL和JaPTAL蛋白的同源模型结构(见图4E),Ser/Ile112残基并未直接与底物接触,但位于Tyr113/98(对于PAL/PTAL)附近,而Tyr113/98是催化过程中的关键质子受体77,83。因此,位于活性位点附近的PTAL酶的Ile112残基对于TAL活性至关重要。
F140H 和 S112I 突变足以将PAL转变为双功能PTAL
为了进一步验证Ile112残基在获得TAL活性中的作用,我们将互补的S112I突变引入JaPALF140H单突变体,生成了JaPALF140H_S112I双突变体。同时,我们也将Ser112对应的单一残基突变为Ile,生成了JaPALS112I单突变体。虽然这些突变对kcat的影响不大,但JaPALF140H_S112I对Tyr的Km值(17.5 μM)明显低于野生型JaPAL(4859 μM)和单突变体JaPALF140H与JaPALS112I(分别为223 μM和354 μM),并达到了与野生型JaPTAL(11.0 μM)相同的水平(见图4F)。因此,Ile112对于获得高效的TAL活性至关重要,且同时引入Ile112和His140残基可以将单功能的PAL转变为双功能的PTAL。
为了验证这两个氨基酸突变(F140H和S112I)是否能赋予远缘PAL TAL活性,我们将这些突变引入具有较强PAL活性但TAL活性较弱的拟南芥PAL1重组蛋白中(见表S3)。AtPAL1F144H_S116I突变体在Tyr的Km值上显示出显著下降(20.2 μM),相比于野生型AtPAL1(3070 μM)及其单突变体AtPAL1F144H和AtPAL1S116I(分别为314 μM和515 μM)。总体来说,AtPAL1F144H_S116I和JaPALH140F_I112S双突变体的动力学行为非常相似(见图4F,G,表S3)。因此,从禾本植物PTAL进化分析中识别出的两个关键残基Ile112和His140,即使在远缘的植物PAL酶中,也能够将单功能的PAL转变为双功能的PTAL。
讨论
确定特定谱系性状进化的遗传和分子基础仍然具有挑战性,尤其是在深层次的进化节点上。在本研究中,我们展示了通过增加各谱系分类群中基因组的密度,特别是在禾本科的姐妹谱系(即禾本科姐妹植物的基因组——如夏威夷拟苇和沟秤草)中,提供了追溯禾本科植物进化创新的强有力资源。我们的系统发育基因组分析表明,参与细胞质淀粉生物合成途径的一些基因是通过ρWGD(全基因组复制)事件出现的,尽管在此之前PANT 1型和2型的基因复制可能为ADP-葡萄糖转运蛋白跨质体膜的进化提供了条件(图2E)。值得注意的是,双功能PTAL酶催化的双重木质素合成途径,曾被认为是禾本科特有的,实际上是在禾本科进化之前,在拟苇科、沟秤草科和禾本科的共同祖先中就已出现。我们的同源基因分析支持PTAL是通过串联复制事件而非ρWGD事件进化的,随后的功能创新则使得该基因发挥了新功能(图3)。PTAL和PAL的串联复制区块经过ρWGD进一步复制,导致许多禾本科植物中出现了额外的PTAL拷贝,并通过更近期的串联复制进一步扩张了PAL基因(图3A)。包括禾本科在内的许多植物科是在经历了WGD后发生了辐射扩张,形成了所谓的“滞后时间假说”。WGD相关的辐射扩张通常归因于重复基因的亚功能化或新功能化,进而引发形态学和功能的创新。研究中检测到的PAL/PTAL串联阵列表明,串联复制的基因家族可以通过后续的WGD事件实现新功能化并进一步扩张。
精准确定PTAL进化的时间,这一事件早于禾本科的进化,也揭示了这一关键代谢创新的分子基础。在这项研究中,我们发现Ile112是负责PAL向PTAL转变的关键残基,并位于“内移动环”中(图4E),这一结构域根据X射线结构分析被认为是底物结合和催化的关键区域。该内移动环内发生的结构变化可能会影响底物结合口袋的构象,从而导致禾本科PAL与PTAL之间的催化活性差异。在微生物中,改变一个氨基酸残基(His/Phe140)就足以在TAL和PAL活性之间切换。这可能是因为细菌和真菌的PAL和TAL酶含有Ile112或Val112,而在被子植物PAL的进化过程中引入了Ser112(图S8, S9,表S5),并且Ser112可能通过单一的His/Phe140突变防止了TAL活性在被子植物PAL中的引入。事实上,通过同时引入这两个突变,能够将单功能PAL转变为双功能PTAL(图4F, G)。因此,系统发育指导下的结构-功能分析揭示了PTAL进化的分子基础,并为植物基因组编辑提供了新靶点,可以引入木质素和苯丙烷类化合物生物合成的第二个合成途径。
PTAL的获得带来了若干优势,因为PTAL可以通过双重途径进行木质素生物合成,并在木质素前体的生产中提供灵活性和冗余性。此外,这一TAL途径可以绕过P450酶肉桂酸4-羟化酶(C4H),因此被认为比经典的PAL-C4H途径更高效(图1B)89,90。最近的研究表明,禾本科植物通过改变芳香族氨基酸生物合成途径的上游调控,能够高效合成苯丙氨酸和Tyr91。结合增强的前体供给,PTAL途径可能使快速生长的禾本科植物能够高效合成苯丙烷类化合物,并在其茎秆和叶鞘的散生维管束中积累大量木质素(高达干重的30%)。通过借鉴禾本科进化的经验,结合Ile112和His140残基引入木质素生物合成的第二个途径,以及上游苯丙氨酸和酪氨酸生物合成的工程化改造,提供了一种富有前景的策略,能够在各种植物中增强苯丙烷类化合物的生产。
谱系中近缘物种的基因组提供了关键资源,可以剖析目标生物独特性状进化的遗传和分子基础。例如,黑猩猩和倭黑猩猩的基因组加速了我们对人类性状进化的理解。本研究表明,整合禾本目植物(Poales)中与禾本科植物亲缘关系较近的物种来开展基因组学和生化分析,可以揭示禾本科植物关键代谢创新的进化起源及其遗传和分子基础。这些新获得的禾本植物基因组将为解析禾本科及其近缘植物中独特进化的复杂性状提供宝贵资源,揭示这一最具经济和生态意义的植物科的遗传、生化和分子基础。