概述
勃氏甜龙竹(Dendrocalamus brandisii)是一种具独特口味和风味竹笋的丛生竹种。其快速生长和作为优质材料的用途,使该竹种在食品加工和木材应用中备受重视。
然而,甜龙竹的基因组信息尚缺乏,主要原因在于其多倍体和较大的基因组大小。在此,本文基于长读长 HiFi 测序为六倍体 甜龙竹装配了一个高质量的基因组,该基因组由70条染色体组成,总大小为2756 Mb。此外,我们准确地将基因组分离为其三个组成亚基因组。我们使用牛津纳米孔技术的长读段构建了一个涵盖15个组织的转录组数据集,以补充我们的基因组装配,揭示了差异基因表达和转录后调控。通过整合代谢组分析,我们揭示了平衡的木质素形成以及丰富的类黄酮和果糖含量有助于提高甜龙竹笋的优质特性。
整合基因组、转录组和代谢组数据集为提高竹笋质量和开发高效基因编辑技术提供了坚实基础。本研究应有助于甜龙竹的研究,并通过提供重要的基因组资源,增强其作为食品来源和木材材料的应用。
前言
本研究探讨了竹子(Bamboo)的生物学和生态价值,强调其在经济和环境方面的重要性。竹子被广泛分布于热带和亚热带地区,具有快速生长和高碳汇潜力(Scurlock et al., 2000; Dixon and Gibson, 2014; Yang et al., 2018; Liu et al., 2020)。根据根茎特征,竹子可分为三类:散生竹(monopodial bamboos)、丛生竹(sympodial bamboos)和混生竹(mixed bamboos)。丛生竹在热带地区生长,具有高生物量和碳固定速率等优点(Wang et al., 2010; Teng et al., 2016)。
本研究对四种不同地理分布的竹子物种进行了基因组测序,特别是对毛竹(Phyllostachys edulis)和麻竹(Dendrocalamus latiflorus)进行了染色体水平的全基因组测序。这些研究为相关竹种的分子机制研究提供了重要支持(Peng et al., 2013; Zhao et al., 2018; Guo et al., 2019; Zheng et al., 2022)。
竹笋作为某些动物的主要食物来源,同时也被人类视为健康食品和药材,富含营养成分(Chongtham et al., 2011b)。竹笋的化学成分分析表明其含有丰富的碳水化合物、氨基酸和核苷酸(Sun et al., 2016),并且其生长受植物激素如生长素(auxin)和细胞分裂素(cytokinins)的调控(Li et al., 2018; Bai et al., 2023a)。
此外,勃氏甜龙竹作为一种重要的丛生竹,具有优质的竹笋和再生能力(Lv et al., 2023),为基因编辑技术的开发奠定了基础。本文利用PacBio单分子实时(SMRT)测序技术和高通量染色体构象捕获(Hi-C)方法获得了勃氏甜龙竹的染色体水平基因组组装,并进行了15种不同组织的转录组测序,以便于基因组注释和优质竹笋特征的解析。
本研究生成的高质量染色体水平基因组、广泛的转录组数据和全局代谢组数据,为竹笋的营养价值研究提供了重要依据,并将推动勃氏甜龙竹的生长、发育和品质改良研究。
主要结果
高质量染色体尺度的勃氏甜龙竹基因组组装
本研究组装了勃氏甜龙竹的高保真基因组,并基于来自15种组织的转录组数据(Nanopore)进行了基因注释(图1A)。初步的基因组DNA文库构建平均插入片段大小为350 bp,采用Illumina测序获得206.15 Gb的高质量数据,估算基因组大小约为1.42 Gb,GC含量约为45.0%,杂合度为2.65%,重复序列含量约为61.85%(图S1)。为扩展基因组调查,应用PacBio的CLC测序(HiFi)结合Hi-C读取生成完整基因组组装。经过质量过滤,获得144 Gb的clean datas,并使用LACHESIS软件对基因组序列进行整理,最终将2,756,032,269 bp的等位基因解析序列锚定到70条染色体上,覆盖98.0%的基因组(图1B)。
基因组被划分为三个亚基因组A(绿色)、B(蓝色)和C(红色),为未来亚基因组进化分析奠定基础(图1C)。
编码基因和重复序列的注释
为注释勃氏甜龙竹基因组,采用同源预测、De novo预测和转录组组装三种方法,最终识别出126,817个蛋白编码基因(图1B)。大多数基因由至少两种方法支持,显示出预测的高质量。通过计算普遍单拷贝直系同源基因的基准评分(BUSCO),确认预测基因的完整性评分为99.6%。
随后,使用NCBI的NR数据库、eggNOG、GO、KEGG、SWISS-PROT和Pfam数据库对所有预测基因进行了注释,成功为95.6%的基因关联了功能注释。此外,识别出3,892个 tRNA 基因、7,261个 rRNA 基因和666个 miRNA 位点。勃氏甜龙竹基因组中58.3%为重复序列,其中转座元件(TEs)占50.2%,DNA转座子占8.1%(图1B)。在TEs中,长末端重复(LTR)元素最为显著,Gypsy和Copia元素分别占19.4%和18.7%。由于这些元素的重复特性,其组装面临挑战。
通过计算LTR组装指数(LAI)评估基因组组装质量,勃氏甜龙竹的平均LAI为20.68,大部分亚基因组的LAI值超过20(图1C),表明基因组组装质量高。
勃氏甜龙竹基因组的进化分析
总体而言,竹子基因组的大小从二倍体草本竹逐渐增加到四倍体和六倍体木本竹,转座元件(TEs)的插入在基因组扩展中起着重要作用(Komatsuda et al., 2007)。在勃氏甜龙竹基因组中,长末端重复(LTR)元素经历了三次近期爆发,分别发生在约0.046百万年前(MYA)、1.092 MYA和1.475 MYA,这与麻竹的观察结果相似(图2A)。
草本竹种在2-2.67 MYA经历了近期的LTR爆发,而四倍体木本竹在0.55-1.12 MYA经历了爆发。勃氏甜龙竹和麻竹的LTR爆发发生得更早,支持了其独特的进化历史。通过同义替代(Ks)和四重同义(退化)第三密码子转变(4DTv)分析,发现勃氏甜龙竹可能经历了两次近期的全基因组重复(WGD)事件(Ks = 0.035和0.128),与其近缘种D. latiflorus的值相似(Ks = 0.035和0.128)(图2B, C)。相对而言,古热带木本竹B. amplexicaulis(芸香竹)仅经历了最早的WGD事件(Ks = 0.137),而温带木本竹毛竹则仅经历了一次WGD事件(Ks = 0.12)。根据分歧时间推测(图2D),古热带木本竹在9-9.79 MYA首次经历一次WGD事件,随后芸香竹(6.02 MYA)、勃氏甜龙竹和麻竹(4.27 MYA)相继分化。勃氏甜龙竹和麻竹在2.4-2.5 MYA又经历了一次WGD事件,而芸香竹没有经历最近的WGD事件。
为进一步探讨勃氏甜龙竹的基因组进化模式,选择了来自芸香竹、勃氏甜龙竹和麻竹的1,633个单拷贝基因以及其他九种植物的基因,重建了系统发育树(图2D)。结果显示,勃氏甜龙竹与麻竹和芸香竹关系最为密切(图2D)。此外,勃氏甜龙竹与毛竹和水稻基因组之间也存在全局共线性(图S2)。
在这12种植物中,对所有基因家族进行了汇总,配对比较显示共有2,423个基因家族,勃氏甜龙竹特有的基因家族为2,126个(图2E, S3A)。对勃氏甜龙竹特有的基因家族进行了GO术语富集分析,发现其富集于“翻译的负调控”、“转座”、“DNA合成过程”等生物过程(图S3B)。在分子功能方面,观察到“RNA/DNA依赖的DNA聚合酶活性”的富集(图S3C)。在细胞组分相关的GO术语中,“蛋白酶体核心复合物”和“翻译前起始复合物”也表现出富集(图S3D)。KEGG通路富集分析显示“蛋白质出口”、“光合作用”和“葡萄糖苷酸生物合成”有所富集(图S3E)。
在基因家族方面,统计了每个物种中每个基因家族的基因拷贝数,并根据拷贝数将所有基因家族分类。勃氏甜龙竹和麻竹在两个或更多基因拷贝的基因家族中占比最高(图2F)。勃氏甜龙竹和麻竹的扩展基因家族占主导,而芸香竹主要识别到收缩基因家族(图2G)。具体而言,勃氏甜龙竹有3,519个扩展基因家族和1,362个收缩基因家族,与麻竹相似(扩展2,818;收缩1,097)。收缩基因家族主要与GO生物过程“离子跨膜运输”、“水运输”、“多胺生物合成”等相关(图S4),而扩展基因家族则主要涉及“花粉识别”、“细胞表面受体信号通路”等(图S5)。
勃氏甜龙竹转录组图谱概述
本研究从勃氏甜龙竹中选择了15种组织类型,每种组织代表三个生物重复,利用Oxford Nanopore长读技术进行全长转录本测序,生成了广泛的转录组数据集(图1)。这些组织包括六种不同的地上器官:笋箨(T-SHE)、秆(T-S)、叶(T-L)、花(T-F)、茎基部的芽(T-BB)和分枝(T-B);以及三种根器官:根原基(TBRC)、根尖(TBR)和根基(T-R)。此外,还包括三个芽发育阶段:芽原基(TBLB)、当年芽(TBLBC)和年芽(TBLBY)。最后,分析了50厘米高的笋的三个不同部位:基部(T-SH-B)、中部(T-SH-M)和上部(T-SH-U,包括顶端分生组织)。
不同组织的长读数范围从2,097,152到6,032,837。通过使用Illumina RNA-seq读取对每个数据集中的全长序列进行校正,并将这些转录本映射回先前组装的基因组以进行后续分析。主成分分析和相关性分析显示样本之间的良好重复性以及组间的明显区分(图3A, B)。值得注意的是,三个芽发育阶段(TBLB、TBLBC和TBLBY)以及笋的三个部分(T-SH-B、T-SH-M和T-SH-U)聚类在一起。
这种聚类模式在像勃氏甜龙竹这样的丛生竹中特别有趣,因为茎基部的芽是笋发育的前体。这些芽可以发育成竹笋。
本研究的转录组数据为支持这一假说提供了重要见解。
勃氏甜龙竹笋中的基因表达及转录后调控通过牛津纳米孔长读长测序
本研究聚焦于勃氏甜龙竹笋的不同部位(图3C)。通过对笋不同位置的石蜡切片观察,发现基部(T-SH-B)和中部(T-SH-M)区域细胞显著伸长,而顶部(T-SH-U)区域细胞则呈现紧凑排列,核浓缩,表明细胞分裂活跃。基部、中部和顶部的全长转录本映射率分别为90.1%、91.1%和92.1%,表明勃氏甜龙竹基因组组装覆盖了大部分转录区域。
在笋的中部和基部之间,鉴定出2,731个差异表达基因(DEGs)(502个上调,2,229个下调);而在顶部和中部之间,鉴定出4,231个DEGs(2,983个上调,1,248个下调)。
热图和聚类分析显示,DEGs分为三个基因簇,分别在T-SH-B、T-SH-M或T-SH-U中表达水平较高(图3D)。对各部位特有的上调DEGs进行GO术语富集分析发现,基部的上调基因主要富集于“植物型细胞壁生物合成”和“细胞壁中的胶质沉积”(图3E),中部的上调基因与多种信号通路相关(图3F),而顶部的上调基因则与细胞分裂相关(图3G)。
这一分析表明勃氏甜龙竹笋的不同部位在发育过程中具有差异化功能,细胞周期和核分裂主要集中在笋的顶部。
在转录后调控方面,包括替代聚腺苷酸化(APA)和可变剪接(AS)。在三种笋样本(T-SH-B、T-SH-M和T-SH-U)中,发现10,170个基因具有单一聚腺苷酸化位点(图4A),这些基因在光合作用相关GO术语中富集(图S6A)。
另有22,073个基因表现出具有两个或更多聚腺苷酸化位点的APA事件,这些基因在mRNA结合和剪接相关GO术语中富集(图S6B)。对每个聚(A)裂解位点中心200 bp序列的检查显示,裂解位点附近富含AU,表明其真实性(图4B)。通过对T-SH-B、T-SH-M和T-SH-U样本的配对比较,共识别出10,185个差异APA事件(图4C)。例如,基因DhA07G023870与整合膜成分相关,具有三个潜在聚腺苷酸化位点,其中远端聚腺苷酸化位点在T-SH-U样本中显著突出(图4D)。
可变剪接是植物中增加蛋白质异构体复杂性和多样性的关键机制(Filichkin et al., 2010)。勃氏甜龙竹的AS主要为内含子保留(IR)(图4E–G),发生频率从高到低依次为IR > 替代5'剪接位点(A5SS) > 替代3'剪接位点(A3SS) > 外显子跳跃(ES) > 互斥外显子(MEE)。在T-SH-B、T-SH-M和T-SH-U样本之间的配对比较中识别出差异AS事件(图4H)。
例如,基因DhA03G020950编码一种具有NFACT-R结构域的RNA结合蛋白,在所有笋样本中显示其第三个内含子的部分保留,但T-SH-B和T-SH-M样本的剪接效率低于T-SH-U样本(图4I)。
未来研究将重点探讨差异性转录后调控如何调节竹笋发育。
勃氏甜龙竹笋的small RNA组学分析
为探讨竹笋不同部位的转录调控模式,本文对50厘米高竹笋的基部、中部和顶部进行了独立的small RNA测序分析,生成了2.8073亿条clean reads,每个样本至少有2779万条clean reads。所有small RNA物种的大小分布范围为18至26 nt,去重后发现24 nt的small RNA在每个样本中最为常见(图5A)。此外,随着靠近笋顶部,miRNA的丰度逐渐增加(图5B)。在T-SH-M与T-SH-B、T-SH-U与T-SH-B以及T-SH-U与T-SH-M的配对比较中,识别出显著差异丰度的miRNA(图5C, D),其中T-SH-M与T-SH-B样本之间的差异丰度miRNA数量最多(图5D)。
对所有差异丰度miRNA的聚类分析表明,其中一个聚类的miRNA丰度从基部到顶部逐渐增加,例如miR390(图5E),可能与笋中的生长素相关基因有关;而其他聚类的miRNA丰度则逐渐减少,例如miR168和miR396(图5F)。
在T-SH-M样本中,miR166的丰度较高,可能靶向编码丝氨酸/苏氨酸激酶的DhA05G023140转录本,而该转录本在T-SH-M样本中的水平较低。
进一步识别所有差异丰度miRNA的靶转录本,发现基部的miRNA-基因网络主要与“苯丙氨酸生物合成”、“植物-病原体相互作用”和“黄酮生物合成”相关(图5G);中部的miRNA与基因之间建立了独特的连接,涉及“物质运输”、“能量代谢”和“信号转导”等过程(图5G);而顶部的miRNA-基因网络则主要与“DNA复制”和“细胞分裂”相关(图5G)。在中部和顶部,许多编码生长调节因子的差异表达基因(DEGs)是miRNA的靶标,表明这些区域的生长和发育调节因子浓度较高。
勃氏甜龙竹和毛竹笋的木质素生物合成特征及代谢物差异
竹子的木质素浓度和组成在决定嫩笋的口感和膳食纤维含量以及竹材的质量和适用性方面起着关键作用。研究发现,毛竹中编码木质素生物合成关键酶的基因(如4‐香豆酸:辅酶A连接酶(4CL)、肉桂酰辅酶A还原酶(CCR)和阿魏酸5‐羟基化酶(F5H))的表达水平高于勃氏甜龙竹(图6A)。F5H作为主要限速酶,控制着愈创木质素前体向香豆素前体的转化。
通过对毛竹的F5H序列进行微同源基因对分析,识别出两个竹种之间的F5H共线性基因对(图6B)。使用RNA-seq数据比较了毛竹和勃氏甜龙竹在木质素生物合成途径中所有基因的表达水平,结果显示勃氏甜龙竹中的F5H表达水平普遍较低,而RT-qPCR分析表明毛竹样本中的F5H表达高于勃氏甜龙竹(图6C)。
这表明毛竹可能产生更多的G型木质素,而勃氏甜龙竹的嫩笋可能积累较低水平的G型木质素。这种木质素组成的差异可能是勃氏甜龙竹嫩笋更可口且可食用期更长的原因之一。
勃氏甜龙竹嫩笋被广泛认为是各种竹种中最美味的,因此本文对勃氏甜龙竹和毛竹进行了比较代谢组学分析(图7A)。代谢组学分析识别出勃氏甜龙竹嫩笋中有990种代谢物,而毛竹中有909种,两者之间有561种共享代谢物(图7B)。
差异代谢物分析显示,两种竹种之间有475种差异代谢物,其中勃氏甜龙竹笋中有269种代谢物丰度更高,206种代谢物丰度更低(图7C)。最显著的10种差异代谢物主要包括4ʹ-羟基-5,7-二甲氧基黄酮、5,7,4ʹ-三羟基-3ʹ,5ʹ-二甲氧基黄酮、L-色氨酸、香草酸和L-缬氨酸-L-苯丙氨酸(图7D)。勃氏甜龙竹的黄酮类含量较高(12.7%),而生物碱含量较低(7.6%),与毛竹相比(黄酮类9.8%,生物碱9.7%)。
此外,毛竹中苦味氨基酸(如苯丙氨酸、缬氨酸、亮氨酸和异亮氨酸)的含量较高。这表明勃氏甜龙竹和毛竹之间的口感差异可能归因于氨基酸、生物碱和黄酮类的含量差异。
在勃氏甜龙竹中,D-葡萄糖和D-果糖的含量也较毛竹高(图7E, F)。利用毛竹中与果糖代谢相关的基因进行微同源分析,发现两种竹种之间与果糖代谢相关的多个共线性基因对(图7G)。
其中,编码谷氨酰胺-果糖-6-磷酸氨基转移酶、果糖-二磷酸醛缩酶1和果糖-6-磷酸1-磷酸转移酶α亚单位的基因在勃氏甜龙竹中的表达高于毛竹(图7H)。综上所述,勃氏甜龙竹笋的优良口感主要归因于其高黄酮含量和低生物碱含量。此外,糖分含量的提高和可口性相关物质的存在也部分促进了其良好的食用特性。
总结与讨论
竹子是世界上最大的草类植物,包含1,642个物种,其中1,521个为木本竹。尽管竹子在建筑材料方面的作用常被强调,但其作为食物来源的重要性却常被低估,尤其对某些物种如大熊猫和金竹狐猴而言,竹子是唯一的食物来源。目前,仅有六个竹子基因组被测序(文章发表当时,截至2024.11.19,一共发表了14个竹种),其中只有两个达到染色体水平组装,这限制了对竹笋形成和生长机制的理解,妨碍了竹子利用和产业的发展。
本研究对勃氏甜龙竹(高品质竹笋的代表)进行了深入的分子特征分析,并完成了其高质量基因组组装(2,756,032,269 bp,contig N50值为15.19 Mb),包含三个亚基因组,略大于麻竹的基因组。比较基因组学分析揭示六倍体竹子经历了近期的全基因组重复(WGD)事件,勃氏甜龙竹和麻竹的基因家族较其他竹种更大,可能有助于它们适应环境。
本文构建了15种组织的高质量转录组数据集,以便于未来对勃氏甜龙竹的研究。聚类分析显示,侧枝与笋之间的关系更为密切,符合竹子的生物学特性。勃氏甜龙竹作为丛生竹,具有较强的再生能力,侧枝可通过埋茎法再生为新植株。研究还发现,笋的不同高度基因表达水平差异显著,上部更与细胞分裂相关,而基部和中部则与细胞壁生物合成相关。
竹子在自然环境中生长良好,显示出对疾病、害虫和气候变化的强大抵抗力,且不需要施肥或使用农药。竹笋富含多种营养成分,如维生素、氨基酸、蛋白质和酚酸,具有抗氧化、抗衰老和抗病毒等健康益处。尽管全球经济下滑,竹笋的国际贸易仍稳步增长,尤其在亚洲,出口额占全球的62.5%。
勃氏甜龙竹因其优质的竹笋而受到认可。与毛竹相比,勃氏甜龙竹的竹笋在夏季生产,毛竹则在春季生产,这种季节差异可能导致其竹笋在各方面的差异。本文还进行了勃氏甜龙竹与毛竹竹笋的比较代谢组学分析,发现两种竹子在生物碱和黄酮类化合物的组成上存在差异。分析表明,勃氏甜龙竹的F5H(与木质素生物合成相关)表达低于毛竹,可能导致其S型木质素含量较低(没看懂这部分,结果中提及的是更低的G型木质素),从而影响竹笋的质量。
通过整合多组学数据,本文揭示了勃氏甜龙竹竹笋在基因、转录和代谢水平上的优质特性,强调竹笋的味道质量是多种因素共同作用的结果。研究提供的高质量基因组、全面的转录组数据和广泛的代谢组数据为未来竹笋的深入研究奠定了基础。
文献来源:
Chromosomal‐level genome and metabolome analyses of highly heterozygous allohexaploid Dendrocalamus brandisii elucidate shoot quality and developmental characteristics - Jiang - 2024 - Journal of Integrative Plant Biology - Wiley Online Library