11种竹子基因组组装揭示动态亚基因组优势诱导的多样化

文摘   2024-10-22 18:01   江苏  

多倍体(基因组复制)是进化中的关键力量,但多倍体核内亲本基因组间的相互作用(常涉及亚基因组优势)尚不明确。本研究分析了竹类系统(禾本科:竹亚科),涵盖从二倍体(草本)到四倍体六倍体(木本)的系列谱系,基于11个染色体水平的新基因组组装和476个转录组样本。发现木本竹亚基因组表现出惊人的核型稳定性,四倍体类群中存在平行亚基因组优势,六倍体类群中优势逐渐转移。异源多倍体化和亚基因组优势塑造了木本竹作为大型禾草的树状木质化茎快速生长同步开花特征。研究揭示了这一显著多倍体系统中基因组优势的机制,包括其对基因组背景的依赖及在进化过程中切换优势亚基因组的能力。

前言

多倍体(polyploidy)作为进化主要驱动力,在绿色植物生命树中普遍存在,其基因冗余是遗传创新的源泉。基因组加倍后,亚基因组需协作解决基因剂量、调控和转座元件(TE)活性不兼容问题。亚基因组优势进化常为解决方案,促进物种适应和多样化,但在燕麦和苔麸等多倍体中可能不明显。现有对优势的认识多限于近期(数百万年前)形成的多倍体作物(如小麦、棉花和芸薹属植物)及其未广泛多样化的野生亲缘。对古老多倍体(如竹类)亚基因组差异进化的理解有限。竹类(Bambusoideae)包括少量草本二倍体类群和三大木本多倍体类群,后者具高度木质化茎、快速生长和同步开花等特征,文化、生态和经济价值巨大。竹类经历两次四倍体化和一次六倍体化事件,染色体数稳定,亚基因组未重排,是研究古老多倍体亚基因组优势进化的理想系统。

这篇文献的图特别多,附在推文中的只是很少的一部分。

主要结果

11个竹子基因组的测序

竹亚科(Bambusoideae)物种和形态多样(图1a,扩展数据图1a-k)。为覆盖不同倍性和系统发育多样性,选取11个代表种进行基因组测序:2个草本竹(HBs,2x)和9个木本竹(WBs),分属温带(TWBs,4x)、新热带(NWBs,4x)和古热带(PWBs,6x)类群(图1b,扩展数据表1)。

结合Nanopore长读段和短读段,11个基因组从头组装并精修,N50平均5.3 Mb,最大17.5 Mb。Hi-C测序将平均94.1%序列锚定组装成11、24和35条假染色体(图1b,补充图1)。与水稻基因组(常用作参考)的1:2:3共线性模式一致(补充图2)。

高连续性和完整性由短读段映射(平均98.9%)和LTR组装指数(LAI,均≥10)支持(扩展数据图1m)。注释蛋白编码基因平均29,343(2x)、47,444(4x)和51,989(6x)个,BUSCO完整性平均96.4%(扩展数据图1l)。Mabs评分高,单拷贝和多拷贝基因测序覆盖一致(扩展数据图1n,补充图3),表明组装质量高。基因组大小从625.9 Mb(2x)到1,628.3 Mb(4x)到1,122.4 Mb(6x),重复序列占比分别为62.4%、77.0%和64.1%(补充表4和5)。四倍体mCG和mCHG甲基化水平高于二倍体和六倍体,mCHH在二倍体最高(补充图4)。重复序列富集区(尤其Gypsy转座元件)转录低,mCG高(补充图5)。

WBs亚基因组起源和多倍化历史

竹类亚基因组通过系统发育序列相似性策略识别。构建两组同源基因数据集(456个“完美拷贝”和13,891个“低拷贝”基因),分析确认木本竹(WBs)四个亚基因组(A、B、C、D)和草本竹(HBs)亚基因组H。序列相似性分析支持亚基因组识别,A和D亚基因组聚类。

去除异常基因后,恢复WBs亚基因组单系性(图2a,扩展数据图3a-c),但基因树拓扑冲突提示非二歧式进化。主要冲突拓扑占比57%、48%和46%(图2b,补充表7),符合二歧树。其他拓扑频率不等,不完全谱系分选(ILS)信号弱(补充图10)。推测杂交网络和基因渗入事件(图2c,扩展数据图3d-g),B和C祖先杂交形成A和D祖先的杂合二倍体祖先。H和A祖先间也存在基因渗入(补充图12,补充表10)。叶绿体系统发育和核基因树支持HBs与WBs祖先古老杂交(补充图13)。提出竹类起源和多倍化 refined模型(图2d):草本和木本谱系早期分化,木本祖先分化为B和C而非四或五个二倍体祖先。A和D祖先通过B和C祖先间同倍体杂交(32-30 Ma)形成,B和C1杂交后约21 Ma多倍化形成新热带木本竹(NWBs,BBCC),第二次多倍化(不晚于13 Ma)形成古热带木本竹(PWBs,AABBCC),第三次事件(涉及C2)形成温带木本竹(TWBs,CCDD,早于12 Ma)。

WBs进化中的核型稳定性

木本竹(WBs)四个亚基因组自30-32 Ma分化以来,除新热带和古热带木本竹(NWBs和PWBs)C亚基因组chr12裂变和融合外,维持12条染色体的全局共线性(扩展数据图2d,补充图15)。

多物种间高共线性保留,最近一次至少12 Ma(图1b)。Rh. racemiflorum最短染色体Y(38.9 Mb)无同源染色体,基因密度和表达低(补充图16),可能为B染色体。重建祖先竹类核型(ABKs)显示木本亚基因组(尤其A、B、D)类似祖先 grass核型(AGK),长期进化稳定(图3a)。仅发现chr9D和chr2C大片段融合形成的嵌合染色体(扩展数据图2d),三温带木本竹(TWB)共有,表明物种分化前发生。WBs亚基因组同源交换低(0.43%-1.27%基因,补充图17,补充表11)。

草本竹(HBs)重排多(图3a),包括chr10-chr12融合及染色体数减少,主要在H和C亚基因组(图3b,补充表12),多为种特异,仅3个共享。热带和温带类群C亚基因组重排模式不同(图3b),与C分化为C1和C2一致。A亚基因组加入对PWBs后续重排影响小。11个竹基因组识别1,494个倒位(>1 kb,补充表13),HBs种特异倒位多。WBs中C亚基因组倒位最少但大(>10 Mb,扩展数据图4a)。多数共享倒位发生在多倍化后、物种分化前(图3a),8个倒位仅A和D亚基因组共享,证实共同祖先起源。

亚基因组的发散轨迹

木本竹(WBs)C亚基因组突出,大小小于A和B亚基因组,但与D亚基因组相似,与转座元件(TE)含量密切相关(扩展数据图2e,f)。四倍体基因组(TWBs平均784.2 Mb,NWBs 721.1 Mb)显著大于六倍体(PWBs 345.3 Mb),六倍体较小主要因Gypsy元件比例低(14.1% vs 四倍体28.0%)。多倍化后亚基因组及四倍体、六倍体类群TE动态变化。多倍化显著改变基因进化,全基因组重复基因广泛丢失(图3c,补充图18)。四倍体中C > B/D基因保留水平,PWBs中A > B > C,提示亚基因组偏分离模式不同(补充图19)。

WBs亚基因组50.0%-77.5%基因在同源组中(扩展数据图4b,补充表15),四倍体大多1:1保留(74.1%-85.1%),六倍体1:1:1保留少(21.8%-25.2%)。C亚基因组四倍体中特异性基因多,总基因数多(补充表16),但六倍体中A亚基因组基因最多。核心grass基因家族在A和C亚基因组中较多(扩展数据图4d,e)。C亚基因组基因密度高(扩展数据图4c),TE密度和基因周围甲基化水平低(图3d,补充图20)。

综上,C亚基因组在四倍体类群中占主导,A亚基因组加入改变六倍体竹类的主导地位。

亚基因组优势及WBs中的转变

为研究多倍化后转录景观变化(transcriptional landscape),对11种竹子的476个转录组样本(不同组织、发育阶段,补充表17,补充图21)进行测序分析。木本竹(WBs)基因组织表达广度低于草本竹(HBs),提示亚基因组表达分化(补充表18)。WBs中C亚基因组表达基因比例和平均表达水平最高(补充表19,扩展数据图4f)。通过主成分分析(PCA),发现三个类群中组织间(PC1和PC2)和亚基因组间(PC2和PC3)表达明显分离(扩展数据图4g,补充图22)。

四倍体类群中亚基因组基因表达模式一致,PWBs中则多变(图4a,补充图23)。同源基因按表达模式聚类为10组,多数基因对(TWBs 58.5%-63.5%,NWBs 66.9%-68.1%)和三联体(82.7%-88.9%)分化为不同组(图4b,补充表20)。P. edulisG. angustifolia中C亚基因组上调基因多于D和B亚基因组(P < 0.05,图4c,补充表21),此偏好在几乎所有四倍体竹子组织中一致(扩展数据图5a,b,补充图25和26)。六倍体中,早期分化M. baccifera的C亚基因组转录丰度最高(34.7%,P < 0.01,扩展数据图5c,补充表22),其他PWB物种中A和C亚基因组上调基因数相似(补充图27,补充表23),但均多于B亚基因组(P < 0.05)。

PWBs中六类同源表达类别中,平衡表达三联体最常见(59.2%-94.9%,扩展数据图5e,补充图31,补充表24),单同源优势少见,单同源抑制较常见,B抑制类别普遍较大(扩展数据图5f)。WGCNA分析显示,四倍体中C亚基因组基因共表达多于B和D亚基因组(扩展数据图6a),且网络中的枢纽基因在C亚基因组中富集(图4e,扩展数据图6b)。六倍体D. sinicus中A亚基因组枢纽基因更多。G. angustifolia中基因更可能与C亚基因组基因共表达,P. edulis中同亚基因组基因共表达更频繁(图4f),D. sinicus中A亚基因组基因共表达最频繁。结果表明C亚基因组在TWB和NWB类群中占主导,PWB进化中主导地位逐渐从C转向A亚基因组,且主导表达可能在多倍化后迅速形成并持续积累(扩展数据图6c,补充表26)。

基因组变异与WBs中独特性状的起源

在禾本科植物中,木本竹(WBs)进化出独特的性状,包括木质化的茎和不频繁的开花(图5a)。基于基因表达,WBs的茎是 最独特的组织,而HBs则不是(扩展数据图7a,b,补充图32),表明快速生长的WBs中茎的进化创新。

根和鞭、茎和叶鞘(与叶鞘同源)表达相似性聚类。为揭示WBs独特性状的基因组基础,研究了基因家族大小、新基因和正选择基因(PSGs)的进化(图5a)。还鉴定了茎和花序特异性表达基因(补充表27),P. edulisD. sinicus共有1,349个基因。WBs起源时共有163个新基因家族(补充表28),其中32个和19个分别在P. edulisD. sinicus的茎中特异性表达,C亚基因组转录组年龄指数(TAI)普遍较高(扩展数据图7c,d,补充图33a),表明新基因的功能作用,特别是C亚基因组中的新基因,在茎中发挥作用。随着WBs的多倍体起源,共有6,800个基因家族显著扩张(补充图34,补充表29),尽管串联和散布重复也起作用(补充表30)。全基因组筛选发现三个多倍体类群共有183个PSGs(补充图35,补充表31和32),C亚基因组中的PSGs富集。此外,经历上述两种或多种基因组变化的基因中C亚基因组过代表(图5a,补充图33b)。许多基因可能参与WBs的独特生命周期,如开花关键调节因子GI和SPL7均来自C亚基因组

功能富集分析显示,全基因组水平和亚基因组水平上扩张的基因家族,特别是C亚基因组,主要与植物营养生长和发展相关(例如,“植物激素信号转导”和“苯丙烷生物合成”)(图5b)。

另一个显著术语,“昼夜节律”,在开花信号基因中富集。有趣的是,共享的PSGs也在相似的功能术语中富集。进一步研究了木质素生物合成途径中的基因组变化(图5c),以深入了解其对竹子木质化的贡献。D. sinicus的茎生长,可在30天内达到10米高,呈现“慢-快-慢”模式,与其他WB物种相似,分为四个阶段(扩展数据图8a-c)。木质素、纤维素和半纤维素同步沉积(补充表33),确保快速生长茎的机械支持。与HBs和禾草相比,WBs中几乎所有与木质素相关的基因都通过多倍体衍生的重复基因扩张了拷贝数(补充表34),D. sinicus中的COMT和F5H1还观察到串联重复。途径中31个基因的大多数经历了某种基因组变化(图5c),在D. sinicus中检测为茎生长的正调节因子(扩展数据图8d,e)。最显著的是COMT,在巨龙竹秆的木质化中发挥关键作用(扩展数据图8f和9a,b),主要负责单木质素生物合成,这对禾草茎的强度至关重要。

除两种物种中B亚基因组丢失外,所有竹子COMT拷贝都位于与水稻chr8相对应的保守同线性区域(图5d,扩展数据图9d)。然而,包含COMT的片段(在四倍体中包含约165个基因,在六倍体中包含约116个基因)在C亚基因组中从chr8易位到chr9,表明这一事件可能是WBs共同祖先中该基因适应性进化正选择的基础(扩展数据图9c)。

此外,在四倍体竹子和M. baccifera中,秆的表达通常由C拷贝主导(图5d)。在另外两种PWB物种中,A拷贝占总表达量的三分之二以上,与PWB进化中主导地位从C向A亚基因组转变的总体趋势一致。COMT-C的正选择和偏向表达可能是竹子木质化进化的第一步,随后,COMT-A的偏向表达和串联重复可能与D. sinicus进化为世界上已知最大的竹子有关。我们发现WBs的Ka/Ks(非同义到同义核苷酸替换)值比HBs大(扩展数据图9e),表明WBs中基因整体选择放松。此外,在WBs中,仅限于生殖阶段表达的基因的选择比仅限于营养阶段表达的基因的选择进一步放松(扩展数据图9f),而在HBs中没有发现差异。总的来说,这些伴随多倍体化和动态亚基因组主导地位的基因组变化突出了WBs独特性状进化的基因组基础及其相关适应性。

总结与讨论

通过多个基因组组装,解析了竹子的网状进化,识别并追踪了木本竹(WBs)的四个古老亚基因组(A、B、C、D)和草本竹(HBs)的基因组(H)。木本谱系二倍体祖先间的反复杂交和多倍化,以及祖先木本和草本谱系间的基因渗入,在竹子进化早期发生。结果显示杂交和多倍化不仅产生深层冲突的系统发育,还是物种多样化的驱动力,如WBs(1,576种)与HBs(126种)的物种数量对比。WBs经历两次独立四倍化事件和六倍化,代表一个显著的多倍体系统,尽管多倍化后12至20百万年及大规模物种多样化,仍保持核型稳定,无细胞学异常。竹子为研究多倍化长期效应和亚基因组主导进化提供罕见机会,与近期无大规模物种多样化的多倍体或已经历大规模亚基因组重排的古老多倍体对比。分析明确显示多倍体竹子中存在主导亚基因组,表现在基因组重排、基因片段化和基因表达等特征。然而,表达水平的主导模式更动态,尤其在六倍体竹子中。亚基因组主导可能在多倍化后迅速建立并遗传,如新世界木本竹(NWBs)和旧世界木本竹(TWBs)。

两个四倍体类群中C亚基因组主导的平行起源可能与基因组结构相关。有趣的是,六倍体类群中主导地位可随新亚基因组整合而转移。主导的C亚基因组及六倍体中的A亚基因组对WBs独特性状进化和适应森林生境的辐射演化贡献最大。从HBs的年生花到WBs的长花期转变,减少了减数分裂重排机会,可能是亚基因组重排最小化的原因之一。此转变结合多倍化,可能重塑了亚基因组进化,选择压力放松。研究强调使用类群全基因组组装理解多倍体中亚基因组进化的实用性,需进一步在类似进化尺度上验证这些发现的普适性。

文献来源:

Ma, P.-F.; Liu, Y.-L.; Guo, C.; Jin, G.; Guo, Z.-H.; Mao, L.; Yang, Y.-Z.; Niu, L.-Z.; Wang, Y.-J.; Clark, L.G.; et al. Genome Assemblies of 11 Bamboo Species Highlight Diversification Induced by Dynamic Subgenome Dominance. Nat Genet 2024, doi:10.1038/s41588-024-01683-0.

智慧识竹
和小周周一起学习新知识,探索更多的未知世界吧
 最新文章