JIPB:等位基因感知的染色体尺度组装:六倍体麻竹的异源多倍体基因组

文摘   2024-10-14 18:00   江苏  

麻竹(Dendrocalamus latiflorus Munro)是一种快速生长的木本丛生竹,具备遗传转化和CRISPR/Cas9基因编辑技术,具有成为模型竹种的潜力。由于其多倍体和大基因组,D. latiflorus的基因组序列尚未报道。本文对D. latiflorus基因组进行了测序,并组装成三个等位基因感知亚基因组(AABBCC),这是主要竹种中最大的基因组。本研究使用单分子测序和染色体构象捕获测序(Hi-C)组装了70条等位基因染色体(2,737 Mb)。重复序列占基因组的52.65%。基于八种不同组织的转录组数据,本研究注释了135,231个编码蛋白质的基因。RNA-Seq和PacBio单分子实时长读长转录本测序显示竹笋和退笋之间存在显著的可变剪接(AS),表明AS调控竹笋的退笋率。该高质量的六倍体基因组和全面的链特异性转录组数据集将为以D. latiflorus作为模型物种的竹类研究铺平道路。

ps:Allele‐aware 我翻译为等位基因感知,很怪,但我目前查了资料后还是无法确定更准确的翻译,所以就先这样翻译了。也许,意译为等位基因明确,会比较好。

研究背景

竹子是生长最快的非木材植物资源之一,广泛分布于亚热带和热带地区,占全球森林面积的约1.0%(Zhou et al., 2011)。竹子的市场价值超过25亿美元(Lobovikov et al., 2007),并具有显著的碳固定潜力(Xu et al., 2011; Song et al., 2013; Li et al., 2015b)。竹子因其长花期(Liu et al., 2012; Ge et al., 2017)和快速生长(Wei et al., 2017; Li et al., 2018; Guo et al., 2019a)而展现出独特特性。基因表达动态变化分析显示,激素相关基因参与调控竹笋生长(Li et al., 2018)。对单个竹节快速伸长的研究表明,细胞分裂和细胞伸长区域位于竹节底部的两个连续约1厘米的部分(Wei et al., 2019)。尽管已有对毛竹(Phyllostachys edulis)基因组的测序(Peng et al., 2013; Zhao et al., 2018),但尚未建立其农杆菌介导的转化,使其难以作为竹类研究的模型。

麻竹(Dendrocalamus latiflorus Munro)同样具备快速生长和延长营养生长期的特征(Liu et al., 2012)。针对D. latiflorus的农杆菌介导转化(Qiao et al., 2014; Ye et al., 2017)和CRISPR/Cas9基因组编辑(Ye et al., 2020)方法已可用。因此,D. latiflorus的基因组序列将有助于揭示其基因组结构,为分子和功能研究铺平道路。本研究使用PacBio Sequel平台进行了D. latiflorus的全染色体组装,结合PacBio SMRT测序技术和高通量染色体构象捕获(Hi-C),生成了一个等位基因感知的染色体级基因组(2,737 Mb)。通过对八种不同组织进行PacBio转录组测序(IsoSeq RNA-Seq),本研究获得了D. latiflorus基因的全面注释,并揭示了其转录后调控机制。这项研究生成的染色体级基因组和转录组数据集,以及过表达系统(Ye et al., 2017)和基因组编辑协议(Ye et al., 2020),使D. latiflorus成为研究竹类快速生长及其他独特特征的优秀模型。

主要结果

麻竹基因组调查分析

丛生竹(sympodial)麻竹(Dendrocalamus latiflorus)在形态上与散生竹(monopodial)毛竹(Phyllostachys edulis)有所不同,麻竹的叶片比毛竹更宽(图1A),这与异源多倍体的杂交优势一致。核型研究(图S1)显示,麻竹的染色体复杂性高于首次报道的竹类基因组(毛竹),后者包含48条染色体(2n = 4x = 48)(Peng et al., 2013; Zhao et al., 2018)。通过流式细胞术(FCM)和二倍体栽培稻(Oryza sativa ssp. japonica; 430 Mbp)作为内部参考,本研究估算麻竹的六倍体基因组大小约为1,547.431 ± 96 Mbp(1C)(图S2),显著大于六倍体的Bonia amplexicaulis(Guo et al., 2019b)。本研究从麻竹叶组织中提取基因组DNA,并使用Illumina和PacBio SMRT技术进行基因组调查和全基因组测序。使用Illumina平台的416,576,411对读段(150 bp)进行基因组调查,通过Genomescope(Vurture et al., 2017)估算麻竹的基因组大小为1,324 Mb(1,324,331,250 bp)。异质性估算为2.26%,通过计算序列中的杂合位点比例得出。基因组的GC含量为45.02%(图S4)。

使用PacBio单分子测序进行从头组装

本研究利用PacBio SMRT技术进行DNA测序,插入片段大小为20 kb,生成了麻竹(Dendrocalamus latiflorus)基因组的高质量de novo组装。深度长读段测序产生了318.99 Gb的PacBio长读段,覆盖基因组约110倍(表S1)。为便于基因组组装,本研究还使用了10X Genomics,生成约343.80 Gb的Illumina短读段,覆盖基因组约119倍。初步基因组组装使用FALCON组装器(Chin et al., 2016)基于单分子长读段数据进行。将10X Genomics的链接读段与PacBio组装的共识序列对齐,获得超框架(superscaffold),因为10X Genomics读段提供了DNA片段的长距离信息。仅使用支持链接读段的共识序列进行后续组装。通过SSPACE(Boetzer et al., 2011)进行组合组装,最终合并的麻竹基因组大小升级至2,621.24 Mb。Contig N50和scaffold N50分别为2.57 Mb和4.5 Mb,最大scaffold为21.73 Mb,利用超长PacBio读段克服了高重复性和异源多倍体问题。使用10 kb滑动窗口计算每个窗口的GC含量和平均深度,结果显示麻竹基因组的GC含量为44.65%,且GC组成均匀,表明样本中没有外源污染(图S5)。散点分布的平均深度与测序深度一致。

高通量染色体构象捕获辅助基因组组装

本研究使用高通量染色体构象捕获(Hi-C)技术和PacBio SMRT测序来解析六倍体麻竹(Dendrocalamus latiflorus)的组装。Hi-C文库生成了368.28 Gb的纯化Hi-C片段(约131倍序列覆盖),通过Illumina HiSeq平台的双端测序获得。处理后的读段中,有超过11,611,419条被映射到scaffold序列,生成了3,760,845个有效的配对读段(称为二标记,di-tags),最终获得了2,988,739个独特的二标记,代表一个限制性片段及其连接的相互作用伙伴。本研究将独特的二标记分配到组装的scaffold上,达到染色体水平,效果率(独特二标记/处理总读段)约为25.74%(表S1)。为生成具有等位基因意识的染色体水平基因组,本研究使用了ALLHiC算法(Zhang et al., 2019),最终将scaffold整合为70个等位基因意识的染色体水平亚基因组(AABBCC),对应35对染色体(图2)。根据之前的方法估算相位切换错误(Zhang et al., 2021),本研究发现亚基因组A、B和C的相位切换错误率分别为25.28%、23.67%和25.34%。这些错误率与已发布的等位基因解析基因组相当,如二倍体马铃薯(Zhou et al., 2020)和苹果(Sun et al., 2020)。不同物种的杂合率可能影响基因组组装和等位基因相位算法,复杂的同源多倍体和异源多倍体基因组在相位解析时更具挑战性。考虑到异源多倍体基因组的相位复杂性,麻竹的等位基因解析基因组的当前准确性是可以接受的,但仍需进一步改进多倍体的相位算法,以生成接近完整的等位基因解析基因组(Zhou et al., 2020)。

两个单倍型之间的同线性与变异

基于两个等位基因的比对,观察到高基因组广泛同源性(synteny)(图S6A)。在JCVI的同源性点图中,亚基因组A、B和C分别显示了15,336、14,528和13,880对基因的基因水平共线性。等位基因之间的配对比对揭示了亚基因组A、B和C分别有104,345、98,017和78,872个比对块,这些比对块在同源性上是一致的(图S6B)。本研究在亚基因组A、B和C中分别识别了9,792,585、8,898,779和7,167,029个单核苷酸变异(SNVs)(图S7A),以及614,183、573,834和473,273个缺失(图S7B)和615,070、574,519和474,429个插入(图S7C)。序列变异在所有染色体上广泛分布(图S8)。此次组装生成了2,737,182,539 bp的基因组序列,最大等位基因染色体为61 Mb(chr1.2)和64 Mb(chr1.1)。

本研究生成的麻竹(D. latiflorus)基因组是目前可用的主要竹类谱系中最大的基因组。亚基因组之间在染色体水平上也观察到高密度同源性(图2),为研究竹类谱系中的亚基因组和多倍体提供了宝贵资源。与D. latiflorus相比,Raddia guianensis(626 Mb)和Olyra latifolia(646 Mb)为二倍体竹,且基因组大小相似;而P. edulis(1.8 Gb)和Guadua angustifolia(1,614 Mb)的四倍体基因组大小也大致相似。D. latiflorus(1,368 Mb,1C)的基因组大于六倍体的B. amplexicaulis(848 Mb)。目前,只有六倍体丛生竹D. latiflorus(本研究)和四倍体散生竹P. edulis(Peng et al., 2013;Zhao et al., 2018)在染色体水平上进行了组装,为竹类研究提供了宝贵资源。D. latiflorus的亚基因组与12条水稻(O. sativa)染色体共享同源性块,并显示出1:6的模式(图S9),这与六倍体D. latiflorus的基本染色体数为12的观察一致。本研究将高密度竹类遗传图谱(Guo et al., 2019b)与本研究的组装进行比对,识别出35个连锁群(LGs),支持本研究的染色体分配(图S10)。

基因组组装完整性的评估

为了评估麻竹(D. latiflorus)基因组的完整性,本研究使用BUSCO(版本5.2.1)分析,针对1,440个高度保守的植物单拷贝正交基因(SCOs)进行搜索。结果显示,99.7%的SCOs为完整BUSCO,确认本研究组装的D. latiflorus基因组相对完整(表S1)。本研究还使用核心真核基因映射方法(CEGMA)评估了基因组中保守基因的完整性,发现248个核心基因中有96.37%在D. latiflorus基因组中完整。本研究收集了不同器官和组织的样本(图1A)进行转录组测序(RNA-Seq)。对RNA-Seq数据中的所有读段进行比对,结果显示大多数库中超过80%的转录组读段能够比对到基因组,进一步确认组装序列代表了大部分功能转录组。

蛋白质编码基因的注释

通过三种方法注释蛋白编码基因,包括de novo预测、同源搜索和转录组比对(图S11),本文在麻竹(D. latiflorus)的AA、BB和CC亚基因组中分别识别出49,571、45,421和40,239个蛋白编码基因(图3A, B)。D. latiflorus基因组总共包含135,231个蛋白编码基因,占总基因组组装的约180 Mb。超过91%的注释基因编码至少100个氨基酸残基(aa),平均转录本长度为3,952 bp,平均每个基因有4.52个外显子。外显子和内含子的平均长度分别为239 bp和817 bp。与包括P. edulis(Peng et al., 2013;Zhao et al., 2018)、O. latifoliaG. angustifoliaB. amplexicaulisR. guianensis(Guo et al., 2019b)在内的几种近缘物种比较,D. latiflorus的平均转录本长度与其他物种相似(图S12)。

重复序列注释

除了编码基因外,本研究还识别出1,676个转运RNA(tRNAs)、343个核糖体RNA(rRNAs)和3,070个小核RNA(snRNAs)(图S13)。通过将de novo预测的重复序列与Repbase数据库整合,并使用RepeatMasker软件进行注释,本研究发现麻竹(D. latiflorus)基因组中52.65%为重复区域(表S1)。在转座元件(TEs)注释中,DNA转座子和逆转座子分别占总基因组序列的2.42%和50.96%(图3B),其中长末端重复序列(LTRs)是最常见的TE,占总基因组序列的50.42%。此外,0.93%的总组装为未表征的重复序列,未归类为任何TE或重复序列。TE的比例与主要竹类谱系相似,但低于玉米(Zea mays)。基于Kimura距离的拷贝分歧分析确认LTRs在DNA转座子或长散布核元素(LINEs)中占主导地位(图S14)。本研究通过该分析推测了TE的年龄和转座历史,检测到D. latiflorus中有三次主要的转座爆发:第一次爆发(高K值)涉及LTR、LINE和DNA转座子,第二次爆发(中等K值)主要为LTR和DNA转座子,第三次最近的爆发(低K值)仅由LTR扩展引起,未伴随DNA转座子或LINEs的增加(图S14)。

麻竹不同组织间的转录组及转录后调控比较

为了生成全面的转录组图谱,本研究收集了八种组织样本,包括活笋(正常笋)、退笋、笋箨、叶子、根、竹秆、节间和侧芽,并通过RNA测序(RNA-Seq)分析了它们的转录组(图1)。多维尺度(MDS)图显示茎、节间和侧芽组织相互接近,退笋和正常笋组织也较为相似(图4A)。在成对比较中,秆、节间和侧芽组织之间的差异表达基因(DEGs)最少(FDR< 0.01,倍数变化 > 3)(图4B)。退笋的DEGs与笋箨组织相比更多。本研究对10个DEGs进行了定量逆转录聚合酶链反应(qRT-PCR),验证了70%的DEGs表达模式(图S15;表S1)。退笋和正常笋在颜色上与笋箨组织明显不同(图1B)。退笋率影响竹笋的产量,但退笋的分子机制尚不清楚。退笋与正常笋的成对比较显示,DEGs中富集的基因本体(GO)术语与营养相关,如细胞葡聚糖代谢过程(p-adjust = 2.10E-05)和Allele‐aware(p-adjust = 0.0046),可能与两者的能量代谢水平差异有关。
此外,结构碳水化合物相关的功能术语(如纤维素生物合成过程)也在DEGs中富集(图4C)。例如,编码木聚糖内转糖酶4(XTR4)的DEG在退笋中下调(图4D)。本研究还发现与精胺生物合成相关的GO术语(p-调整 = 4.02E-05),这可能与发笋阶段的不适温度影响精胺合成活性有关。KEGG富集分析显示多个富集的代谢通路,包括能量代谢和激素反应通路(图S16),这些特定通路的表达模式通过qRT-PCR得到了验证(图S17;表S1)。

通过可变剪接(AS),单个基因位点可以生成多个异构体,但在D. latiflorus中尚未报道AS。本研究发现参与信使RNA(mRNA)剪接的基因在正常笋、退笋和笋箨组织中的表达存在明显差异(图4E)。例如,EMB2769和YLS8编码参与mRNA剪接的RNA结合蛋白,这两者在笋中的表达与其他组织不同(图4F),提示AS可能在笋发育中发挥作用。正常笋和退笋之间RNA处理相关基因的表达水平差异不大,但在八个剪接处理相关基因中观察到不同的剪接事件,表明大多数剪接因子受自身转录本的AS调控。本文还利用转录组图谱识别了D. latiflorus中的差异AS事件,分类每个读段并识别了保留内含子(RI)、跳过外显子(SE)、替代5'剪接位点(A5SS)和替代3'剪接位点(A3SS)(图5B)。AS事件在RNA处理、无义介导衰变和mRNA聚腺苷酸化的负调控中富集(图5C)。RNA-Seq相位分析显示,正常笋和退笋之间的AS事件差异最大(图5D),这与在这些组织中识别的编码剪接因子的DEGs一致(图4E)。退笋的RI事件显示更多内含子包含异构体,而正常笋在SE事件中显示更多外显子包含异构体(图5E)。例如,参与假尿苷合成的基因evm.model.ORIGINAL_4797.35在退笋中显示明显的保留内含子(图5F)。这些具有差异AS模式的基因在mRNA剪接位点选择的GO术语中富集(图5G),与剪接因子高度受AS调控的观察一致。本文还发现正常笋和退笋之间在激素反应相关的DEGs富集方面存在相似性,此外还有昼夜节律和信号转导调控等其他富集术语(图5G)。这些差异AS事件为进一步探索导致退笋的分子机制提供了有价值的信息。

等位基因间的结构变异、表达偏倚和选择性剪接

本文选择了11,630、11,134和10,670个等位基因对,并在亚基因组A、B和C中分别识别出1,001,491、937,692和809,164个序列变异(包括单核苷酸变异(SNV)和插入缺失(InDels))。这些序列变异为隔离两个单倍型之间的等位转录本提供了基础。为了准确识别等位特异性表达(ASE)基因,本文基于相位PacBio Iso-Seq计算了所有等位基因的标准化表达(每百万读取数(RPM)),并在MA图中可视化了等位特异性基因表达(图S18A)。最终,本文选择了RPM > 100的ASE基因,总共识别出亚基因组A、B和C中的554、534和578个ASE基因。亚基因组A的ASE基因富集于光合作用、皮质微管组织和腺苷三磷酸(ATP)水解耦合质子转运等GO术语(图S18B),而亚基因组B的ASE基因则富集于囊泡介导运输、细胞蛋白降解过程中的蛋白水解和蛋白N-连接糖基化等(图S18C)。亚基因组C的ASE基因富集于线粒体电子转运、ATP合成耦合质子转运、光合作用和mRNA剪接等(图S18D)。在等位基因对之间,AS基因的百分比没有明显差异(图S19A),但本文识别出仅在单倍型A和B基因组中检测到的5,358和7,437个AS基因。
AS基因的GO富集分析显示,单倍型A的等位基因富集于微管运动、激素响应和组蛋白甲基化等术语(图S19B),而单倍型B的等位基因则富集于蛋白去泛素化、mRNA处理、细胞对硝酸盐的响应和细胞骨架组织等(图S19C)。

在进化分析中,本文分析了15个其他物种的正交基因,发现了44,665个基因家族(图6A),其中15个测序基因组共享3,750个核心基因家族。与P. edulisO. latifoliaR. guianensisG. angustifoliaB. amplexicaulis相比,本文在D. latiflorus中识别出6,919个特有基因家族(包括20,163个基因)(图6B)。D. latiflorusB. amplexicaulis在系统发育树中聚类在一起,估计它们的分化时间为1050万至1650万年前(图6C)。本文估计276个基因家族(10,057个基因)经历了扩展,842个(4,221个基因)经历了收缩(图6D)。收缩的基因家族富集于ATP酶活性、海藻糖生物合成过程、细胞通信和光刺激响应等GO术语,可能影响了D. latiflorus的花卉生理。扩展的基因家族富集于半胱氨酸型肽酶活性、蛋白二聚化活性和DNA修复等GO术语,表明与端粒维护和DNA修复相关的基因扩展可能在D. latiflorus的长寿命生长中发挥重要作用。

D. latiflorus是一种木本丛生竹,与散生竹P. edulis的形态明显不同。本文可以通过过表达和CRISPR-Cas9基因编辑来阐明D. latiflorus中的基因功能,但P. edulis的转化仍然是一个挑战。转化效率可能受到多个发育基因的影响,包括WUSCHEL(WUS)、BABY BOOM(BBM)和SHOOT MERISTEMLESS(STM)等(Nagle et al., 2018)。为了获得P. edulis转化瓶颈的线索,本文比较了P. edulisD. latiflorus的24条染色体,通过全基因组比对识别出467,560、435,836和437,516个比对块。随后,本文分析了P. edulisD. latiflorus之间的同源块,揭示了亚基因组A、B和C中分别有22,184、12,080和20,463对基因(图7A)。上述点图同源比较将四倍体P. edulis的24条染色体分为两组(图7B)。全球染色体同源性分析显示,P. edulis的第22、5和2号染色体与D. latiflorus的染色体同源。
讨论与总结
最近,四种竹类物种(O. latifoliaR. guianensisG. angustifoliaB. amplexicaulis)的草图基因组通过Illumina短读段获得,但由于D. latiflorus的庞大基因组和六倍体特性,其基因组尚未公开。D. latiflorus是唯一具有过表达(Ye et al., 2017)和基因编辑(Ye et al., 2020)协议的竹类物种,因此需要其基因组序列作为模型物种。本研究使用PacBio第三代长读段克服了Illumina短读段组装的缺陷,生成了D. latiflorus的三条等位基因组装(2,737,182,539 bp),其基因组大小超过六倍体B. amplexicaulis(848 Mb的支架)。D. latiflorus基因组包含135,231个注释基因,数量与其他异源多倍体作物相当。本文构建的等位基因组装为识别六个等位基因中的杂合或纯合突变提供了宝贵资源,并为CRISPR-Cas9介导的父母等位基因特异性靶向奠定了基础(Wu et al., 2020)。
在基因组中,DNA转座子和逆转座子占总序列的52.65%,与毛竹相似。LTR逆转座元件D. latiflorus基因组中最常见的转座元件,占50.42%。本文还发现D. latiflorus的种子样本中有72条染色体,但在组装中未检测到最小的染色体对D21。祖先基因组的分析表明,B/C亚基因组的杂交产生了异源四倍体谱系(BBCC),进一步与祖先亚基因组A杂交形成异源六倍体木本竹(AABBCC)。本研究的亚基因组组装为未来研究三条亚基因组(AABBCC)中表观遗传调控元素的作用提供了重要资源。
通过MUMmer(Delcher et al., 2003)进行的等位染色体成对比对识别了亚基因组A、B和C中的SNP(图S7)。Iso-Seq相位分析显示,保留内含子(RI)是D. latiflorus中最常见的AS事件(图5B),而RNA-Seq相位分析则低估了RI类型的比例。长读段的优势在于在相位过程中能够产生更高的分离比。尽管尚未为测序的竹类物种建立转化系统,但D. latiflorus的高质量参考基因组序列为后续功能研究提供了重要见解。此外,本文进行了转录组分析,以研究差异表达或剪接如何影响D. latiflorus的笋生长。这些数据为设计禾本科作物(如水稻和玉米)的育种策略提供了宝贵资源。
文献来源:

Yushan Zheng, Deming Yang, Jundong Rong, Liguang Chen, Qiang Zhu, Tianyou He, et al. Allele‐aware chromosome‐scale assembly of the allopolyploid genome of hexaploid Ma bamboo ( Dendrocalamus latiflorus Munro). JIPB. 2022;64:649–70.


智慧识竹
和小周周一起学习新知识,探索更多的未知世界吧
 最新文章