麻竹(Dendrocalamus latiflorus Munro)是一种快速生长的木本丛生竹,具备遗传转化和CRISPR/Cas9基因编辑技术,具有成为模型竹种的潜力。由于其多倍体和大基因组,D. latiflorus的基因组序列尚未报道。本文对D. latiflorus基因组进行了测序,并组装成三个等位基因感知亚基因组(AABBCC),这是主要竹种中最大的基因组。本研究使用单分子测序和染色体构象捕获测序(Hi-C)组装了70条等位基因染色体(2,737 Mb)。重复序列占基因组的52.65%。基于八种不同组织的转录组数据,本研究注释了135,231个编码蛋白质的基因。RNA-Seq和PacBio单分子实时长读长转录本测序显示竹笋和退笋之间存在显著的可变剪接(AS),表明AS调控竹笋的退笋率。该高质量的六倍体基因组和全面的链特异性转录组数据集将为以D. latiflorus作为模型物种的竹类研究铺平道路。
ps:Allele‐aware 我翻译为等位基因感知,很怪,但我目前查了资料后还是无法确定更准确的翻译,所以就先这样翻译了。也许,意译为等位基因明确,会比较好。
研究背景
竹子是生长最快的非木材植物资源之一,广泛分布于亚热带和热带地区,占全球森林面积的约1.0%(Zhou et al., 2011)。竹子的市场价值超过25亿美元(Lobovikov et al., 2007),并具有显著的碳固定潜力(Xu et al., 2011; Song et al., 2013; Li et al., 2015b)。竹子因其长花期(Liu et al., 2012; Ge et al., 2017)和快速生长(Wei et al., 2017; Li et al., 2018; Guo et al., 2019a)而展现出独特特性。基因表达动态变化分析显示,激素相关基因参与调控竹笋生长(Li et al., 2018)。对单个竹节快速伸长的研究表明,细胞分裂和细胞伸长区域位于竹节底部的两个连续约1厘米的部分(Wei et al., 2019)。尽管已有对毛竹(Phyllostachys edulis)基因组的测序(Peng et al., 2013; Zhao et al., 2018),但尚未建立其农杆菌介导的转化,使其难以作为竹类研究的模型。
麻竹(Dendrocalamus latiflorus Munro)同样具备快速生长和延长营养生长期的特征(Liu et al., 2012)。针对D. latiflorus的农杆菌介导转化(Qiao et al., 2014; Ye et al., 2017)和CRISPR/Cas9基因组编辑(Ye et al., 2020)方法已可用。因此,D. latiflorus的基因组序列将有助于揭示其基因组结构,为分子和功能研究铺平道路。本研究使用PacBio Sequel平台进行了D. latiflorus的全染色体组装,结合PacBio SMRT测序技术和高通量染色体构象捕获(Hi-C),生成了一个等位基因感知的染色体级基因组(2,737 Mb)。通过对八种不同组织进行PacBio转录组测序(IsoSeq RNA-Seq),本研究获得了D. latiflorus基因的全面注释,并揭示了其转录后调控机制。这项研究生成的染色体级基因组和转录组数据集,以及过表达系统(Ye et al., 2017)和基因组编辑协议(Ye et al., 2020),使D. latiflorus成为研究竹类快速生长及其他独特特征的优秀模型。
主要结果
麻竹基因组调查分析
丛生竹(sympodial)麻竹(Dendrocalamus latiflorus)在形态上与散生竹(monopodial)毛竹(Phyllostachys edulis)有所不同,麻竹的叶片比毛竹更宽(图1A),这与异源多倍体的杂交优势一致。核型研究(图S1)显示,麻竹的染色体复杂性高于首次报道的竹类基因组(毛竹),后者包含48条染色体(2n = 4x = 48)(Peng et al., 2013; Zhao et al., 2018)。通过流式细胞术(FCM)和二倍体栽培稻(Oryza sativa ssp. japonica; 430 Mbp)作为内部参考,本研究估算麻竹的六倍体基因组大小约为1,547.431 ± 96 Mbp(1C)(图S2),显著大于六倍体的Bonia amplexicaulis(Guo et al., 2019b)。本研究从麻竹叶组织中提取基因组DNA,并使用Illumina和PacBio SMRT技术进行基因组调查和全基因组测序。使用Illumina平台的416,576,411对读段(150 bp)进行基因组调查,通过Genomescope(Vurture et al., 2017)估算麻竹的基因组大小为1,324 Mb(1,324,331,250 bp)。异质性估算为2.26%,通过计算序列中的杂合位点比例得出。基因组的GC含量为45.02%(图S4)。
使用PacBio单分子测序进行从头组装
本研究利用PacBio SMRT技术进行DNA测序,插入片段大小为20 kb,生成了麻竹(Dendrocalamus latiflorus)基因组的高质量de novo组装。深度长读段测序产生了318.99 Gb的PacBio长读段,覆盖基因组约110倍(表S1)。为便于基因组组装,本研究还使用了10X Genomics,生成约343.80 Gb的Illumina短读段,覆盖基因组约119倍。初步基因组组装使用FALCON组装器(Chin et al., 2016)基于单分子长读段数据进行。将10X Genomics的链接读段与PacBio组装的共识序列对齐,获得超框架(superscaffold),因为10X Genomics读段提供了DNA片段的长距离信息。仅使用支持链接读段的共识序列进行后续组装。通过SSPACE(Boetzer et al., 2011)进行组合组装,最终合并的麻竹基因组大小升级至2,621.24 Mb。Contig N50和scaffold N50分别为2.57 Mb和4.5 Mb,最大scaffold为21.73 Mb,利用超长PacBio读段克服了高重复性和异源多倍体问题。使用10 kb滑动窗口计算每个窗口的GC含量和平均深度,结果显示麻竹基因组的GC含量为44.65%,且GC组成均匀,表明样本中没有外源污染(图S5)。散点分布的平均深度与测序深度一致。
高通量染色体构象捕获辅助基因组组装
本研究使用高通量染色体构象捕获(Hi-C)技术和PacBio SMRT测序来解析六倍体麻竹(Dendrocalamus latiflorus)的组装。Hi-C文库生成了368.28 Gb的纯化Hi-C片段(约131倍序列覆盖),通过Illumina HiSeq平台的双端测序获得。处理后的读段中,有超过11,611,419条被映射到scaffold序列,生成了3,760,845个有效的配对读段(称为二标记,di-tags),最终获得了2,988,739个独特的二标记,代表一个限制性片段及其连接的相互作用伙伴。本研究将独特的二标记分配到组装的scaffold上,达到染色体水平,效果率(独特二标记/处理总读段)约为25.74%(表S1)。为生成具有等位基因意识的染色体水平基因组,本研究使用了ALLHiC算法(Zhang et al., 2019),最终将scaffold整合为70个等位基因意识的染色体水平亚基因组(AABBCC),对应35对染色体(图2)。根据之前的方法估算相位切换错误(Zhang et al., 2021),本研究发现亚基因组A、B和C的相位切换错误率分别为25.28%、23.67%和25.34%。这些错误率与已发布的等位基因解析基因组相当,如二倍体马铃薯(Zhou et al., 2020)和苹果(Sun et al., 2020)。不同物种的杂合率可能影响基因组组装和等位基因相位算法,复杂的同源多倍体和异源多倍体基因组在相位解析时更具挑战性。考虑到异源多倍体基因组的相位复杂性,麻竹的等位基因解析基因组的当前准确性是可以接受的,但仍需进一步改进多倍体的相位算法,以生成接近完整的等位基因解析基因组(Zhou et al., 2020)。
两个单倍型之间的同线性与变异
基于两个等位基因的比对,观察到高基因组广泛同源性(synteny)(图S6A)。在JCVI的同源性点图中,亚基因组A、B和C分别显示了15,336、14,528和13,880对基因的基因水平共线性。等位基因之间的配对比对揭示了亚基因组A、B和C分别有104,345、98,017和78,872个比对块,这些比对块在同源性上是一致的(图S6B)。本研究在亚基因组A、B和C中分别识别了9,792,585、8,898,779和7,167,029个单核苷酸变异(SNVs)(图S7A),以及614,183、573,834和473,273个缺失(图S7B)和615,070、574,519和474,429个插入(图S7C)。序列变异在所有染色体上广泛分布(图S8)。此次组装生成了2,737,182,539 bp的基因组序列,最大等位基因染色体为61 Mb(chr1.2)和64 Mb(chr1.1)。
本研究生成的麻竹(D. latiflorus)基因组是目前可用的主要竹类谱系中最大的基因组。亚基因组之间在染色体水平上也观察到高密度同源性(图2),为研究竹类谱系中的亚基因组和多倍体提供了宝贵资源。与D. latiflorus相比,Raddia guianensis(626 Mb)和Olyra latifolia(646 Mb)为二倍体竹,且基因组大小相似;而P. edulis(1.8 Gb)和Guadua angustifolia(1,614 Mb)的四倍体基因组大小也大致相似。D. latiflorus(1,368 Mb,1C)的基因组大于六倍体的B. amplexicaulis(848 Mb)。目前,只有六倍体丛生竹D. latiflorus(本研究)和四倍体散生竹P. edulis(Peng et al., 2013;Zhao et al., 2018)在染色体水平上进行了组装,为竹类研究提供了宝贵资源。D. latiflorus的亚基因组与12条水稻(O. sativa)染色体共享同源性块,并显示出1:6的模式(图S9),这与六倍体D. latiflorus的基本染色体数为12的观察一致。本研究将高密度竹类遗传图谱(Guo et al., 2019b)与本研究的组装进行比对,识别出35个连锁群(LGs),支持本研究的染色体分配(图S10)。
基因组组装完整性的评估
为了评估麻竹(D. latiflorus)基因组的完整性,本研究使用BUSCO(版本5.2.1)分析,针对1,440个高度保守的植物单拷贝正交基因(SCOs)进行搜索。结果显示,99.7%的SCOs为完整BUSCO,确认本研究组装的D. latiflorus基因组相对完整(表S1)。本研究还使用核心真核基因映射方法(CEGMA)评估了基因组中保守基因的完整性,发现248个核心基因中有96.37%在D. latiflorus基因组中完整。本研究收集了不同器官和组织的样本(图1A)进行转录组测序(RNA-Seq)。对RNA-Seq数据中的所有读段进行比对,结果显示大多数库中超过80%的转录组读段能够比对到基因组,进一步确认组装序列代表了大部分功能转录组。
蛋白质编码基因的注释
通过三种方法注释蛋白编码基因,包括de novo预测、同源搜索和转录组比对(图S11),本文在麻竹(D. latiflorus)的AA、BB和CC亚基因组中分别识别出49,571、45,421和40,239个蛋白编码基因(图3A, B)。D. latiflorus基因组总共包含135,231个蛋白编码基因,占总基因组组装的约180 Mb。超过91%的注释基因编码至少100个氨基酸残基(aa),平均转录本长度为3,952 bp,平均每个基因有4.52个外显子。外显子和内含子的平均长度分别为239 bp和817 bp。与包括P. edulis(Peng et al., 2013;Zhao et al., 2018)、O. latifolia、G. angustifolia、B. amplexicaulis和R. guianensis(Guo et al., 2019b)在内的几种近缘物种比较,D. latiflorus的平均转录本长度与其他物种相似(图S12)。
重复序列注释
除了编码基因外,本研究还识别出1,676个转运RNA(tRNAs)、343个核糖体RNA(rRNAs)和3,070个小核RNA(snRNAs)(图S13)。通过将de novo预测的重复序列与Repbase数据库整合,并使用RepeatMasker软件进行注释,本研究发现麻竹(D. latiflorus)基因组中52.65%为重复区域(表S1)。在转座元件(TEs)注释中,DNA转座子和逆转座子分别占总基因组序列的2.42%和50.96%(图3B),其中长末端重复序列(LTRs)是最常见的TE,占总基因组序列的50.42%。此外,0.93%的总组装为未表征的重复序列,未归类为任何TE或重复序列。TE的比例与主要竹类谱系相似,但低于玉米(Zea mays)。基于Kimura距离的拷贝分歧分析确认LTRs在DNA转座子或长散布核元素(LINEs)中占主导地位(图S14)。本研究通过该分析推测了TE的年龄和转座历史,检测到D. latiflorus中有三次主要的转座爆发:第一次爆发(高K值)涉及LTR、LINE和DNA转座子,第二次爆发(中等K值)主要为LTR和DNA转座子,第三次最近的爆发(低K值)仅由LTR扩展引起,未伴随DNA转座子或LINEs的增加(图S14)。
麻竹不同组织间的转录组及转录后调控比较
等位基因间的结构变异、表达偏倚和选择性剪接
Yushan Zheng, Deming Yang, Jundong Rong, Liguang Chen, Qiang Zhu, Tianyou He, et al. Allele‐aware chromosome‐scale assembly of the allopolyploid genome of hexaploid Ma bamboo ( Dendrocalamus latiflorus Munro). JIPB. 2022;64:649–70.