由福建农林大学林学院竹资源高效培育与利用协同创新中心郑郁善教授主持的“麻竹基因组学研究”取得突破,首次破译了六倍体麻竹分型基因组,为首次报道染色体水平丛生竹基因组。
这篇文献旨在对六倍体麻竹(Dendrocalamus latiflorus Munro)的基因组进行同源染色体规模的组装,研究者们采用了ALLHiC算法,以构建具有等位基因信息的染色体级别基因组。这一方法专门用于处理多倍体基因组,能有效整合不同的等位基因,以生成70个等位基因Aware的亚基因组。这篇文献的重点在于通过高效的基因组组装技术,揭示了六倍体麻竹的遗传特征及其进化历史。
此外,研究还指出了在组装过程中可能产生的切换错误(phase switch errors),对于不同亚基因组A、B和C的切换错误率分别为25.28%、23.67%和25.34%。这一结果展示了在生成多倍体基因组时所面临的挑战,同时指出这些误差率与其他已发表的高分辨率基因组组装结果相当。这项研究不仅为麻竹的遗传学和育种提供了重要的基因组资源,也为理解竹类植物的进化和适应性奠定了基础。
主要结果
D. latiflorus Munro 的基因组调查分析
对D. latiflorus Munro的基因组调查分析显示,该种竹子的基因组大小约为1,547.431 ± 96 Mbp(1C),显著大于其他已知的六倍体竹类(如B. amplexicaulis)。D. latiflorus属于木本的丛生型(sympodial)竹类,与单轴散生(monopodial)的毛竹(P. edulis)在形态上存在明显差异,其叶片更宽,符合异源多倍体的杂种优势(heterosis advantage)。通过流式细胞术(flow cytometry,FCM)与二倍体栽培稻(Oryza sativa ssp. japonica)作为内部参考,研究者对基因组大小进行了估算,同时采用Illumina和PacBio SMRT技术对基因组进行了全基因组测序,获得了416,576,411个成对读取(paired reads),用于基因组大小的估计。
在分析过程中,研究发现该基因组的GC含量为45.02%,而杂合度(heterozygosity)估算为2.26%。这些数据为深入理解D. latiflorus的遗传特征及其快速生长的分子机制提供了重要信息。此外,该研究还表明D. latiflorus的基因组复杂性远高于当前已报道的竹类基因组,为以后的竹类研究提供了重要的资源。
利用PacBio单分子测序进行全新组装
在使用PacBio单分子测序技术进行全新组装(de novo assembly)时,研究者们采用了FALCON组装器进行大规模的基因组组装过程。首先,使用“daligner”对PacBio长读段的错误进行修正,生成共识序列。这一过程能够将错误率降低到99.999%的精确度。接下来,FALCON通过识别预先组装的错误修正读段之间的重叠,构建了一个有向字符串图(directed string graph)来寻找该图中的路径,以构建contigs(连续序列片段)。
组装过程中,使用了来自Illumina技术的短读段进一步对contigs进行错误修正,这一过程称为Pilon校正。在最终组装时,利用共识调用算法Quiver对前一步的组装结果进行错误修正,确保生成高质量的基因组序列。接着,研究还使用purge_haplotigs工具去除组装结果中的杂合性,确保获得纯合的基因组片段。
该研究生成了D. latiflorus的全基因组序列,利用PacBio SMRT(单分子实时)测序技术和Hi-C(高通量染色体构象捕捉)技术的结合,成功构建了此竹类物种的染色体级基因组(2,737 Mb)。这一工作不仅提高了基因组的组装质量,也为深入了解竹类植物的分子机制和特征提供了重要的基础数据。
高通量染色体构象捕获辅助基因组组装
在高通量染色体构象捕获(Hi-C)辅助基因组组装的研究中,研究团队利用 PacBio SMRT(Single Molecule Real-Time)测序和 Hi-C 技术来完成六倍体 D. latiflorus(大竹)的基因组组装。该技术通过大规模平行的 DNA 测序和连接产物的纯化,能够在兆碱基规模上测定染色质的相互作用,并测量成对基因组位点之间的接触频率(Lieberman-Aiden et al., 2009)。
在具体实施中,Hi-C 文库总共生成了 368.28 Gb 的纯化 Hi-C 片段,提供了约 131 倍的序列覆盖度。研究团队处理了超过 11,611,419 个读取,并将它们映射到组装的框架序列中,使用 Burrows-Wheeler 对齐器(BWA)的 bwa-sw 模式生成了 3,760,845 个有效的成对读取,这些读取被称为 di-tags(双标签)。最终,研究人员获得了 2,988,739 个唯一的 di-tags,这些标签对应于捕获目标位置的一个限制片段以及其配对的连接伙伴。
这些唯一的 di-tags 被分配到组装的框架层面,确认了基因组的染色体级别的组装效果。整体的效果率(唯一 di-tags/处理的总读取数)约为 25.74%(见表 S1)。这项研究为 D. latiflorus 的基因组组装提供了重要的支持,并为我们理解该物种的基因组结构和功能提供了基础。
同源性及两种单倍型之间的变异
在探讨两个单倍型(haplotypes)之间的同源性(synteny)和变异时,研究对两个单倍型之间的染色体同源性进行了比较。研究结果显示,图中的点图(Dot plot)展示了两个单倍型之间的染色体同源性比较,以及在不同亚基因组(subgenomes A、B 和 C)中的同源性关系,分别用绿色、蓝色和红色表示。宏观同源性块在单倍型染色体之间则用灰色展示。
在单核苷酸变异(SNVs)和插入/缺失(InDels)方面,研究小组从两个单倍型的配对比较中分析了序列变异的数量,具体分析了亚基因组 A1 vs. A1、B1 vs. B2 和 C1 vs. C2,结果生成了大量的变异数据,包括 SNVs 和 InDels(数据来自图 S7)。此外,研究还计算了在 1 kb 窗口内的序列变异数量,并绘制了相应的可视化图,展示了三个亚基因组 A、B 和 C 中的序列变异(见图 S8)。
在基因表达差异分析方面,为了准确识别单倍型特异性表达基因(ASE genes),研究小组计算了所有单倍型基因的标准化表达量,并选择了 RPM(每百万读取数)大于 100 的基因作为 ASE 基因。最终在亚基因组 A、B 和 C 中分别识别出了 554、534 和 578 个 ASE 基因,这些基因更好地揭示了两个亲本基因组之间的表达差异(详细见图 S18A)。
综上所述,这部分研究通过同源性比较和变异分析,深入探讨了两个单倍型之间的基因组结构和表达差异,为理解其分子机制提供了重要依据。
基因组组装完整性的评估
在评价 D. latiflorus的基因组组装完整性时,研究团队使用了 BUSCO(Benchmarking Universal Single-Copy Orthologs)版本 5.2.1 进行分析,搜索了 1,440 个高度保守的植物(embryophyta)通用单拷贝正交基因(SCOs)。BUSCO 的评估结果表明,99.7% 的 SCOs 是完整的,这确认了本研究中组装的 D. latiflorus 基因组相对完整(见表 S1)。
此外,研究团队还使用核心真核基因映射方法(CEGMA)对 D. latiflorus 基因组中的保守基因进行了完整性评估,分析了 248 个核心基因。结果显示,来自六个真核生物模型的核心基因中,有 96.37% 是完整的,这通过 tblastn、genewise 和 geneid 分析方法得出。为了进一步确认组装序列的功能,研究团队也对不同器官和组织进行了样本采集,并使用 RNA-Seq 进行了转录组测序。RNA-Seq 数据的对齐结果显示,大部分文库的转录组读取对齐率超过 80%,进一步确认了组装序列代表了大多数功能转录组的情况。
综上所述,这一部分研究结果表明,D. latiflorus 的基因组组装在整体上是相对完整的,且与其功能转录组较为匹配。
蛋白质编码基因的注释
在蛋白编码基因注释部分,研究团队采取了系统的策略来识别和标注基因组中的蛋白编码基因。首先,他们通过流行的 RNA 测序(RNA-Seq)技术和 PacBio 的长读长测序(Iso-Seq)技术,生成了丰富的转录组数据。这些数据被用于检测和量化各类基因的表达。
具体而言,研究通过比对 PCR 扩增获得的 cDNA 序列与基因组序列,来识别编码蛋白质的基因序列,包括寻找开放阅读框(Open Reading Frame, ORF)。此外,研究团队借助 Gene Ontology(GO)富集分析确定了相关基因的功能以及其在不同生物学过程中的作用。通过对基因的比较分析,他们还发现了不同亚基因组间的表达差异以及替代剪接(Alternative Splicing, AS)事件的分布和特点。
最终,这项工作不仅提供了详细的蛋白编码基因注释,还为进一步探讨其在植物生理和发育过程中的功能打下了基础。这一系列的分析和结果为理解生物学机制提供了重要的数据支持。
重复序列的注释
在重复序列的注释部分,研究团队采用了基于同源比对和去新预测相结合的综合策略,以识别整个基因组中的重复序列。具体而言,他们利用串联重复查找工具(Tandem Repeats Finder, TRF)进行初步预测,以提取串联重复序列(Benson, 1999)。对同源转座元件(transposable elements, TEs)的预测则使用了 Repbase 数据库(Jurka et al., 2005),结合默认参数的 RepeatMasker 软件(Tempel, 2012)及其内部脚本(RepeatProteinMask)来分析提取的重复区域。
此外,研究团队还进行了去新预测,使用 LTR_FINDER(Xu 和 Wang, 2007)、RepeatScout(Price et al., 2005)等工具进行初步分析,随后用 RepeatModeler(Chen, 2004)构建模型。所有长度超过 100 bp 且缺失“N”的比例小于 5% 的重复序列被归纳为原始转座元件库。这种综合方法为全面了解基因组中的重复元素提供了基础,有助于后续的功能研究和基因组分析。
不同组织中D. latiflorus的转录组和转录后调控比较
在对 D. latiflorus不同组织间的转录组进行比较及后转录调控的研究中,研究团队通过使用 PacBio 的 isoform 测序(Iso-Seq)和 RNA 测序(RNA-Seq)技术,对来自八种不同组织的转录本进行了全面的注释和分析。
首先,研究者们通过构建转录组图谱,识别了在 D. latiflorus 中与可变剪接(Alternative Splicing, AS)相关的差异性事件。这些事件包括保留内含子(Retained Intron, RI)、外显子跳跃(Skipped Exon, SE)、可变 5’ 剪接位点(Alternative 5’ Splice Site, A5SS)和可变 3’ 剪接位点(Alternative 3’ Splice Site, A3SS)。通过相位读取(phasing reads)识别,这些 AS 事件在 RNA 处理、无义介导的衰变和 mRNA 聚腺苷酸化的负调控中表现出富集现象(Feng et al., 2021)。
针对不同组织间的转录组比较,使用多变量分析方法的复制(rMATs)来识别在非胚胎发育和胚胎发育组织之间的差异 AS 事件。结果显示,非发育的枝条与胚胎发育的枝条相比,展现了显著不同的 AS 事件。此外,在 RI 事件中,胚胎发育的枝条相比非发育的枝条表现出更多的内含子包含异构体,而在 SE 事件中,非发育的枝条则表现出更多的外显子包含异构体(图 5E)。
例如,一个与假尿苷合成相关的基因 evm.model.ORIGINAL_4797.35,在非发育的枝条与胚胎发育的枝条之间显示出了明显的保留内含子现象。这些分析为揭示 D. latiflorus 的快速生长和其他独特特征的分子机制提供了重要线索,同时表明了不同组织在基因表达和后转录调控方面的显著差异。这些发现为进一步研究大竹的生物学特性和适应机制提供了丰富的数据支持。
结构变异、表达偏差和等位基因之间的AS
在结构变异、表达偏差和等位基因间的可变剪接(Alternative Splicing, AS)分析中,研究团队选取了 11,630、11,134 和 10,670 对等位基因对,分别在亚基因组 A、B 和 C 中鉴定了 1,001,491、937,692 和 809,164 个序列变异(包括单核苷酸变异(Single Nucleotide Variants, SNV)和插入/缺失(Insertions/Deletions, InDels))。这些序列变异位于等位基因中,提供了隔离异构体之间基本的等位变异信息。
为了准确识别等位基因特异表达(Allele-Specific Expressed, ASE)基因,研究者们基于使用 PacBio 的 Iso-Seq 技术进行相位分析(phasing)计算了所有等位基因的标准化表达(Reads Per Million, RPM为单位)。最终,分别在亚基因组 A、B 和 C 中识别到了 554、534 和 578 个 ASE 基因。这些 ASE 基因的 GO(Gene Ontology)富集分析显示,亚基因组 A 中的基因与光合作用、皮质微管组织及腺苷三磷酸(ATP)水解耦合质子转运相关,而亚基因组 B 中的基因则与囊泡介导的运输、细胞蛋白质降解过程中的蛋白水解及蛋白质 N-连接糖基化相关。亚基因组 C 中的 ASE 基因则与线粒体电子传递、ATP 合成耦合质子转运、光合作用和 mRNA 剪接相关。
此外,研究还发现等位基因对间 AS 基因的百分比没有显著差异,但识别到了仅在等位体 A 和 B 基因组中检测到的 AS 基因,分别为 5,358 和 7,437 个。这些 AS 基因的 GO 富集分析显示,来源于等位体 A 的基因富集在微管基础运动、激素反应和组蛋白甲基化相关的功能上,而来源于等位体 B 的基因则富集在蛋白去泛素化、mRNA 处理、细胞对硝酸盐反应和细胞骨架组织相关的功能上。这些发现为理解等位基因的功能差异和后转录调控机制提供了基础数据。
D. latiflorus及其同源物种的进化分析
在对 D. latiflorus及其同源物种的进化分析中,研究者发现 D. latiflorus 属于木本丛生型竹类,与单轴散生竹类 P. edulis(毛竹)在形态上存在明显区别,比如 D. latiflorus 的叶子更宽,这与其作为异源多倍体的优势表现一致(图 1A)。通过细胞流式术(Flow Cytometry, FCM)分析,研究团队估算 D. latiflorus 的基因组大小约为 1,547.431 ± 96 Mbp(1C),显著大于已有报道的单茎型竹类 P. edulis(约 430 Mbp)所具有的基因组大小(Eckardt, 2000)。
在对基因组的研究中,使用 Illumina 平台和 PacBio SMRT 技术进行了全基因组测序和基因组调查。基因组调查显示,D. latiflorus 的基因组大小为 1,324 Mb(1,324,331,250 bp),同时其杂合率估算为 2.26%。基因组的 GC 含量为 45.02%(图 S4)。
此外,研究队伍还分析了基因家族的扩展与收缩,发现共计 276 个基因家族经历了扩展,涉及 10,057 个基因,而 842 个基因家族经历了收缩,涵盖 4,221 个基因(图 6D)。收缩的基因家族的 GO 富集分析表明,这些基因可能与生殖相关的过程(如花的生理)受影响;而扩展的基因家族则涉及到与应激反应、DNA 修复和端粒维护相关的生物功能。这些结果表明,基因扩展在支持 D. lati fl orus 的长期生长及其适应性方面可能发挥了重要作用。
这些研究为深入理解 D. latiflorus 的进化过程以及其在生态适应中的地位提供了重要的基因组学和功能基因组学基础。
文献来源:
Zheng Y , Yang D , Rong J ,et al.Allele-aware chromosome-scale assembly of the allopolyploid genome of hexaploid Ma bamboo(Dendrocalamus latiflorus Munro)[J].植物学报:英文版, 2022, 64(3):22.DOI:10.1111/jipb.13217.