生信算法和测序技术的持续进步,使得动物和植物基因组的基因分型成为可能。单倍型基因组通过精确分离等位基因变异,极大地促进了植物功能分析和育种相关研究。松属隶属裸子植物,包括113个种,其属内基因组大小集中在20-40Gb,但其核型保持相对稳定(2n=24)。目前已构建了包括美国松和油松等的参考基因组,但单倍型松属基因组尚未报道,这限制了关于松属基因组进化、性状相关基因、单倍型特征等的研究。
近日,遗传学Top期刊Nature Genetics在线发表了题为“Haplotype-resolved genome assembly and resequencing analysis provide insights into genome evolution and allelic imbalance in Pinus densiflora”的研究论文。该研究通过多种测序策略,构建了首个松属的单倍型基因组(单套21Gb),并结合LTR、TFs、等位基因差异表达及重测序分析等阐述了赤松基因组结构与进化的关键机制、等位基因失衡和多样性的分子机制,从而为赤松的进化适应性与单倍型基因组研究提供了新见解。
图1 文章发表信息
赤松单倍型基因组的构建
通过30×的HiFi、90×的Hi-C、45×的Illumina、36×的10x等多种测序,研究者组装构建了两套单倍型大小分别为21.73Gb(HA)、21.75Gb(HB)的赤松基因组,并将赤松基因组挂载到12条染色体上;通过注释,分别在HA和HB中注释得到44233和44215个蛋白编码基因。
将赤松单倍型基因组与其它松属基因组(P. tabuliformis、P. taeda和P. lambertiana)相比,发现94%的P. tabuliformis基因组(23.8 Gb)与HA基因组(20.7 Gb)对齐,表明两者之间的基因组大小差异约为3.1 Gb。P. taeda和P. lambertiana的对齐比例分别为68%和34%,与HA基因组的对齐比例为70%和37%,显示出P. densiflora与P. tabuliformis的基因组差异更大。P. tabuliformis的9号染色体存在明显的基因组重复现象。此外,比较HA与P. tabuliformis基因组时,确认了1号和3号染色体之间的重排,随后的基于遗传标记分析也表明P. taeda和赤松1号和3号染色体的短臂结构保持相对保守,但发生了转位。总之,1号和3号染色体的重排促进了松属基因组大小和结构的变化。
图2 赤松单倍型(HA)和(HB)基因组特征
LTR-RTs和TFs推动了松属基因组进化
赤松基因组中包含约13.1 Gb的LTR-RTs,占总基因组的60%,其中gypsy和copia元素分别占44%和16%。这些LTR-RTs的特定亚群在松属中显著丰富,表明它们在松属基因组的扩张中起到了重要作用。
研究还通过估算LTR-RTs的插入时间,显示大多数gypsy亚群在最近几百万年内迅速扩增,而copia亚群则在较早的时期积累。此外,基因组的基因丰富区和基因贫乏区与LTR-RT亚群的分布存在明显关联,部分gypsy亚群主要集中在基因贫乏区,而copia亚群则多见于基因丰富区。这些发现揭示了LTR-RTs通过不平衡插入和特定亚群的进化,推动了松属基因组的多样化和扩展。
图3 LTR-RTs驱动赤松基因组进化
通过比较赤松与九种被子植物和十种裸子植物的TF家族,研究者发现赤松及其他松属物种的基因家族显著扩展,尤其是与疾病抗性和调控相关的保守结构域基因,如AP2、MYB、NAC、MADS box和LFY等。包含保守结构域的基因与转座子(TE)有良好的共定位关系,表明转座子可能在松属基因组中促进了这些基因的演化和扩展。此外,赤松中的TF数量明显高于其他松属物种,提示其他物种的TF注释可能存在低估现象。通过更新其他松属物种的TF注释,研究为理解松属基因组中的TF多样性和演化提供了新的视角。整体来看,这些结果揭示了TF在松属基因组演化中的重要作用。
图4 保守结构域(TD)和LTR介导的转录因子在赤松中显著扩张
HA与HB中的等位基因差异研究
研究者在HA与HB的31277和31243个基因中分别发现了915720和937699个变异。HA和HB的基因组中,有些基因在一个单倍型中存在,而在另一个中缺失,这些缺失会直接影响植物的表型特征;相似地,有些插入事件在某一单倍型中出现,可能导致新的功能或特性;HA和HB之间的SNPs数量较为丰富,这些变异可影响基因的表达和功能。
等位基因的缺失和插入直接影响了赤松的生理特性,尤其是在开花时间、果实发育和抗逆境能力方面。研究表明,HA可能在某些环境条件下具有更强的适应能力。对具体转录因子的比较显示,HA和HB在调控基因表达方面存在差异,这可能导致植物对环境变化的响应不同。例如,特定的转录因子在HA中可能调控开花相关基因的表达,从而影响开花时间。
基于重测序数据,研究者在多个赤松样本中发现了丰富的等位基因变异,提示该物种在不同环境中可能表现出多样的适应性策略。这些变异为植物在多变环境中生存和繁殖提供了遗传基础。这说明,等位基因的存在和变异可能与自然选择密切相关,适应性较强的单倍型可能在特定环境中更具优势。
图5 30个赤松样本中等位基因和PAV基因的多样性
本研究中,研究者构建了首个松属高连续性、基因注释高准确性的单倍型基因组,全面论证了基因组重复、染色体重排和特定LTR-RTs亚群的扩展对赤松基因组大小和结构多样性的贡献;基于更新的注释对松属、裸子植物、被子植物的TF家族进行了深入比较,揭示了赤松中显著扩张的TF家族及其进化过程;基于亚基因组间的等位基因分析,揭示了单倍型之间的等位基因不平衡及其在形成密草树开花调节和非生物抗逆性等性状中的功能作用。总之,本研究为松属乃至裸子植物的基因组进化和单倍型研究提供了重要见解。