IF-31.7/Q1 赤松(Pinus densiflora)基因组组装及重测序揭示基因组进化与等位基因失衡机制

文摘   2024-10-20 20:02   美国  

医学科研新动向

Haplotype-resolved genome assembly and resequencing analysis provide insights into genome evolution and allelic imbalance in Pinus densiflora

Nature Genetics

<赤松基因组>

松属植物(Pinus)是北温带森林中主要的树种,具有重要的生态与经济价值,其基因组具有极其庞大和复杂的特点,规模可达20至40 Gb,是研究植物基因组进化的重要对象。然而,松树基因组的巨大复杂性和高水平的二倍体特性使得传统的基因组研究方法难以充分揭示其功能性变异和进化过程。随着高通量测序技术的进步,单倍型解析基因组组装成为了解决这一挑战的关键方法,能够精确地解析等位基因的差异。这种方法在植物中,尤其是复杂的裸子植物(如松树)中应用尚属少数。因此,全面解析赤松(Pinus densiflora)的单倍型基因组结构、揭示基因组重排与扩增的进化机制以及等位基因的功能不平衡现象,将为松树的功能基因组学研究和育种策略提供重要依据。

研究设计

基因组组装与注释研究通过PacBio HiFi、Hi-C和Illumina测序技术,构建了P. densiflora的单倍型基因组,生成了两个单倍型A和B的组装。利用Hi-C数据手动校正染色体的顺序和方向,并评估了组装的准确性。

进化分析通过基因组对比分析,研究探讨了P. densiflora与其他松属植物(如P. tabuliformis)的染色体重排现象,包括染色体1和3的易位。

LTR逆转录转座子分析研究分析了LTR-RT在松树基因组中的扩增情况,探索了不同LTR亚家族的进化时间和它们对基因扩张的贡献。

基因家族与转录因子(TF)扩张分析通过与其他植物基因组的比较,研究分析了P. densiflora中转录因子的扩张模式及其在基因组进化中的作用。

核心结果

1. 赤松基因组的结构与基因组间的比较

图1展示了赤松(P. densiflora单倍型A(HA)和单倍型B(HB)的染色体级别基因组结构。通过PacBio HiFi和Hi-C数据,构建了总长为21.7 Gb的染色体组装,包含12条染色体(大小范围1.2-2.3 Gb)。两单倍型的基因组中分别包含44,233个(HA)和44,215个(HB)编码基因,具有95.9%和95.3%的BUSCO完整性,表明该组装具有较高的准确性。
此外,研究通过基因组对基因组比对揭示了赤松与Pinus tabuliformisP. taedaP. lambertiana的基因组差异。比对结果表明,赤松与P. tabuliformis的基因组大小差异约为3.1 Gb,两者有95%的基因组序列对齐,而赤松与P. lambertiana的基因组对齐比例仅为37%,显示了这两种松树在进化过程中的较大分化。特别是在P. tabuliformis染色体9上,观察到了显著的基因组重复区域,推测这些重复可能与基因功能相关(见图1b)。

2. LTR逆转录转座子(LTR-RT)驱动的基因组扩张收缩

图2深入探讨了赤松基因组中LTR-RT的作用。研究发现赤松基因组中有13.1 Gb(约占总基因组的60%)由LTR-RT组成,其中gypsy家族占44%,copia家族占16%。LTR-RT亚家族如tat_2(gypsy)和oryco_3(copia)在赤松中显著扩张。LTR-RT的插入时间分析显示,gypsy家族的reina_3和athila_2在最近的2-6百万年内快速扩张,而copia家族的主要插入发生在16-22百万年前(见图2d)。这些LTR-RT的快速扩张可能推动了赤松基因组的巨大规模。

3. 转录因子(TF)扩张与复制机制

图3展示了赤松中转录因子家族的显著扩张。研究通过与其他被子植物和裸子植物的比较基因组分析,发现赤松中有超过21,000个转录因子基因(TFs),显著高于其他裸子植物和被子植物,特别是AP2、MYB和MADS box等家族。扩张主要通过串联重复(TD)和分散重复(DSD)两种机制实现。LTR-RT在这些TF基因的扩张中起到了重要作用,特别是在那些分散重复的基因中,LTR-RT通过基因逆转录复制产生了许多新的转录因子(见图3f)。

4. 功能性验证——PAV转录因子的功能分析

  • 图4验证了几个关键PAV基因的功能。研究对两个主要PAV转录因子进行了实验验证:
  • MADS box基因(Pd03G22920A)**的过表达导致阿拉伯芥提前开花(见图4a),表明该基因在赤松的花期调控中起到了关键作用。
  • NAC基因(Pd05G27460A)**在赤松的根部表现出高表达,且在盐胁迫和低温条件下显著诱导表达(见图4b),显示了其在非生物胁迫耐受中的重要功能。

5. 赤松野生种群中的PAV基因多样性

图5研究了30个赤松野生种群中的PAV基因多样性,揭示了许多等位基因在不同种群中发生了PAV(存在缺失变异)。研究发现21,216个等位基因在所有种群中均有表达,而另有20,162个PAV基因在一个或多个种群中发生了变化。尤其在染色体8a上,观察到了PAV基因的高密度分布区域,这些区域的基因可能与环境适应性有关(见图5d)。
此外,研究还探讨了PAV基因如何通过不同变异类型影响蛋白质功能。例如,PAV基因PdZTL在不同品系中表现出多种变异,导致其编码蛋白的Kelch功能域发生缺失,推测这可能影响该基因在赤松中的生物学功能(见图5f)。


1. 赤松基因组组装

  • 研究构建了21.7 Gb的赤松(Pinus densiflora)单倍型解析基因组(包括A单倍型和B单倍型),是目前已知的最完整和精确的松树基因组之一。

  • 基因组组装展示了较高的准确性,基因数量为44,233个(A单倍型)和44,215个(B单倍型),BUSCO完整性超过95%。

2. 基因组重排与比较

  • 与其他松属植物(如P. tabuliformisP. taedaP. lambertiana)的基因组相比,赤松基因组中存在显著的染色体重排现象,特别是在染色体1和3之间的易位和倒位。

  • P. tabuliformis染色体9的特定区域还观察到基因组重复,表明可能的功能相关性。

3. LTR逆转录转座子驱动的基因组扩张

  • 赤松基因组中LTR-RT占60%,其中gypsy和copia家族分别占44%和16%。特定的LTR-RT亚家族(如tat_2和oryco_3)在最近几百万年内显著扩张,推动了赤松巨大基因组的形成。

  • LTR-RT的扩张与基因密度的分布有关,影响了基因组的进化。

4. 转录因子家族的扩张

  • 赤松中转录因子(TF)家族显著扩张,尤其是AP2、MYB、MADS box等家族。这些基因的扩张主要通过串联重复(TD)和分散重复(DSD)实现,LTR-RT驱动了分散重复基因的扩张。

5. 功能验证——PAV转录因子的生物学功能

  • PAV基因Pd03G22920A(MADS box)的过表达导致阿拉伯芥提前开花,表明其在赤松开花调控中的重要性。

  • Pd05G27460A(NAC基因)在赤松的根部高表达,且在盐胁迫和低温条件下诱导表达,揭示其在非生物胁迫中的作用。

6. 赤松野生种群中的PAV基因多样性

  • 在30个赤松野生种群中,研究发现许多等位基因转变为PAV基因,且在染色体8a等特定区域表现出高密度的PAV基因分布,表明这些基因可能与环境适应相关。

7. 个人觉得未来潜在研究方向

  • 基因家族分析:探讨本文中发现的转录因子家族在赤松中对特定性状(如抗逆性、发育调控)的功能性影响,并探索它们在其他松属植物中的保守性与多样性。

  • 基因组关联分析:通过基因组关联分析(GWAS)结合生态位模型,进一步研究这些PAV基因与松树环境适应性之间的关系,深入了解基因多样性如何影响物种生存和进化。

  • 功能性基因研究:重点研究扩张的转录因子家族在不同胁迫条件下的功能,尤其是与抗逆性和生长发育相关的基因。

  • 群体基因组学与适应性研究:进一步解析不同赤松种群中的等位基因变异,探讨PAV基因在不同生态环境中的适应性进化。

  • LTR-RT的演化作用:深入研究LTR-RT在松树基因组扩张中的作用,尤其是它们对功能基因(如转录因子)的影响,以及LTR-RT如何驱动基因家族的扩张与多样化。

-END-

文字丨本人编写,如有补充,下方留言即可

小编也是比较擅长基因组与比较基因组分析的,感兴趣可私信交流
(后台回复241020”即可获取全文

医学科研新动向
每日分享-相关领域包括:MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。
 最新文章