HR|牛油果T2T参考基因组组装

科技   2024-11-15 22:27   北京  
2024年4月22日,中国科学院西双版纳热带植物园在“Horticulture Research”上发表了题为“A telomere-to-telomere gap-free reference genome assembly of avocado provides useful resources for identifying genes related to fatty acid biosynthesis and disease resistance”的研究文章。

研究背景

牛油果是一种具备较高价值的亚热带水果,其果实脂肪酸含量高,特别是相对较高的不饱和脂肪酸含量,提供显著的营养价值,但病害的影响会导致其产量显著降低。之前的研究,已经初步组装了了牛油果基因组,但仍缺少对其基因组更加全面的表征,来解析牛油果的抗病机制和脂肪酸生物合成通路。

研究内容

为了组装高质量牛油果基因组,首先通过二代全基因组NGS测序产生的51.9Gb数据分析显示,基因组大小为864Mb,杂合率为0.637%。在此基础上,通过三代PacBio HiFi 70.9 Gb(82.1×)、ONT ultra long39.3 Gb(45.5×)和Pore-C 89.8 Gb(104.0×)数据进行了牛油果基因组的初步组装。在构建的12条染色体中7条没有间隙,而其余5条则通过三代测序数据进行进一步补缝。最终的牛油果基因组组装为841.6 Mb,包括12条无间隙染色体24个端粒。对数据质量进行进一步评估PacBio HiFi、ONT ultra long、NGS的总体比对率分别为99.55%、99.91%、97.86%;同时,自叶片、茎和果实RNA-seq的总体比对率均大于99.1%;LTR Assembly Index (LAI)指数为15.99、BUSCO结果为99.4%。利用EDTA注释基因组中的重复序列,对转座子进行分类得到了一个重复序列的文库。基于RNA-seq数据同源蛋白和从头预测的结果,获得了40629个编码基因的模型,这些基因以对称的模式分布在两条染色体臂上,而重复序列则集中在相对中心的区域(图1A)。根据拟南芥端粒重复序列鉴定牛油果中的端粒重复区,并通过FISH验证了端粒序列的准确性(图1C)。
为了寻找牛油果染色体上着丝粒的位置,通过迭代鉴定和聚类分析的方法,在相应的染色体着丝粒中共鉴定出12个染色体特异性着丝粒重复序列,大多数重复序列长度超过了1000bp。其中,7种重复序列及其相似,同源性和覆盖率分别超过了83.0%和98.7%,且总是以头尾相连的方式排列在着丝粒区(图2A,B)。其余的重复序列CSCR04、CSCR11和CSCR12以间隔排列,而相应染色体上的CSCR09和CSCR10相对较少,最后通过FISH验证了这些重复序列的真实性(图2C)。
为了分析牛油果中潜在的抗病相关NLR基因,分别在牛油果West Indian和Hass assemblies基因组中鉴定到了376个和230个NLR相关基因。这些NLR基因以簇状的形式分布在整个基因组中,系统发育分析显示,376个NLR基因可分为3个亚家族分别是CNL、TNL、RNL,其中CNL亚家族成员最多包含363个成员(图4A,B)。同时,对这些基因的表达的组织特异性进行了分析,这些NLR基因在茎中的总体相对表达水平高于叶片和果实,但一些基因在三种组织中均高表达(图4C)。
脂肪酸含量是影响牛油果营养和品质的关键性状,而脂肪酸的生物合成主要涉及两个关键的阶段分别是:从头质体中的脂肪酸生物合成和内质网中的三酰基甘油(TAG)的组装。通过序列比对和功能注释,鉴定出了128个与脂肪酸生物合成的相关基因,其中48个基因和80个基因分别与质体中从头的脂肪酸生物合成与内质网中(TAG)的组装相关。

评述

牛油果作为一种经济作物,其果实营养丰富,味道独特。但由于技术的限制,此前发表的牛油果基因组数据是不完整的,产生高质量的基因组数据是牛油果研究的必要条件。在这项研究中,作者使用了多种测序技术,成功组装了牛油果的T2T无间隙基因组。并对编码基因以及重复序列进行了分析注释,其中重复序列约占基因组的57.9%,并在这些重复序列中鉴定到了端粒、着丝粒区。同时,对抗病相关的NRL基因以及和脂肪酸生物合成通路相关基因进行了鉴定。这些结果,为牛油果相关性转的进一步解析以及品种的改良奠定了基础。


原文链接:https://doi.org/10.1093/hr/uhae119

评述:左权

编辑:兰浴倩


林木科学评论
聚焦林木科学与技术前沿,分享创新热点评论,服务林业科技提升。
 最新文章