研究提供了西印度鳄梨(牛油果)的无缝基因组组装(841.6 Mb),包含40,629个预测的蛋白质编码基因,重复序列占57.9%。基因组包含所有端粒、着丝粒和核仁组织区,并通过荧光原位杂交(FISH)观察到这些区域的片段。鉴定了376个潜在的抗病相关核苷酸结合亮氨酸重复(NLR)基因,其中5个在叶、茎和果实中高表达,可能与多组织疾病响应相关。还识别了128个与脂肪酸生物合成相关的基因,并分析了其在不同组织的表达模式,发现Pa02g0113在叶中表达更高,该基因编码11个硬脂酰-酰基载体蛋白去饱和酶之一,介导C18不饱和脂肪酸合成。这些发现增进了对鳄梨脂肪酸生物合成的理解。
前言
鳄梨(Persea americana Mill.)是起源于中美洲的热带常绿木本植物,其果实富含营养和健康促进代谢物,因高脂肪酸含量(特别是不饱和脂肪酸)而具有独特口感和香气。全球鳄梨产量巨大,但面临病害挑战,如炭疽病和枯萎病导致产量损失。核苷酸结合亮氨酸重复受体(NLR)基因在抗病中具有潜在作用。鳄梨脂肪酸生物合成途径涉及乙酰辅酶A(acetyl-CoA)和多种酶反应,最终形成三酰甘油(TAGs)。
第三代测序技术已用于生成多个植物的端粒到端粒(T2T)基因组组装,但在鳄梨基因组研究有限。本研究通过多技术整合生成西印度鳄梨的无缝T2T基因组组装,包含所有端粒、着丝粒和核仁组织区(NOR),并通过荧光原位杂交(FISH)验证。分析了NLR基因和脂肪酸生物合成相关基因的表达,为未来研究鳄梨抗病性和脂肪酸生物合成奠定基础。
主要结果
无gap的鳄梨基因组组装
研究使用多种测序技术对中国西双版纳热带植物园的西印度鳄梨进行基因组测序。初步调查确定基因组大小为864 Mb,杂合率0.637%(图S1)。通过PacBio HiFi、ONT超长读长和Pore-C测序获得大量数据(表S1)。HiFi和ONT读长用于构建高精度初步组装(N50 63.6 Mb,表S2)。经去除细胞器片段和冗余序列,使用wf-pore-c和juicebox流程进行聚类、排序和定向,最终将18个contigs锚定到12条染色体上,其中7条无缺口,其余通过填隙形成无缺口组装(表S3)。参照已发表鳄梨基因组(Pa01-Pa12)精修染色体编号和方向(表S3)。低覆盖区域经检查和比较不同组装结果(表S2),确认为正确组装。端粒通过ONT读长对齐修复。最终获得841.6 Mb的无缺口基因组组装,包含12条无缺口染色体(N50 78.8 Mb)和24个端粒(表S4)。
基因注释
鳄梨基因组组装中,重复序列(repeats)占57.9%,主要由LTR/Copia和LTR/Gypsy逆转录转座子组成。基因模型预测获得40,629个蛋白编码基因,分布在对称的染色体臂上,而重复序列集中在中心区域(图1A)。基因产物与NR和Swiss-Prot数据库中的蛋白同源。非编码RNA预测包括tRNA、snoRNA、miRNA和5S rRNA。Pa12上的核仁组织区(NOR)含多个45S rDNA单元(图1B)。端粒序列(TTTAGGG/CCCTAAA)确认所有染色体端粒长度在4683 bp至27,191 bp之间。通过荧光原位杂交(FISH)验证NOR和端粒的真实性(图1C)。
质量评估与验证
通过多种方法评估鳄梨基因组组装质量:HiFi、ONT超长读长和NGS读长的总体映射率分别为99.55%、99.91%和97.86%,各染色体覆盖广度和深度均高且均匀(图1A;表S10)。叶、茎、果实RNAseq读长对齐率均超99.1%(表S11)。Pore-C接触热图验证组装连续性(图S2)。Merqury计算基于HiFi读长的基因组碱基质量值(总体56.23,表S12)。LTR组装指数(LAI)为15.99,达参考标准。BUSCO分析捕获99.4%的保守基因(表S13),显示组装的高连续性、准确性和完整性。
鳄梨着丝粒特征分析
采用迭代识别和聚类方法估算染色体着丝粒位置(图1A),识别出12个特异性着丝粒重复序列(CSCR01-12,表S14)。多数CSCRs长度超1000 bp,7个CSCRs(CSCR01-08)序列相似,形成七CSCRs组(SCG,图2B)。CSCR01(PaCEN1016)可作为代表性鳄梨着丝粒单体。利用PoreC信号缺失区和CSCR位置确定各染色体着丝粒边界(表S16)。HiFi和ONT读长覆盖低,尤其在Pa03和Pa07的长着丝粒区(图1A)。FISH探针(pCEN)验证CSCRs存在(图2C)。着丝粒旁1 Mb区域包含CSCRs、卫星和转座元件(TEs),LTR/Gypsy与SCG富集区重叠,非SCG着丝粒含多种TEs(图2A)。CSCRs与TEs序列相似,提示TE插入可能塑造了鳄梨着丝粒结构。
结构变异分析
对比先前组装的哈斯鳄梨基因组(Hass avocado)与我们的西印度鳄梨基因组(West Indian avocado),分析其结构变异(图3;图S5)。大规模结构重排主要在复杂着丝粒区附近,如Pa02的易位和Pa12的倒位(图S6)。共识别582,485个插入/缺失(InDels),其中7668个插入和7685个缺失大于50 bp(表S17)。基因注释发现西印度鳄梨基因组中4373个基因的外显子区有5700个InDels,涉及蛋白激酶、抗病蛋白、转录因子和细胞色素P450(表S18)。
探索鳄梨中的NLR基因
分析鳄梨潜在的抗病相关NLR基因,西印度和哈斯基因组分别识别出376和230个NLR基因(图S7)。NLR基因分为CNL、TNL和RNL三个亚家族,CNL占96.54%(图4;表S19)。GO和KEGG分析显示80个基因与“生物刺激反应”相关(表S20),154个基因与“植物-病原体互作”通路相关(表S21)。NLR基因在基因组中成簇分布(图4A),构建了基于NLR蛋白序列的邻接系统发育树(图4B)。
脂肪酸生物合成途径基因表达分析
鳄梨脂肪酸含量影响其营养和品质。脂肪酸生物合成分两阶段:质体内新生合成和内质网中TAG形成。识别128个相关基因(图5;表S26),其中的48和80个分别与质体内新生合成和内质网TAG形成相关。关键酶基因(PDH、ACCase、MCMT)在果实中高表达。多个脂肪酸合成相关基因(如KAS III家族的Pa08g1910等)在果实中表达量约为叶和茎的10倍。SAD基因Pa02g0113在叶中高表达。TAG形成阶段,FAD2基因(如Pa07g1095等)在果实中特异表达。高表达或果实特异表达的基因可能影响鳄梨脂肪酸组成和含量。
讨论与总结
鳄梨营养价值高,但此前基因组组装不完整。本研究利用多种测序技术获得无间隙的T2T基因组组装(图1A),并发现新NOR区(图1A, B, 图3)。预测40,629个蛋白编码基因和4,879个非编码RNA(图1A,表S6, S7)。验证了组装和蛋白集的高质量。明确了鳄梨着丝粒结构特征,发现CSCR序列保守但存在变异(图2A, B),且比模式植物着丝粒重复序列长。着丝粒含大量LTR/Gypsy反转录转座子(图2A)。识别376个NLR抗病基因,成簇分布(图4A),其中Pa11g0262等基因在不同组织中高表达,与拟南芥抗病基因同源。脂肪酸合成中,ACCase基因在果实中高表达,影响脂肪酸合成。SAD基因Pa02g0113在果实中显著高表达,调控不饱和脂肪酸平衡。这些基因表达模式为鳄梨脂肪酸生物合成提供重要见解。
文献来源:
Tianyu Yang; Yifan Cai; Tianping Huang; Danni Yang; Xingyu Yang; Xin Yin; Chengjun Zhang; Yunqiang Yang; Yongping Yang A Telomere-to-Telomere Gap-Free Reference Genome Assembly of Avocado Provides Useful Resources for Identifying Genes Related to Fatty Acid Biosynthesis and Disease Resistance. Horticulture Research 2024, 11, uhae119, doi:10.1093/hr/uhae119.