HR：端粒到端粒无间隙的鳄梨参考基因组组装为识别与脂肪酸生物合成和抗病性相关的基因提供了有用的资源

文摘 2024-10-15 18:01 江苏

研究提供了西印度鳄梨（牛油果）的无缝基因组组装（841.6 Mb），包含40,629个预测的蛋白质编码基因，重复序列占57.9%。基因组包含所有端粒、着丝粒和核仁组织区，并通过荧光原位杂交（FISH）观察到这些区域的片段。鉴定了376个潜在的抗病相关核苷酸结合亮氨酸重复（NLR）基因，其中5个在叶、茎和果实中高表达，可能与多组织疾病响应相关。还识别了128个与脂肪酸生物合成相关的基因，并分析了其在不同组织的表达模式，发现Pa02g0113在叶中表达更高，该基因编码11个硬脂酰-酰基载体蛋白去饱和酶之一，介导C18不饱和脂肪酸合成。这些发现增进了对鳄梨脂肪酸生物合成的理解。

前言

鳄梨（Persea americana Mill.）是起源于中美洲的热带常绿木本植物，其果实富含营养和健康促进代谢物，因高脂肪酸含量（特别是不饱和脂肪酸）而具有独特口感和香气。全球鳄梨产量巨大，但面临病害挑战，如炭疽病和枯萎病导致产量损失。核苷酸结合亮氨酸重复受体（NLR）基因在抗病中具有潜在作用。鳄梨脂肪酸生物合成途径涉及乙酰辅酶A（acetyl-CoA）和多种酶反应，最终形成三酰甘油（TAGs）。

第三代测序技术已用于生成多个植物的端粒到端粒（T2T）基因组组装，但在鳄梨基因组研究有限。本研究通过多技术整合生成西印度鳄梨的无缝T2T基因组组装，包含所有端粒、着丝粒和核仁组织区（NOR），并通过荧光原位杂交（FISH）验证。分析了NLR基因和脂肪酸生物合成相关基因的表达，为未来研究鳄梨抗病性和脂肪酸生物合成奠定基础。

主要结果

无gap的鳄梨基因组组装

研究使用多种测序技术对中国西双版纳热带植物园的西印度鳄梨进行基因组测序。初步调查确定基因组大小为864 Mb，杂合率0.637%（图S1）。通过PacBio HiFi、ONT超长读长和Pore-C测序获得大量数据（表S1）。HiFi和ONT读长用于构建高精度初步组装（N50 63.6 Mb，表S2）。经去除细胞器片段和冗余序列，使用wf-pore-c和juicebox流程进行聚类、排序和定向，最终将18个contigs锚定到12条染色体上，其中7条无缺口，其余通过填隙形成无缺口组装（表S3）。参照已发表鳄梨基因组（Pa01-Pa12）精修染色体编号和方向（表S3）。低覆盖区域经检查和比较不同组装结果（表S2），确认为正确组装。端粒通过ONT读长对齐修复。最终获得841.6 Mb的无缺口基因组组装，包含12条无缺口染色体（N50 78.8 Mb）和24个端粒（表S4）。

基因注释

鳄梨基因组组装中，重复序列（repeats）占57.9%，主要由LTR/Copia和LTR/Gypsy逆转录转座子组成。基因模型预测获得40,629个蛋白编码基因，分布在对称的染色体臂上，而重复序列集中在中心区域（图1A）。基因产物与NR和Swiss-Prot数据库中的蛋白同源。非编码RNA预测包括tRNA、snoRNA、miRNA和5S rRNA。Pa12上的核仁组织区（NOR）含多个45S rDNA单元（图1B）。端粒序列（TTTAGGG/CCCTAAA）确认所有染色体端粒长度在4683 bp至27,191 bp之间。通过荧光原位杂交（FISH）验证NOR和端粒的真实性（图1C）。

质量评估与验证

通过多种方法评估鳄梨基因组组装质量：HiFi、ONT超长读长和NGS读长的总体映射率分别为99.55%、99.91%和97.86%，各染色体覆盖广度和深度均高且均匀（图1A；表S10）。叶、茎、果实RNAseq读长对齐率均超99.1%（表S11）。Pore-C接触热图验证组装连续性（图S2）。Merqury计算基于HiFi读长的基因组碱基质量值（总体56.23，表S12）。LTR组装指数（LAI）为15.99，达参考标准。BUSCO分析捕获99.4%的保守基因（表S13），显示组装的高连续性、准确性和完整性。

鳄梨着丝粒特征分析

采用迭代识别和聚类方法估算染色体着丝粒位置（图1A），识别出12个特异性着丝粒重复序列（CSCR01-12，表S14）。多数CSCRs长度超1000 bp，7个CSCRs（CSCR01-08）序列相似，形成七CSCRs组（SCG，图2B）。CSCR01（PaCEN1016）可作为代表性鳄梨着丝粒单体。利用PoreC信号缺失区和CSCR位置确定各染色体着丝粒边界（表S16）。HiFi和ONT读长覆盖低，尤其在Pa03和Pa07的长着丝粒区（图1A）。FISH探针（pCEN）验证CSCRs存在（图2C）。着丝粒旁1 Mb区域包含CSCRs、卫星和转座元件（TEs），LTR/Gypsy与SCG富集区重叠，非SCG着丝粒含多种TEs（图2A）。CSCRs与TEs序列相似，提示TE插入可能塑造了鳄梨着丝粒结构。

结构变异分析

对比先前组装的哈斯鳄梨基因组（Hass avocado）与我们的西印度鳄梨基因组（West Indian avocado），分析其结构变异（图3；图S5）。大规模结构重排主要在复杂着丝粒区附近，如Pa02的易位和Pa12的倒位（图S6）。共识别582,485个插入/缺失（InDels），其中7668个插入和7685个缺失大于50 bp（表S17）。基因注释发现西印度鳄梨基因组中4373个基因的外显子区有5700个InDels，涉及蛋白激酶、抗病蛋白、转录因子和细胞色素P450（表S18）。

探索鳄梨中的NLR基因

分析鳄梨潜在的抗病相关NLR基因，西印度和哈斯基因组分别识别出376和230个NLR基因（图S7）。NLR基因分为CNL、TNL和RNL三个亚家族，CNL占96.54%（图4；表S19）。GO和KEGG分析显示80个基因与“生物刺激反应”相关（表S20），154个基因与“植物-病原体互作”通路相关（表S21）。NLR基因在基因组中成簇分布（图4A），构建了基于NLR蛋白序列的邻接系统发育树（图4B）。

脂肪酸生物合成途径基因表达分析

鳄梨脂肪酸含量影响其营养和品质。脂肪酸生物合成分两阶段：质体内新生合成和内质网中TAG形成。识别128个相关基因（图5；表S26），其中的48和80个分别与质体内新生合成和内质网TAG形成相关。关键酶基因（PDH、ACCase、MCMT）在果实中高表达。多个脂肪酸合成相关基因（如KAS III家族的Pa08g1910等）在果实中表达量约为叶和茎的10倍。SAD基因Pa02g0113在叶中高表达。TAG形成阶段，FAD2基因（如Pa07g1095等）在果实中特异表达。高表达或果实特异表达的基因可能影响鳄梨脂肪酸组成和含量。

讨论与总结

鳄梨营养价值高，但此前基因组组装不完整。本研究利用多种测序技术获得无间隙的T2T基因组组装（图1A），并发现新NOR区（图1A, B, 图3）。预测40,629个蛋白编码基因和4,879个非编码RNA（图1A，表S6, S7）。验证了组装和蛋白集的高质量。明确了鳄梨着丝粒结构特征，发现CSCR序列保守但存在变异（图2A, B），且比模式植物着丝粒重复序列长。着丝粒含大量LTR/Gypsy反转录转座子（图2A）。识别376个NLR抗病基因，成簇分布（图4A），其中Pa11g0262等基因在不同组织中高表达，与拟南芥抗病基因同源。脂肪酸合成中，ACCase基因在果实中高表达，影响脂肪酸合成。SAD基因Pa02g0113在果实中显著高表达，调控不饱和脂肪酸平衡。这些基因表达模式为鳄梨脂肪酸生物合成提供重要见解。

文献来源：

Tianyu Yang; Yifan Cai; Tianping Huang; Danni Yang; Xingyu Yang; Xin Yin; Chengjun Zhang; Yunqiang Yang; Yongping Yang A Telomere-to-Telomere Gap-Free Reference Genome Assembly of Avocado Provides Useful Resources for Identifying Genes Related to Fatty Acid Biosynthesis and Disease Resistance. Horticulture Research 2024, 11, uhae119, doi:10.1093/hr/uhae119.

智慧识竹

和小周周一起学习新知识，探索更多的未知世界吧

最新文章

竹子中ABCG亚家族的比较分析及PeABCG15在木质素单体运输中的潜在功能

酵母杂交实验介绍

F-box蛋白PeFKF1通过与PeID1和PeHd1合作促进竹子（Phyllostachys edulis）的开花

IJBM: BZR1靶向类固醇22-α羟化酶4，负调节竹子的细胞伸长

PPB：对毛竹中生长素响应因子家族的鉴定和特征分析揭示PeARF41对第二细胞壁形成具有负调控作用

PNAS：甜橙果实发育和成熟过程中全基因组范围上DNA甲基化的增加

一个涉及水分运输的竹子‘PeSAPK4-PeMYB99-PeTIP4-3’调控模型

单细胞转录组分析揭示了棉花色素腺的发育轨迹和转录调控网络

高杂合性六倍体勃氏甜龙竹的染色体水平基因组和代谢组分析阐明了其顶芽质量和发育特征

弥补空白：在端粒到端粒时代解析植物着丝粒

NP：种子萌发过程中单细胞转录状态的建立

NC:全面映射和建模水稻调控组的景观揭示了复杂性状背后的调控结构

GPB：植物人工智能育种中的机器学习

11种竹子基因组组装揭示动态亚基因组优势诱导的多样化

比较群体基因组学揭示了杏-桃-李-梅复合体中的趋同和趋异选择

nature methods：从单细胞和空间转录组学推断模式驱动的细胞间流动

HR：端粒到端粒无间隙的鳄梨参考基因组组装为识别与脂肪酸生物合成和抗病性相关的基因提供了有用的资源

JIPB：等位基因感知的染色体尺度组装：六倍体麻竹的异源多倍体基因组

整合生理特征和蛋白质组学分析为蓝/红光处理的毛竹（Phyllostachys edulis）提供新见解

MP：操纵光感应和昼夜节律信号限制了拟南芥对变化环境条件的表型可塑性

PLANT PHYSIOLOGY：植被遮荫产生的光信号促进避荫植物对低光的适应

光和激素信号通路的整合在植物避荫综合征调控中的作用

新植物学家: 植物的耐阴分子机制

The plant cell: 光感受器活性有助于粗毛碎米荠和拟南芥幼苗对遮荫的不同响应

Plant Physiology:VvbHLH036，一个基本的螺旋-环-螺旋转录因子，调控葡萄树的耐寒性

新植物学家：在草类中更大的基因组可提供环境依赖性生长优势

Trends in Plant Science: 遮荫耐受性:当高生长不是一种选择时

The Plant Cell:毛竹的快速生长：细胞图谱、转录组动态和环境因素

Nature Methods:基因水平的单细胞轨迹对齐

非生物胁迫诱导的转座元件及其转录本中的DNA甲基化揭示了毛竹的多层次响应

NP:草类植物中的抗干旱能力的趋同进化

Nucleic Acids Research:基于深度学习的方法能够自动且准确地组装染色体水平的基因组

NC:基于单倍型的全基因组揭示了毛竹种群中的遗传变异和气候适应

Frontiers in Plant Science：开花对不同年龄的竹子的茎的解剖结构、化学成分和碳水化合物代谢的影响

叶绿体基因组变异及七种矮型观赏竹类的系统发育分析

PC&E：一种竹子HD-Zip转录因子PeHDZ72通过促进糖和水分运输赋予了抗旱性

时空转录组图谱揭示了快速生长竹笋器官发生过程中的基因调控模式

JIPB:六倍体麻竹（Dendrocalamus latiflorus Munro）异源多倍体基因组的等位基因感知染色体规模组装

黄条金刚竹叶片形态发生的解剖机制

NG重磅综述：利用端粒到端粒的基因组组装解锁植物基因组学

组学上的人工智能应用

数据预处理中的One-Hot编码

试验设计中的平行和重复

竹类的研究历史简介

毛竹大小年形成原因探讨

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉