点击蓝字关注我们
英文标题:A telomere-to-telomere cotton genome assembly reveals centromere evolution and a Mutator transposon-linked module regulating embryo development
发表时间:2024.08.15
发表期刊:Nature Genetics
影响因子:31.7
2024年8月《Nature Genetics》杂志在线发表了题为A telomere-to-telomere cotton genome assembly reveals centromere evolution and a Mutator transposon-linked module regulating embryo development的研究成果,武汉大学/北京大学教授朱玉贤,北京大学博士后黄盖为主要主要作者。本研究组装了T2T级别的二倍体雷蒙德氏棉基因组图谱,揭示了其独特的着丝粒结构类型及表观图谱。通过深入挖掘功能性转座子,发现由三个新分子(miR2947-DNA转座子MuTC01-加倍基因LEC2b)组成的三级小RNA调控机制,从而阐明了棉花复杂折叠胚胎形成的分子调控与演化机制。
研究背景
棉花(Gossypium)起源于500-1000万年前,经历快速多样化后形成了八个二倍体基因组群(A-G和K基因组群)。如今作为重要经济作物的棉花栽培种形成于1.0-1.6百万年前,是通过二倍体A基因组和D基因组的祖先(两者均为2n=2×=26)杂交后经历多倍化事件而形成的异源四倍体(AD基因组,2n=4×=52)。雷蒙德氏棉(Gossypium raimondii)被认为是所有异源四倍体棉花中D亚基因组的最近祖先。考虑到其在棉花进化中的重要性,已有多项研究公开了雷蒙德氏棉基因组的组装结果,但至今尚未有基因组的端到端(T2T)序列组装的研究报道。
主要研究结果
1. T2T基因组组装、注释和着丝粒进化
本研究T2T基因组组装使用的测序技术和测序深度:ONT ultra-long 测序(130×,104 Gb);Pacbio HiFi测序(93×,75 Gb);Hi-C测序(130×,106 Gb)。最终组装的基因组大小为776 Mb,13条染色体都组装到了gapfree的水准,并鉴定了25个典型端粒重复单元的完整染色体末端。本研究组装的雷蒙德氏棉基因组中,460 Mb(59.27%)的序列是转座元件(TEs),通过高深度的转录组数据注释了53,167个完整的蛋白编码基因,高于所有已报道的雷蒙德氏棉基因组注释结果。
研究团队通过CENH3抗体的ChIP-seq验证了13个着丝粒区域,长度从1.2 Mb到2.5 Mb不等。对结合在CENH3上的棉花着丝粒区域的分析表明,雷蒙德氏棉的着丝粒区域主要由LTR转座子组成,这表明其功能性着丝粒序列在LTR转座子中,而不是在水稻以及拟南芥的经典着丝粒微卫星重复序列中。此外,雷蒙德氏棉着丝粒区域有CENH3核小体相位排布规律,其长度与拟南芥的CEN180以及水稻的CentO类似,但是拟南芥和水稻着丝粒的LTR区域并没有这种相位模式。
图 1 雷蒙德氏棉组装、着丝粒结构比较和表观遗传分析
2. 鉴定反式作用siRNA生成位点MuTC01
雷蒙德氏棉基因组中含有大量LTR和末端反向重复(TIR)转座子,其中TIR转座子拷贝数明显高于拟南芥、水稻和玉米,Mutator家族占TIR类型的50%。对不同雷蒙德氏棉组织和不同生长阶段进行了TEs的全基因组表达图谱分析,发现只有一小部分棉花TEs(0.11-0.25%)在可检测水平。在授粉20天(20 DPA)的胚珠组织中,有88个TEs在子叶阶段表现出组织特异性,其中一段591 bp的DNA MuDR转座子(此后称为MuTC01),在胚珠中显示了最高的组织特异性表达。MuTC01产生大量的22 nt的siRNA,占总siRNA 的45.4%,因此被确定为产生siRNA的一个位点。
图 2 鉴定雷蒙德氏棉中胚珠特异表达,反式作用,并产生siRNA的MuTC01位点
3. miR2947和MuTC01控制棉花胚胎发生和胚胎折叠
通过筛选miRBase数据库中的棉花miRNAs,研究团队发现MuTC01的149-170 bp区域特异地被miR2947靶向切割生成siRNA,并通过降解组测序验证了切割的位点。为了评估这种调节模块的生物学功能,研究团队利用CRISPR-Cas9技术敲除了异源四倍体陆地棉基因组的miR2947或MuTC01同源基因,通过形态检查和石蜡切片,发现敲除miR2947或MuTC01的突变体在23 DPA出现明显的发育缺陷,且时间越长越明显。
图 3 miR2947对于启动MuTC01产生siRNA的过程至关重要
MuTC01生成的所有siRNA识别了50个候选靶基因,其中10个在20 DPA的胚珠中检测出有转录表达,编码B3结构域转录因子的叶芽发育素2基因(以下称为LEC2b),具有最低的靶标得分和最高的siRNA产生水平。LEC2b由祖先基因LEC2a在距今17.87-21.96百万年进化而来,系统发育分析表明LEC2a与在拟南芥和与棉花近缘的可可等植物中发现的LEC2基因关系更为密切,LEC2b可能是由基因组复制事件产生。随后研究团队通过CRISPR-Cas9技术确认了LEC2b是miR2947-MuTC01调控模块的靶点,提出miR2947-MuTC01-LEC2b三部分组成的调控网络通过LEC2b产生三级siRNA控制棉花胚胎复杂折叠。
图 4 miR2947-MuTC01-LEC2b调控网络调节棉花子叶折叠
4. 子叶复杂折叠的演化
研究团队比较分析了三级调控模块的演化起源时间,通过横跨双子叶植物物种的系统发育分析,调控因子miR2947、MuTC01和LEC2b同时存在于具有复杂折叠形态胚胎的棉族。根据从木槿获得的实验数据,以及mir2947、mutc01和lec2b-2敲除突变体的数据,研究团队提出三级小RNA调控棉族独特胚胎类型的分子和演化机制,即棉族特异的MIR2947产生第一级22-nt的miR2947,直接靶向DNA转座子MuTC01,产生第二级小RNA,再靶向全基因组加倍产生的LEC2b基因,产生第三级小RNA,从而调控棉族复杂折叠胚胎形成。
图 5 棉花胚胎复杂折叠的演化模型
总结
本研究使用多种测序技术实现了雷蒙德氏棉基因组的T2T组装,大幅提高了雷蒙德氏棉的基因和转座子注释准确性,为进化和功能基因组学研究提供了宝贵资源。研究团队解析了棉花的着丝粒进化,并发现了一种棉族特有的DNA转座子MuTC01,提出miR2947、MuTC01和LEC2b三部分组成的三级调控模块调控子叶的发育。该工作为不同胚胎类型的形成提供了线索,并为被子植物如何在不同环境中适应和生存提供了见解。
参考文献:
1 Huang, Gai, et al. "A telomere-to-telomere cotton genome assembly reveals centromere eolution and a Mutator transposon-linked module regulating embryo development." Nature Genetics (2024): 1-11.
往期精彩:
NAR解读|Direct RNA测序揭示U6 snRNA m6A 修饰在mRNA准确剪接中的关键作用
NC文献解读| Direct RNA测序能够消除传统抗体方法检测m6A修饰的假阳性问题
文献解读|小鼠肝脏对反复毒性损伤的耐受性与脂肪变性和炎症有关
Plant Cell文献解读 | 稻瘟病菌侵染植物的转录组景观揭示了时间共调控和结构保守的效应因子家族
文献解读 | The Plant Cell期刊发表十字花科植物基因间区长链非编码RNA的鉴定与功能注释成果
项目文章 | 纳米孔长读长RNA测序揭示人类血管平滑肌细胞中功能性的可变剪接变体
m7GHub V2.0:一个用于解析表观转录组m7G甲基化修饰的数据库
项目文章|贝纳基因Direct RNA测序助力牛脂肪细胞成脂机制研究
贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。
贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。
贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。
贝纳课堂-Nanopore交流QQ群:992789813(本群已满)
贝纳课堂-Nanopore交流QQ群2:923119248
生物信息交流QQ群:198746977
客服QQ:3277498363