完整组装两个端粒到端粒的高粱基因组以指导生物学发现
iMeta主页:http://www.imeta.science
研究论文
● 原文链接DOI: https://doi.org/10.1002/imt2.193
● 2024年4月5日,中国农业科学院深圳农业基因组所陶永富团队在iMeta在线联合发表了题为 “Complete telomere-to-telomere assemblies of two sorghum genomes to guide biological discovery” 的文章。
● 本研究组合使用ONT的超长测序技术、Pacbio的高保真测序技术以及Hi-C测序技术组装了BTx623和Ji2055两个高粱自交系的完整T2T基因组。
● 第一作者:魏传正、高磊
● 通讯作者:陶永富(taoyongfu@caas.cn)
● 合作作者:肖瑞雪、王彦博、陈冰嬬、邹文会、李继红、Emma Mace、David Jordan
● 主要单位:中国农业科学院深圳农业基因组研究所、吉林省农业科学院、昆士兰大学
● 完成了BTx623和Ji2055两个高粱种质的T2T基因组组装;
● 纠正了先前版本BTx623-v3参考基因组的组装错误;
● 解析参考自交系BTx623和中国自交系Ji2055基因组之间的序列差异。
高粱是世界第五大谷物,也是我国的常见农作物之一,在全球粮食安全和可持续农业中扮演着至关重要的角色。本研究组合使用ONT的超长测序技术、Pacbio的高保真测序技术以及Hi-C测序技术组装了BTx623和Ji2055两个高粱自交系的完整T2T基因组。通过评估基因组覆盖深度、BUSCO、LTR装配指数等一系列参数全面验证了T2T装配的准确性和完整性。基于新组装BTx623的T2T基因组鉴定出36.25 Mb的新序列,纠正了先前版本BTx623-v3基因组中数十个大DNA片段的排列和定位错误,这对于利用高粱复杂区域的遗传信息至关重要。解析参考自交系BTx623和中国自交系Ji2055基因组之间的序列差异,为理解高粱复杂性状差异提供新见解。两个高粱自交系高质量的T2T基因组将为高粱遗传改良和基因功能发掘提供重要资源,为深入解析作物遗传变异奠定坚实的理论基础。
Bilibili:https://www.bilibili.com/video/BV1PC41157m1/
Youtube:https://youtu.be/4cOyGGhaYhE
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/
引 言
高粱(Sorghum bicolor L. Moench)是一种C4作物,以其生物量积累效率高、适应干旱和炎热环境而闻名。它是非洲和亚洲5亿人的主食,也是全球饲料、纤维和生物燃料的主要来源。BTx623第一个高粱参考基因组的发布极大地加速了高粱及相关C4禾本科植物的功能基因组学研究。随后的改进进一步提高了参考基因组的质量。其他高粱种质的基因组,如Tx430、Rio和野生高粱种质,显示出明显的种内序列变异。然而,所有可用的高粱基因组仍然不完整,特别是未解析的着丝粒和端粒,限制了对高粱基因库中基因组景观的全面了解。
结 果
高粱T2T基因组组装
在本研究中,我们利用ONT的超长reads、Pacbio的高保真(HiFi)reads、Hi-C reads和Illumina reads来组装两个高粱BTx623和Ji2055的基因组完整序列。BTx623长期作为高粱基因组学研究的模式品种,Ji2055已在中国成功推出了数十个商业品种(图S1)。我们为两个品种生成了平均 >150×序列覆盖率的超长ONT数据、> 65×的PacBio HiFi数据、> 50×的HiC数据和> 50×的Illumina短读长数据(表S1)。使用hifiasm拼接HiFi数据获得两个基因组的初始组装,产生分别包含246和581个重叠群的两个基因组。然后使用Hi-C数据将这些重叠群锚定并定向到每个基因组的10个假分子中(图S2)。超过50 Kb的超长ONT reads与HiFi reads一起使用来填充序列间隙并纠正组装错误,从而将每个组装的间隙数量减少到4个。然后通过手动延伸来闭合这些间隙。使用HiFi reads的覆盖深度识别出13个存在组装错误的基因组区域,然后使用HiFi和ONT reads进行纠正。使用 Illumina 数据和HiFi数据进一步完善基因组组装后,获得了最终的端粒到端粒组装,BTx623-T2T的基因组大小为 719.90 Mb(图S3),Ji2055-T2T 的基因组大小为722.96 Mb。
为了验证T2T组装的质量,我们进行了全面评估。首先,T2T 基因组的整体准确性得到了HiFi reads和ONT reads在T2T基因组几乎所有区域的均匀覆盖分布的支持(图1A)。使用HiFi reads估计两个 T2T 基因组的碱基准确率为 99.99%。我们使用基准通用单拷贝直系同源管道评估T2T基因组的完整性,结果显示两个组件捕获了1,614个保守直系同源基因中超过98.5%的结果,略高于BTx623-v3(表S2)。与BTX623-v3相比,衡量基因组连续性的LTR组装指数更高。几乎所有 HiFi reads (100%) 和ONT reads (> 99.80%)都可以映射到T2T组件。已发表的 44 个高粱品种的重测序数据也映射到T2T基因组,其对我们的T2T组件的映射率(平均为 99.20%)显着高于 BTX623-v3 基因组(平均 97.45%)(表S3,图S4)。我们的 T2T 基因组的所有着丝粒区域都包含高粱着丝粒特异性重复元件 PSau3A10和 pSau3A9(图S5,图S6)。总的来说,这些证据支持了我们 T2T 基因组组装的准确性和完整性。
这两个T2T基因组具有完整的基因组序列以及所有10条染色体的完整着丝粒和端粒,较先前参考基因组先前版本的显著改进(表S4,表S5)。基因组注释显示重复元件占 BTx623-T2T 基因组的66.50%和Ji2055-T2T基因组的65.22%(表S6),包括约50%的逆转录元件和9%的DNA转座子。我们的T2T组件包含的重复元件百分比略高于BTx623-v3 (63.18%),这主要是由于与BTx623-v3(约 19 Mb)相比T2T基因组中捕获的微卫星数量更多(每个T2T基因组中超过38 Mb的微卫星)。我们使用 BRAKER 结合蛋白质同源性和 RNA-seq 数据的证据与从头预测来预测T2T基因组的基因模型。在BTx623-T2T和Ji2055-T2T中分别鉴定出总共35,695个和36,950个蛋白质编码基因(表S6)。这些注释基因中的大多数(约83%)都有RNA-seq数据支持。
T2T基因组识别出先前参考基因组中的组装错误
与BTx623-v3相比,BTx623-T2T基因组包含36.25 Mb的新组装序列。大多数(94.10%)新组装的序列是重复元件,包括逆转录元件(44.01%)和卫星(45.34%)(图1B,表S7)。这些新组装的序列主要分布在着丝粒区域周围(82.12%)(图1C)。在新组装的序列中总共鉴定了133个基因,其中约65%有 RNA-seq数据支持。经功能注释,这些新发现的基因在跨膜运输、转录调控和发育过程等中发挥作用。BTx623-T2T基因组发现了染色体1 (7.39 Mb)、5 (20.80 Mb)、 6(6.28 Mb)和 7(13.13 Mb)着丝粒周围四个基因组区域的错误取向,此外还有5号和7号染色体上两个超过1 Mb的序列片段的错误定位,以及数百个序列片段的缺失(图 1D)。纠正参考基因组中的这些组装错误对于利用这些复杂区域的遗传信息进行高粱功能基因组学研究至关重要。
BTx623-T2T的着丝粒大小从1号染色体上的2.24 Mb到4号染色体上的 13.70 Mb不等(表 S5)。着丝粒中的DNA序列主要由卫星和逆转录转座子组成,例如Gypsy和Copia(表S8)。然而,这些重复元件的含量在染色体之间是不同的。Gypsy在3、5、6、7、8和9号染色体上所占的着丝粒序列比卫星多,而卫星在1、2、4和10号染色体上是着丝粒序列最丰富的组成部分。总共鉴定了134 个基因位于BTx623-T2T的着丝粒区域。这些基因富集在生殖过程、刺激反应、发育过程等生物学功能,表明它们对高粱的基本生物学过程至关重要。
两个高粱T2T基因组之间的序列变异
两个高粱T2T基因组的组装使我们能够研究整个高粱基因组的序列变异。重点关注着丝粒区域,在BTx623-T2T和Ji2055-T2T之间观察到显著的序列变异,两个T2T基因组的着丝粒大小不同,特别是1、5和7号染色体(图 1E)。然而,着丝粒的序列组成在两个基因组的相应染色体之间基本稳定(图1F),这表明着丝粒大小的变化不太可能是由于特定类别的重复元件的扩展所致。着丝粒中的大多数基因(84.96%)在 BTx623-T2T 和 Ji2055-T2T 之间是同线的,可能是由于这些区域的重组有限。在非着丝粒区域,两个 T2T 基因组的序列比较总共发现了 6 个大倒位 (> 50 Kb)(图 S7、表 S9)。
图1. 高粱端粒到端粒(T2T)基因组的改进和着丝粒的变异
(A) HiFi reads和ONT ultra long reads映射到T2T基因组的覆盖深度;(B) BTx623-T2T中新鉴定序列的组成;(C)BTx623-T2T中新鉴定序列的分布;(D)根据BTx623-T2T在BTx623-v3中发现的组装错误(仅可视化大于50 Kb的组装错误);(E)BTx623-T2T和Ji2055-T2T之间着丝粒的变异;(F)BTx623-T2T和Ji2055-T2T中着丝粒序列的序列组成。(染色体名称包含两部分,下划线之前的部分是染色体编号,下划线后面的字母代表基因组,“B”代表BTx623-T2T,“J”代表Ji2055-T2T)
结 论
总之,本研究组装了高粱参考自交系BTx623和中国高粱自交系Ji2055的完整基因组序列。这两个高质量的T2T基因组可以作为新的参考基因组来指导生物学发现并解锁序列变异在高粱遗传改良中的全部潜力。
代码和数据可用性
本研究产生的测序数据、基因组组装和注释数据存于中国科学院北京基因组研究所/国家生物信息中心国家基因组数据中心基因组仓库,登录号为PRJCA024204,可在https://ngdc.cncb.ac.cn/gwh公开访问,本研究中使用的代码保存在https://github.com/ChuanzhengWei/sorghum_T2T。
引文格式:
Chuanzheng Wei, Lei Gao, Ruixue Xiao, Yanbo Wang, Bingru Chen, Wenhui Zou, Jihong Li, Emma Mace, David Jordan, Yongfu Tao. 2024. Complete telomere-to-telomere assemblies of two sorghum genomes to guide biological discovery. iMeta 3: e193. https://doi.org/10.1002/imt2.193
魏传正(第一作者)
● 中国农业科学院深圳农业基因组所科研助理。
● 研究方向为高粱基因组学与高粱适应性的遗传解析。
高磊(第一作者)
● 中国农业科学院深圳农业基因组所博士后。
● 研究方向为高粱功能基因组学与高粱逆境适应机制研究。
陶永富(通讯作者)
● 中国农业科学院深圳农业基因组所研究员。
● 研究方向为高粱种质资源利用与遗传育种。
(▼ 点击跳转)
高引文章 ▸▸▸▸
iMeta | 引用14000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
高引文章 ▸▸▸▸
iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法
高引文章▸▸▸▸
iMeta | 高颜值绘图网站imageGP+视频教程合集
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
3卷1期
2卷2期封底
2卷4期封底
3卷2期
3卷3期
3卷3期封底
3卷4期
3卷4期封底
1卷1期
“iMeta” 是由威立、肠菌分会和本领域数百千华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!发行后相继被Google Scholar、ESCI、PubMed、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.8,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,同学科研究类期刊全球第一,中国大陆11/514!
“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,是定位IF>10的高水平综合期刊,欢迎投稿!
iMeta主页:
http://www.imeta.science
姊妹刊iMetaOmics主页:
http://www.imeta.science/imetaomics/
出版社iMeta主页:
https://onlinelibrary.wiley.com/journal/2770596x
出版社iMetaOmics主页:
https://onlinelibrary.wiley.com/journal/29969514
iMeta投稿:
https://wiley.atyponrex.com/journal/IMT2
iMetaOmics投稿:
https://wiley.atyponrex.com/journal/IMO2
邮箱:
office@imeta.science