经典回顾,1000+基因组 | 陈玲玲教授团队综述植物端粒到端粒(T2T)基因组研究进展

学术   2024-10-22 21:00   北京  





高质量的参考基因组是基因组学研究的基础,随着Nanopore长读长测序及PacBio HiFi高准确性测序技术的不断发展,端粒到端粒(telomere-to-telomere,T2T)基因组组装的物种越来越多。T2T基因组为深入研究着丝粒等复杂区域奠定了基础,对功能基因的挖掘和重要生物机制的研究具有重要意义。


扫描下方二维码即可查看原文

亚热带农业生物资源保护与利用国家重点实验室、广西大学生命科学与技术学院陈玲玲教授团队《基因组学与应用生物学》期刊第43卷第6期发表了题为“植物端粒到端粒(T2T)基因组研究进展与展望”的综述论文。该综述概述了植物T2T基因组的研究进展,结合实例介绍了相应的组装策略,讨论了T2T基因组的意义和面临的挑战,并对未来的发展前景进行了展望。



前言 

本世纪初,被誉为生命科学“登月计划"的人类基因组序列的第一版草图问世,尽管并不完整,却在生物医学领域产生了深远的影响,同时也极大推动了基因组学的发展。随后拟南芥(Arabidopsis thaliana)、小鼠(Mus musculus)、水稻(Oryza sativa)、玉米(Zea mays)等几百个物种的参考基因组序列草图被相继公布。由于基因组的复杂性,特别是大量重复序列的存在,使得参考基因组存在大量的“缺口(gap)”区域。端粒到端粒(telomere-to-telomere, T2T)基因组是利用多种测序策略,完成一条或多条染色体端粒到端粒无缺口组装的基因组。长期以来,T2T基因组组装一直是基因组学研究人员的梦想。


近年来,经过近百名科学家组成的大型团队“T2T联盟”的共同努力,完成了最新的人类参考基因组(T2T-CHM13)。该基因组包括了所有22条常染色体和X染色体的无缺口组装,标志着人类T2T基因组构建成功。相较于动物基因组,植物基因组的组装通常更具挑战性,因为其往往会经历多倍化事件,并且含有更高比例的重复序列。测序技术的发展为破解T2T基因组提供了强有力的技术支持。在植物基因组学领域,陆续发表了多个重要的模式物种如拟南芥、水稻等的T2T基因组(图1)。迄今为止,已发表的有关植物T2T基因组的文章已有几十篇,并且仍在迅速增长,T2T基因组已经成为基因组学研究的重要基础。



图1  代表性植物T2T基因组及应用 

Figure 1  Representative plant T2T genomes and their applications


T2T基因组的构建及质量评估 

随着测序技术的进步,各种组装软件也迅速发展。针对HiFi数据和超长ONT数据开发的Hifiasm和Verkko等软件,都表现出了良好的T2T基因组的组装能力。本综述回顾了代表性植物水稻、拟南芥、大豆(Glycine max)T2T基因组的组装方法,并总结了T2T基因组的组装策略,大致可以分为三种(图2):(1)使用HiFi数据组装的contig作为骨架,生成带有缺口的基因组,同时对ONT数据进行组装矫正,最后用ONT组装填补HiFi组装的缺口。(2)使用ONT数据组装的contig当作骨架,然后进行碱基质量的矫正、染色体的挂载,最后用HiFi组装补缺口。(3)Verkko和Hifiasm等软件支持同时将HiFi数据和ONT数据作为输入,以生成T2T级别的组装。但是T2T基因组的组装策略并不是固定的,要通过物种的特异性、测序数据的类型以及不同软件的组装效果来选择合适的组装方案。同时,没有人工干预的情况下完成无缺口的组装仍然是困难的,因此通常需要进行手动的检查来完成复杂基因组区域的组装。

图2  T2T基因组组装策略 

Figure 2  The assembly strategy of T2T genome


随着长读长组装技术的迅速发展,基因组的质量和完整性有了显著提升。对于T2T基因组的组装结果进行多方面评估变得尤为关键。基因组评估可分为连续性、完整性和准确性三个方面,本综述总结了用于评估基因组质量的常见指标和工具,如BUSCO完整性评估、LAI值、k-mer评估等。

T2T基因组的意义和挑战

T2T基因组对正确地识别结构变异、挖掘新基因、探索着丝粒区域、研究重复序列等方面具有重要的意义。随着测序技术和组装算法的进步,二倍体的T2T基因组组装已经取得了一定进展。同时,在复杂基因的组装中也出现了很多成功的案例。然而,对于具有高重复序列含量、高杂合、高倍性、大尺寸的复杂物种,组装过程中仍然存在极大的挑战性。


植物基因组一直是基因组学关注的重点,近年来T2T基因组已经成为植物基因组领域的新趋势。随着测序技术和组装软件的不断改进,获取高质量T2T基因组的时间和费用将逐渐降低。通过进一步开发基因组精准注释及下游分析工具,并加强组学领域之间以及遗传育种学的交叉研究和整合应用,可以深入挖掘物种内的有效遗传信息,从而解决重要的生物学问题。





通讯作者简介




陈玲玲,女,广西大学生命科学与技术学院教授,博导,亚热带农业生物资源保护与利用国家重点实验室副主任。国家万人计划科技创新领军人才,国务院政府特殊津贴获得者,广西自然科学基金创新研究团队负责人。主要从事生物信息学领域的研究工作,包括植物及微生物基因组多组学整合分析及蛋白质相互作用网络构建等研究方向。开发了植物CRISPR-P系列工具,是目前国际上通用的植物单链导向RNA设计工具。主导了多种农作物及园艺植物基因组解析,建立了作物及病原微生物代谢网络及蛋白互作网络,构建了多种植物多组学生物信息数据库。在Nat. GeneticsNat. PlantsGenome Biol.Mol. PlantSci. AdvancesPNASNat. Commun.Nucleic Acids Res.等国际权威及知名杂志发表SCI论文一百余篇,引用8900余次。担任国际期刊Front Plant Sci.中Plant Bioinformatics主编及国内核心期刊《基因组学与应用生物学》执行主编。



高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习






往期回顾

2023经典论文回顾(一)| 刘耀光院士和祝钦泷研究员团队发表关于基因组编辑工具的发展综述

2023经典论文回顾(二)| 陈玲玲教授团队发表关于深度学习方法Nanoformer提高5mC 位点的预测能力的研究

网络首发论文推荐(一)|唐海宝、张积森团队联合综述多倍体植物基因组学研究进展




期刊简介

《基因组学与应用生物学》是由广西大学主管和主办,国内外公开发行的科技期刊,为北京大学图书馆《中文核心期刊要目总览》入编期刊、中国科学引文数据库(CSCD)来源期刊、科技期刊世界影响力指数(WJCI)报告来源期刊和中国科技核心期刊(中国科技论文统计源期刊)。本刊主要刊登植物、动物和微生物基因组学、转录组学、蛋白组学和代谢组学等组学,分子医学、现代生物技术等应用生物学研究的未发表的创新性研究成果,以及上述领域的综述论文。本刊“‘腾云’期刊协同采编系统(知网版)”已面向作者、同行专家、编辑人员正式开放,全面投入使用,本刊只接受通信作者通过上述系统的投稿,不再接收电子邮箱和纸质等其它形式的投稿,并只和一位通信作者联系,谢谢合作。


编辑、审校:罗厚枚

排版:蓝渝泓

审核:肖德生



扫码关注我们


微信号 / 基因组学与应用生物学

QQ / 571388455

邮箱 / gabgxnb@gxu.edu.cn

电话 / 0771-3239102

生信宝典
学生信最好的时间是十年前,其次是现在!10年经验分享尽在生信宝典!
 最新文章