如何认识泛基因组?从单一到多元?

文摘   2024-10-28 08:01   内蒙古  
近年来,随着多种动植物参考基因组的不断公布及同种不同个体植物基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种内的多样性,在此基础上泛基因组概念应运而生。随着三代测序技术的发展,泛基因组的研究迎来了黄金发展期,以“Pan-genome”为关键词在PubMed上进行检索,近10年已有1544篇文献发表。

图1 近10年PubMed上已发表的泛基因组文章统计

本次,小编为大家分享一篇2023年发表的综述,该文献对泛基因组的起源发展、分析方法、重点关注研究内容以及真核生物泛基因组发展研究内容进行了概述,同时重点关注家畜泛基因组的分析,泛基因组结合长读长测序和多组学将有助于解决大片段SVs及其与驯化动物主要经济性状的关系,为动物驯化、进化和育种提供更好的见解。

Ps. 以下内容是小编从文献中筛选的部分结果,篇幅较长,大概需花费10分钟的阅读时间,如需阅读原文,可在文末找到原文下载链接。

1、泛基因组的研究基础

测序技术的进步为真核生物泛基因组的研究提供了数据基础和技术支持(图1)。NGS测序极大地提高了单通量和高通量检测基因组变异的能力,然而,NGS由于短读长缺陷,对复杂基因组的检测能力较低。相比之下,以PacBio技术为代表的TGS在高通量基础上读长高达80 kb,极大地提高了基因组复杂区域和大SVs的检测和分析能力,但其应用目前受到其成本昂贵和缺乏生物信息学数据分析软件的限制。此外,合成长读长测序技术(SLR)被广泛应用于细胞测序,其测序成本和错误发生率均低于TGS。

随着这些测序技术的发展,动植物基因组相继被组装,越来越多的基因组达到了染色体组装水平,以家畜为例,如图2所示,组装得到的contig N50达到20Mb以上,最大值在92Mb以上,具有极高的基因组连续性和完整性。通过对大量数据的比较,已经鉴定出了一系列与主要经济价值性状相关的基因组变异和分子标记,相应的一些基因组以及基因组变异数据库应运而生,如山羊基因组数据库、牛基因组数据库以及GGVD、PigVar和BGVD等

图2 测序技术的发展和特点

图3 目前畜禽主要基因组的研究现状

2、泛基因组的概念起源

自从测序技术出现以来,已经产生了许多不同的细菌基因组。理论上,这些基因组中的一个或多个可以用来描述一个物种,但是需要多少个基因组才能完全描述一个细菌物种的问题还没有得到解决。2005年,Tettelin等人通过比较8种不同细菌菌株的基因组,探讨了这一问题,并首次提出了用泛基因组来定义特定细菌物种的概念。泛基因组包含一个核心基因组(存在于所有菌株中的基因)和一个非必要的基因组(在一个或多个菌株中缺失的基因和每个菌株特有的基因),同时包括大量共有序列、结构变异(SV)和小变异(SNP、InDel)的集合

结构变异(Structural variations,简称SVs)是遗传多样性的重要来源,对基因组的影响比起SNP更大,与许多表型变异和环境适应有关。其中,插入缺失变异(presence/absence variants,PAVs)是SV一种主要类型,过去由于短读长测序的限制,PAVs很难被高效挖掘和鉴定,是未被广泛挖掘的“隐藏”的基因组变异。

图4 结构变异SV

3、泛基因组构建的四种经典方法

构建真核生物泛基因组的方法主要有4种,迭代组装(iterative mapping and assembly)、map-to-pan、从头组装(de novo assembly)、以及图形泛基因组(graph-based assembly)。这四种方法各有优缺点,具体可见表1。相比之下,前两种方法更适合于短读长数据集的分析,可以满足大规模基因组数据分析的需要。后两种方法在重要性状控制基因和SVs的精确定位方面具有明显的优势,因为它们更关注de novo基因组组装的数量和质量。图形化泛基因组近年来由于其能够精确地收集和呈现基因组中遗传变异的空间信息而越来越受到广泛应用。

表1 四种泛基因组构建方法的比较

4、泛基因组研究的重点与应用

整体而来,泛基因组学主要有三个研究方面,具体可参见图3。
  • 首先,泛基因组最基本的研究重点是核心基因组和可变基因组的特征。包括评估泛基因组大小、核心基因组大小、核心和可变基因组结构,以及进行组成比较。

  • 其次,确定和鉴定基因分型变异的过程是另一个关键方面,如结合系统发育分析、全基因组关联研究(GWAS)和RNA-seq数据,识别特殊变异,定位重要的功能基因,并研究SVs对基因表达的影响。

  • 同时基于SV数据集,可以进一步探索染色体进化、群体基因组组织和物种驯化背后的遗传机制,加强对疾病、目标性状育种和功能生物学的研究。

  • 此外,泛基因组研究的一个关键组成部分是检查新发现的基因的生物学功能。泛基因组可以识别通常属于非核心基因组的非参考序列,并可能对生物体的丰度具有重要意义。因此,分析它们在个体间的分布及其所包含基因的功能,可以更好地了解物种对极端环境的适应能力。

图5 概述了泛基因组学的构建方法、研究领域和应用

5、真核生物泛基因组发展

真核生物的泛基因组与原核生物的泛基因组有所不同,因为它们的基因组表现出很大的差异。大多数细菌基因组由大约1000bp的短蛋白质编码序列组成,而由于内含子和基因间区域的存在,真核生物的基因组至少比细菌基因组大10000倍。由于测序技术、成本和基因组复杂性等限制,真核泛基因组研究的开始时间晚于原核泛基因组。直到2009年,基于人类基因组计划和多重参考基因组组装的完成,泛基因组学才被应用于人类基因组学研究。动物和植物的泛基因组研究直到2013年才逐步开展(图6)。

图6 真核生物泛基因组发展概述

5.1 人类泛基因组

对人类泛基因组学的研究是验证泛基因组能够有效挖掘个体特异性序列,从而扩大现有参考基因组范围的一个很好的例子。2009年,Li等人比较了亚洲人和非洲人的基因组,发现大约5Mb的特殊序列独立于人类参考基因组。这项研究首次提出了“人类泛基因组”(人类群体中所有DNA序列的非冗余集合)的概念。在对486名中国人的泛基因组分析中,鉴定出276Mb的新序列,平均包含46.646Mb的共同序列(至少由2个个体共享)。

图7 人类泛基因组的研究综述

5.2 植物泛基因组研究

植物泛基因组的研究表明,泛基因组学以不同亲缘关系、区域和表型的材料为研究对象,可以全面探索不同类型的SVs,促进植物育种进程(图8)。植物泛基因组的概念在2007年发表的“转座因子和植物泛基因组”被提出。2014年,Li等人通过比较7个大豆基因组,发表了植物的第一个泛基因组。泛基因组与作物农艺性状的抗病、有利、选择压力以及gCNVs和PAVs等变异的关系已经在一些物种中进行了探索,这是植物泛基因组研究的一个重大进展,它将植物表型与大型大片段SVs(PAV-GWAS、CNV-GWAS和SV-GWAS)联系起来,打破了SNP-GWAS先前的局限性,加快了对作物重要性状的遗传基础的理解。

图8 在过去四年中出现的植物泛基因组

5.3 动物泛基因组

针对动物泛基因组发表的文章数量远低于植物,主要与突变的产生和群体遗传过程有关。迄今为止,动物的泛基因组主要使用大规模的比较基因组来揭示动物基因组中的变异,或寻找与动物起源、进化和表型相关的特异性表达基因。

5.4 家畜泛基因组

由于其地理位置和畜禽驯化方式的特殊性,理想样本采集的差异性有所增加。因此,家畜动物泛基因组研究有所放缓。其中,猪是首个成为泛基因组学研究对象的物种。在现有的案例中,发现的新序列比例为1.3%至14.9%(图9),其中包含大量具有重要生物学功能的基因。这些基因的富集主要与各种物种的免疫反应有关,表明家畜可以通过这些基因提高抵抗力,更好地适应寒冷、高温等极端环境。此外,通过对不同WGS数据的验证,泛基因组参考模型具有更好的SV识别能力。从这个参考模型中识别出的许多SV与家畜或家禽的重要生物学表型以及驯化改良有关。基于泛基因组构建的SV集合和新的序列变异打破了长期以来使用snp和indels进行遗传检查的限制,为剖析世界畜禽品种遗传结构提供了另一种策略。

图9 畜禽泛基因组研究综述

6家畜泛基因组研究中的挑战
目前对畜禽的泛基因组研究主要集中在基因组的编码区,而且泛转录组研究也很缺乏,只对少数物种进行了研究。此外,ncRNA和线粒体DNA也是研究种群的历史进化、选择和遗传分化的重要资源。性染色体是如何进化的也是一个值得探索的问题。这些方面在目前的研究中尚未报道。未来的畜禽泛基因组研究可以包括非编码区DNA、RNA和线粒体DNA的研究。T2T等新的基因组技术将使探索畜禽性染色体的复杂结构成为可能,这将为其进化的理论范式带来新的认识。

图10 未来畜禽泛基因组研究的模型概述。未来,家畜泛基因组研究应综合结合TGS和NGS数据

凌恩生物专注于高通量测序技术,提供多种类型的动植物基因组科研服务相关服务项目,包括动植物基因组de novo、全基因组重测序、简化基因组、全基因组关联分析(GWAS)、BSA、遗传图谱构建等,还可以提供基因组数据构建服务,让数据后期利用更加便利!

参考文献

A review of the pangenome: how it afects our understanding of genomic variation, selection and breeding in domestic animals? Journal of Animal Science and Biotechnology2023.

How the pan-genome is changing crop genomics and improvement. Genome Biology, 2021.

凌恩生物
凌恩生物旗下综合性生物咨询和服务平台。
 最新文章