图1 近10年PubMed上已发表的泛基因组文章统计
本次,小编为大家分享一篇2023年发表的综述,该文献对泛基因组的起源发展、分析方法、重点关注研究内容以及真核生物泛基因组发展研究内容进行了概述,同时重点关注家畜泛基因组的分析,泛基因组结合长读长测序和多组学将有助于解决大片段SVs及其与驯化动物主要经济性状的关系,为动物驯化、进化和育种提供更好的见解。
随着这些测序技术的发展,动植物基因组相继被组装,越来越多的基因组达到了染色体组装水平,以家畜为例,如图2所示,组装得到的contig N50达到20Mb以上,最大值在92Mb以上,具有极高的基因组连续性和完整性。通过对大量数据的比较,已经鉴定出了一系列与主要经济价值性状相关的基因组变异和分子标记,相应的一些基因组以及基因组变异数据库应运而生,如山羊基因组数据库、牛基因组数据库以及GGVD、PigVar和BGVD等。
图2 测序技术的发展和特点
图3 目前畜禽主要基因组的研究现状
结构变异(Structural variations,简称SVs)是遗传多样性的重要来源,对基因组的影响比起SNP更大,与许多表型变异和环境适应有关。其中,插入缺失变异(presence/absence variants,PAVs)是SV一种主要类型,过去由于短读长测序的限制,PAVs很难被高效挖掘和鉴定,是未被广泛挖掘的“隐藏”的基因组变异。
图4 结构变异SV
构建真核生物泛基因组的方法主要有4种,迭代组装(iterative mapping and assembly)、map-to-pan、从头组装(de novo assembly)、以及图形泛基因组(graph-based assembly)。这四种方法各有优缺点,具体可见表1。相比之下,前两种方法更适合于短读长数据集的分析,可以满足大规模基因组数据分析的需要。后两种方法在重要性状控制基因和SVs的精确定位方面具有明显的优势,因为它们更关注de novo基因组组装的数量和质量。图形化泛基因组近年来由于其能够精确地收集和呈现基因组中遗传变异的空间信息而越来越受到广泛应用。
表1 四种泛基因组构建方法的比较
首先,泛基因组最基本的研究重点是核心基因组和可变基因组的特征。包括评估泛基因组大小、核心基因组大小、核心和可变基因组结构,以及进行组成比较。 其次,确定和鉴定基因分型变异的过程是另一个关键方面,如结合系统发育分析、全基因组关联研究(GWAS)和RNA-seq数据,识别特殊变异,定位重要的功能基因,并研究SVs对基因表达的影响。 同时基于SV数据集,可以进一步探索染色体进化、群体基因组组织和物种驯化背后的遗传机制,加强对疾病、目标性状育种和功能生物学的研究。 此外,泛基因组研究的一个关键组成部分是检查新发现的基因的生物学功能。泛基因组可以识别通常属于非核心基因组的非参考序列,并可能对生物体的丰度具有重要意义。因此,分析它们在个体间的分布及其所包含基因的功能,可以更好地了解物种对极端环境的适应能力。
图5 概述了泛基因组学的构建方法、研究领域和应用
真核生物的泛基因组与原核生物的泛基因组有所不同,因为它们的基因组表现出很大的差异。大多数细菌基因组由大约1000bp的短蛋白质编码序列组成,而由于内含子和基因间区域的存在,真核生物的基因组至少比细菌基因组大10000倍。由于测序技术、成本和基因组复杂性等限制,真核泛基因组研究的开始时间晚于原核泛基因组。直到2009年,基于人类基因组计划和多重参考基因组组装的完成,泛基因组学才被应用于人类基因组学研究。动物和植物的泛基因组研究直到2013年才逐步开展(图6)。
图6 真核生物泛基因组发展概述
5.1 人类泛基因组
图7 人类泛基因组的研究综述
植物泛基因组的研究表明,泛基因组学以不同亲缘关系、区域和表型的材料为研究对象,可以全面探索不同类型的SVs,促进植物育种进程(图8)。植物泛基因组的概念在2007年发表的“转座因子和植物泛基因组”被提出。2014年,Li等人通过比较7个大豆基因组,发表了植物的第一个泛基因组。泛基因组与作物农艺性状的抗病、有利、选择压力以及gCNVs和PAVs等变异的关系已经在一些物种中进行了探索,这是植物泛基因组研究的一个重大进展,它将植物表型与大型大片段SVs(PAV-GWAS、CNV-GWAS和SV-GWAS)联系起来,打破了SNP-GWAS先前的局限性,加快了对作物重要性状的遗传基础的理解。
图8 在过去四年中出现的植物泛基因组
针对动物泛基因组发表的文章数量远低于植物,主要与突变的产生和群体遗传过程有关。迄今为止,动物的泛基因组主要使用大规模的比较基因组来揭示动物基因组中的变异,或寻找与动物起源、进化和表型相关的特异性表达基因。
由于其地理位置和畜禽驯化方式的特殊性,理想样本采集的差异性有所增加。因此,家畜动物泛基因组研究有所放缓。其中,猪是首个成为泛基因组学研究对象的物种。在现有的案例中,发现的新序列比例为1.3%至14.9%(图9),其中包含大量具有重要生物学功能的基因。这些基因的富集主要与各种物种的免疫反应有关,表明家畜可以通过这些基因提高抵抗力,更好地适应寒冷、高温等极端环境。此外,通过对不同WGS数据的验证,泛基因组参考模型具有更好的SV识别能力。从这个参考模型中识别出的许多SV与家畜或家禽的重要生物学表型以及驯化改良有关。基于泛基因组构建的SV集合和新的序列变异打破了长期以来使用snp和indels进行遗传检查的限制,为剖析世界畜禽品种遗传结构提供了另一种策略。
图9 畜禽泛基因组研究综述
图10 未来畜禽泛基因组研究的模型概述。未来,家畜泛基因组研究应综合结合TGS和NGS数据
参考文献
How the pan-genome is changing crop genomics and improvement. Genome Biology, 2021.