摘要
泛基因组的出现是为了克服传统线性参考基因组的局限性。与通常从单个个体组装得到的传统参考基因组不同,泛基因组旨在代表一组生物体中发现的所有基因组变异。目前,“泛基因组”一词被用来描述多种不同类型的基因组信息,而用于区分它们的语言有限。这令该领域的科研人员十分沮丧,对刚接触该领域的新手来说也令人困惑。本文介绍了与原核生物和真核生物相关的泛基因组学,并提出了描述泛基因组的规范表达语言(见词汇表),这可以提高该领域讨论的针对性。
关键词:泛基因组;参考偏差;基因组变异;存在-缺失变异 (PAV)
引言
已有研究表明,传统单个的线性参考基因组无法代表物种内自然存在的全部基因组变异。这是一个问题,因为许多生物信息学分析通过reads比对来比较新样本与参考序列。如果参考基因组中没有与样本序列相似的基因组序列,则来自样本的reads将得到很差的比对结果或根本无法比对(见图 1 中的蓝色和橙色区域)。当这种情况发生时,样本的基因组序列(由未比对的reads代表)将不包含在分析中。这不仅适用于全新的序列,也适用于具有高等位基因多样性的区域,例如人类 MHC 复合体。在这里,样本序列可能与参考单倍型有足够大的差异,导致reads无法比对,尽管该基因组区域在参考基因组中存在。这种效应被称为参考偏差,它对研究结果有重大影响。解决这个问题的方法是采用一种方法,该方法可以比单线性参考基因组更全面地代表物种内的自然基因组变异,该学科领域被称为泛基因组学。
泛基因组代表了群体中自然存在的基因组变异,通常是在一个物种范围内。它们可以是基因导向的(geneoriented),模拟群体中基因的存在和缺失(the presence and absence of genes),也可以是序列导向的(sequence-oriented),关注基因组序列的变异,包括给定群体的单核苷酸变异、插入、缺失和结构变异(single-nucleotide variants, insertions, deletions, and structural variants)。虽然泛基因组通常是在物种水平上构建的,但我们也可以为特定群体构建泛基因组,例如单个组织内的细胞或更广泛的群体,如物种、一个系统发育分(phylogenetic clade)支或生态群落。泛基因组比传统的线性参考基因组带来的偏差更小,并且具有广泛的应用,包括物种界定、提高变异识别和基因分型准确性、将基因与感兴趣的表型关联起来以及推断新测序样本的单倍型。
刚开始进行泛基因组研究并不容易。这主要是因为我们还没有一套普遍认可的描述性术语来描述不同类型的泛基因组及其构建方法。Golicz 等人对泛基因组应用的综述很好地说明了这种缺乏区分的情况,他们的综述 ‘主要关注那些被作者认定为泛基因组的研究,并旨在估计核心基因组和辅助基因组(the core genome and accessory genome)的大小’。需要用一句话来阐述他们感兴趣的泛基因组类型这一事实揭示了泛基因组命名法中的一个重大缺陷。这导致文献过滤十分困难,并使投身于泛基因组学领域的研究人员难以识别可比较的分析。此外,这也使得进入泛基因组研究的门槛过高。
本综述有两个目标。首先,我们旨在通过规范化用于描述不同类型泛基因组及其构建方法的语言来提高泛基因组讨论的针对性。其次,我们旨在提供一份资源,帮助生物学家和生物信息学家更好地了解泛基因组的基础知识。我们无意对泛基因组应用领域的技术文章进行全面的文献综述,也无意提供构建泛基因组模型的详细说明。相反,我们以简化的格式呈现泛基因组的主要组成部分。我们的目标是灌输对泛基因组是什么、不同类型的泛基因组的介绍、它们通常是如何构建的以及它们可以用来解决哪些类型的问题的基本理解。然后,我们探讨了泛基因组的一些局限性以及正在进行的研究领域,因为泛基因组模型和技术仍在不断发展。
图 1. 传统的线性参考基因组与泛基因组的比较。在传统的线性参考基因组中,来自样本基因组某些部分的reads与参考序列的相似度不够高,因此这些区域被排除在比较分析之外(左侧的蓝色序列)。在其他区域,reads的比对效果较差(如左侧的橙色区域),因此这些区域的代表性不足或不完整。在右侧,我们可以看到泛基因组方法如何得到更高的reads比对比例,从而能够在分析中保留更多的样本基因组序列。
泛基因组的定义
“泛基因组”一词在两个不同的语境中使用,其含义存在细微差异。第一个是在生物学语境中。在任何物种或生物群体中,DNA 都会存在自然变异,在这种语境下使用的泛基因组指的是所有这些变异。我们可以将其视为一组生物体的完整基因组信息集。然而,为了理解和利用这种变异,我们需要一种方法来捕获和编目它。这引出了该术语的第二种用法——使用计算工具从基因组测序数据来构建泛基因组。从这个意义上说,计算泛基因组(computational pangenome)对构成生物泛基因组的变异进行编目(catalogues)。除非另有明确说明,否则本文其余部分将使用“泛基因组”一词来指代第二种含义,即计算泛基因组。
泛基因组类型
虽然泛基因组的生物学定义包括所有生物体之间的所有基因组差异,但由于我们无法对所有生物体进行测序,因此全部范围下的基因组变异信息是无法获得的。即使在有限数量的已测序生物体中,变异的数量,特别是在较大的真核生物中,也可能难以有效地表示和分析。因此,泛基因组只包含这种变异的一个子集,以保持功能性。
“泛基因组”一词最早于 2000 年由 Sigaux 提出,用来描述肿瘤、正常细胞和实验模型中观察到的基因组和转录组改变的数据库。Sigaux 提到的泛基因组是序列导向的,因为它是一个在核苷酸水平上记录基因组差异的编目。2005 年,Tettelin 等人使用相同的术语来描述八个无乳链球菌(Streptococcus agalactiae)基因组中基因的存在与否 变异信息。Tettelin 等人的泛基因组是基因导向的,因为它详细说明了群体中整个基因的存在或缺失状态,重点关注基因功能。
为了帮助研究人员识别相关文献,我们确定了三种主要类型的泛基因组(图 2)。第一种是“存在-缺失变异泛基因组”(‘presence–absence variation pangenome’,PAV,最初由 Tettelin 等人提出),它由“核心基因组”和“辅助基因组”组成。核心基因组是群体中每个成员都存在的完整基因集,而辅助基因组由在群体中部分个体中存在的基因组成。顾名思义,这种类型的泛基因组侧重于基因的存在和缺失;它不考虑基因的位置、等位基因多样性或基因间序列(图 2B)。第二种类型的泛基因组是“代表性序列泛基因组”(‘representative sequence pangenome’)。这种类型的泛基因组由精心选择的基因组序列组成,以便尽可能多地代表来自群体的基因组变异,同时使用尽可能少的序列。它与传统的参考基因组相比,具有相同的结构,但包含额外的含有补充基因组序列的contigs(图 2C)。第三种类型的泛基因组是“泛基因组图”(‘pangenome graph’),有时称为图形泛基因组。泛基因组图可以是序列导向的或基因导向的。序列导向的泛基因组图对基因组序列变异及其相对于群体中其他基因组序列的位置进行建模(见图 2D),而基因导向的泛基因组图对群体中发现的基因及其相对于群体中其他成员的顺序进行建模(见图 3)。
图 2. 三种泛基因组数据结构。(A) 考虑一个包含四份基因组序列的集合——一份参考基因组和来自同一群体的另外三份基因组。彩色部分表示基因组 a、b 和 c 中与参考基因组不同的区域。基因用黑色形状表示。(B) PAV 泛基因组。在群体中发现的基因被分成两组:核心基因组,包括存在于群体所有成员中的基因;辅助基因组,包括仅存在于群体部分成员中的基因。(C) 代表性序列泛基因组。一组基因组序列,使得来自群体的序列多样性的大部分被代表,而没有明显的重复。(D) 序列导向的泛基因组图。一个由节点(基因组序列)和边(序列之间的箭头)组成的图结构。通过图的特定路径对应于群体中存在的单倍型。泛基因组图也可以是基因导向的,在这种情况下,每个节点代表一个基因,边表示所输入基因组中基因的相邻关系(更多详细信息,请参见图 3)。
存在-缺失变异泛基因组
PAV泛基因组(图2B)量化了群体中基因的存在和缺失。它们识别核心基因组,其中包括群体中所有成员都拥有的基因,以及辅助/可有可无的基因组,其中包括种群中部分成员拥有的基因。核心基因的功能通常受到很高的选择压力,并在群体中高度保守。它们往往更古老,对生物的生存至关重要,而辅助基因往往不太保守,负责生活方式和进化轨迹的差异。这并不是说核心基因组是生物体生存和繁衍所需的最小基因集。相反,可以将其视为“构建其余基因组的必需组件的骨干”。
构建
构建 PAV 泛基因组主要有两种策略:基于同源的策略(homolog-based strategy)和映射到泛基因组的策略(map-to-pan strategy)
基于同源的策略
在基于同源性的策略中,从头组装的基因组被单独注释,每个蛋白编码基因的核苷酸或氨基酸序列被提取。这些序列被汇集在一起,然后根据它们的序列相似性被聚类成组,通常基于BLAST比对,但也可能使用无比对方法。这种聚类步骤通常被称为“同源聚类”或“直系同源基因检测”。许多泛基因组分析工具还具有进一步分割聚类的选项,从而能够分离旁系同源基因,尽管这些策略在不同的工具之间有所不同,并产生不同的结果。包含来自泛基因组中每个成员的序列聚类被认为是核心基因,而仅包含存在于泛基因组中某些成员的基因序列的聚类被认为是辅助基因。
基于同源的策略是基于序列聚类的。因此,泛基因组的大小和核心基因组对所选的序列同一性和序列覆盖率参数非常敏感。如果这些值设置过高,直系同源基因可能会被错误地分成多个簇,泛基因组中基因的数量将被高估。反之亦然。如果序列相似性和序列覆盖率阈值设置过低,非直系同源基因可能会聚在一起,导致泛基因组的总大小被低估,并可能高估核心基因组的大小。
基于同源的策略在细菌中应用最为广泛,因为它们简单的基因结构和较小的基因组大小使得它们比真核生物基因组更容易、更便捷地进行大规模注释,而真核生物基因组往往更大,并且基因通常包含内含子。尽管存在这些挑战,该方法仍然在一些真核生物中得到应用。为了降低该策略的复杂性,一种改进的方法应运而生,该方法仅对包含泛基因组的子集进行注释。然后将来自这些基因组的基因模型与剩余的基因组进行比对,并使用直系同源聚类来确定基因群的存在与否。
图 3. 以基因为导向的图。基因组被组装和注释,所有基因的氨基酸序列或核苷酸序列被提取并聚类。每个聚类构成图的一个节点,节点之间的连线将基因组中相邻的基因联系起来。线越粗,具有这两个相邻基因的基因组数量就越多。如果我们在这个例子中将基因组 1 视为参考基因组,那么基因组 2 有基因 L 和 M(黄色)而不是基因H 和 I(红色),而基因组 3 在基因 B 和 C 之间插入了基因 N、O 和 P(绿色)。
许多用于构建细菌 PAV 泛基因组的工具在其分析流程中构建了一个以基因为导向的图,但只有少数工具提供了可视化此图的方法。这些图模拟了基因的存在和缺失以及基因在一个群体中的顺序,这与以序列为导向的图不同,后者模拟了基因组序列在核苷酸水平上的差异(参见泛基因组图部分)。它们由节点和边组成,每个节点对应于一个单一的基因簇,边将来自原始基因组中相邻基因的节点连接在一起(图 3)。可视化这些图使我们能够以更自然的方式与数据交互。例如,我们可以识别基因共线性块(样本遵循图中部分路径),找到潜在的污染物(仅在一个基因组中发现的基因),并识别会被遗漏的模式。
映射到泛基因组的策略
在映射到泛基因组的策略中,通过将全基因组测序的read比对到注释的代表性序列泛基因组来确定基因是否存在于样本中。由于基因组任何区域被reads覆盖的可能性取决于总测序reads深度,因此建议基因组的最小总reads深度为 10×,以降低错误地将基因判定为缺失的可能性。10× 的阈值允许恢复大约 99% 的基因存在率。在最小测序深度为 10× 的情况下,广泛使用至少一个reads覆盖基因外显子的至少 5% 来确定基因是否存在,但当基因组的最小测序深度较高时,此阈值可能更高。例如,Wang 等人使用 20× 的最小测序深度来确定基因的存在与否,并确定当 95% 的外显子被reads覆盖且 85% 的基因体被覆盖时,基因存在。与基于同源的策略一样,在所有样本中发现存在的基因构成核心基因组,而仅在一个或一些样本中发现的基因构成辅助基因组。
扩展我们对‘核心’的定义
核心基因组分类对技术伪影非常敏感。如果一个真正的核心基因在只有一个样本中被错误地识别出来,它就不会被归类为核心基因组的一部分。为了解释这种不确定性,一些分析允许核心基因存在于<100%的样本中(Lapierre和Gogarten使用99%的标准),或者他们定义了一个额外的“软核心”基因组,其中包含存在高于多少百分比样本中的基因,通常为95%或更高。剩余的辅助基因也可以被分成外壳基因组(shell genome)(存在于许多基因组中的基因,例如1%–99%)和云基因组(cloud genome)(存在于极少数基因组中的基因,例如<1%)。
泛基因组学与宏基因组学的交集
宏基因组组装基因组 (Metagenome-assembled genomes,MAGs) 是从由多种不同微生物组成的样本的基因组测序数据组装而成的基因组。宏基因组学方法绕过了对单个物种分离和培养的步骤,使我们能够研究微生物群落的组成和相互作用。然而,它会导致基因组组装经常出现片段化或不完整。将泛基因组方法应用于 MAGs 使我们能够探索这些群落的遗传组成,但使用传统方法会导致由于 MAG 片段化而产生核心基因的显著丢失。有许多技术可以用来缓解这种情况,其中最简单的方法是降低核心基因的出现频率阈值。其他方法“推断”基因的存在或缺失,例如,通过从一组完整基因组中选择与不完整/片段化基因组最相似的完整基因组,并将其用作参考来推断不完整基因组的其余部分。
应用
PAV 泛基因组使我们能够研究物种或其他系统发育分支内基因存在和缺失的模式。这提高了我们对基因型-表型关联的理解,并提供了进化见解。第一个 PAV 泛基因组是根据八株无链乳球菌构建的。无链乳球菌促进了保护性疫苗的开发,并导致了重要遗传决定因素的功能表征。这种类型的全基因组分析已广泛应用于原核生物,有助于识别抗生素耐药性的遗传特征、与致病性相关的基因以及可能的药物靶点的挖掘。泛基因组也已应用于农业,通过识别在驯化和育种过程中从种质中丢失但在野生近缘种中仍然存在的基因来支持作物改良。通过比较野生种的核心基因组和栽培种的辅助基因组,我们可以看到驯化的影响,然后可以努力将任何丢失的理想性状重新育入种质。PAV 泛基因组在系统发育分析中也有应用。例如,Gaba 等人使用卤杆菌核心基因组为多基因系统发育推断分析提供见解,在这种方法中,由于序列差异显著,传统的单基因方法并不适用。
代表性序列泛基因组
代表性序列泛基因组是基因组序列的集合,它们最大程度地减少纳入同源基因座,同时尽可能多地代表来自群体的基因组多样性。它们通常由一个参考基因组和一些称为非冗余参考 (nonredundant reference,NRR) 的其他序列组成。NRR 序列是在种群中至少一个成员中发现但不在参考序列中的序列。
构建
通过识别参考基因组中不存在的基因组序列来构建代表性序列泛基因组。这些序列被附加到参考基因组作为额外的contigs以形成泛基因组参考。然后可以选择性地对泛基因组参考进行注释。有四种不同的方法用于识别 NRR 序列,分别称为未比对reads的元基因组式组装(metagenome-like assembly of unaligned reads)、未比对reads的独立组装(independent assembly of unaligned reads)、未比对reads的迭代组装(iterative assembly of unaligned reads)和独立的全基因组组装(independent whole-genome assembly)。这些方法将在下面简要描述(见图 4)。
图 4. 识别 NRR 序列的四种方法。改编自[16]。(A) 来自所有样本的未与所选参考基因组比对上的reads被合并并从头组装成 NRR 序列。(B) 对于每个样本,未与参考基因组比对上的reads被从头组装成重叠群。所有contigs被合并,然后聚类以去除冗余序列。(C) 未与参考基因组比对上的reads被从头组装成contigs,并且参考基因组被更新以包括这些contigs。此过程对所有样本进行迭代重复,参考基因组逐渐增长。(D) 每个样本的所有reads被从头组装成contigs。contigs与参考基因组比对,所有未比对的contigs被合并到所有样本中。然后使用聚类来去除冗余序列。
未比对reads的元基因组式组装
来自所有样本的reads被比对到参考基因组,未比对的reads被收集、合并并进行从头组装(图4A)。从头组装产生的contigs是NRR序列,然后被附加到参考基因组。即使在非常低的reads覆盖率下(如果样本总数非常高,则覆盖率低至1×),这种方法也能很好地奏效。
未比对reads的独立组装
将reads比对到参考基因组,并将每个样本的未比对reads进行独立的从头组装(图4B)。将得到的contigs汇集并根据序列相似性进行聚类。从每个聚类中选取一个代表性序列并将其添加到参考基因组中。这种方法需要至少10×的reads覆盖率才能生成足够大小的contigs。
未比对reads的迭代组装
在此方法中,泛基因组是逐步构建的(图 4C)。来自单个样本且未与参考序列比对的reads被从头组装成contigs。然后将这些contigs(NRR 序列)附加到参考基因组,并使用此更新后的参考基因组来处理下一个样本。此过程对所有样本重复进行,来自每个样本的新contigs都会导致参考基因组更新。
独立的全基因组组装
每个样本中reads被分别从头组装成contigs,然后与参考基因组比对(图 4D)。未比对的contigs被合并并根据序列相似性进行聚类。从每个聚类中选取最长的序列(NRR 序列)并附加到参考基因组上,形成泛基因组。
除了上述方法外,NRR 序列在泛基因组最终确定之前还会进行一些额外的过滤。长度小于约 500 bp 的 NRR 序列通常会被排除。与参考序列非常相似的 NRR 序列也会被移除(通常使用与参考序列 90% 的序列相似性阈值),并且任何剩余的 NRR 序列都可以使用 BLAST 与NCBI的 nt 数据库进行比较,以去除潜在的污染物。
选择一种方法
选择哪一种方法来构建代表性序列泛基因组取决于许多因素,包括可用的基因组数据类型、每个样本可用的数据量、样本数量以及可用的计算资源。在仅有非常低覆盖率数据(<10×)但样本数量很多的情况下,元基因组式组装方法最合适。这种方法的一个缺点是它会导致产生嵌合序列,这些序列是人工构建的序列,在任何样本中都找不到,但更确切地说,它们是来自至少两个样本的序列数据的嵌合体。这可以通过在从头组装之前将样本划分为不同的物种或已知的遗传差异群体来部分缓解。在有更高覆盖率数据可用(>10×覆盖率)的情况下,未比对reads的组装或迭代组装方法都适用。其中,前者允许以并行方式构建泛基因组,而后者则要求依次处理每个样本。当样本数量非常多时,这种迭代方法可能需要更长的时间,但它具有以下优点:以后可以更容易地将额外的样本添加到泛基因组中。此外,对于未比对reads的组装方法,如果样本数量非常多,聚类步骤可能需要大量的计算资源;迭代方法没有相同的扩展限制。如果已经存在多个高质量的基因组组装,独立的全基因组组装方法可能是最佳选择,因为生成的NRR序列可能更长。需要注意的是,这些方法可以组合和修改。这取决于现有的序列数据类型,比如其中一些样本的覆盖率非常低,而另一些样本的覆盖率则高得多。
应用
代表性序列泛基因组可用于大多数生物信息学工作流程或分析,这些工作流程或分析通常使用传统的线性参考基因组,包括变异检测、基因分型和转录组表达分析。在这些应用中,代表性序列泛基因组通常优于传统的参考基因组。代表性序列泛基因组也可以像传统的参考基因组一样进行注释。以这种形式,它们可以作为使用映射到泛基因组方法构建的 PAV 泛基因组的基础。
人类参考基因组 GRCh38.p14 是一个常用的代表性序列泛基因组的例子,尽管它相对不完整。它是一个泛基因组,因为它由一个主要参考序列和一些包含参考序列中未表示的常见基因组变异的“替代”片段组成。这些替代片段的总长度为 109Mbp,跨越了主要基因组的约 60Mbp 区域。然而,它是不完整的,因为存在大量未表示的自然序列变异。最近发布的 T2T-CHM13 基因组(一个从单个人类产生的无间隙端粒到端粒基因组组装)识别出 182Mbp 的序列,这些序列未被 GRCh38 表示,而中国人泛基因组和非洲人泛基因组分别识别出 276Mbp 和 296Mbp 的新基因组序列。除了缺乏这种表示之外,许多reads比对工具根本没有使用 GRCh38 中存在的替代片段。
泛基因组图
以序列为导向的泛基因组图谱通过参考序列或泛基因组中包含的其他序列来模拟物种内基因组变异的位置。它们由一组“节点”和“边”组成。节点是基因组序列片段,边将这些片段连接在一起。泛基因组图谱的基本概念如图 2D 所示。
构建
构建序列导向的泛基因组图主要有三种方法(见图 5)。
图 5. 三种构建序列导向的泛基因组图的方法。 (A) 变异体作为气泡添加到图中,沿着参考序列排序。 (B) 通过在序列中引入空格,将多个基因组序列彼此对齐,以最大限度地提高每个位置匹配的碱基数量。 (C) 通过将所有基因组序列分解为 k碱基,从所有至少出现一次的 k 碱基创建节点,并将通过 k-1 重叠的节点连接起来,构建一个德布鲁因图。
预先确定的突变体(Predetermined variants)
该方法(图 5A)需要一个参考基因组/序列和一组预定的变异。使用参考作为图的基础,每个变异都被添加到图中作为“气泡”(‘bubble’),从而形成一个沿着参考基因组排序的有向无环图(a directed acyclic graph)。这种方法被许多流行的工具所使用,并且是图构建中最常见的方法之一,尤其适用于已经存在一个高质量线性参考基因组的物种。
多序列比对(Multiple sequence alignment)
泛基因组图也可以通过将基因组序列直接相互比对来构建,称为多序列比对(图 5B)。虽然与上述预先确定的突变体方法相比,这种方法在计算上非常吃资源,但它在有多个高质量基因组组装或已有的分型组装的情况下特别有用,因为这种方法使图能够保留单倍型/分型信息。
德布鲁因图(De Bruijn graphs)
德布鲁因图(图 5C)在历史上被应用于短reads的基因组组装,但自那时以来,它已被用于泛基因组图构建,以及一些其他应用领域。简而言之,将reads拆分成 k-mers(长度为 k 的reads子序列)以形成图的节点,并且节点根据它们彼此之间 k-1 序列长度的重叠连接在一起。直观地,将输入的reads分解成 k-mers 意味着长距离连接性会丢失,但已经开发出重建这些输入序列的技术。通过对来自同一样本的 k-mers 标记上颜色,以及通过“压缩”德布鲁因图,其中通过单一路径连接的相邻节点被压缩成一个具有更长序列标签的单个节点,可以扩展德布鲁因图泛基因组。这些特性意味着可以同时组装多个基因组,并且它们的构建方法本质上是将变异检测、从头组装和图构建组合成一个单一算法,该算法此外不需要参考基因组序列。
应用
泛基因组图的应用主要集中在其提高比对准确性并因此减少参考偏差。特别是,它们在基因分型、单倍型推断和功能基因组学方面的应用。
基因分型和变异检测
全基因组图谱在使用短reads序列进行小变异基因分型时,准确性略有提高,而对于大型结构变异(长度大于50 bp的变异)则显著提高。这是因为短reads序列可以跨越整个小变异,但不能跨越更大的结构变异。长reads序列更适合这项任务;然而,它们比短reads序列更昂贵,并且在当前公共数据集中远不如短reads序列普遍。通过使用包含已知结构变异的泛基因组图谱,可以利用图谱上的短reads序列覆盖率,比使用单个线性参考基因组的传统短reads序列方法有着更高的准确性对结构变异进行基因分型。此外,Ebler 等人发现,从现有的单倍型组装(多序列比对泛基因组图谱)构建的图谱可以用来对结构变异进行基因分型,方法是使用来自短reads序列的 k-mer 分布,这些短reads序列能够获取比其他短reads序列变异检测方法更多的信息。在没有参考基因组的情况下,德布鲁因图泛基因组图谱可以实现无参结构变异的检测。
单倍型推断
大多数二倍体或多倍体基因组由单倍体基因组组装所代表,其中同源染色体被压缩成单个单倍体。这会导致杂合变异的丢失以及单倍型变异的错误。单倍型推断——或基因组的分型——确保了基因组不同拷贝之间的变异得以保留。通过从高质量分型参考基因组序列的多序列比对构建泛基因组图,并用现有的变异目录增强得到的图,Dilthey 等人能够仅基于短reads序列推断出新的样本的二倍体个性化参考基因组。
功能泛基因组学
使用泛基因组代替传统的线性参考基因组可以减少比较基因表达估计中的错误。例如,在等位基因特异性表达分析中,感兴趣的等位基因之间的映射偏差会改变比较基因表达估计。通过使用包含更多变异并更好地代表感兴趣等位基因的泛基因组,可以减少或消除映射偏差,并可以更准确地估计所比较基因的表达水平。
图形泛基因组的挑战
线性参考基因组使用坐标系来追踪许多基因组特征(包括基因和变异)的位置。使用简单的线性编号系统,这些坐标告诉我们一个特征在参考基因组上的确切位置。这种坐标系易于解释且没有歧义,但这种方法的便利性无法转化为信息更丰富的泛基因组图。图中存在多个不同的路径,因此基因组序列的长度也不同。这意味着碱基不再能按顺序编号,因为它们到泛基因组起始点的距离取决于起始点以及通过图的路径。目前已经提出了一些解决方案,但还没有一个被普遍采用。
泛基因组图的效用在于它们对不同序列邻接关系的建模方式,但这种结构使得它们非常难以可视化,尤其是在注释方面。线性序列(传统的参考基因组或代表性序列泛基因组)可以在屏幕上轻松地描绘,并在序列下方标记注释,而泛基因组图无法以这种方式可视化。图可视化工具倾向于要么关注更大的图结构,要么关注碱基层面的结构,在这些尺度之间转换,特别是对于较大的真核生物基因组,仍然是一个开放性问题。
思考
开放式泛基因组与封闭式泛基因组
PAV 泛基因组可以分为“开放”或“封闭”两种类型。开放式泛基因组意味着随着每个新基因组的加入,添加到泛基因组中的基因数量不会减少,并且无法确定需要多少个基因组才能识别出物种中的所有基因(见图 6)。这在同域分布下的细菌中很常见,因为遗传物质在物种之间很容易交换,从而不断扩大基因库。大肠杆菌、无乳链球菌、和铜绿假单胞菌都被发现具有开放型泛基因组。
图 6. 开放式和封闭式泛基因组。随着泛基因组中包含的基因组数量增加,泛基因组中的基因总数将要么达到平稳状态(封闭式泛基因组),要么将继续增加(开放式泛基因组),以至于无法准确估计该物种/种群的基因总数。
另一方面,对于表现为封闭式泛基因组的物种,添加新的基因组会带来递减的回报(见图 6)。随着每个样本的添加,泛基因组的增长速度会越来越慢,最终在该物种的整个基因库都被代表时停止增长。大豆、芸苔属甘蓝和葡萄球菌属卢氏葡萄球菌都已被发现具有封闭式泛基因组。
抽样策略
用于泛基因组构建的有效采样策略有助于控制成本并最大限度地包含基因组多样性。在农业中,一个尽可能少地种质来包含尽可能多的遗传多样性的样本集合被称为核心种质集(a core collection),这个集合可以非常小,仅占种群的 5%,即可保留约 90% 的遗传变异。一般来说,具有封闭式泛基因组的物种需要的样本数量少于具有开放泛式基因组的物种。用于选择样本以纳入核心种质集的策略和软件包括考虑地理位置、分类学信息、形态特征、分子标记以及这些策略的组合。忽略采用合适的采样策略会导致资源浪费,并且当未包含足够样本时,会导致识别出的基因/独特序列减少,以及核心基因组的膨胀。
变异选择
在代表性序列泛基因组或泛基因组图中包含过多变异实际上会降低泛基因组的效用。对于具有大型基因组的真核生物来说,这一点尤其重要。当构成代表性序列泛基因组的序列彼此非常相似时,reads将映射到多个位置,或者(取决于比对工具)根本不会映射。类似地,在泛基因组图中,包含过多变异会增加reads多重映射的实例并降低比对精度,但还存在“膨胀”问题,即比对的计算成本变得如此之高,以至于图变得不可用。因此,应该考虑变异纳入泛基因组的标准。在代表性序列泛基因组中,这可以简单地仔细检查聚类参数和序列相似性/序列一致性阈值,以确保NRR序列彼此之间以及与参考序列之间有足够的差异。在泛基因组图中,这可能涉及优先考虑特定人群中更常见的变异/等位基因,或者使用专门设计的来选择最大化图效用的工具。决定将哪些变异纳入泛基因组图并非易事,并且这是一个活跃的研究领域。
下一步去哪?
在原核生物和小型真核生物泛基因组中,PAV 泛基因组最常被使用,并且有许多工具可用于此类分析(参见 [18],其中比较了 16 种不同的工具)。基因聚类的选择和参数的设置对最终的泛基因组具有重大影响(参见 [100],其中讨论了该主题),尽管它们应用广泛,但原核生物泛基因组分析中仍然存在许多挑战(在 [101] 中进行了总结)。在大型真核生物中,自动构建代表性序列泛基因组和 PAV 泛基因组的工具数量较少,大多数研究仍然使用特定的pipeline。构建序列导向的图泛基因组的方法和工具也仍在积极开发中,但可以在 [107–110] 中找到一些方法的细节和比较。
总结陈词
泛基因组比传统的单线性参考基因组更完整地代表了群体的基因组内容。它们不像传统的参考基因组那样严格,因为它们可以用于分析物种水平以上的系统发育分支,并且通过减少参考偏差来改善研究结果。虽然我们用来构建和交互泛基因组(特别是图泛基因组)的工具仍在开发中,但它们已经证明了它们的价值,并已开始进入主流分析流程中。这种转变将得益于个人和实验室的努力,以及包括人类泛基因组参考联盟和计算泛基因组联盟在内的大型国际联盟,我们相信,对用于描述泛基因组的语言进行规范化将有助于更有效地传播它们的科研成果。
要点
• Pangenomes can be constructed in different ways, from different types of genomic data, and for different purposes.
• 泛基因组可以采用不同的方式构建,从不同类型的基因组数据出发,并针对不同的目的。
• Pangenomes aim to represent the full genomic repertoire of a population, not just the genome of a single individual.
• 泛基因组旨在代表一个群体完整的基因组库,而不仅仅是一个个体的基因组。
• In comparison with traditional reference-based techniques, pangenomes greatly reduce reference bias.
• 与传统的基于参考基因组的技术相比,泛基因组大大减少了参考偏差。
• The field of pangenomics is quickly growing but is complex, and the language used in the description of pangenomic methods lacks specificity.
• 泛基因组领域发展迅速,但复杂性高,用于描述泛基因组方法的语言缺乏针对性。
• We introduce pangenomics for a newcomer to the field and provide suggestions to formalize the language used in the discussion of pangenomes.
• 我们向该领域的新手介绍了泛基因组学,并提供了将泛基因组讨论中使用的语言规范化的建议。
常用术语表
Accessory genome—a set of genes that are present in only one or some members of a population.
附属基因组 - 一组仅存在于群体中部分成员的基因集。
Core genome—a set of genes that are present within all members of a population.
核心基因组——存在于群体所有成员中的基因集。
Gene-oriented pangenome—a pangenome modelling differences within a population at the gene level.
基因导向的泛基因组——一种在基因水平上对群体内部差异进行建模的泛基因组
Homologue strategy—multiple genomes from the population are annotated, and gene sequences are extracted from these annotations and are clustered by sequence similarity into gene clusters; the presence or absence of a gene in a sample is determined by whether or not that sample contributes to that gene cluster.
同源策略——从群体中注释多个基因组,并从这些注释中提取基因序列,并根据序列相似性将基因序列聚集成基因簇;样本中是否存在某个基因,取决于该样本是否对该基因簇有贡献。
Map-to-pan strategy—determination of gene presence through interrogation of sample read coverage of genes.
映射到泛基因组的策略——通过样本测序数据对基因覆盖度的分析来确定基因的存在。
Pangenome—genomic data from multiple members of a species or other population with some underlying structure. Pangenome graph—a pangenome that is represented using a mathematical graph structure composed of nodes and edges that gives positional context to sequence variation between different genomic sequences.
泛基因组——来自物种或其他群体中多个成员的基因组数据,这些成员之间存在某种潜在结构。泛基因组图——一种使用数学图结构表示的泛基因组,该结构由节点和边组成,为不同基因组序列之间的序列变异提供位置信息。
Population—a group of organisms that may benefit from genomic comparison, for example, a specific tissue, species, phylogenetic clade, or ecological community.
群体——指可能从基因组比较中获益的一组生物体,例如特定组织、物种、系统发育支系或生态群落。
Presence–absence variation pangenome—a collection of all of the genes found within a population that is divided into a core genome and an accessory genome based on gene patterns of presence and absence within the population.
存在-缺失变异泛基因组——一个包含群体中所有基因的集合,根据基因在群体中的存在和缺失模式,被划分为核心基因组和附属基因组。
Representative sequence pangenome—a collection of genomic sequences that, together, represent the majority of natural sequence variation within a population.
代表性序列泛基因组——包含一组基因组序列,它们共同代表了群体中大多数自然序列变异。
Sequence-oriented pangenome—a pangenome modelling differences within a population at the sequence/nucleotide level.
序列导向的泛基因组——一种在序列/核苷酸水平上对群体内部差异进行建模的泛基因组。
Cite
Chelsea A Matthews, Nathan S Watson-Haigh, Rachel A Burton, Anna E Sheppard, A gentle introduction to pangenomics, Briefings in Bioinformatics, Volume 25, Issue 6, November 2024, bbae588, https://doi.org/10.1093/bib/bbae588