注意本文中“地理隔离”(IBD,Isolation By Distance)的与“血缘同源” (IBD,Identity By Descent)的区分。
三角图分析R包-triangulaR
https://github.com/omys-omics/triangulaR
摘要
描述自然发生的遗传变异是分子系统地理学(molecular phylogeography)和群体遗传学的基本目标。常用的分析方法包括 STRUCTURE,这是一种基于模型的算法,可以将个体分配到遗传群体中,以及主成分分析(PCA),这是一种不依赖参数的方法。由于 STRUCTURE 能够推断混杂血统,它在记录自然杂交方面非常受欢迎,这对于进化生物学家来说具有重要意义,因为这种系统为物种形成过程提供了一个窗口。然而,当 STRUCTURE 的假设被违反时,如遗传变异在地理空间上呈连续分布,它可能会产生误导性结果。为了测试 STRUCTURE 和 PCA 准确区分混杂(admixture)与连续变异(continuous variation)的能力,我们使用前向时间模拟(forward-time simulations)生成在三种种群动态场景下的群体遗传数据:其中两种涉及混杂,一种是地理隔离(IBD)。仅使用 STRUCTURE 和 PCA 无法区分混杂与地理隔离,但通过补充使用三角图(triangle plots),这种方法能够更准确地推断种群历史,尤其是在近期混杂的情况下。我们展示了三角图对缺失数据具有较强的鲁棒性,而 STRUCTURE 和 PCA 则不具备,并且显示出设置较低的等位基因频率差异阈值用于血统信息标记(AIM,ancestry-informative marker)鉴定,可以准确表征混杂指数和类间杂合度在混杂和种群扩展历史中的关系。虽然 STRUCTURE 和 PCA 提供了有用的遗传变异总结,但在推断混杂之前,应与三角图结合使用。
引言
推断遗传簇(genetic clusters)数量并为个体分配血统占比是处理来自野生种群的遗传数据时几乎普遍的第一步。STRUCTURE 程序是最早实现这一任务的工具之一,它通过在贝叶斯框架下实施基于模型的聚类分析。虽然自那时以来,类似的贝叶斯模型以及其他方法相继被提出,STRUCTURE 依然是描述自然种群遗传变异最广泛使用的方法之一。事实上,仅在2023年,原始的 STRUCTURE 论文就收到了超过2000次引用。
STRUCTURE 在满足模型假设时擅长识别遗传簇,但当这些假设被违反时,它可能会提供误导性结果。实际上,经验数据集通常无法满足 STRUCTURE 的假设。例如,STRUCTURE 假设个体的基因型是从 K 个离散种群中随机抽取的,每个种群都有自己的等位基因频率。当这个假设不成立时,比如遗传变异在整个景观中呈连续分布,种群结构是层级性的,或者种群经历了不同程度的遗传漂变,STRUCTURE 的结果就无法反映真实的种群历史。为克服这些局限性,已经提出了多种策略,包括对结果的非字面解读、使用替代的聚类方法以及考虑特定种群历史的模型。目前,使用多种数据分析策略,包括参数化和非参数化方法,并测试具有不同假设的多个模型,是最佳实践,但代价是计算负担的不断增加。
对 STRUCTURE 图的常见(误)解读是,个体被分配到多个群体中表明存在混杂血统。虽然在杂交种群中确实可以预期混杂血统,但其他种群历史也可能导致个体被分配到多个群体中。特别是,地理隔离(IBD)历史会在种群之间产生连续变异的模式,这违反了个体可以被划分为 K 个离散种群的假设。在地理隔离的情况下,亲缘关系随着地理距离的增加而减弱。从直观上看,地理隔离在自然界中很常见,因为个体更有可能与地理上接近的个体交配,而不是与距离较远的个体交配。当地理隔离是数据的主要特征时,聚类算法通常会将样本范围两端的个体分配到不同的群体中,并推测地理中心的个体具有一定程度的混杂血统。
区分地理隔离和混杂是识别和研究自然系统中杂交的一个重要步骤,这也是进化生物学中一个热门的研究领域,因为杂交带提供了物种形成过程的窗口。虽然已经提出了多种杂交带动态模型,但杂交带形成的一个常见模型是亚种分化后的二次接触。在温带地区,这一模式通常可以用冰河时代分隔和各自避难所中的种群分化来解释,当时冰川覆盖了北半球的大部分地区,随后冰川退缩后发生了种群扩展和二次接触。这一过程被认为是广泛的杂交带形成的原因。二次接触后的杂交结果取决于重组基因型在特定环境中的适应性。如果没有选择压力反对杂交个体,等位基因可以自由地渗入到亲本种群中,杂交带的宽度预计会随时间增加,这种模型通常被称为中性扩散。虽然种群扩展后的二次接触是一个常见的生物地理情景,但这一过程也会在每个扩展的物种中产生连续的遗传变异。如果没有杂交(无论是因为没有其他物种接触,还是因为生殖障碍已完全形成),遗传变异将是连续的,最适合用地理隔离来描述。由于地理隔离可能会产生类似于杂交的遗传聚类模式,研究人员必须首先排除地理隔离,然后再更详细地分析杂交带。
有几种策略可以用来区分地理隔离和混杂。一个方法是在聚类推断时结合地理数据,假设遗传关系随着地理距离的增加而减弱。这个策略在 conStruct 中得到了实现,它能够准确地描述在地理隔离历史下演化的个体属于一个遗传群体。另一种策略是在识别遗传群体时结合基因型数据。在具有固定差异的二倍体亲本种群位点上,第一代杂交(F1)个体从每个亲本继承不同的等位基因,因此在每个这样的位点上是杂合的。如果 F1 个体与亲本发生回交,后代预计在一半的位点上是杂合的。基因型频率的纳入在聚类中得到了软件 newhybrids 的实现,它能够区分六种基因型类别。
混杂指数与类间杂合度的可视化被称为三角图,可以用来识别杂交类别并为混杂提供证据。三角图提供了一种简单直观的方法,用于验证 STRUCTURE 推断的混杂血统模式是否符合混杂种群动态历史的预期。在混杂历史下,通过 STRUCTURE 推断为 50–50 血统的个体(当 K = 2 时)应该具有 0.5 的混杂指数,并且类间杂合度相对于亲本种群会升高(在 F1 中为 1.0,在 F2 及以后的世代中为 0.5)。实际上,根据 Hardy–Weinberg 平衡定律(HWE),混杂无法产生一个具有 <0.5 类间杂合度的 50–50 血统的个体。相比之下,当没有发生混杂且地理隔离是数据的主要特征时,混杂指数和类间杂合度之间不应有关系(在这种历史下,“混杂指数”有稍微不同的含义,它不再表示实际的混杂,而仅仅表示与某个“亲本”种群匹配的血统比例)。从避难所种群外的范围扩展是一种生物地理情景,它会产生地理隔离模式,在这种特殊情况下,预期会出现混杂指数和类间杂合度之间的负线性关系,且在较新的种群中,类间杂合度较低。如果扩展不是近期发生的,且没有种群大小或选择压力的差异,类间杂合度预计在各个种群间保持恒定。
在本文中,我们考察了在三种种群动态场景下混杂指数与类间杂合度之间的关系,并展示了三角图在区分混杂历史和地理隔离历史中的应用。我们使用两种常用方法——STRUCTURE 和主成分分析(PCA)——分析模拟数据,用于遗传变异的初步表征。我们的结果显示,这些方法在不同种群动态历史下模拟的遗传数据上得出了几乎相同的结果,而三角图可以有效地区分混杂和地理隔离,即使是在初次接触后的数千代之后。接着,我们考察了随着接触后时间(以世代为单位)增加,STRUCTURE、PCA 和三角图如何变化,以及缺失数据如何影响结果。我们还研究了用于鉴定血统信息标记(AIMs)的等位基因频率差异阈值(δ)如何影响混杂指数与类间杂合度之间的关系。随后,我们在遗传聚类过程中结合了地理信息,正如在 conStruct 中实现的那样,并对结果进行了比较。最后,我们讨论了如何将三角图与聚类分析结合,来区分混杂历史和地理隔离历史。
结果
3.1 数据模拟与验证
在完全中性扩散、无基因渐渗以及地理隔离模拟中,每个种群个体的混杂指数和类间杂合度遵循了基于 10 次重复模拟和每次随机子样本 10 次的总体趋势(图 S1–S3)。几乎所有(97%)从完整模拟中估算的混杂指数和类间杂合度值都落在了重复模拟的观察值范围内。这些统计量在采样世代中的一致性表明,经过更详细分析的完整模拟代表了每种模型(中性扩散、无基因渐渗以及地理隔离)的一般结果。完整模拟的结果报告了三个代际:0(第一次采样)、1000 和 10,000。每个采样代际的 SNP 数量从 767 到 1934 不等。每个采样代际的结果在数据 S2 中展示。
图1 每个模拟的三个阶段示意图
3.2 聚类方法
对于每个模拟中每一代的采样,STRUCTURE 算法将外围种群(即 p0 和 p20)推断为独立的、不同的群体,而在中间种群中发现了混杂血统的梯度(图 2)。同样,来自每个 PCA 的第一主成分解释了外围种群之间的分化,而第二主成分则解释了最中心的种群与外围种群之间的分化(图 2)。在无基因渐渗模型的每一代以及中性扩散模型的第 0 代中,混杂血统的个体仅限于最中心的种群(p10)。在地理隔离和中性扩散模型的早期阶段,推断的血统过渡发生在几个人群(约 1–6 个)之间,随后过渡范围扩展,涉及更多的种群(约 9–12 个),这一趋势在 STRUCTURE 和 PCA 图中有所体现(图 2)。
图2 对地理隔离、中性扩散和无基因渐渗模拟数据的STRUCTURE、PCA和三角形图分析(等位基因频率差δ = 0.5)
3.3 三角图
在中性扩散和无基因渐渗模拟的第 0 代中,只有 p10 中的个体表现出较高的类间杂合度,且大多数个体位于三角形的外缘,表明它们是 F1 个体或回交个体(图 2)。在无基因渐渗模拟的后期代际中,只有 p10 中的个体显示出较高的类间杂合度。在中性扩散模拟的后期代际中,离 p10 更远的种群中的个体也表现出较高的类间杂合度。经过数千代的中性扩散模拟后,类间杂合度的中心峰值逐渐减弱(图 2H)。值得注意的是,在无基因渐渗和中性扩散模拟的任何代际中,都没有出现血统比例中等(例如 0.25 至 0.75)且类间杂合度较低(例如 <0.1)的个体。相比之下,在地理隔离模拟中,许多个体在 10,000 代之前有中血统比例和低类间杂合度,并且在这些早期代际中,混杂指数与类间杂合度之间存在显著的负线性关系(表 S1)。在地理隔离模拟中,直到模拟的后期(大约在第 10,000 代到 19,000 代之间),中心种群(即 p9、p10 和 p11)中的类间杂合度才有所升高(数据 S2)。
3.4 缺失数据
如预期所示,缺失数据对 PCA 结果有很大影响(图 3)。随着缺失数据量的增加,个体被绘制得更接近原点。这在所有模型中都表现的得很明显,特别是在整体缺失数据较多时(例如 50%)。然而,STRUCTURE 图受到缺失数据的影响较小,特别是在中性扩散和无基因渐渗模拟中,因为随着缺失数据的增加,推断的个体血统比例变化较小(图 3)。然而,在地理隔离模拟中,缺失数据确实对推断的血统比例产生了影响。最明显的是,缺失数据有时会将外围种群的血统比例向另一个外围种群的遗传群体偏移。缺失数据对中性扩散和无基因渐渗模型的三角图几乎没有影响,只有在地理隔离模型中,当整体缺失数据较高时,才会产生轻微的影响(图 3)。
图3 对地理隔离、中性扩散和无基因渐渗模拟数据的STRUCTURE、PCA和三角形图分析(等位基因频率差δ = 0.5)
3.5 等位基因频率差异阈值与混杂指数
增加亲本种群之间的等位基因频率差异阈值会减少每个模型中识别的血统信息标记(AIM)的数量(图 4 和图 5)。对于中性扩散和无基因渐渗模型,尽管将混杂指数的计算限制在具有更极端等位基因频率差异的更少的 AIM 上,但随着阈值的增加,每个个体的混杂指数和类间杂合度变化较小(图 4 和图 5)。相比之下,地理隔离模型的三角图形状随着等位基因频率差异阈值的增加而发生显著变化;不仅只有少数位点通过较高的阈值,而且亲本种群中的个体被推向图形的底部角落,而中心种群中的个体则被推向顶部中间。
图4 对地理隔离、中性扩散和无基因渐渗模拟数据三角图分析
图5 对地理隔离、中性扩散和无基因渐渗模拟数据三角图分析
3.6 在群体识别中引入地理信息
conStruct 结果的交叉验证表明,对于每个代际和每个模拟,在每个 K 值下,空间模型总是优于非空间模型(图 S6)。在地理隔离模拟中,采用空间模型时,在 K = 2 的情况下,每个代际的所有种群都被分配到同一群体,表明该算法准确地推断出没有基因混杂(图 S7 和图 S8)。相比之下,在中性扩散模拟的早期代际和无基因渐渗模拟的所有代际中,空间模型下的 K = 2 在 conStruct 中准确地推断出了混杂(图 S7 和图 S8)。
讨论
我们通过前向时间进化模拟,表明在使用常见的聚类方法(如 STRUCTURE 或 PCA)时,地理隔离和基因流的历史无法被区分。尽管已有更复杂的模型用于解开地理隔离和基因混杂在塑造遗传变异中的相对作用,但许多模型对于大规模基因组数据集尚未具备计算可行性。然而,三角图是一种简单的生物信息学工具,适用于分析假定存在两种物种之间混杂的种群遗传数据集。作为探索性分析种群遗传数据的初步步骤,构建三角图可以为研究人员提供直观的遗传变异可视化结果,进而指导进一步的分析和解释。
4.1 STRUCTURE 和 PCA 无法区分基因混杂与地理隔离
STRUCTURE 和 PCA 通常是了解来自野生种群的个体样本遗传变异的初步探索步骤,且其结果可能会影响后续分析的方向。然而,这些分析未能区分两种截然不同的种群历史:中性扩散与基因渐渗(IBD)。在我们的地理隔离模拟中,每个采样代际的 STRUCTURE 图像类似于预期的隔离种群分化和次级接触历史下的结果(图 2)。此外,PCA 图像也展示了在次级接触后,模拟数据在地理隔离和中性扩散历史下的相似模式。孤立地解释 STRUCTURE 和 PCA 的结果,可能导致对跨地理空间遗传变异的错误理解,尤其是当个体被分配到多个群体时,这常常被误解为基因混杂的证据。
4.2 三角图可以区分近期基因混杂与地理隔离
将三角图纳入自然种群遗传变异的探索性分析中,是一个简单的步骤,可以区分地理隔离和基因流的历史(图 2)。在基因混杂发生的近期案例中,位于接触地理中心的个体将表现为中间的混杂指数和较高的类间杂合度,形成预期的三角形模式。此外,这种模式对缺失数据(图 3)、不同的等位基因频率差异阈值(图 4 和图 5)以及来自亲本种群的低样本量具有较强的鲁棒性。
对于具有真实基因混杂历史的数据,三角图的一个特点是,混杂指数为中等值(≈0.5)的个体不会表现出低于亲本种群的类间杂合度。即便使用放宽的等位基因频率差异阈值 δ = 0.5,混杂指数为 0.5 的个体在 1000 代内,仍能保持大约 0.5 的类间杂合度,这符合哈迪-温伯格平衡(HWE)的预期(图 2)。在中性扩散模型中,1000 代后类间杂合度的降低可以通过哈迪-温伯格平衡的违背(如遗传漂变和新突变的积累)来解释。因此,非近期的基因混杂可能会变得难以与仅由地理隔离产生的连续变异模式区分开来(下面将进一步讨论)。
在模拟的种群扩展和地理隔离历史下,三角图显示了截然不同的模式(图 2)。在种群扩展后 1000 代内,随着与原始种群距离的增加,类间杂合度显著降低(表 S1),这一现象符合种群扩展前沿个体的预期。在早期代际中,p0 和 p20 之间的差异较少,这一模式不容易察觉,但显著的是,有许多个体具有中间血统成分且类间杂合度非常低,这在真实的基因混杂情况下并不常见。随着时间推移,种群扩展的特征逐渐消失,但由地理隔离引起的连续变异仍然存在,这从地理隔离三角图的斜率趋近于 0 可以看出,随着种群扩展时间的增加,地理隔离的影响越来越显著。
4.3 引入地理信息可以改进群体识别
在我们的模拟中,唯一一个 STRUCTURE 算法能够正确地将由地理隔离引起的连续变异的个体分配到同一群体的情境,是当存在两个此类群体时,如在无基因渐渗模拟和中性扩散模拟的第 0 代(图 2)。这可以通过无基因渐渗模拟的结果来突出显示,其中两个群体分布在 10 个种群中,但仅在中间种群(p10)中发生了基因混杂。尽管每个群体内部存在连续变异,STRUCTURE 仍能正确地将除了混杂种群(p10)外的所有个体完全分配到一个亲本群体中。这一结果与地理隔离模拟中的 STRUCTURE 结果形成鲜明对比,在该模拟中,连续变异被错误地表征为混杂血统(图 2)。
通过将地理信息纳入遗传聚类分析,利用 conStruct 可以改善区分基因混杂与地理隔离的能力,特别是在地理隔离模拟中,conStruct 能准确地将种群归为一个群体,并在中性扩散和无基因渐渗模拟中识别出两个群体以及混杂的个体。然而,这种方法的一个主要局限性是其在个体数目增加时的计算效率较差。在 420 个个体的等位基因频率上运行 conStruct 变得不可行,因此我们必须将等位基因频率按种群进行合并。尽管如此,这种方法仍然在区分连续遗传变异和离散遗传变异方面非常有用,但它限制了个体血统比例的进一步分析。
4.4 等位基因频率差异阈值的影响
理论上,计算混杂指数和类间杂合度的最佳等位基因频率差异阈值为 δ = 1,这意味着亲本种群之间存在固定的差异。使用具有固定差异的位点时,对于不同混杂类别中混杂指数和类间杂合度之间的关系有明确的预期。然而,在实际操作中,较低的等位基因频率差异阈值可以提供与较高阈值相同准确度但更精确的混杂指数和类间杂合度估计,因为更多的 AIMs 会通过较低的阈值。在这里,我们发现,即使使用放宽的等位基因频率差异阈值 δ = 0.5,早期代的杂交种群(例如中性扩散和无基因渐渗模拟的第 0 代的 F1 后代和回交种群)仍然能够在三角图上呈现预期的表现(图 2)。此外,对于无基因渐渗模拟和中性扩散模拟的第 1000 代,混杂指数的个体位置在不同的等位基因频率差异阈值下几乎没有变化(图 4)。
重要的是,降低等位基因频率差异阈值比仅包括具有固定差异的位点能包含更多的位点。例如,在地理隔离模拟的第 1000 代,随着等位基因频率差异阈值为 δ = 0.5,源种群到新成立种群之间类间杂合度降低的预期模式显现出来(图 4)。由于所有模拟种群的分化相对较新(1000 代前),在外围种群(p0 和 p20)之间的等位基因频率差异较小,因此随着阈值的提高,真实的模式开始模糊。此外,若只使用具有固定差异的位点,根据定义,亲本种群的类间杂合度必为 0,这意味着对这两个种群间类间杂合度的比较没有意义,而新扩展种群中类间杂合度降低的预期信号也会丢失。随着阈值不断提高,满足较高等位基因频率差异阈值的位点数量逐渐减少,这使得个体出现较高的类间杂合度的情况变得更为可能,这可能会被误解为 F1 杂交的证据。通过放宽亲本种群之间的等位基因频率差异阈值,可以在不牺牲识别各种杂交类别的情况下,区分地理隔离模式和基因混杂模式。
4.5 推断亲本种群的血统成分
我们使用在第二阶段结束时每个亲本种群中固定的等位基因作为每个种群真实血统的指示。通过计算中性扩散模拟结束时(即第 19,000 代)这些等位基因在每个种群中的平均频率,结果表明,所有种群在中性扩散作用下均为部分混杂(图 S4)。尽管 p0 等位基因出现在 p20 中,反之亦然,STRUCTURE 在第 19,000 代或中性扩散模拟的任何其他代际中都未能推断出亲本种群存在基因混杂(数据 S2)。这突显了 STRUCTURE 的另一个局限性,即当等位基因在所有采样种群中达到相似频率时,即使它们代表了一种基因渐渗历史,这些等位基因也无法用于推断基因混杂。这一局限性进一步证明了在三角图中使用放宽的等位基因频率差异阈值的必要性,因为较低的阈值不会将亲本种群的混杂指数限制为 0 或 1。尽管中性扩散模拟的第 2000 代(及随后的代际)STRUCTURE 图的字面解释表明外围种群没有基因混杂,但三角图显示,所有种群实际上从大约第 2000 代开始就已经部分混杂(图 2;数据 S2)。为了计算混杂指数而设置更严格的阈值掩盖了这一模式,因为它强迫亲本种群的混杂指数为 0 或 1,这可能无法反映真实的血统成分比例(图 5)。
4.6 缺失数据对聚类和三角图的影响
相比于 STRUCTURE 和三角图,缺失数据对 PCA 的影响最大(图 3)。通常,缺失数据会使个体的 PC1 和 PC2 值趋近于 0(图 3),这一结果在其他研究中也有所观察。因此,缺失数据较多的个体会被拉到图的中心,位于 p0 和 p20 之间。混杂种群也通常会在 PCA 图中表现为介于两个种群之间(Gompert 和 Buerkle 2016;Patterson, Price 和 Reich 2006),因此如果缺失数据未被考虑,这一模式可能会被误解为基因混杂的证据。
STRUCTURE 图对高比例缺失数据的影响较小,尤其是在存在基因混杂的情况下。即使在 50% 的总体缺失数据下,推断出的血统比例与完整数据集几乎相同(图 3)。相反,在地理隔离模拟中,STRUCTURE 对大量缺失数据的敏感度更高,这可能是由于外围种群之间的分化较小。在地理隔离模拟中,缺失数据较多的个体的血统成分比例与没有缺失数据时推断出的血统成分比例可能会有显著不同。最显著的是,在 50% 的总体缺失数据下,一些外围种群中的个体被识别为来自错误群体的大部分血统(图 3)。虽然 STRUCTURE 对缺失数据的鲁棒性高于 PCA,但我们的结果仍强调在解读 STRUCTURE 输出时应考虑每个个体的缺失数据。
三角图对于高比例缺失数据的影响较小(图 3)。对于基因混杂模型,随着缺失数据的增加,预期的三角模式保持一致。缺失数据对地理隔离模型中的混杂指数和类间杂合度的影响较大,但即使在缺失数据最多(50%)的情况下,图形仍未呈现基因混杂的预期模式。三角图对缺失数据的鲁棒性可能与 triangulaR 中计算混杂指数和类间杂合度的方式有关。这些指标是基于每个个体计算的,只使用非缺失数据的位点,因此不会因总位点数的不同而被削弱。然而需要注意的是,尽管三角图似乎对缺失数据具有鲁棒性,但这一结论可能仅在缺失数据是随机分布时成立。对于经验数据集,缺失数据可能并非随机分布,可能由于生物学原因(如 RADseq 数据集中的等位基因丢失)或质量控制过程中的差异而导致缺失数据呈现非随机分布。
4.7 随着时间的推移,地理隔离和中性扩散的特征变得相似
在 Hardy-Weinberg 平衡(HWE)下,杂交个体的混杂指数不能为 0.5 且类间杂合度不能低于 0.5。然而,在中性扩散模拟中,我们观察到类间杂合度随着时间的推移而下降(图 2)。这可以通过两种机制解释,这两种机制均违反了 HWE 假设。第一种机制是通过基因漂变导致的重组种群中等位基因的随机丧失,这是随时间推移而预期的。如果重组种群中亲本等位基因的固定机会相等,则混杂指数将保持在 0.5 附近,而类间杂合度将下降。另一种可能解释中间个体类间杂合度降低的机制是亲本种群的突变。如果在基因接触区杂交开始后,某个亲本种群中产生了一个新的等位基因,并且该等位基因达到了较高的频率或固定,那么该位点将被纳入混杂指数和类间杂合度的计算中。在该等位基因还未扩散到接触区中心之前,杂交个体在该位点将保持纯合状态。假设亲本种群的突变率和替代率相同,混杂指数将保持在 0.5 附近,但类间杂合度将减少。
为了使这两种机制显著降低杂交个体的类间杂合度,需要相对较长的时间。在中性扩散模型中,至少在初次接触后 1000 代,观察到的混杂指数和类间杂合度组合遵循 HWE 预期。经过 10,000 代后,中性扩散和地理隔离模拟的三角图开始变得非常相似,只有中心种群中存在小的类间杂合度峰值(数据 S2)。在地理隔离模拟中,这个峰值在之前的代际中并未出现,反而显示出从 p0 到 p20 类间杂合度降低或保持不变的模式。这个新出现的峰值可以通过外围种群的分化以及基因流带来新产生等位基因到中心种群的时间来解释。
尽管在这些模拟中,三角图在 10,000 代后不能区分地理隔离和杂交的历史,但直到这一点之前,三角图表现得相当好。需要注意的是,这些历史可区分的代际数将取决于其他因素,包括突变率、迁移率和自然选择。较高的迁移率将导致杂交指数和类间杂合度的联合分布在较少的代际内就能达到,同时也会减少亲本种群之间的差异。尽管我们在这里没有研究选择对杂交体的影响,已有的研究表明,针对重组个体的选择(如晚代杂交体中 Dobzhansky–Muller 不相容性(DMIs)的积累)也可以防止亲本种群的均质化。
4.8 将三角图纳入分子生态学工具包
当基因混杂较为近期时,三角图提供了一个直观的自然系统中遗传变异的可视化展示。然而,随着时间的推移(例如,几千代),三角图的模式可能会丧失,导致无法区分地理隔离和杂交。这一局限性与遗传聚类分析和 PCA 分析相似。然而,与这些分析不同的是,三角图可以支持或拒绝近期基因混杂的历史。因此,从三角图中获得的见解可以为 STRUCTURE 和 PCA 图中的模式提供背景信息。
从三角图中获得的见解通常不是最终结果,而是可以引导进一步分析的方向。如果三角图未能提供近期基因混杂的证据,则需要后续分析来确定最可能的种群历史。例如,可以使用种群历史建模来测试历史杂交或由于地理隔离导致的持续变异是否最符合观察到的数据。此外,可以使用系统发育框架(例如 ABBA-BABA 测试、D 和 F4 统计量)来检测可能难以察觉的轻微基因渐渗。或者,如果三角图中存在基因混杂的证据,那么可以对三角图进行更详细的分析,并结合其他分析方法,根据具体情况进行适当的研究。
4.9 未来方向
我们在两种简单的杂交区动态模型下模拟了数据,一种模型假设没有选择作用(中性扩散),另一种模型假设没有基因渐渗(无基因渐渗)。未来的研究需要进一步探讨在更复杂模型下混杂指数和类间杂合度的联合分布。例如,针对晚代杂交体的选择(可能通过 DMIs)、交配前的繁殖障碍(例如,同种识别)、杂交优势、异性性别的不育/不存活(即 Haldane 法则)以及不等的亲本种群大小,预计会改变混杂指数和类间杂合度的联合分布。
三角图能够区分许多杂交类型(如 F1、回交等),但在 HWE 假设下,单凭混杂指数和类间杂合度无法区分 F2、F3 及以后代的杂交类型。因此,开发一个与混杂指数和类间杂合度一起使用的第三个指标,用于区分这些类型将会非常有用。例如,如果已知重点物种的重组率,则可以通过计算基因组中平均的血统链长来推断自双亲个体杂交以来的代数,从而区分 F2 和 F3 等进一步的杂交类型。这种方法已经被用于模拟接触区内的杂交脉冲的时间和数量,理论上可以扩展为开发一个帮助区分杂交类别的指标。
How to cite
Wiens, B. and Colella, J. (2024), That's Not a Hybrid: How to Distinguish Patterns of Admixture and Isolation By Distance. Mol Ecol Resour e14039. https://doi-org.1384.top/10.1111/1755-0998.14039