摘要
在群体遗传学中,利用基因组数据识别软选择性清除(soft selective sweeps)是一个具有挑战性但至关重要的任务。因此,我们提出了一种名为HaploSweep的新方法,基于单倍型结构来检测并分类软选择性清除和硬选择性清除(hard selective sweeps)。通过涵盖广泛的选择强度、软选择性清除程度及群体动态历史的模拟分析,我们证明了HaploSweep在检测软选择性清除方面优于iHS、nSL和H12。HaploSweep在符合人类“走出非洲”人口模型的模拟中表现出极高的分类准确率——CHB为0.9247,CEU为0.9484,YRI为0.9829。我们还观察到其分类准确性在不同的人口模型中保持稳定。此外,我们引入了一种改进的方法,能够准确区分硬选择性清除旁边的软肩现象(soft shoulders)与真正的软选择性清除。将HaploSweep应用于千人基因组计划的CHB、CEU和YRI人群基因组数据,发现了多个与群体特异性软选择性清除高度相关的新基因(如HRNR、AMBRA1、CBFA2T2、DYNC2H1和RANBP2等),这些基因与免疫功能和代谢过程密切相关。通过模拟数据和真实数据验证,HaploSweep的表现突显了其作为检测和理解软选择性清除在适应性进化中作用的重要工具的潜力。
###GitHub项目主页:
https://github.com/ChenHuaLab/HaploSweep
背景介绍
适应性进化机制的阐明依然是群体遗传学领域的一个核心问题。传统方法通过分析基因组多态性来识别选择性清除,涵盖等位基因频谱、单倍型结构和群体间等位基因频率差异等模式。这些方法基于硬选择性清除的假设,即有益突变(新出现或稀有的突变)在自然选择的推动下达到主导地位,打破了局部多态性模式,产生了与中性进化过程显著不同的连锁不平衡效应。
在过去的十年中,群体遗传学领域的研究人员逐渐认识到,硬选择性清除并不是自然界中唯一的适应模式。这种观念的转变,部分是为了应对一个事实:在早期阶段,有益等位基因以低频率存在时,因随机漂变而消失的可能性较大。软选择性清除涵盖两种主要情景,包括作用于已有变异的选择(该变异在某段时间内处于中性进化状态),以及在选择性清除过程中多次引入的重复有益突变。这些机制会导致多种适应性单倍型的固定。
软选择性清除周围位点的遗传多态性模式(如等位基因频谱和遗传杂合度水平)比硬选择性清除更加微妙。因此,尽管XP-CLR(Chen等, 2010)等一些方法在检测软选择性清除方面仍有一定效果,但大多数基于硬选择性清除模型的现有方法在检测软选择性清除时能力有限。开发能够有效识别软选择性清除并将其与硬选择性清除区分开来的方法,是当前研究中一个具有挑战性但至关重要的前沿课题。
已有几种方法被提出,大致可以分为以下四类:(1)汇总统计量法,包括H统计量、G统计量和nSL。H统计量涵盖了多种用于衡量或组合第一丰度和次丰度单倍型频率的汇总统计量,在检测软选择性清除和硬选择性清除方面具有良好的表现。G统计量是H统计量的基因型版本。nSL统计量与iHS密切相关,虽然在检测软选择性清除信号方面表现出较好,但缺乏区分软选择性清除与硬选择性清除的能力;(2)概率和最大似然方法,如saltiLASSI和LASSI。LASSI使用单倍型频率谱畸变模型来检测选择性清除并推断群体中正在扫过的单倍型数量。SaltiLASSI则采用复合似然方法,通过搜索基因组中单倍型频率谱空间分布的显著畸变来识别选择性清除;(3)近似贝叶斯计算(ABC)方法。Peter等(2012)采用ABC框架来识别源自已有遗传变异或新突变的选择性清除;(4)机器学习方法,如S/HIC、diploS/HIC和evolBoosting,这些方法将汇总统计量作为预测的序列特征(如Tajima’s D、H12等),通过模拟数据进行训练,以区分硬选择性清除、软选择性清除和中性区域。
尽管这些新开发的方法为探索软选择性清除对自然群体中表型多样性和进化的影响提供了有价值的工具,但仍存在一些局限性。Harris等(2018b)指出,在复杂的非平衡群体动态历史中,H统计量可能失去检测正选择或区分硬选择性清除与软选择性清除的能力。此外,Vy等(2017)发现,使用固定窗口大小计算H统计量在区分选择选择性清除类型时可能效率不高。尽管ABC框架灵活且广泛用于建模,但随着参数和汇总统计量数量的增加,其计算成本变得非常高。这主要是由于参数空间的巨大规模以及拒绝抽样方案本身的效率低下。为ABC选择合适的汇总统计量子集也是一项复杂的任务。此外,机器学习方法需要大量模拟数据进行分类器训练,这涉及到关于数据模拟的主观决策,可能会引入对预假设情景的偏见。因此,测试模型在不同群体动态模型和其他参数下模拟数据的稳健性是至关重要的。关于这些方法局限性的进一步讨论,可参见一些最新的综述。
新方法
因此,我们提出了一种名为HaploSweep的新方法,旨在识别软选择性清除过程中由于搭车效应而产生的独特单倍型结构,并将其与硬选择性清除区分开来。HaploSweep基于并改进了扩展单倍型纯合性(EHH)方法,以适应软选择性清除的复杂性。如图1所示,在软选择性清除过程中,携带有益等位基因的单倍型可以追溯到多个祖先单倍型。由于这些祖先单倍型之间的多样性,携带有益等位基因的单倍型的EHH统计量迅速下降,与中性进化下的单倍型相比没有显著差异。因此,基于传统EHH的检测方法,如iHS,在检测软选择性清除时效力有限。
鉴于软选择性清除期间携带有益等位基因的单倍型具有多祖先聚类特性,我们提出了新的统计量:iHHL以及iHSL。我们将单倍型分为不同的聚类组,并分别为每个聚类组计算iHH。在每个聚类中,单倍型纯合性的下降速率较慢。因此,我们预计在软选择性清除下,iHHL值将显著高于中性进化。iHSL被定义为iHHL(1)和iHHL(0)之间的对数比率,其中括号内的“1”代表衍生等位基因,“0”代表祖先等位基因(更多细节请参考材料与方法部分的HaploSweep统计量iHSL和RiHS章节)。这一统计量能够识别硬选择性清除和软选择性清除。此外,我们还引入了RiHS,它表示iHHL与iHH之间的对数比率,以帮助区分选择性清除类型。
通过大量模拟,我们展示了HaploSweep在不同群体动态历史、选择强度和选择性清除程度下的出色表现。此外,模拟结果表明HaploSweep在选择性清除分类方面具有显著的准确性。将HaploSweep应用于千人基因组计划的数据,揭示了多个潜在的新候选基因,可能对人类适应性进化至关重要。我们的方法在模拟数据和实际数据中的表现,凸显了其在检测和理解软选择性清除在适应性进化中的重要性。
通讯作者
陈华-北京基因组所
履历:
研究方向:
理论群体遗传学VS计算基因组学· 运用溯祖理论、隐性马尔可夫模型等对群体遗传多态的进化规律进行建模,构建相关的统计方法用于基因组数据的分析,从而推断群体水平和物种水平的进化动态,鉴定自然选择发生的基因位点和进化机制;· 发展用于复杂形状的表型-基因型关联分析的统计遗传学方法,并用于研究大规模人群中多基因疾病和复杂性状的遗传机制。课题组目前开展的课题包括:对东亚现代人群的体貌特征和代谢性疾病的遗传学机制进行解析。
Shilei Zhao, Lianjiang Chi, Mincong Fu, Hua Chen, HaploSweep: detecting and distinguishing recent soft and hard selective sweeps through haplotype structure, Molecular Biology and Evolution, 2024;, msae192, https://doi.org/10.1093/molbev/msae192