自农业文明出现以来,人类进化出更容易消化淀粉的能力
人类基因组中编码淀粉酶的基因区域显示出广泛的结构多样性。淀粉酶基因在历史上经历了多次复制和删除,农业社会出现后,包含淀粉酶基因拷贝的结构通过自然选择得到了优先保留。
项目背景
饮食是自然选择的重要驱动力。例如,一种允许成年人消化乳糖的遗传变异,在大约1万年前人类驯养乳畜后,开始在人群中广泛传播。类似地,大约1.2万年前农业的出现,促使人类群体转向以富含淀粉的饮食为主。
在人类中,淀粉的消化由α-淀粉酶酶促反应完成,这些酶由淀粉酶基因座(一个基因组区域)中的三个相邻基因编码。这三个基因的拷贝数量各不相同,且较高的拷贝数与更强的淀粉消化能力相关。然而,这些基因拷贝的结构和进化历史仍然未知,且仅通过测序短的DNA片段或短读长(reads)数据是无法解析的。得益于人类泛基因组参考联盟(the Human Pangenome Reference Consortium,HPRC)生成的长读长基因组组装,我们现在能够解析淀粉酶基因拷贝的结构多样性及其在自然选择中的作用。
发现
为了表征淀粉酶基因座的复杂结构,我们分析了来自HPRC长读长基因组组装的近100份单倍型(从父母一方遗传的DNA片段)。基于这些序列,我们构建了一个“泛基因组图谱”(‘pangenome graph’):这是一个数学模型,展示了这些单倍型中淀粉酶基因座的遗传变异。随后,我们寻找了在单倍型之间共享的序列特征。我们识别出28种不同的单倍型结构(haplotype structures),每种结构在序列特征和淀粉酶基因拷贝数量上都存在不同的组成和排布。
接着,我们利用结构上变异的淀粉酶基因座两侧的遗传标记构建了一棵进化树。这棵树展示了单倍型之间的进化关系,使我们能够追踪和确定不同单倍型结构的出现时间。我们发现,相似甚至相同的单倍型结构多次出现在历史中,并且不同的淀粉酶基因经历了反复的复制和删除(图1a)。这种“反复进化”可能解释了之前使用短读长数据难以检测到淀粉酶基因座选择信号的原因。
图1 | 人类淀粉酶基因座的进化历史
基因AMY1 (1)、AMY2A (2A) 和AMY2B (2B) 编码分解淀粉的淀粉酶。在人类中,这些基因位于淀粉酶基因座上,并显示出广泛的结构变异,包含不同数量的基因拷贝。a. 不同突变事件的示意图,这些事件产生了不同的单倍型结构(从父母一方遗传的DNA片段;单倍型名称以“H”开头)。从上到下依次为:最近一次AMY2A基因的复制;AMY2A基因的完全丧失;以及AMY2A和AMY2B基因的连续和联合复制。蓝色、红色和橙色形状分别表示复制、删除和倒位事件。 b. 不同基因拷贝数单倍型(dup单倍型,蓝色线条)的估计频率和选择系数(携带者适应度差异的度量)的变化轨迹,及其95%的可信区间(阴影区域)。虚线表示平均选择系数(0.027);kyr bp表示距今多少千年时间(以1950年为基准)。来源:Bolognini, D. 等/《自然》(CC BY 4.0)
最后,为了解决自然选择的问题,我们开发了一种方法,能够在用短读长测序的基因组中识别出个体基因组中存在的单倍型结构。通过将该方法应用于来自欧亚大陆西部的古人类遗骸(年代约在1.2万到250年前)的基因组,我们发现在过去1.2万年间,含有更多基因拷贝的单倍型频率迅速增加。我们利用三种相互补充的方法发现,这种频率的增加最可能是由欧亚大陆西部人群在农业出现后对高拷贝数淀粉酶基因的正选择所驱动(图1b)。
影响
我们的研究揭示了饮食和农业在过去1.2万年中对人类进化的影响,并强调了结构变异作为遗传多样性的关键来源,在自然选择中起到了重要作用。研究还表明,长读长、群体规模的单倍型基因组组装以及基于泛基因组的方法对于解析与适应相关的复杂基因组区域至关重要。
然而,我们的研究仅能直接观察到约100个单倍型(即接近50个个体)的结构,尚未能深入探索全球人群的遗传变异。目前正在开展的工作将增加多样化人群的长读长基因组代表性,毫无疑问,这将揭示淀粉酶基因座及其他基因组区域的更多结构多样性。
尽管我们利用欧亚大陆西部的古人类基因组来研究这一地区的选择作用,但农业在历史上曾多次被独立出现。产生其他地区古人类遗骸的基因组将进一步探讨与这些农业起源相关的选择。此外,虽然这不是我们研究的重点,但与人类生活在一起的几种动物的基因组也显示出与作物驯化相关的相对较晚期的淀粉酶基因复制事件。未来的研究可能会揭示这些物种与人类在基因组结构变化和饮食转变方面的相似之处。——Joana L. Rocha and Runyang Nicolas Lou,美国加州大学伯克利分校
专家意见
作者利用泛基因组研究了人类群体中淀粉酶单倍型的多样性,这在以前是无法做到的。这是一个非常重要的基因组区域,因为与该区域相关的疾病证据存在冲突,这可能是由于该位点的复杂性所致。作者提出,如果我们能理解这一复杂性,也许能解决一些争议。——Ryan Layer,美国科罗拉多大学博尔德分校
论文背后
令我们感到最惊讶的发现之一是,在过去的1.2万年中,人类中几乎相同的淀粉酶单倍型结构反复出现。在从结构变异的淀粉酶基因两侧的序列构建的进化树中,我们原本期望相似的单倍型结构会紧密聚集在一起。但令人意外的是,进化树与单倍型结构之间的相关性很差,这让我们感到困惑。然而,从结构可变区域两侧的序列生成的树的结果非常相似。此外,我们还发现该位点的基因重组受到了抑制,基因重组通常会“打破”共同遗传的序列。所有这些证据都指向淀粉酶基因座结构变异速率很高,表明相似结构有多个独立的起源。这一发现也有助于解释为何在该基因座难以观察到典型的选择特征——它违背了传统选择扫描的许多主要假设。——J.L.R和R.N.L, 美国加州大学伯克利分校
编辑评价
淀粉酶帮助消化淀粉,人们一直怀疑新石器时代向农业社会过渡一定在这些酶的遗传位点上留下了选择的痕迹。然而,迄今为止尚未找到这样的信号。现代人类基因组的长读长序列和古人类基因组的随机测序使得该研究能够解析不同的具有复杂结构的单倍型,也确实在欧亚人的淀粉酶基因座上找到了最近的选择证据。——Michelle Trenkmann,《自然》高级编辑
以下为全文翻译
摘要
农业文明的出现引发了人类向着富含淀粉的饮食方式快速转变。淀粉酶基因促进淀粉的消化,并且在一些现代人群中观察到淀粉酶基因拷贝数的增加,这些群体的饮食中往往含有较多淀粉,尽管缺乏近期选择的证据。在本研究中,利用94份长读长单倍型基因座组装(来自47个个体)和约5,600名当代和古代人类的短读长测序数据,我们揭示了淀粉酶基因座结构变异的多样性和进化历史。我们发现,农业人口的淀粉酶基因拷贝数高于以渔猎或放牧为主的群体。我们识别出28种不同的淀粉酶单倍型结构,并证明几乎相同的结构在最近的人类历史中反复出现。AMY1和AMY2A基因各自经历了多次复制/删除事件,突变率高达单核苷酸多态性突变率的10,000倍以上,而AMY2B基因的复制则源自单一事件。通过基于泛基因组的方法,我们推断出数千名人类的单倍型结构,发现现代农业人口中广泛拷贝的单倍型频率更高。利用533份古人类基因组,我们发现包含拷贝的单倍型(基因拷贝数多于祖先单倍型)在过去12,000年中在欧亚大陆西部人群中迅速增加,表明存在正选择。总之,我们的研究突显了农业革命对人类基因组的潜在影响,以及结构变异在人类适应中的重要性。
背景介绍
饮食的变化在人体适应和进化中发挥了重要作用,影响了如乳糖耐受和多不饱和脂肪酸代谢等表型。最近人类饮食中最重要的变化之一是从狩猎采集社会向以农业为基础的生存方式的转变。最早的作物驯化可以追溯到约12,000年前的中东肥沃新月地区,这为新石器革命奠定了基础。农业随后迅速向西通过安纳托利亚半岛扩展至欧洲,约在8,500年前到达,并向东扩展至印度次大陆。然而,以农业为基础的生存方式转变在人类历史上独立发生了几次,今天人类摄入的大部分碳水化合物都来源于农业。
植物性饮食富含淀粉,哺乳动物通过α-淀粉酶将其分解为简单糖类。人类基因组包含位于同一基因座上的三个不同的淀粉酶基因:AMY1在唾液腺中特异性表达,而AMY2A和AMY2B则在胰腺中特异性表达。然而,长期以来人们已经意识到淀粉酶基因座在人类中显示出广泛的结构变异,所有三个基因都表现出拷贝数变异。事实上,参考基因组GRCh38中的单倍型包含三个串联复制的AMY1拷贝(有关淀粉酶基因命名惯例的详细信息见方法部分)。其他类人猿没有表现出拷贝数变异,每个基因仅有一个AMY1、AMY2A和AMY2B的拷贝。这三个淀粉酶基因是通过复制事件产生的,第一次发生在旧世界猴和类人猿的共同祖先中,第二次发生在类人猿的共同祖先中。这种单拷贝的祖先状态也在尼安德特人和丹尼索瓦人中被报告。AMY1拷贝数与人类唾液淀粉酶蛋白水平呈正相关,并且针对七个人类群体的分析发现,高淀粉饮食群体AMY1拷贝数增加。虽然有人提出这种基因扩张可能是从狩猎采集社会向农业社会转变的适应性响应,但在该位点上缺乏近期选择的证据。此外,后续分析发现AMY1拷贝数与体重指数可能存在关联,但未有确实证据支持,这突显了研究结构变异位点的挑战,这些基因座通常很难通过邻近的单核苷酸多态性(SNPs)来标记。另一个表征结构复杂位点的选择性信号的主要挑战是难以将拷贝数反映到单倍型上。此外,虽然人类参考基因组包含单一完整解析的淀粉酶单倍型,但尚不清楚不同拷贝数的单倍型的序列、结构和多样性。
结果
全球范围内的淀粉酶拷贝数多样性
虽然在人类淀粉酶基因座上,已记录到广泛的拷贝数变异,但对全球人口多样性的采样尚不完整。为探索该基因座的多样性,我们收集整理了4,292份来自多个来源的多样化的高覆盖度现代人基因组(本文使用的所有数据集信息见方法部分),并使用基于读长深度的方法(见方法部分;补充图1)估计147份人类群体中的二倍体拷贝数(图1a–c,扩展数据图1和补充表1,次大陆分组参考Mallick等人)。AMY1二倍体拷贝数估计范围为2到20,且在大洋洲、东亚和南亚的群体中最高。然而,在所有大陆亚群中均存在携带高AMY1拷贝数的个体。AMY2A(0–6个拷贝)在非洲群体中显示出最高的平均拷贝数,而在非洲以外的群体中,缺失现象更为普遍。AMY2B(2–7个拷贝)表现出高度的群体分层,拷贝在中亚/西伯利亚、东亚和大洋洲群体中几乎不存在。我们还评估了三个高覆盖度的尼安德特个体和一个丹尼索瓦个体,确认它们都处于祖先拷贝数状态(扩展数据图1)。因此,所有三个淀粉酶基因的拷贝数变异可能是人类特有的。
图1 全球人口淀粉酶拷贝数目变异图谱
尽管AMY1拷贝数与唾液蛋白水平显示出强正相关,但尚未评估胰腺淀粉酶基因表达与拷贝数之间的关系。通过分析GTEx数据,我们确认AMY2A和AMY2B的表达仅限于胰腺。然后我们对305个样本进行了二倍体拷贝数基因分型,这些样本的表达数据与高覆盖度基因组测序数据一起下载。AMY2A(0–5个拷贝)和AMY2B(2–5个拷贝)的拷贝数与基因表达水平显著正相关(P = 4.4 × 10−5 和P = 6.5 × 10−4,线性模型;扩展数据图2)。
关于淀粉酶基因座存在潜在选择的最有力证据来自七个高淀粉摄入与低淀粉摄入的现代人群的比较分析。我们在数据集中识别出来自33个群体的382名个体,这些群体传统上以农业、狩猎采集、捕鱼或牧业为基础的饮食方式为主(补充表2)。所有三个淀粉酶基因的拷贝数在农业生存方式的群体中高于渔猎和放牧群体,但仅在AMY1基因中表现出显著差异(图1d和补充图2;AMY1、AMY2A和AMY2B的P值分别为0.0019、0.016和0.051,Student’s t-test)。因此,这些结果证实了先前的研究,并表明胰腺淀粉酶基因的复制在淀粉丰富饮食的群体中也更为常见。
二十八种不同的单倍型结构
人类参考基因组(GRCh38)中的淀粉酶单倍型结构跨度约为200kb,由几个长的、几乎相同的片段重复组成。尽管通过原位杂交和光学图谱推断出其他几种单倍型的大致结构,但这些结构缺乏序列和结构的分辨率。然而,不同淀粉酶基因拷贝数之间的复杂关系(图2a)表明存在多种结构形式。
图2 基于泛基因组识别淀粉酶单倍型结构多样性
为了表征淀粉酶基因座的结构多样性,我们首先从人类泛基因组参考联盟(HPRC)最近测序的52份长读长、单倍型的二倍体基因组组装体(52个个体,既有104份分型后单倍型基因组)中衍生的94份淀粉酶单倍型中构建了一个最小化锚定的泛基因组图(MAP图),与GRCh38和T2T-CHM13参考序列一起分析(见方法;图2b)。MAP图捕捉了大规模的序列结构,顶点代表一组同源或旁系同源序列;因此,输入的单倍型可以表示为通过图的路径。接着我们对图进行了主束分解(principal bundle decomposition),它识别出个体单倍型反复遍历的序列(图2b中的彩色环路)。这些主束(principal bundle)代表基因座的各个重复单元。我们在淀粉酶图中确定了九个主束,分别对应于:包含淀粉酶基因重复的结构复杂区域两侧的独特序列(束0和束1)、跨越每个淀粉酶基因和AMY2Ap假基因的重复单元(束2、束3和束5)以及其他一些短的重复单元(图2c)。在35个个体的两个单倍型都被纳入图中时,基于短读长的二倍体基因型与单倍型拷贝数总和一致,突显了短读长基因型和长读长单倍型组装之间的协调性(见方法;图2d)。
总的来说,我们在淀粉酶基因座上确定了28种独特的单倍型结构(图2c和补充表3),其中只有2种此前已被完全测序和表征(黑猩猩和人类参考基因组单倍型)。该位点的结构可变区域(SVR)跨越所有淀粉酶基因,大小从约95kb到约471kb不等,所有情况下都从一个AMY2B拷贝开始,并以一个AMY1拷贝结束。为了更好地理解这些单倍型结构之间的关系,我们使用泛基因组图构建软件(PGGB)构建了一个泛基因组变异图(图2b)。与MAP图相比,该图允许在单倍型之间进行碱基水平的比较。利用该图,我们计算了所有单倍型结构之间的距离矩阵,并从这些关系中构建了一个NJ树(见方法;图2c)。该树突出显示了11个不同的结构簇,或“共识结构”,每个簇由独特的淀粉酶基因拷贝数组合定义(图2c,右侧,‘共识结构’的名称对应于AMY1、AMY2A或AMY2B基因的拷贝数;见图例了解详情)。具有相同共识结构的不同单倍型结构在重复序列的方向上存在很大差异,或者其组成仅有细微差别。其中一些共识结构对应于先前假设的大致结构;然而,这里描述了三种新的共识结构(H9、H3A2和H3A3B3)。在这些共识结构中,AMY1的拷贝数范围从1到9,未观察到拷贝6和拷贝8的状态,AMY2A的拷贝数范围从0到3,AMY2Ap的拷贝数范围从0到4,AMY2B的拷贝数范围从1到3。我们还评估了这些单倍型中可能破坏任何淀粉酶基因功能的突变。我们鉴定出了一种在高AMY1拷贝数的两个单倍型中共享的单碱基替换,该替换导致AMY1中的终止密码子提前出现,以及几种不同影响的错义突变(补充表4)。这些突变通常以低频率存在。由于该功能突变频率较低(约2%)且来源单一,我们在后续分析中并未明确考虑它。总体而言,这些结果揭示了淀粉酶基因座上多样性的广泛性和嵌套性质:不同单倍型可以拥有显著不同的三种基因拷贝数,并且拥有相同基因拷贝数的单倍型存在多种形式。
单倍型结构的进化
为了厘清所观察到的结构多样性的进化起源,我们着手探索它们出现时的SNP单倍型。我们利用了能够准确基因分型的SVR两侧的独特序列(束0和束1)。我们首先在3,395个不同的样本中量化了淀粉酶基因座周围的连锁不平衡(见方法)。令人惊讶的是,跨越SVR的SNP之间的连锁不平衡极高(GRCh38中大约相隔190-370kb;图3a和扩展数据图3a,b)。值得注意的是,所有主要大陆群体中,该区域的连锁不平衡比染色体1其余区域中类似间隔的SNP对高出7-20倍(图3b)。基于三联体的重组率估计也表明SVR区域的重组率降低(图3a,底部面板)。我们推测,这些异常高的连锁不平衡可能是由减数分裂期间包含不同结构(长度显著不同)的同源染色体之间的交叉互换受抑制所致。
图3 淀粉酶单倍型结构的进化历史
淀粉酶基因座的高连锁不平衡意味着,侧翼区域的进化历史是相关的复杂结构(SVR)的良好替代指标。因此,我们使用三种尼安德特人单倍型和一种丹尼索瓦人单倍型(均包含祖先结构单倍型)作为外群,从这些区块中构建了最大似然的溯组树(见方法;图3c,扩展数据图4a和补充图3)。利用估计的65万年前人类-尼安德特人分化时间对树进行了时间校准。通过标注该溯组树上不同的淀粉酶结构,揭示了大多数单倍型结构经历了反复进化,即相似甚至相同的基因排列结构在不同的单倍型背景下反复出现。仅少数单倍型结构例外,如包含AMY2B基因重复的单倍型,这些来源于一个单一的起始单倍型。
经时间校准的树进一步使我们能够对每个淀粉酶基因的拷贝数进行祖先状态重建,以量化每个基因发生重复或缺失的次数(图3d和扩展数据图4b及图5)。我们发现,现代人类的所有淀粉酶单倍型结构都来源于约27.9万年前的H3r单倍型。这表明,初始的重复事件——从祖先H1a单倍型到H3r——发生的时间远早于出非洲扩张(即超过27.9万年前)。我们确定自那时以来发生了26次独特的AMY1基因重复和24次缺失事件,对应的每代突变率(λ)为2.09 × 10⁻⁴。虽然这些估计可能受到罕见重组事件或其他未采样的重复/缺失事件的影响,但它们的数量级突显了该位点在最近进化中的异常变化,AMY1基因拷贝数的变化速率约为全基因组平均SNP突变率的1万倍。相比之下,AMY2A经历了较少的突变事件,仅发生了6次重复和2次缺失(λ = 3.07 × 10⁻⁵),最近一次AMY2A重复发生在距今9,400年前(图3c-e)。虽然AMY2A的重复发生了多次,但我们在树中发现了AMY2A基因完全缺失的单一起源,该事件发生在13,500至40,700年前,产生了H2A0单倍型(图3c,d,f)。仅识别出2次AMY2B重复(λ = 7.36 × 10⁻⁶),它们依次发生在同一个单倍型上,从而使我们能够解析其形成的逐步过程(图3c,d,g)。我们估计,第一次重复事件发生在46,000至107,800年前,随后是26,900至46,000年前的一次缺失,最终在4,100至19,500年前发生了第二次重复事件(图3g)。
尽管我们收集的94个跨越复杂SVR区域的单倍型组装提供了迄今为止最完整的淀粉酶进化图景,但它仍仅代表了全球遗传变异的很小一部分。为了更广泛地表征淀粉酶单倍型的进化,我们结合了完全的单倍型组装与3,395个不同人类基因组的SVR侧翼区域,进行了主成分分析(见方法部分了解详细信息;扩展数据图3c,图4c和图6及补充图4和图5)。如预期的那样,这一方法在全球范围内识别了额外的AMY1和AMY2A重复事件,并支持了具有完整AMY2A缺失的额外单倍型的存在(扩展数据图4c和图6及补充图4)。然而,我们未发现任何额外的AMY2B基因重复的证据,支持这些单倍型的单一起源。
基于泛基因组的单倍型去卷积
我们对淀粉酶SVR侧翼区域SNP多样性的分析还揭示,其相较于整条染色体的平均多样性呈显著减少态势存在(由π量化,低2-3倍;扩展数据图3d)。为了进一步研究这一特征是否表明选择性清除,我们进行了多项全基因组选择扫描分析(补充表5和补充图6-18)。我们发现,某些统计数据在特定人群中(如欧亚大陆西部人群、中亚和西伯利亚人及以传统农业为主的现代人群)倾向于在淀粉酶SVR侧翼区域较高(补充图7、9、12和14),与软性或不完全清除一致。然而,这些结果未超过全基因组经验分布的99.95%阈值,尽管这可能是由于SNP方法在检测快速进化、结构复杂的位点上存在局限性,因为相同的结构会在不同的单倍型背景下反复出现。
我们开发了一种直接识别短读长测序个体中存在的结构单倍型对的方法,而不是依赖邻近SNP作为淀粉酶结构变异的替代。简而言之,这种我们称为“单倍型去卷积”的方法,包括将短读长测序的基因组映射到泛基因组变异图上(图4a),并量化图中每个节点上的读长深度(n = 6,640个淀粉酶图节点)。然后将该读长深度的向量与通过相同图遍历的所有94个长读长单倍型组装对(即所有可能的基因型)生成的预计算向量进行比较。最后,我们推断短读长基因组的结构基因型为与短读长向量最匹配的长读长组装单倍型对(见方法)。我们使用四种独立的方法评估了该方法的准确性(了解详细信息见方法部分;扩展数据图7a)。总的来说,这些方法表明我们的单倍型去卷积方法稳健且准确度约为95%,其局限主要在于参考泛基因组的完整性。
图4 基于解卷积方法从短读长测序数据中推测复杂的单倍型结构
我们使用单倍型去卷积来估算全球和大陆亚群的淀粉酶共识结构等位基因频率,共覆盖7,188个单倍型(图4b和补充表6和7)。参考单倍型H3r是全球最常见的单倍型;然而,某些单倍型在不同人群中表现出显著的种群分化。H5单倍型在东亚人群中是最常见的,而祖先单倍型H1a在东亚和大洋洲人群中则表现出较少的代表性。高拷贝数的H9单倍型在非洲、欧亚大陆西部和南亚人群中几乎不存在,而在美洲、东亚、以及中亚和西伯利亚人群中的频率为1%至3%。含有AMY2B基因重复的单倍型(即H2A2B2、H3A3B3和H4A2B2)在东亚和中亚人群基本不存在,这解释了我们之前观察到的这些全球人群中缺乏AMY2B重复基因型的现象(图1c),并与这些单倍型的单一来源相一致。
接下来,我们将现代人群中以农业为主的群体与以狩猎采集、捕鱼或畜牧为主的群体进行了相对的单倍型频率比较(图4c)。农业群体与非农业群体显著不同(P=0.011,卡方检验),并富含较高AMY1拷贝数的单倍型,包括H5、H7和H9单倍型,以及具有较高AMY2A和AMY2B拷贝数的单倍型(H4A2B2和H2A2B2)。相比之下,以捕鱼、狩猎或畜牧为主的群体则富含参考单倍型H3r、缺失单倍型H2A0和祖先单倍型H1a。这些结果表明,现代以农业为主的群体中富含淀粉酶基因拷贝数增加的单倍型。
西亚人群中的近期选择
大约12,000年前在肥沃新月地区农业的发展,推动了西亚人群饮食和生活方式的快速转变。目前大多数古基因组采样集中在欧洲,这使我们能够深入探索这些人群在农业出现后,淀粉酶基因座的进化历程。为了揭示这一时期内淀粉酶基因座的遗传多样性变化,我们收集了533份最近生成的西亚古人类基因组,这些基因组的时间跨度大约从12,000年到大约250年(图5a,补充表8和补充图19)。我们从这些古代个体中估算了淀粉酶基因的拷贝数,并与现代欧洲人群的拷贝数进行了比较(扩展数据图8a,补充表1和补充图20)。总体而言,所有淀粉酶基因的拷贝数在古代狩猎采集人群中较低,而在青铜时代至现代的欧洲人群中则较高,尽管由于某些古代人群的样本量有限,这些比较的统计显著性各不相同(方差分析后进行Tukey检验;扩展数据图8a和补充表9)。接下来,我们评估了过去大约12,000年内每个淀粉酶基因的总拷贝数随时间的变化(图5b)。在所有三种情况下,我们观察到总拷贝数在过去约12,000年内显著增加(AMY1:P=1.1×10⁻⁶,AMY2A:P=1.6×10⁻⁶,AMY2B:P=0.0032,线性模型)。AMY1的总拷贝数在此期间平均增加了大约2.9个,而AMY2A和AMY2B分别增加了平均0.4和0.1个拷贝。这些结果提示该基因座在增加每个淀粉酶基因拷贝数上存在定向选择。
图5 在欧亚大陆西部人群中存在近期的淀粉酶基因座正选择
接下来,我们将单倍型解卷积方法应用于这些古代基因组,以推断近代时间内淀粉酶单倍型结构频率的变化。模拟确认了该方法即使在低覆盖度的古代基因组上也具有很高的准确性(参见方法;扩展数据图7b)。此外,我们保守地选择了533名个体中单倍型分配可信度最高的288名(参见方法部分;补充表6和补充图21和22)。我们发现六个单倍型在现代或古代西亚人群中具有显著频率(超过1%),包括包含三个功能性淀粉酶基因的H1a和H2A0(AMY2A缺失)单倍型,以及包含五到九个淀粉酶基因拷贝的H3r、H5、H7和H4A2B2单倍型(图5c和补充图23)。通过多项逻辑回归模型模拟每个单倍型的频率轨迹,我们发现祖先单倍型H1a和H2A0的频率在过去大约12,000年中显著下降,从约0.88的频率降至现代的约0.14(图5c、d插图,扩展数据图8b和补充图22和23)。相比之下,包含重复基因的单倍型(具有五个或更多淀粉酶基因拷贝,与祖先的三个拷贝相比;注意未观察到含有四个拷贝的单倍型)在此期间频率增加了超过七倍(从约0.12增至约0.86)。
我们使用了三种互补的方法来测试正向选择是否能够解释重复单倍型频率的显著上升(参见方法中的模型参数和假设)。首先,我们使用了假设恒定人口规模和选择系数(ApproxWF31)的贝叶斯方法。选择系数(s)的后验分布支持正向选择(P<1×10⁻⁶,经验P值),平均选择系数为sdup=0.022(图5d)。接着,我们使用了允许sdup随时间变化的bmws方法。结果显示,在大约12–9千年前,选择压力最强,sdup接近0.06(图5e)。随后,选择显著减弱,到近代趋于0(平均sdup=0.027;图5e)。最后,我们采用了基于Kerner等人修改并调整后的近似贝叶斯计算方法,以考虑shape等位基因频率随时间变化的重要人口因素(例如人口结构、混合事件和人口增长;参见方法)。sdup的后验分布中心值为0.0175,并且与0没有重叠,而选择开始时间估计为约9千年前(图5f和补充图24)。此外,在进行的中性模拟中(即sdup=0),没有一个展示的等位基因频率增加比实际数据更高(图5g和补充图25)。这些结果共同表明,在农业传播后,西亚人群的淀粉酶位点存在对重复单倍型的正向选择。
讨论
作物的驯化和随后的农业兴起彻底改变了人类的社会结构、生活方式和饮食习惯。已有多项研究识别出这一转变在古代和现代欧亚大陆西部人群基因组中的进化特征。然而,尽管此前假设淀粉酶基因座同样因这一转变而受到选择压力,但迄今为止尚未检测到近期正向选择的信号。在本研究中,我们利用长读长组装技术,对淀粉酶基因座的复杂单倍型结构进行了迄今为止最高分辨率的表征,揭示了短读长测序技术难以解析的结构和序列复杂性(例如,补充图26)。此外,这些长读长单倍型还提供了此前难以获得的与这些复杂结构相关的侧翼SNP信息。通过这些信息,我们得以构建溯祖树,揭示了在人类历史上该位点快速且多次发生的重复和缺失事件。特别是,我们发现这些事件大部分发生在过去约50,000年内,因此仅能通过侧翼区域中的稀有突变标记。因此,该区域的广泛同源现象和高突变率使得侧翼SNP在经典的选择扫描测试中成为不良的标记,这可能解释了先前检测选择失败的原因。最后,我们利用长读长组装技术提高了现有短读长数据的实用性,构建了淀粉酶基因座的泛基因组图谱,并据此推断短读长测序个体的单倍型结构。这种基于图谱的方法称为单倍型解卷积,解锁了此前短读长测序无法访问的区域,使其在现代和古代数据集中重新得以分析。
通过我们的单倍型解卷积方法,我们能够自信地重建288个古代样本在淀粉酶位点的单倍型结构。我们发现,携带重复淀粉酶基因的单倍型在过去12,000年间频率增加了七倍。我们注意到,我们的分析受限于欧亚大陆西部古代人群基因组中高质量样本的相对较低数量和不均匀的采样分布,这些样本适合单倍型分配。我们用于检测选择的多种方法也依赖于各种模型假设和基因分型的准确性。尽管如此,我们提供了多条证据线(图1d,4c和5b–g),一致支持欧亚大陆西部人群在淀粉酶位点的近期选择,这可能与农业的兴起有关。
人类适应饮食的最经典例子之一是乳糖耐受的进化(尽管关于该基因座选择的潜在复杂性,ref, 38 & 39)。我们对sdup的估计值与多个研究中报道的MCM6/LCT位点s估计值的量级相当。然而,淀粉酶1(AMY1)拷贝数的增加也与不良的口腔健康结果相关(例如,龋齿),突显了潜在的进化权衡,这可能导致与其他饮食相关位点(如LCT)不同的选择动力学。淀粉酶基因座中的重复突变和同源现象进一步增加了其进化复杂性,与由点突变驱动的位点形成对比。我们发现,淀粉酶基因重复/缺失的突变率大约是平均SNP突变率的10,000倍,类似于短串联重复序列。这与最近描述的Y染色体区域放大结构变异的突变率相似。在这两种情况下,位点的重复结构可能使其通过非等位同源重组(在同一染色单体或姐妹染色单体之间的长串联序列之间发生)或非交叉基因转换形成新的结构变异。因此,即使在快速、反复的结构变化下,连锁不平衡仍然能够在该位点保持。
另一个有趣的类比是MCM6/LCT和淀粉酶基因座在不同人群中独立进化出消化牛奶的能力。同样,农业社会也在人类历史上多次独立出现。在此,我们不仅展示了欧亚大陆西部人群中存在正向选择的证据,还发现携带更高淀粉酶拷贝数的单倍型在传统农业生计的其他多个世界范围内的人群中也更为常见。这些结果表明,淀粉酶拷贝数的增加可能在人类历史上发生了多次选择,与农业的多次独立起源同步发生。由于来自欧洲以外地区的古代样本稀缺,我们无法推断与其他农业起源相关的潜在选择。需要更广泛的多样化的古代基因组采样和现代长读长基因组组装,以进一步验证这一假设。伴随淀粉为主食饮食的过渡,淀粉酶基因的扩张似乎也在其他几种与人类共同生活的动物中独立发生,包括狗、猪、老鼠和小鼠,突显了该位点在人类农业革命中对其他物种基因组和进化的深远影响。
Cite this article
Bolognini, D., Halgren, A., Lou, R.N. et al. Recurrent evolution and selection shape structural diversity at the amylase locus. Nature (2024). https://doi.org/10.1038/s41586-024-07911-1