Science vs Nature | 淀粉酶基因拷贝数目变异与农业社会的关联研究-竞争激烈

创业   2024-10-18 14:38   云南  



自农业文明出现以来,人类进化出更容易消化淀粉的能力

人类基因组中编码淀粉酶的基因区域显示出广泛的结构多样性。淀粉酶基因在历史上经历了多次复制和删除,农业社会出现后,包含淀粉酶基因拷贝的结构通过自然选择得到了优先保留。

单粒小麦是最早驯化的作物之一,可能促进了淀粉酶基因的选择。Bob Gibbons /FLPA/Minden Pictures

如果嚼法棍或甜美的山芋给你带来能量,那你可以感谢数十年前在我们祖先中发生的偶然基因突变。这是两项研究的一个主要发现——一项上个月发表在《自然》杂志上,另一项今天在《科学》杂志上发表——它们追溯了帮助将淀粉分解为糖的基因在我们口腔中的进化历史。


注:发表在Nature杂志上关于淀粉酶基因复制与农业社会关联的研究见推文👇


大多数现代人携带多个唾液淀粉酶基因拷贝,称为AMY1。一些通常摄入大量淀粉(无论是谷物还是块茎)的人群,甚至拥有更多的拷贝,这使他们的淀粉酶的生产能力增强,从而能从含淀粉食物中获取更多的热量。但我们的祖先何时首次获得这些拷贝,以及为什么这个基因如此容易发生重复,仍然是一个谜。

《自然》和《科学》两篇论文在基因首次重复的预估时间上相差数十万年,但都详细追踪了该基因后来的进化,揭示了农业的兴起与某些人群中AMY1拷贝数量的显著增加之间的关系。这两项研究还揭示了该基因为何如此容易复制的机制。

“这是非常优雅的研究,”哈佛大学的生物分子考古学家克里斯蒂娜·瓦里纳(Christina Warinner)表示,“它在机制层面上详细阐述了这一过程是如何针对淀粉酶基因发生的,对进化的一般性具有更广泛的意义。”瓦里纳发现了包括尼安德特人在内的古人类曾食用淀粉的证据。

2007年,生物人类学家乔治·佩里(George Perry),当时他还在亚利桑那州立大学,与同事们发现了大量摄入淀粉食物的人群与AMY1基因拷贝数量之间的联系。佩里现在在宾夕法尼亚州立大学,他假设,当人类开始种植小麦、红薯等淀粉类作物时,拥有更多AMY1拷贝的人能够从每一口咀嚼中吸收更多富含能量的糖,从而他们拥有的孩子也更多。

但当时的基因组技术不足以证实这一假设。科学家只能一次性测序小片段DNA,因而对由多个基因拷贝组成的复杂DNA序列无能为力。“我使用的方法非常粗糙,”佩里回忆道。“这些[新]论文能够更深入地探讨这个问题。”

如今,研究人员可以测序更大块的DNA,从而揭示基因在染色体上的多个拷贝的位置。上个月发表在《自然》的论文,由加州大学伯克利分校的综合生物学家彼得·苏德曼(Peter Sudmant)领导的团队开展,他们的论文揭示,全球人类每条染色体上最多有11个AMY1拷贝,以及在产生胰腺淀粉酶的另外两个基因其中任何一个(AMY2AAMY2B),在每条染色体上有0到4个拷贝。该团队还研究了三名尼安德特人和一名丹尼索瓦人的古基因组,发现这些已灭绝的人类近亲并没有多个基因拷贝的迹象。   

随后,苏德曼和同事分析了519个生活在12000年前的古代欧亚人的基因组,这一时期正是农业在该大陆兴起之际。5000年前的AMY1基因的平均拷贝数量从四个增加到七个以上,而至少有一个重复的唾液或胰腺淀粉酶基因的人群比例也在显著上升。

通过计算重复基因周围DNA区域的微小差异,以确定它们分离的时间,苏德曼及其同事构建了唾液淀粉酶基因的家谱,并对其分支进行了年代测定。他们估计该基因至少在279,000年前首次重复,随后经历了多次重复和删除,导致现代人出现了多样的拷贝数量模式。“在我们人类离开非洲之前,淀粉酶的拷贝数量已经较高,”苏德曼说。“这些拷贝在淀粉农业饮食兴起时得到了选择。”

今天,在《科学》杂志上,纽约州立大学水牛城分校的古人类基因组学家奥默·戈克库门(Omer Gokcumen)领导的团队报告了过去4000年。欧洲农民发生了类似的AMY1拷贝的激增,确认了与农业的潜在联系。但他们还发现,在六个尼安德特人基因组中的三个以及一个丹尼索瓦人基因组中也有AMY1的重复。他们得出的结论是,该基因的首次重复发生在比苏德曼团队估计的更早时间:在现代人与这些近亲分化之前,有些人认为分化发生在800,000年前。但研究人员警告说,最初的重复可能是在现代人中发生的,这导致AMY1在单条染色体上有三个拷贝。尼安德特人和丹尼索瓦人可能通过与现代人杂交获取了这一DNA片段,或者独立演化出了多个拷贝。

苏德曼实验室的博士后鲁扬·尼古拉斯·刘(Runyang Nicolas Lou)表示,他们的团队只分析了已完全测序的古基因组,以排除现代DNA的污染。“这是我们结果不同的原因,”他说。   

戈克库门的团队还详细阐述了AMY1如何频繁地自我复制。他们报告称,一旦初始的三拷贝版本(或单倍型)出现,染色体上基因拷贝的排列使得两个不同拷贝的DNA能够交叉重组并重复,从而复制(有时删除)两个基因拷贝。“一旦我们拥有了三拷贝的单倍型,这就成了该位点进化的垫脚石——我们可以向上增加两个拷贝,或者向下减少两个拷贝,”戈克库门实验室的博士后兼论文共同作者查里克利亚·卡拉乔吉乌(Charikleia Karageorgiou)解释道。“从那时起,一切都改变了。”

耶鲁大学的遗传学家迪恩多·马西拉尼(Diyendo Massilani)表示,这些“非常令人兴奋”的论文应该促使古DNA研究者更多地思考基因组中的结构变异如何影响选择,而不仅仅是基因之间的差异。

瓦里纳认为,类似的机制可以解释其他基因拷贝数变异的实例,例如亨廷顿疾病。而理解AMY1的进化可能有助于解决其他淀粉酶的谜题。“这里仍然有很多未知,但我们终于比以前多了更多这个难题的线索,”她说。



doi: 10.1126/science.z4239wg

关于作者

迈克尔·普赖斯(Michael Price)

迈克尔·普赖斯是《科学》杂志的副新闻编辑,主要报道人类学、考古学和人类进化方面的内容。



以下为Science论文原文翻译

摘要

先前的研究表明,人类唾液淀粉酶基因AMY1的拷贝数与富含淀粉的饮食有关。然而,缺乏准确的序列解析的单倍型变异图谱,限制了进化分析。我们在98名现代人中识别出30种结构上不同的单倍型,显示AMY1拷贝的编码序列正在经历负选择。这些单倍型在古人类基因组中的分析表明,其最早可追溯至80万年前的一个共同三拷贝单倍型,通过重复的非等位同源重组产生了快速演变的重排机制。此外,过去4000年间,拥有超过三个AMY1拷贝的单倍型在欧洲农民中的频率显著增加,可能是对淀粉消化能力提高的适应性反应。

背景介绍

淀粉酶基因座的拷贝数变异常常与人类健康和适应性相关联。因此,这一结构上可变的基因座成为研究基因重复生物学的主要目标。淀粉酶基因有两种类型,分别是AMY1AMY2,报告显示这两种基因分别在唾液腺和胰腺中表达。两个基因编码淀粉酶,这种酶将聚合淀粉分解为简单的糖分子,这是以淀粉为食的物种进行消化的重要过程。研究表明,富含淀粉饮食的哺乳动物经历了从祖先的胰腺AMY2类基因独立的淀粉酶基因重复的激增。大猩猩特有的重复导致了唾液腺AMY1基因的形成,自那以后,该基因演化出不同寻常的拷贝数变异,范围为每个二倍体细胞有2到17个拷贝。这种变异在高淀粉消费的人群中尤为显著,尤其是在有农业历史的群体中。这些进化见解表明,淀粉酶基因座的拷贝数变异可能在塑造对淀粉饮食的代谢反应中发挥适应性作用,包括存在能分解抗淀粉的微生物。

考虑到其适应性和潜在的功能作用,AMY1基因的重复与约10,000年前农业的出现有关。然而,缺乏核苷酸级别的分辨率使得关于AMY1基因重复的时机和功能重要性与富含淀粉的饮食及人类进化之间存在分歧。为了解决这一问题,我们在不同人群中抽样的98个个体中,以核苷酸级别的分辨率解析了该基因座,使用了光学基因组和长读长测序技术。随后,该基因座核苷酸级别的分辨率的单倍型使我们能够对古人类和古人类基因组进行进化遗传分析,以调查农业背景下AMY1基因重复的时间节点。   

结果

人类淀粉酶基因座的结构单倍型

人类基因组中的淀粉酶基因座是位于第1号染色体上的一个约212.5 kb的区域(GRCh38; chr1:103,554,220–103,766,732),其中包含AMY2BAMY2A、AMY1A、AMY1BAMY1C基因(图1A)。该基因座主要由序列相似度超过99%的片段重复组成,这使得使用短读长测序进行准确组装变得复杂(图S1)。利用片段重复的序列相似性以及来自GRCh38参考组装的光学基因组数据的标记模式,我们定义了六个与淀粉酶基因重叠的不同淀粉酶片段,使用彩色箭头表示(图1A和表S1)。通过光学基因组技术,该方法已被证明能够解析类似的复杂区域(13–15),我们为98个个体(n = 196个取样等位基因(即单倍体样本大小))构建了单倍型解析的二倍体组装,并利用淀粉酶片段的拷贝数和方向对该位点进行了表征(图1A)。这种方法使我们能够识别出52种不同的淀粉酶单倍型(图S2,A和B,以及表S3),其中7种为之前报道的(图S3)。这些单倍型根据淀粉酶基因的拷贝数进行分类,遵循已建立的命名法;HXAYBZ:其中HX代表AMY1,AY代表AMY2A,BZ代表AMY2B的拷贝数,标上“a”和“r”的上标分别表示祖先和参考单倍型(图S4)。我们随后定义了30种高置信度的单倍型(来自81个个体中观察到的117个等位基因),这些单倍型通过基于长读长测序的de novo组装得到了独立支持(图1B)(16)。这代表了在人群规模上对淀粉酶基因座首次从核苷酸级别分辨率进行重建。   

图1. 本研究从现今人类中识别出的淀粉酶结构单倍型

淀粉酶单倍型的长度从111 kb(H1a.1和H1a.2)到402 kb(H7.1)(图1B),捕获了那些在结构上与GRCh38(H3r.1)和T2T-chm13(H7.3)参考组装相同的单倍型(图1A)。四个单倍型,H1a.1(n = 20/117)、H3r.1(n = 18/117)、H3r.2(n = 22/117)和H3r.4(n = 21/117),被分类为常见单倍型,每个单倍型在本研究的人群中的等位基因频率均超过5%。这四种常见单倍型基因座了本研究中约70%淀粉酶单倍型(n = 81/117)。尽管我们的样本量有限,但我们发现这四种常见单倍型在所有大陆地区均存在(图1C和图S5)。此外,AMY1的拷贝数变异没有表现出明显的地理特异性(p值 = 0.4312,Kruskal-Wallis秩和检验)。   

在30种“高置信度”的淀粉酶单倍型中,我们识别出19种(63%)为单拷贝,这些单倍型在我们的数据集中仅出现一次。为了推断淀粉酶基因座的相对突变率,我们将此数量与串联重复进行比较。为了避免潜在的偏倚,我们使用了在串联重复数据库(EnsembleTR)中和我们的数据集中均存在33个个体。只有21种淀粉酶单倍型出现在这33个个体中。为了确保分析在不同基因组区域间的一致性,我们仅考虑在人群中有恰好21个等位基因匹配串联重复基因座。这得到了719个串联重复位点(图S6)。我们发现,淀粉酶基因座的单拷贝单倍型比例显著高于719个串联重复位点的全基因组平均值(观察到的经验百分位 = 0.017,图1D)。这一观察结果对理解该基因座的突变率具有重要意义,因为等位基因频率谱和单拷贝比例由突变率和遗传漂变决定(18)。通过使用相同的个体并匹配我们比较中的不同单倍型数量,我们控制了人口偏倚,并为淀粉酶基因座的突变率提供了相对估计。考虑到短串联重复的突变率低至10^-8(类似于单核苷酸变异突变率),在某些情况下,每个位点每代的突变率高达10^-2(19),我们的分析涵盖了基因组中发现的所有突变率范围。我们承认,理想情况下的比较应涉及其他淀粉酶基因座,这些基因座表现出类似的突变机制和结构变异水平,并且一旦类似的数据库可用时,通过可比的方法进行解析。当我们对已知的复杂3q29位点重复进行类似的分析时,该位点以片段重复为主,且具有高水平的结构变异,并通过类似的方法解析,我们发现了11种(50%)单拷贝单倍型(图S7)。因此,淀粉酶基因座的突变速率高于典型的结构变异热点和98.3%的所分析的串联重复。

为了了解我们的研究中捕获的淀粉酶单倍型与人群中存在的单倍型的程度,我们对98个样本进行了稀疏分析。我们识别出所有频率≥5%的常见单倍型(图S8)和85%的所有单倍型(图1E和图S9)。

强烈的负选择限制了淀粉酶基因拷贝的功能变异

为了系统评估对淀粉酶基因编码序列的选择压力,我们检查了与我们高置信度淀粉酶单倍型(117个等位基因中的30个单倍型)相关的蛋白质编码序列变异程度。基因注释预测在117个等位基因中存在582个不同的完整蛋白质编码淀粉酶基因拷贝,我们通过对18个随机选择的个体进行微滴数字PCR实验验证了这些预测(R² = 0.94;图S10A和表S4、S5)。对编码序列系统发育的重建显示,所有人类淀粉酶基因拷贝可以明确分为三种不同类型:AMY2B、AMY2AAMY1(BP value = 96%;图2A和图S11)。我们发现,AMY2B、AMY2AAMY1基因分别具有23、23和36个特有的固定编码序列变异,导致各自的基因特异性氨基酸差异为6、11和19(表S6)。基于编码序列的比对,我们使用codeml估计了同义和非同义置换(dN/dS)比率,结果未发现任何淀粉酶基因类型受到谱系特异性选择压力的证据(FDR调整后的p值来自卡方检验 > 0.05;表S7)。相反,所有淀粉酶基因类型都显示出显著的负选择特征(FDR调整后的p值来自卡方检验 < 0.05;图2A和表S7)。这些观察结果表明,负选择(dN/dS比率 < 1)作用于保持淀粉酶基因拷贝的氨基酸序列,无论是在同一类型内还是在三种淀粉酶基因类型之间。值得注意的是,我们在第211位和366位(访问号:P0DUB6)处识别了两个氨基酸变异,这可能影响功能并具有生物医学意义(图2B,图S12和表S8)。   

图2. 淀粉酶编码序列中的变异及对三种淀粉酶基因的负选择

我们的基因注释编码序列数据覆盖582个完整的淀粉酶基因拷贝,并确认了AMY1、AMY2AAMY2B基因之间的明确差异,这对于区分这些基因在不同组织中的表达至关重要。根据现有数据门户网站,如基因型-组织表达和人类蛋白质图谱,AMY2AAMY2B主要在胰腺表达,并在脂肪和脑组织中有一定程度的表达,而AMY1基因主要在腮腺唾液腺中表达(图S13)。这些观察结果与AMY1在大猩猩祖先中首次出现并导致在腮腺组织中获得表达的观点一致。此外,后续的AMY1基因重复在人的谱系中似乎影响了腮腺中淀粉酶的剂量。在本研究中识别的单倍型中,我们发现了110个淀粉酶假基因,并显示它们共享来自AMY2A基因的祖先不完全基因重复的单一系统发育起源。因此,AMY2A的假基因化更可能是由于单一突变事件,而不是约束的丧失和新型失去功能变异的重复发生。   

AMY1基因拷贝数的演变

我们显示所有人类淀粉酶基因拷贝可以稳健地分为三种不同类型:AMY2B、AMY2AAMY1。然而,为了特别研究唾液腺AMY1基因的拷贝数演变,我们需要识别在淀粉酶基因座中最具有系统发育信息的序列。为此,我们系统地评估了117个等位基因的变异,通过比对序列并为每个淀粉酶片段识别了共识序列(图S15,A和B)。我们在AMY1片段内识别了一个区间(22,850到26,730 bp)(22),在此区间内,所有观察到的AMY1片段(n = 337)可以系统发育地分为三个不同的簇:AMY1A(n = 124)、AMY1B(n = 99)和AMY1C(n = 114)(图S15D)。这些簇对应于GRCh38参考组装中表示的片段。此外,黑猩猩(panTro6)和大猩猩(gorGor6)参考基因组各仅包含一个AMY1C样片段。尽管这些单倍型在结构上相似,但我们发现非人灵长类的序列与人类H1a.1单倍型的序列显著分开(图S16和S17)。这些发现表明,人类与黑猩猩的共同祖先拥有一个单一的AMY1C样片段,而AMY1AAMY1B片段仅在人类谱系中进化(图S17)。值得注意的是,倭黑猩猩参考基因组(panPan3)包含两个AMY1片段:一个是祖先型的,另一个是通过共线性和系统发育分析确定的独立的倭黑猩猩特有复制(图S16和S17)。其中一个复制很可能是非功能性的,因为先前报道的编码序列受到干扰,这一发现得到了最新注释的支持(RS_2024_02/NHGRI_mPanPan1-v2.0_pri)。

为了进一步理解AMY1基因拷贝数的演变,我们对最常见的单倍型H3r.1和H3r.2中的所有AMY1片段进行了比对,这些单倍型包含所有三种AMY1片段类型。基于这些比对的两棵独立的贝叶斯系统发育树表明,AMY1B片段大约在140到270千年前(KYA)从AMY1C片段演化而来,随后AMY1A约在120到240 KYA从AMY1B片段重复(图S18和表S9)。基因转换在GC富集的片段复制之间的存在使得基于分子钟的时间估计变得复杂,并且这是在淀粉酶基因座中的一种已知现象。考虑到AMY1片段之间的基因转换,实际的复制时间预计要早于上述估计。一些研究使用临近区域的单核苷酸变异推测该基因座的系统发育历史,提出人类淀粉酶基因座的汇合日期约为279 KYA和450 KYA(11, 12)。然而,如前所述,我们发现临近的单核苷酸变异与淀粉酶单倍型之间的连锁不平衡程度较低(例如,H1a.1,平均:R² = ~0.26,中位数R² = ~0.03)(图S19),这使得使用临近区域估计AMY1复制的时间变得复杂。因此,我们的估计避免了这些复杂性,并支持初始AMY1基因复制显著早于迁出非洲的结论,至少提前了30 KYA(表S9)。   

古人类基因组中AMY1拷贝数变异

一种估计基因复制相对时间的补充方法是分析古人类和古人类基因组中独特k-mer的reads深度。我们首先使用GeneToCN算法在116个现代人类基因组的短reads序列数据上测试k-mer方法,以估计AMY1、AMY2AAMY2B基因的拷贝数(表S5)。值得注意的是,k-mer方法在32个个体中实现了R² > 0.99的相关性,这些个体的淀粉酶基因座均已重构(图S10B)。我们在101个样本(上述116个个体的子集)中测试了k-mer方法,并进行了微滴数字PCR验证(R² = 0.95;图S10A)。这些结果表明,GeneToCN的估计与微滴数字PCR的估计一致,是在短reads全基因组测序数据集中估计AMY1基因拷贝数的可行选择。

接下来,我们计划使用两种方法估计八个古人类基因组中的AMY1基因拷贝数:(1)上述验证的k-mer方法,以及(2)独立的reads深度分析(表S10)。考虑到这些基因组中的全基因组覆盖度各不相同,我们需要进行缩减采样分析,以经验性地确定1X和5X全基因组覆盖度分别在85%和95%以上的准确性(图S20和表S11)。在每个样本中控制GC偏倚和淀粉酶基因座内的覆盖度后,我们能够可靠地估计八个古人类基因组的AMY1拷贝数(表S10)。我们发现,在两具东部和一具西部尼安德特人以及一具丹尼索瓦人的基因组中,AMY1拷贝数增加(图3A,图S21和表S10)。这些基因组包括阿尔泰尼安德特人(2.6拷贝)、丹尼索瓦2号(8拷贝)、GoyetQ56-1(5.0拷贝)和Mezmaiskaya 2(4.7拷贝)。先前对阿尔泰尼安德特人和丹尼索瓦人基因组的reads深度分析未发现AMY1基因拷贝数增加的证据。通过结合未曾分析过AMY1拷贝数的其他古人类基因组(总计:n = 8),我们现在在四具古人类中检测到了AMY1基因复制的特征信号。   

图3. 淀粉酶基因重复与农业历史

AMY1在这些古人类中的复制可以通过四种情景进行推测:
首先,由于淀粉酶基因座的复杂性以及古人类基因组测序中固有的复杂性,可能存在技术偏差影响我们的检测。然而,使用两种不同的方法和在多个基因组中观察到的复制现象增强了我们结果的可信度。
第二,古人类可能从现代人类中获得了基因流,这可能解释了它们基因组中复制的存在,特别是考虑到尼安德特人和现代人类之间复杂的相互作用和基因流动事件。Li及其同事最近开发的方法将对更正式地测试尼安德特人之间的基因流及其对观察到的AMY1复制的潜在来源具有重要价值。然而,当前的保守过滤方法最终过滤了约89%的淀粉酶基因座中的碱基。因此,即使存在特定的基因流信号,这些信号也可能会被隐藏。
第三,复制可能在古人类谱系中独立演化。然而,我们认为在不到一百万年的时间内,出现两次独立复制(一次在人类中,另一次在古人类中)是不太可能的,因为来自单一AMY1拷贝单倍型的初始复制在非人类灵长类中是罕见的(图S16)。

第四,以及我们认为最可信的情景是,AMY1基因在古人类和尼安德特人/丹尼索瓦人分化(约800 KYA(33))之前可能已经存在拷贝数变异,尽管与现代人类相比,其变异程度较有限。总体而言,我们的结果表明了AMY1复制的复杂历史,未来随着更多高覆盖度的古人类基因组的可用,这一历史将得到进一步审查。   

AMY1基因拷贝数在过去4,000年在欧洲农民中增加

为了探索自约60,000年前迁出非洲以来AMY1拷贝数的变化频率,我们分析了68个古人类基因组(表S12)。所分析的最古老基因组是来自西伯利亚的乌斯季-伊希姆样本(约45,000年前),其每个二倍体细胞中含有六个AMY1基因拷贝。类似地,来自欧洲的最古老现代人类样本是罗马尼亚的Peştera Muierii样本(约34,000年前),其每个二倍体细胞中含有八个AMY1基因拷贝。这些拷贝数表明,早在约45,000年前,较高的AMY1基因拷贝数(此处定义为≥6个拷贝)已在欧亚大陆传播(图3B)。

接下来,我们将古人类基因组与农业发展联系起来分析,发现从考古农业背景中发掘出的样本的AMY1基因拷贝数显著高于狩猎采集背景中的样本(p值=0.023;图S22)。为了进一步探讨这一趋势,我们考察了来自欧洲的古人类基因组,在这里我们有清晰的新石器时代过渡时间线。具体而言,欧洲的新石器时代过渡始于约9,000年前来自安纳托利亚农民的文化和遗传涌入,并在约5,000年前传播至西北欧,而小型孤立的狩猎采集群体则至少持续到4,000年前。我们的分析涵盖了这一过渡的地理和时间跨度。我们数据集中来自农业背景的最古老样本是来自安纳托利亚的AKT16,日期为8,547年前,而来自狩猎采集背景的最年轻样本是来自爱尔兰的SRA62,日期为5,215年前。基于各自研究中描述的样本日期和考古背景(表S12),我们将古欧洲人类基因组分为以下几个时期以便可视化:i)前农业期(>9,000年前),所有样本均来自狩猎采集者;ii)农业过渡期(9,000至4,000年前),代表了欧洲向农业过渡的漫长时期,其中狩猎采集者和农业群体共存;iii)后农业期,在此期间,整个欧洲完全转变为农业生活方式(<4,000年前)。我们发现,前农业时期的基因组中已经含有4到8个AMY1拷贝(表S12)。我们还观察到在这些时期中AMY1拷贝数的一致且显著增加(p值=0.005;图3C和D),并发现AMY2A基因也有类似的趋势(图3C)以及非欧洲样本(图S23和S24)。这些发现支持了在过去4,000年,具有更高AMY1基因拷贝数的淀粉酶单倍型频率增加的观点。在“农业过渡”时期,我们未发现农业背景样本与狩猎采集背景样本之间的AMY1拷贝数存在显著差异。   

综合来看,这些发现与中性进化或弱适应力的观点一致,可能是由于前农业时期对食品加工技术的尝试,例如利用野生谷物生产面粉,保留了前农业欧洲广泛的AMY1拷贝数变异。随着欧洲过渡到农业生活方式,淀粉产量的逐渐增加可能在高拷贝的单倍型上施加了选择压力,从而解释了后农业时期欧洲人群中AMY1拷贝数的增加。考虑到AMY1拷贝数如何赋予适应性优势的确切机制尚不清楚,而即使在农业和狩猎采集群体之间的饮食摄入也高度多样,因此很难得出高AMY1拷贝数在农业过渡期间具有适应性作用的明确结论。未来更多具有全面考古背景的样本将有助于进一步阐明淀粉酶在古代饮食以及影响欧洲新石器时代基因库的群体替代和基因流等群体遗传学研究中的潜在适应性作用。

多个突变机制导致淀粉酶拷贝数变异

接下来,我们调查了现代淀粉酶单倍型的可能突变起源。为此,我们首先考察了四个最常见单倍型H3r.1、H3r.2、H3r.4和H1a.1之间的关系。在以往报告的单拷贝与三拷贝单倍型之间的联系基础上,以及我们观察到的仅有三种AMY1片段的事实,我们提出了一个将祖先的猩猩样单倍型(H1a样)与常见的三拷贝单倍型(H3r.1和H3r.2)联系起来的进化模型(图S25)。根据该模型,从H1a样祖先单倍型出发的初始AMY1重复导致了H3r单倍型的出现。考虑到从单拷贝常见单倍型转变为其他常见单倍型需要多个突变步骤,并且在现代人类基因组中未观察到任何中间单倍型,因此从单拷贝到三拷贝单倍型的重复很可能在人类谱系中只发生过。这一观点也得到了H1a.1单倍型中缺乏AMY1片段重复的支持,这将阻碍非等位同源重组(NAHR)事件的发生。相比之下,H3r.1单倍型包含相同且单向的序列拷贝(例如AMY2A.2片段),为导致我们今天所见的多样单倍型的反复NAHR事件提供了理想的模板。

为了进一步研究H3r单倍型与其他现存单倍型之间的突变关系,我们使用点图和序列比对标识了淀粉酶单倍型的结构差异断点。与此同时,我们在淀粉酶位点进行了PRDM9结合位点的扫描,以确定可能的重组位点(图4A,图S26和表S13)。通过整合所有这些观察结果,我们能够构建出一个假定的进化路径,展示出能够解释从NAHR易发的H3r单倍型起源到现代淀粉酶单倍型的最少突变步骤(图S27和S28)。我们提出的突变事件进化模型与我们关于H3r单倍型在现存单倍型变异中中心角色的假设一致,并为淀粉酶基因座在人类进化中的演变提供了三大重要见解。    

图4. 常见单倍型之间的进化和突变联系

首先,我们发现常见单倍型(H3r.1、H3r.2和H3r.4)中含有AMY1AAMY1B片段的反复NAHR事件的证据,这些事件在AMY2A.2片段中具有断点。这些NAHR事件可能发生在不同单倍型组合之间,同时导致两个AMY1基因拷贝的重复和缺失(例如,图4B和图S28)(66)。因此,虽然其他不太可能的情景也存在,但基于NAHR的缺失和重复构成了AMY1片段的拷贝数变异,因此也影响了AMY1基因的拷贝数。具体而言,由于该机制总是增加或减少两个AMY1基因拷贝,我们的发现解释了大多数人类二倍体基因组中均为偶数的AMY1基因拷贝数(7)(图S29)。因此,当今人类中大多数H1a.1单倍型可能主要源自H3r单倍型。如果这一假设成立,它解释了H1a单倍型在淀粉酶系统发育树中的同种发生(图S19C)以及H1a核苷酸多样性中缺乏走出非洲信号的原因,后者在H1a单倍型在出非洲迁移之前产生时是可以预期的(表S14)。我们认为,尽管H1a.1单倍型在结构上与祖先(猩猩)的人类淀粉酶单倍型几乎相同,但现存人类中观察到的H1a.1单倍型是从H3r单倍型中反复演化而来的  

第二,我们表征了三种微同源介导的断裂诱导复制事件,并在断点交界处识别了相应的微同源序列(图4C)。尽管这三种重排仅构成了五个等位基因(H2A2B2.1、H3r.6和H3B2.1)(约4%),但由于H2A2B2.1和H3B2.1中包含AMY2基因的重复,它们具有重要的生物学意义。总的来说,驱动唾液腺AMY1基因和胰腺AMY2基因拷贝数变异的机制各不相同,AMY2基因的较低拷贝数变异可归因于非反复的微同源介导的断裂诱导复制事件发生率较低。

第三,淀粉酶基因座的反复NAHR介导的倒位事件,类似于之前描述的事件,支撑了常见H3r.1、H3r.2和H3r.4单倍型之间的突变联系(图S30),以及其他现存单倍型中的几个倒位。考虑到倒位是大多数淀粉酶单倍型之间结构差异的基础,其功能和适应性的相关性为未来的研究提供了有趣的方向。

讨论

在本研究中,我们剖析了淀粉酶基因座的进化。

首先,我们假设AMY1基因的初始重复发生过一次,经历了多次复制,从一个拷贝的祖先单倍型演变为我们数据集中频繁观察到的三拷贝现代单倍型。对古人类基因组的分析表明,这些初始的重复可能发生在现代人类与尼安德特人/丹尼索瓦人分化之前。这一观察与最近的尼安德特人食用含淀粉食品的证据一致,也许通过火的利用,使古人类能够获得熟化后的淀粉(图5)。

图5. 人类淀粉酶基因的进化模型及相关假设

其次,我们假设选择作用于这一基因座上丰富的现有AMY1拷贝数变异,而不是新的变异。我们观察到农业出现之前的样本中,AMY1基因拷贝数变异范围广泛(3-9拷贝)。我们进一步发现,晚期农业人口中,淀粉酶单倍型的AMY1拷贝数普遍较高(图5)。然而,临近SNP与AMY1拷贝数变异之间缺乏连锁不平衡,阻碍了我们进行基于单倍型的正选择测试。我们假设,涉及先前存在的淀粉酶单倍型的部分软选择可能影响AMY1拷贝数变异,与不同人群的历史淀粉消费模式相关。淀粉酶基因的重复对味觉偏好和淀粉代谢的影响,可能也使人类更倾向于喜好和耐受野生谷物的饮食,正如巴尔干半岛的中石器时代人群所报道的那样,这促进了富含淀粉饮食的推广及最终的植物驯化。总体而言,我们的结果支持了农业过渡的复杂叙述,包括安纳托利亚农民替代西方狩猎采集者的过程,他们可能带来了具有较高AMY1基因拷贝的淀粉酶单倍型。同样,狩猎采集者与农业群体之间的短暂互动也可能解释了这些群体在过渡时期观察到的相似拷贝数。鉴于关于AMY1拷贝数如何影响代谢功能及其在不同生活史和淀粉消费水平下的适应性价值的未知因素,得出明确结论是具有挑战性的。此外,农业过渡在不同地区和时期各不相同,涉及多种类型的淀粉,这可能影响AMY1拷贝数在局部适应中的假定作用。以人类学为背景的研究,特别是在安第斯地区的土著人群,可以进一步揭示饮食实践、代谢结果与淀粉酶基因变异之间的关系。   

第三,我们发现NAHR和微同源介导的断裂诱导复制分别导致AMY1AMY2基因的拷贝数变异,解释了它们不同的进化速率。由于NAHR导致的结构变异率极高,AMY1的拷贝数变异表现出显著的突变倾向。例如,我们的进化模型涉及常见的H3r单倍型,暗示了由高度相似序列(>99%)介导的反复NAHR事件,导致AMY1AAMY1B基因的重复或缺失。相反,携带单个AMY1拷贝和多样AMY2基因的H1a单倍型则较不易受NAHR事件的影响。因此,淀粉酶基因座的突变类型和速率可能会因人群中现存单倍型的变异而异,特别是在如美洲土著人这样的瓶颈人群中。一个可能性是,瓶颈人群由于漂变最终导致H1a单倍型的高频率。在这种情况下,H1a单倍型中缺乏高度相似序列的片段将减缓反复NAHR事件的发生,导致该人群的变异累积较慢。相对地,如果某个较大的淀粉酶单倍型因漂变而变得普遍,则变异速率将呈指数增长。在这一背景下,未来研究中的一个有趣问题是,较大淀粉酶单倍型是否会因增加基因组不稳定性而经历负选择。

总之,我们的研究强调了早期人类历史中的基因重复如何为农业创新时期的饮食灵活性提供了遗传基础,从而促进了现代人类的进化。

Cite as

Feyza Yılmaz et al.,

Reconstruction of the human amylase locus reveals ancient duplications seeding modern-day variation.Science0,eadn0609

DOI:10.1126/science.adn0609

进化随想
生物学的一切都是相比较而言
 最新文章