论文ID
题目:The variation and evolution of complete human centromeres
期刊:Nature
IF:69.504
发表时间:2024年4月3日
通讯作者单位:华盛顿大学
DOI:https://doi.org/10.1038/s41586-024-07278-3
主要内容:
染色体 DNA 区域称为着丝粒,对分裂细胞至关重要。来自人类基因组的着丝粒序列已被充分表征,并与来自其他人类和非人类灵长类动物的着丝粒序列进行了比较,揭示了突变变化的动态和快速模式,这将提高对着丝粒进化和功能的理解。
着丝粒是染色体区域,对于确保在细胞分裂过程中准确分离遗传物质拷贝至关重要。然而,着丝粒完全测序和组装一直具有挑战性,因为它们由几乎相同的序列组成,与人类基因组的其他部分相比,这些序列很大且重复性极高。因此,它们通常被排除在测序研究之外,这限制了研究人员对遗传变异及其如何影响着丝粒功能的理解。尽管早就知道着丝粒进化迅速,但由于缺乏来自多个人类和密切相关猿种的着丝粒的测序数据,导致对其进化的理解不完整。
作者的方法利用了两种技术的互补优势,可以通过读取相对较长的 DNA 片段来解析基因组序列。第一种由总部位于加利福尼亚的 Pacific Biosciences 公司生产,使用高保真测序来提供产生组装骨架所需的高碱基准确性。第二种是超长测序,由英国公司 Oxford Nanopore Technologies 开发,提供了跨越着丝粒所必需的非常长的序列读数,着丝粒通常有数百万个碱基对。因此,作者解析了称为 CHM1 的人类细胞系染色体中所有着丝粒的 DNA 序列和表观遗传特征(不改变 DNA 序列的 DNA-蛋白质复合物染色质的修饰),该细胞系具有重复的父系基因组,没有母系基因组。作者还从包括人类在内的四种灵长类动物物种的六条染色体 (5、10、12、20、21 和 X) 的子集中获得了着丝粒的完整 DNA 序列。
将 CHM1 着丝粒与第一个完全测序的人类基因组(来自称为 CHM13 的类似细胞系)中的对应物进行比较时,作者发现其中超过五分之一的神经元长度变化了 1.5 倍以上,并且三分之一的细胞在称为α卫星高阶重复 (HOR) 阵列的区域显示出明显不同的组织。此外,作者发现着丝粒的位置——连接着丝粒染色质和细胞分裂过程中染色体对齐的纺锤体结构的蛋白质结构——在大约 26% 的着丝粒中,位置相差超过 500,000 个碱基对。作者将测序的着丝粒与来自人类和其他灵长类动物物种(黑猩猩 (Pan troglodytes)、猩猩 (Pongo abelii) 和猕猴 (Macaca mulatta))的着丝粒子集进行了比较,并确定了每个灵长类动物谱系特有的特征。作者估计,与人类基因组的非重复区域相比,着丝粒在其外围的突变速度至少快 4.1 倍,在其内部的突变速度可能要快得多。作者在人类染色体的亚群中发现了进化上新颖的着丝粒序列和结构,在某些情况下,这些序列和结构与着丝粒结合位置的染色质相关(图 1)。
对着丝粒进行完全测序的能力将使研究人员能够估计着丝粒的突变率,并深入了解驱动这种动态结构变化的突变过程。这种变化的速度和幅度提出了一个问题,即尽管基因组更新不断,这些区域如何能够如此稳定地赋予功能。这个着丝粒悖论长期以来一直没有得到解决,但作者的研究开始阐明与着丝粒功能相容的序列结构范围。
这项工作让作者第一次看到了两组完整的人类着丝粒之间的差异,但还有更多有待发现。例如,作者仍然不知道健康个体着丝粒变异的全部程度,以及这在疾病环境中是否不同。此外,目前尚不清楚着丝粒在不同组织中、整个发育和衰老以及跨代是否不同。
未来,作者希望开发人类着丝粒变异的基线及其在灵长类动物中的进化模型。目前正在努力从数百人的多样化样本中对包括着丝粒在内的近乎完整的基因组进行测序和组装。使用这些组装体,作者计划构建健康着丝粒结构和功能的路线图,可用于识别与疾病和疾病易感性相关的异常着丝粒。
原文链接:https://www.nature.com/articles/s41586-024-07278-3
国自然试听课来扫码申请!
本次国自然试听课全程录像,如需要回看录像的,请扫码下方二维码免费领取