着丝粒(Centromeres)是染色体的关键区域,通过促进动粒(kinetochore)装载,在染色体分离中起重要作用。在动植物中,这些区域常形成由串联重复DNA序列构成的百万碱基规模位点,对基因组研究构成挑战。着丝粒功能由表观遗传机制决定,涉及特定组蛋白H3变体。长读长测序技术的进步首次实现了这些区域的组装,促使重新评估着丝粒功能的保真度和进化动态。
前言
细胞分裂时,着丝粒(Centromeres)确保子细胞遗传物质均分。着丝粒组装动粒(kinetochore),连接染色体与纺锤微管。动粒组装位点由表观遗传决定,需特定组蛋白H3变体(如植物CENH3、哺乳动物CENP-A)。着丝粒结构复杂、重复性高,传统测序难以组装。长读长测序技术(Oxford Nanopore、Pacific Biosciences)突破此难题(Naish et al., 2021; Altemose et al., 2022)。着丝粒大小多样,从酵母点着丝粒(约125 bp)到拟南芥和人类的大规模区域。端粒到端粒组装改变着丝粒生物学视角。本文综述植物着丝粒结构和进化,探讨表观遗传环境(CENH3核小体占用、异染色质、DNA甲基化)对功能保真度的影响。
着丝粒结构
着丝粒(Centromeres)在真核生物中功能保守,但DNA序列在大小、结构和组织上高度变异(图1;Henikoff et al., 2001)。植物中,多数物种为单着丝粒(monocentric),CENH3定位于卫星或转座子阵列(图1a)。例如,拟南芥的着丝粒重复单体(CEN178)长178 bp(Naish et al., 2021; Wlodzimierz et al., 2023)。全着丝粒(holocentric)结构在多个真核谱系中独立演化,如Rhynchospora(图1c-e)。豌豆等物种为多着丝粒(meta-polycentric),多个CENH3位点在分裂时表现为单一焦点(图1b)。植物着丝粒重复序列的功能尚不明确。新基因组揭示玉米和土豆等物种存在有无卫星/转座子阵列的染色体(Bao et al., 2022; Chen et al., 2023)。与人类和小鼠的α-卫星重复不同,后者通过CENP-B蛋白直接促进CENP-A组装(Masumoto et al., 1989)。着丝粒驱动模型(centromere drive model)解释了着丝粒阵列的功能演化(Henikoff et al., 2001),不对称分裂(如雌性减数分裂)选择有利变异。植物基因组中观察到高水平的重复序列变异,如拟南芥CEN178卫星多态性(Maheshwari et al., 2017; Naish et al., 2021; Wlodzimierz et al., 2023),水稻中也有类似模式(Song et al., 2021)。猴面花中卫星序列大复制导致90%后代通过雌性减数分裂传递(Finseth et al., 2021)。
卫星阵列的演化
卫星阵列形成的机制尚不明确。早期“不等交换”模型认为双链断裂修复导致重复序列的不等交换(Smith, 1976),但拟南芥分析显示旁侧序列连锁,内部卫星变化(Wlodzimierz et al., 2023),提示不等减数分裂交换非主要机制,小规模基因转换或姐妹染色单体交换更可能。近期研究提出断裂诱导复制(BIR)机制,复制叉崩溃后通过BIR途径重新启动,导致重复序列的扩增或缺失(Showman et al., 2023)。人类新着丝粒(neocentromeres)未显示序列变化(Murillo-Pineda et al., 2021),但 RAD52 和 PIF1 依赖的卫星重复数量变化支持BIR(Showman et al., 2023)。全着丝粒物种Rhynchospora中,Tyba重复阵列的扩展可能与TCR1和TCR2转座子相关(Hofstatter et al., 2022)。转座子侵入卫星序列可能种子重复或成为着丝粒相关序列(Talbert & Henikoff, 2020)。重复序列均质化与旁侧单倍型出现的对比待解。更多基因组数据将揭示着丝粒演化机制。
CENH3稳态
植物着丝粒定位、维持和降解机制尚不明确。动物和酵母中组蛋白伴侣在CENP-A建立中的作用已明确(Takeuchi et al., 2024),但植物中DNA重复序列和CENH3沉积机制不清。CENH3蛋白种间变异大,但某些变异体能互补拟南芥cenh3(Maheshwari et al., 2017)。不同物种中CENH3由不同伴侣沉积,如哺乳动物的HJURP、酵母的Scm3和果蝇的CAL1(Talbert & Henikoff, 2020)。植物中未发现CENH3特异性伴侣,但拟南芥中NASP同源物(NASPsim3)可能与CENH3沉积相关(Maksimov et al., 2016; Le Goff et al., 2020; Takeuchi et al., 2024)(图2a)。着丝粒阵列在进化中可分裂或新生,需调控CENH3异位加载以避免双着丝粒染色体不稳定。人类中存在正反馈机制强化CENP-A沉积(Barnhart et al., 2011)。拟南芥着丝粒阵列大小变异大(1.5–6.5 Mb),但CENH3富集区相似(1–2 Mb)(Wlodzimierz et al., 2023)(图1b, c, f),与人类小得多的CENP-A富集区(100–200 kb)形成对比(Altemose et al., 2022; Logsdon et al., 2024)。作物基因组中着丝粒位置变异可能与驯化选择有关(Hufford et al., 2021; Liu et al., 2023; Zhao et al., 2023)。新着丝粒出现与物种形成相关(Mandakova et al., 2020)。着丝粒迁移机制不明,需新着丝粒种子和旧着丝粒衰减(Karimi-Ashtiyani et al., 2021; Dawe et al., 2023)。CDC48A伴侣蛋白可主动卸载CENH3(Merai et al., 2014)(图2d)。CENH3动态调控及其迁移机制需进一步研究。
着丝粒的表观遗传调控
着丝粒位于异染色质区,但具有独特的染色质状态(Naish et al., 2021)。异染色质特征如H3K9me2对着丝粒建立和维持的影响尚不明确。拟南芥中H3K9me2突变体未影响染色体分离(Yelina et al., 2012),但在裂殖酵母中H3K9me2对CENP-A组装必要(Folco et al., 2008)。DNA甲基化是异染色质的普遍特征,拟南芥着丝粒富含CG甲基化,但CHG甲基化降低(Naish et al., 2021; Wlodzimierz et al., 2023),与人类着丝粒CG甲基化低(Altemose et al., 2022)形成对比。VIM1突变体影响CG甲基化,增加着丝粒不稳定性(Marimuthu et al., 2021)。内着丝粒蛋白如CENP-C在调控着丝粒染色质结构中起作用(Pesenti et al., 2022; Yatskevich et al., 2022; Hara et al., 2023; Sissoko et al., 2024)。拟南芥中CENP-C与KNL2互作(Lermontova et al., 2013),vim1突变体显示卫星阵列解凝和CENH3信号降低(Woo et al., 2007)(图2c)。全着丝粒物种Rhynchospora pubera中,着丝粒的表观遗传模式与单着丝粒相似(Hofstatter et al., 2022)。CENH3沉积与染色质环境关系复杂(图2),分析表观遗传突变体有助于理解其调控和对着丝粒忠实性的影响。
结论与展望
着丝粒研究领域正因端粒到端粒组装技术而经历变革,这一技术为这些先前神秘的基因组区域提供了前所未有的洞察。为了表征着丝粒和其他重复序列的动态染色质特征和高阶结构,创新性的实验方法至关重要。来自“达尔文生命树”等项目的新组装数据,使得我们能够研究种内和种间的着丝粒多样性,这对于增强我们对重复区域及其相关染色质的进化动态的理解至关重要。着丝粒序列和染色质如何协同作用,从而功能性决定着丝粒区域的相对忠实性的机制仍是一个开放性问题,这对短期和长期进化以及更广泛的群体遗传学都有重要意义。展望未来,理解这些区域的调控机制对于开发新的作物改良工具(如单倍体诱导技术)以及工程生物学的开创性创新(包括人工染色体)将至关重要。
文献来源:
Naish, M. Bridging the Gap: Unravelling Plant Centromeres in the Telomere‐to‐telomere Era. New Phytologist 2024, nph.20149, doi:10.1111/nph.20149.
名词解释:
1. 表观遗传调控是指在不改变DNA序列的情况下,通过调控基因的表达来影响细胞功能和生物体表型的机制。这种调控方式主要包括以下几个方面:
DNA甲基化(DNA Methylation):
在DNA分子上添加甲基基团,通常发生在CpG岛(CG序列)上。
甲基化通常抑制基因表达。
组蛋白修饰(Histone Modification):
组蛋白是包裹DNA的蛋白质,其尾部可以进行多种化学修饰,如乙酰化、甲基化、磷酸化等。
这些修饰可以改变染色质的结构,从而影响基因的转录活性。
染色质重塑(Chromatin Remodeling):
通过改变染色质的结构(如紧密的异染色质到松散的常染色质),来调控基因的可达性和表达。
非编码RNA(Non-coding RNAs):
包括小非编码RNA(如miRNA、siRNA)和长非编码RNA(lncRNA)。
这些RNA可以通过多种机制影响基因的表达,如RNA干扰、染色质修饰等。
核小体定位(Nucleosome Positioning):
核小体是染色质的基本单位,其位置和排列方式可以影响基因的转录。