综述 | 基因重复驱动的演化:基因组学时代的回顾与展望

创业   2024-10-23 00:01   云南  


导读:自1970年Susumu Ohno发表了其具有深远影响的著作《Evolution by Gene Duplication》以来,基因重复在生命演化过程中所扮演的重要角色逐渐被广泛认知。基因重复是新基因的主要起源机制之一,贡献了真核生物基因组中约一半的基因。近20年来,组学技术的进步使得领域内对重复基因的演化问题进行了更为广泛而深入的探讨。全面总结50年来围绕基因重复这一主题展开的研究,有助于进一步理解一系列演化生物学中的基础问题,如基因重复的机制,重复基因的演化历程,重复基因是如何被整合到现有的基因表达网络中并最终贡献物种特异性表型演化,以及技术发展如何推动基因重复领域研究的范式转换。

2024年10月21日,中国科学院动物研究所张勇团队在《遗传》杂志上发表题为“基因重复驱动的演化:基因组学时代的回顾与展望”综述文章,全面介绍了基因重复的机制、重复基因的命运及演化模型,最后展望了三代测序技术、基因编辑等各种高通量技术对于进一步解析重复基因在遗传-发育-演化网络中角色的可能性。

该综述主要包括4部分的内容:

(1)重复基因的类型及其差异

(2)重复基因的命运    

(3)重复基因的演化模型与演化动力

(4)总结与展望

导读内容来自‘遗传’公众号


摘要:基因重复指基因组中一个基因通过多样化的分子机制从一个基因拷贝形成两个或多个重复拷贝的过程,是新 基因起源的重要途径之一,对真核生物基因组贡献了约为一半的基因,也推动了物种的适应性演化。在过去 50 年 中,特别是近 20 年进入组学时代以来,演化遗传学领域对于重复基因的产生机制、演化历程与演化动力展开了广 泛而深入的讨论。一方面,重复基因的序列相似性带来的功能冗余使机体具有更强的稳健性;另一方面,重复基因 的功能分歧带来了新功能与可演化性的提升。本文全面介绍了上述基因重复的机制、重复基因的命运及演化模型, 最后展望了三代测序技术、基因编辑等各种高通量技术将进一步推动重复基因在遗传-发育-演化网络中角色的解 析。

关键词:基因重复;全基因组重复;逆转录转座;功能冗余;新功能化;亚功能化

科学家对于重复基因的兴趣始于 20 世纪[1] ,通过对血红蛋白、同工酶等少数基因家族[2~4]的研究 发现,一个物种中总存在多个序列相似的基因,组成基因家族,这些基因或具有相似功能,或在 相同蛋白复合物中共同发挥作用。Susumu Ohno 对个例进行总结,完成了基因重复领域的第一本系 统性著作《Evolution by Gene Duplication》[5]。书中对于重复基因起源机制及演化模型的探讨,不 仅启发了 Kimura 等人进一步完善了中性演化理论[6,7],而且至今仍持续激发研究者们对重复基因的 功能分歧和冗余性保留的持续思考。重复基因的演化研究是一段螺旋上升的历史,研究范式经历 了由个例启发理论模型构建,到测序技术与算力的提升推动模式发现,再到实验验证与改进模型 3 个阶段。重复基因的研究体系也经历了从野生种群/个体到模式生物再回归自然个体的转变。由于 全基因组数据的缺乏,从 20 世纪 70 年代到本世纪初是一个重理论推演的时代,在这一时期,大量 描述重复基因演化的模型涌现,例如 Ohta 使用群体遗传学方法进行了大量模拟[8~10]。进入 21 世 纪,随着组学技术的迅速发展,古老的生物演化研究与这些前沿技术的结合,使得基因重复这一 古老问题再次成为遗传学和演化生物学领域的焦点。

作为新基因起源的重要方式之一,基因重复为生物表型的持续演化提供了大量的遗传位点。然而,重复基因如何产生?产生后的命运如何演变?何种演化动力使得重复基因在基因组中长久 存续?重复基因在表型创新中又有何贡献?在测序技术与人工智能迅猛发展的当下,本文系统回 顾了前人围绕基因重复进行探索的历史脉络,并且从基因重复的角度切入,探究了基因组和染色 体演化的研究进程。

1 基因重复的类型及其差异 

基因重复的过程包括小规模重复(small scale duplication,SSD)以及全基因组水平的重复 (whole genome duplication,WGD)。前者主要包括不等交换(unequal crossing over)以及逆转录 转座[5,11]。其他一些机制,如复制滑动(replication slippage)、模板跳转(template switch)、染色 体融合(chromosome fusion)以及 DNA 转座子介导的重复(DNA transposon mediated duplication) 等[12~14]也被发现对小规模基因重复过程有所贡献。这些过程所涉及的分子机制迥异,导致的结果 也不尽相同(图 1)。

1.1 小规模重复 

不等交换本质上是序列相似的非等位位点间的同源重组(non-allelic homologous recombination,NAHR),通常发生在处于减数分裂 I 期粗线期的非姐妹染色单体之间(unequal crossing over),也可以发生在有丝分裂的姐妹染色单体之间(unequal exchange)[15]。不等交换所 产生的重复片段往往和原片段在染色体位置上毗邻,称为串联重复(tandem duplication)。根据介 导重组的同源序列的位置不同,重复的区域可能涉及一个基因的某些部分、一个完整的基因或几 个完整的基因。对于人类(Homo sapiens)和果蝇(Drosophila melanogaster)的群体研究显示,串 联重复倾向第一种情况,即重复基因只继承了母基因的部分外显子序列,这为外显子重排(exon shuffling)的发生以及嵌合基因的形成提供了理想的遗传学基础[16]。而在后两种情况中,新基因将 保留母基因的所有结构,包括启动子和内含子等,这与下文要讨论的逆转录转座的结果截然不 同。不等交换是人类演化过程中许多基因家族扩张的重要机制,导致了人类基因组中一些基因簇 的出现,如 MHC(major histocompatibility complex)基因家族[17,18]、血红素基因家族[19]、KZNF (Krüppel-associated box domain-containing zinc-finger)基因家族[20,21]等。这些基因家族的扩张与人 类的免疫功能[17,18]以及更复杂的发育调控密切相关[19,22,23]。以目前人类基因组中最大的转录因子家 族——KZNF 基因家族为例,该基因家族的起源可以追溯到脊椎动物早期的演化阶段[24]。在哺乳类 动物的演化过程中,该家族通过基因重复经历了显著的扩张[20,21]。目前,KZNF 基因家族在人类基 因组中大约包含 350~400 个成员[20,21],这些基因在基因组中呈现出典型的簇状分布,仅人类 19 号 染色体的 p12~13.1 这一区域,就包含超过 70 个 KZNF 基因[21]。KZNF 基因家族成员作为转录因子 广泛参与多种生物学过程的调控。例如,ZNF91 和 ZNF93 通过识别并结合特定的 DNA 序列,抑制 SVA 逆转座子的活动[25],维护基因组的稳定性。

随着人类基因组逐渐被解析,一类特殊的 NAHR 相关的重复类型逐渐被发现,即片段重复 (segmental duplication,SD)。这类重复片段序列长度较长(1~200 kb),序列一致性高 (≥90%),且大多为非串联重复[26]。这些特点说明它们的演化历史很短,且并非常规不等交换的 产物。通过对重复片段断点处的序列进行分析,研究人员发现转座子 Alu 介导的 NAHR 应该是导 致片段重复的主要原因[27,28]。Alu 在约 3,500~4,000 万年前的人类祖先基因组中曾发生过转座爆发 [29],因此人类基因组中存在着大量高度相似的 Alu 拷贝,这促使了 NAHR 的发生。片段重复一方 面深刻影响了一系列人类特异性状的演化,例如对人类大脑发育至关重要的人类特异基因 SRGAP2C[30]、NOTCH2NLs[31]等,均起源于片段重复;另一方面,占人类基因组 7%的片段重复也 是许多重要基因拷贝数变异的来源之一,例如与冠状动脉疾病风险相关的 LPA 基因,以及与大脑 发育相关的 TBC1D3、NPIP 基因等[32]。

由逆转座子编码的逆转录酶在捕获细胞中游离的信使 RNA(mRNA)后,将其逆转录成互补 DNA(cDNA),并整合到基因组新位置而产生重复拷贝的过程被称为逆转录转座 (retroposition)。起源于该过程的新重复基因被称为逆转录基因(retrogene)。长期以来,LINE1 逆转座子被认为是哺乳动物基因组中逆转录转座事件的主要贡献者[33];而近期的研究表明,后生 动物(如果蝇)的 LTR 逆转座子同样可以捕获宿主基因的 mRNA,进行逆转录转座[13]。这些逆转 录转座产生的重复拷贝都有着非常明显的特征,包括缺乏内含子和两侧存在靶位点重复序列 (target site duplication,TSD)等。由 LINE1 介导产生的重复拷贝还会丢失母基因的调控序列,以及带有 polyA 尾巴的痕迹[34,35]。由于转座插入位点大体上是随机的,新拷贝与母基因在空间上不存 在关联,这与起源于不等交换的串联重复形成了鲜明对比。此外,如果插入位点正好位于某个基 因的内部,新拷贝有机会与原位置上的基因融合形成一个新的嵌合基因[36~38]。逆转座子还可以通 过逆转录过程中的模板跳转来产生嵌合基因[13,39,40]。由于编码序列来自多个基因,这些嵌合基因的 蛋白产物往往能够行使新的功能。例如,果蝇中 Jingwei 基因[37]起源于乙醇脱氢酶基因(Adh)的 逆转录转座及后续的外显子重排。Adh 基因的逆转录拷贝插入到了 yande 基因的内含子中,与 yande 基因的前 3 个外显子共同形成了新的编码序列[41]。与祖先的 Adh 基因相比,在正选择的作用下,Jingwei 编码的脱氢酶底物的催化活性发生了变化,更偏向于代谢激素和信息素中出现的长链 伯醇[42]。

1.2 全基因组重复

全基因组重复的产生在机制上可以分为同源多倍化(autopolyploidization)与异源多倍化 (allopolyploidization),前者指同一个物种由于配子分离异常等事件形成的多倍体,而后者与不 同物种间的杂交相关(图 1 右,图 2)。在细胞遗传学层面,可以通过观察一个物种的染色体数目 相比近缘物种是否有增加或者加倍,或者染色体同源区域的对应数目是否加倍来鉴定全基因组重 复。在基因组学层面,可以通过基因组的组装和全基因组比对来判断一个物种相对于外群物种是 否发生了全基因组重复。无论是同源多倍化还是异源多倍化,取决于这些事件是近期的演化事件 还是古远的演化事件,有一系列针对性方法的开发[5,44~46]。

全基因组重复并非罕见事件,经典的模式物种酿酒酵母(Saccharomyces cerevisiae)在约 100 百万年前产生一次全基因组重复[47],植物则频繁经历全基因组重复[48~51]。而在动物中,Ohno[5]及 后继工作[52~54]提出了 2R 假说(two rounds of WGD hypothesis):推测脊椎动物的共同祖先可能发 生了两次全基因组重复,推动了脊椎动物的早期表型演化。为了纪念 Ohno 的贡献,经过全基因组 重复产生的重复基因又被称为“ohnologues”[55]。2005 年和 2008 年的两项工作先后在人的全基因 组水平上找到了曾经发生过两轮全基因组重复的痕迹[56,57]。2024 年,包括本课题组的工作在内的 两篇关于无颌类脊椎动物盲鳗(Eptatretus burgeri)基因组的比较基因组学研究[58,59]共同确认,在 寒武纪早期(520~540 百万年前),脊椎动物祖先发生了第一轮全基因组重复(猜测为同源多倍 化,1R),随后脊椎动物分为无颌类与有颌类两个独立演化支,有颌类在寒武纪晚期到奥陶纪早 期(480~510 百万年前)经历了第二次全基因组重复(猜测为异源多倍化,2R),而无颌类在大约 相同时间(490~510 百万年前)也经历了一次三倍化(cyclostome round,cR)。其中,脊椎动物早 期的两轮全基因组重复发生的时间相近,可能在 1R 发生后,在 ohnologues 未发生广泛基因丢失与 分化之前就发生了 2R 与 cR[58,59]。另外,真硬骨鱼祖先在约 320 百万年前额外发生过一次全基因组 重复(Ts3R)[60,61]。

   

对全基因组重复的耐受性与生物的性别决定相关。动物与植物的性别决定机制截然不同。绝 大多数被子植物都不存在性染色体分化且雌雄同体[62];因此,全基因组重复对其性别决定的影响 较小,这可能是植物中全基因组重复事件更为频繁的原因。然而,动物的性别决定常常由性染色 体或性染色体与常染色体之间的比例决定[63],全基因组重复后的性染色体加倍对于动物性别决定 的影响更为剧烈,这或许是导致动物全基因组重复事件相对罕见的原因之一[5,64,65]。不过,在两栖 动物与硬骨鱼中仍发生了较高频率的全基因组重复事件,例如,硬骨鱼中的鲑科(Salmonidae) [66]、胭脂鱼科(Catostomidae)[67]与鲤科(Cyprinidae)[68,69]分别在 80~100 百万年前、25 百万年前与 8~12 百万年前又发生了谱系特异的第四次同源多倍化(Ss4R,鲑科特异)与异源多倍化(胭脂 鱼与鲤科),两栖动物非洲爪蟾(Xenopus laevis)[43]则在 17~18 百万年前发生一次异源多倍化。   

这些全基因组重复为物种的基因组带来了巨大改变,在功能基因与遗传调控网络水平均有潜力为物种的表型演化与创新提供遗传基础[5,70,71]。Ohno 曾猜测早期脊索动物从固着到自由生活的幼态持续过程可能由全基因组重复推动[5],虽然这一假说未得到基因组数据支持,但是全基因组重复 与脊椎动物表型创新的相关性已得到证明。在全基因组水平上,ohnologues 富集于脊椎动物发育相关功能,且受到更复杂的调控[58];在基因功能的深入研究中,脊椎动物成对附肢的形成与全基因 组重复介导 Tbx4/5 重复相关[72]等都提示了全基因组重复在促使脊椎动物表型创新方面的作用。由于异源多倍化产生自两个不同物种基因组的组合,会产生遗传上的更大多样性,所以 2R 事件可能 对脊椎动物的表型创新起到更重要的作用,更大幅度地拓展了脊椎动物的表型空间[58]。

除了物种水平的种系(germline)全基因组重复外,人类的体细胞也可能会出现全基因组重 复。体细胞染色体倍性的变化可能是个体正常发育与分化的一部分,多种低自我更新潜力的正常 组织器官中(心脏、骨骼肌、肝、脑等)均可观测到多倍化现象[73]。器官组织的多倍化可能与细 胞应激与器官损伤相关。以肝脏为例,肝细胞(hepatocyte)是肝脏中占比最多的高度分化的细胞 种类,肝脏的代谢、合成等主要功能依赖肝细胞进行。在人类的发育衰老过程中,肝细胞的倍性 动态变化,成年人约 30%~40%的肝细胞处于多倍体状态[74]。肝细胞的倍性可以随年龄不断增长, 且在受到 DNA 损伤时更容易发生多倍化而非发生凋亡[75]。

小规模重复与全基因组重复虽然产生了不同数量的重复基因,但是与其他所有突变机制一 样,都由细胞内分子机器的意外错误事件导致,这些遗传物质复制过程中的偶然为重复基因后继 的演化拉开了序幕。

2 重复基因的命运

生物的演化过程跨越数百万年。在这时间长河中,多样的突变机制与变化的环境选择压力不 断塑造着重复基因,其丢失与留存在不同物种谱系中动态变化。由不同突变机制产生的重复基因 处于两种不同状态,即存在与消逝(图 3)。本章节描述了重复基因从基因组中丢失以及留存在基 因组中的不同情况,并深入分析了以功能相似或功能分化的方式留存在基因组中的重复基因。   

2.1 重复基因的丢失

对于全基因组重复而言,重复基因的丢失是基因组逐渐二倍化、重新恢复至基因重复之前倍 性状态的过程。这一过程在全基因组重复中是普遍而频繁的,且多个物种中重复基因的半衰期是 一个长尾分布,存在较大的不确定性[76]。对于鲤科等 WGD 发生频繁的物种来说,多倍化个体相对 于二倍体个体基因组发生染色体丢失的速率更高,染色体的不稳定性更高[77]。重复基因的不均等丢失还可能引起生殖隔离,推动新物种形成或大规模物种辐射,为物种形成的 BatesonDobzhansky-Muller 假说提供了支持证据[78~80]。

20 世纪 70~80 年代,Ferris 和 Whitt 分析了约 25 百万年前发生全基因组重复的胭脂鱼科物种的 ohnologues 丢失情况,发现 35%~65%的 ohnologues 已发生丢失[81~83]。然而由于技术限制,他们对 于 ohnologues 保留情况形成的结论是通过分析少数基因家族得出的。随着全基因组测序技术的发 展,人们才清楚地知道在现生生物的基因组中,酵母基因组约 88%来自 100 百万年前的全基因组 重复产生的 ohnologues 已经丢失[46] ,硬骨鱼中仅 10%~16%来自 320 百万年前 Ts3R 的 ohnologues 仍保留在基因组中[84],而人类基因组中仅 20%~30%蛋白编码基因来自约 500 百万年前的两轮全基 因组重复(1R 与 2R)[57,58,85]。

重复基因的丢失一般被认为是近中性过程,即重复基因丢失后几乎不影响生物的适合度[86]。在果蝇中,年轻且多效性(pleiotropy)较低的重复基因倾向于积累功能缺失突变而逐渐丢失[87]。不同物种中丢失的重复基因功能可能有所差异,这反映了不同环境适应下的放松选择,例如洞穴 鱼(Astyanax mexicanus)丢失的 shisa2 基因可能与其眼睛的丢失相关[88]。由中性演化理论可以推 导出重复基因的丢失与有效群体大小(Ne)、突变率(u)以及重组率(r)等群体参数相关 [76,89,90]。模拟数据显示,种群数量相比于突变率来说是更加重要的影响因素,当种群越小,突变 率越高,重复基因丢失速率越高,且连锁紧密的重复基因(例如串联重复等)丢失速率更高。在 小种群中,发生缺失突变的重复基因在绝大多数时间内是极低频的,而在大种群中,功能缺失的 重复基因则在较长时间维持更高的基因频率[76]。例如,Ts3R 产生的 ohnologues 中 70%~80%的基 因丢失发生在 Ts3R 发生后的 60 百万年[84];对动物、植物与真菌等多物种重复基因的综合分析表 明,重复基因的半衰期中位数大约在 4 百万年[86]。   

值得注意的是,人类[91,92]的有效群体大小大约为 104~105,硬骨鱼[82]的有效群体大小可能为 109,而酵母作为单细胞真核生物,具有更大的有效群体大小,因此不同物种谱系特异重复基因的 丢失速率可能存在较大差异。虽然无法估计脊椎动物共同祖先的有效群体大小与突变速率,但是 重复基因过短的半衰期(10 个百万年数量级)与胭脂鱼等较高的 ohnologues 保留比例产生了矛 盾,在人类基因组中甚至还留存 20%~30%产生自约 500 百万年前的 ohnologues。这种 ohnologues 的高比例留存现象暗示着重复基因的演化可能并不是近中性的,存在其他力量维持了重复基因的 留存,这股无形的力量或许就是自然选择。

总之,重复基因产生后的丢失非常普遍,丢失的速率与多个群体参数有关。小群体、高突变 率以及紧密连锁等特点使重复基因相对更快速的丢失。除此之外,各个物种中高于中性演化预期 的重复基因留存比例说明选择压力参与了重复基因的保留。

2.2 重复基因的留存

目前留存于现生动物基因组中的重复基因与其祖先基因拷贝相比,或与祖先基因承担相同功 能,或与祖先基因功能发生分歧。相似与差异构成了对于基因重复产生的旁系同源基因功能探索 的永恒命题。本文从重复基因的功能冗余与功能分歧两个方面讨论了重复基因的不同命运。

2.2.1 重复基因保持功能相似

重复基因通常因其序列和表达模式的相似性而被认为具有功能冗余性(redundancy)。这一冗 余性假说在逻辑上是合理的,且作为探究重复基因演化的起点,包容了重复基因推动表型创新的 无限可能。然而,功能相似的重复基因也可能由于剂量等限制均为必需(indispensable)基因,不存在功能冗余(图 3,左)。

从控制论的角度来看,如果系统中存在功能类似的冗余单元,那么系统的稳健性 (robustness)将会得到提升,原因是冗余的单元能够降低系统受到扰动时异常运转的风险[93]。Waddington[94]最初将生物体应对环境和遗传噪音仍维持发育过程稳健的性质称为渠化效应 (canalization),引起广泛关注的例子是 Hsp90 将遗传变异与异常表型解耦[95]。而基因重复带来 的系统冗余性上升,提高了系统的稳健性,由此也增强了生物体的可演化性(evolvability)。

对于重复基因有相似功能的观察可以追溯至 1973 年对鲤鱼 Ldha、Ldhb1与 Ldhb2三种广泛表 达的同工酶的研究。Engel 等[96]发现野生和养殖鲤鱼(Cyprinus carpio)中均存在缺少 LDH 同工酶 Ldhb1的情况,且基因型频率符合 Hardy-Weinberg 平衡,表明丢失对表型无影响。在进行酶活性检测后,作者发现在鲤鱼心脏中,Ldhb1纯合缺失导致 LDH 活性显著降低,而在其他多个组织中, LDH 酶活性无明显变化。这一现象提示了已经发生部分序列分化的重复基因之间可能行使相似的 功能。对于人类群体的大规模基因组测序显示,每个健康人类平均携带约 100 个功能缺失突变,其中约 20 个为纯合。其中,蛋白质序列相似度高的人类重复基因带有更高比例的功能缺失突变,这 暗示一些重复基因之间存在功能冗余[97]。

然而,基于重复基因的自然丢失的研究范式通量过低。在模式生物中大范围引入人工设计的 功能缺失突变,并将之与适合度(fitness)下降或成活率(survivability)下降程度进行联系成为领 域探索基因功能必要性(essentiality)的新范式。多种模式生物的必要性基因比例已知,例如酵母 基因组中仅约 17%~20%的蛋白编码基因是必要基因[98],小鼠基因组中约 30%基因是存活至成年的 必要基因[99],人细胞系与线虫中这一比例约在 10%[100~104]。随着全基因组范围筛选数据的增加, 重复基因相比于单拷贝基因(singleton)来说必要性更低的规律在多个模式体系中被发现 [101,104~109]。

以上两种基于单基因“缺失”的观察都间接提示了重复基因之间可能存在功能补偿,即当基 因 A 发生功能缺失突变(Ohno 称为“forbidden mutation”,Kimura 称为“deleterious mutation”) 时,其旁系同源基因 B 能够部分代替基因 A 的功能,使得适合度下降比预期更轻微。这种重复基 因对之间的非独立关系也被描述为负性上位效应,即双突变体相比两个单突变体有着比预期适合 度更低的表型[110,111]。然而,发生小规模重复的基因可能本身必要性就更低[112],这使得使用更低 的必要性去推测更高的功能补偿这个分析思路的可靠性下降。那么,是否可以直接探究重复基因 之间的补偿频率呢?   

随着 CIRSPR 技术的迅猛发展,使用一个 sgRNA 敲除两个或以上基因成为可能,直接探究重 复基因之间的功能补偿作用可以转化为通过使用遗传学操作(CRISPR/Cas 或 RNAi 等)分别构建 双基因突变体与单基因突变体。通过比较双突变体的适合度下降是否超过了两个单突变体适合度 下降的加和,来判断负性上位效应的存在。考虑到双突变体构建的简便性以及适合度测量的简单性(直接使用生长速率表示)这两个因素,目前的系统性研究主要集中在单细胞模式体系(酵母 或细胞系)或者简单多细胞模式体系(线虫,Caenorhabditis elegans)。在多种模式体系中,重复 基因之间的负性上位互作率均高于随机基因对背景,特别是在酵母与线虫中,重复基因对之间的 负性上位互作率达到随机基因对的 10 倍左右(表 1)。

什么样的特征影响了重复基因之间功能补偿能力的强弱呢?不同模式系统中较为一致的具有 补偿作用的重复基因特征为序列一致性较高[108,115,116,125]、表达水平较高等[107,115,126]。酵母与人细胞 系中存在矛盾或尚未有定论的特征包括重复基因是否参与组成同一蛋白复合体或形成异二聚体 (heterodimer),是否有更多的互作蛋白,以及是否由 WGD 产生等。存在不一致性结论的原因可 能在于酵母相比于人细胞系来说具有发生全基因组重复时间短、基因家族小、基因的剂量敏感性 强等特征。与此同时,基于单基因必要性与双基因敲除研究范式得出的结论也存在不一致性。在人细胞系中,根据单基因必要性数据,较为古老的重复基因必要性更高,表明补偿能力更弱[107], 然而双基因敲除结果则肯定了古老的 ohnologues 有更高概率发生功能补偿[127]。这再次说明基因的 必要性与功能补偿之间存在复杂关系,使用必要性来推测功能补偿潜力可能是不合适的。   

尽管有很多研究旨在鉴定重复基因之间的功能冗余和功能补偿,但是功能补偿背后的分子机 制目前尚未被系统性解析。Diss 等[128]根据个例观察将重复基因间的补偿分为主动补偿与被动补 偿。二者间最大的差异为在基因 A 功能下降后,基因 B 的调控是否发生了变化。重复基因之间剂 量与功能的非线性对应关系可能是被动补偿的原因,即基因 A 功能丢失后,虽然基因 A 和基因 B 的总表达量下降到原先的一半,但是仍足以维持基因 A 与基因 B 的分子功能。这种被动补偿最可 能发生在共表达的重复基因之间[129,130],甚至可能是在细胞内相分离(phase separation)过程中处 于同一相的重复基因之间[131,132]。而主动补偿则相对复杂,要求在重复基因对之间形成一个反馈的 调节环路(backup circuit),且目前已知的主动补偿形式主要是依靠对于不同个例的总结。例如, 核糖体基因 Rpl22 敲降小鼠仅显示轻微有害表型,同时其旁系同源基因 Rpl22l1 表达上调,这是由 于 Rpl22 直接结合 Rpl22l1 mRNA 的发夹结构对其翻译产生抑制,在 Rpl22 敲降后,由于抑制解 除,Rpl22l1 正常翻译[133]。目前仅有两项系统性研究[134,135]揭示了酵母中重复基因主动补偿频率可 能在 10%左右,证实了主动补偿可以表现为基因 A 丢失后,基因 B 在表达量、蛋白互作以及亚细 胞定位都可能产生主动响应,且基因 B 中较罕见的转录本翻译出蛋白的异构形(isoform)具有不同的亚细胞定位信号序列,使其在基因 A 定位表达。在 3 种已知的主动补偿形式中,相应基因表 达量的上调相对更容易检测,其研究也更加深入。重复基因对的表达量主动补偿涉及负反馈调控 机制。其中,诱导调控行为发生的信号可能是一个重复基因的功能下降或者表达下降,前者的直 接调控信号可以是酶促反应中底物和终末产物的含量,后者则猜测是功能缺失的重复基因表达产 物的含量的降低[136]。近年来,在对斑马鱼[137]、线虫[138]和小鼠细胞系[139]的个例研究中均发现,适 应性转录(adaptive transcription)可能以突变的 mRNA 为信号参与了重复基因主动补偿中。出现 提前终止密码子(premature termination codon,PTC)的基因,可能会诱导无义突变介导的 mRNA 降解(nonsense mediated decay),突变 mRNA 降解产物可能会诱导其重复基因表达量发生上调。然而,截至今日尚未有人细胞系或多细胞体系中对于重复基因的主动补偿进行大规模且系统性的 探究。   

功能相似的重复基因之间除了可能存在功能冗余外,它们也可能均为必要基因,即功能相似 的重复基因并不一定是冗余的,因此不具有相互替代的潜力。这可能与基因重复后特殊的剂量适 应相关,一方面可能是特定性质的基因重复后提供了剂量优势,另一方面,某些基因重复后的剂 量下调导致重复基因丢失后无法维持生命活动所需。除此之外,还有一种较为特殊的情况,发生 基因重复后,两个基因可能分别行使相似功能,但是二者可能作为整体共同形成了涌现属性 (emergent property),例如在形成双目视觉时,两只眼睛可能分别在探测颜色、性状等方面具有 相似功能,但是两只眼睛的组合带来的对于距离的感知可能对于捕猎等具有显著效用,因此提升了生物的适合度[140]。在微观层面,一些重复基因之间直接互作形成异二聚体,以此为单元行使功 能可能也是涌现属性的例子。在酵母与人细胞系中,能够形成异二聚体的重复基因对更可能相互 依赖(dependency)而非相互补偿[107,117,141],进一步佐证了重复基因之间功能的相似性并非一定导 致功能冗余。

总之,具有相似功能的重复基因对之间是否存在功能冗余,进而为功能补偿提供基础,可能 很大程度上受祖先基因的剂量敏感性影响,而基因的剂量敏感性一直是一个历史久远且高度复杂 的问题[142,143],或许在算力提升的今天,人工智能可以协助人们探究基因重复与剂量之间的真相。除此之外,单细胞真核体系酵母、细胞系以及多细胞生物之间的生物学差异促使人们在研究多细 胞生物的基因重复时发展功能上更加接近多细胞个体的实验体系。

2.2.2 重复基因产生功能分歧

Ferris 等[144]研究硬骨鱼等物种 WGD 时对重复基因之间的功能差异进行了较为系统的描述:多 个基因重复形成的同工酶家族在不同组织中的蛋白表达存在差异,约 14%同工酶具有相似的组织 表达模式,67%同工酶家族具有单向表达分歧(unidirectionality),即在研究的组织中均表现出某 种重复基因表达高,其他重复基因表达低的情况,19%同工酶家族具有双向表达分歧(bidirectionality),即一个重复基因在某些组织中具有高表达,而另一个重复基因在其他组织中 具有高表达。这种重复基因在空间上的表达差异在一定程度上反映了可能的功能分歧,而这种功 能分歧的产生可能与重复基因调控序列的演化相关,并在组学数据的涌现中被反复证实[58,145,146]。例如,果蝇与哺乳动物中,重复基因对中更近期产生的子基因在雄性特异的睾丸及其附属组织中 具有高表达量且序列变化受到正选择[147~150],暗示着这些新基因可能参与到睾丸特异的功能如精子 发生过程当中。除了睾丸,以重复基因为主的灵长类特异新基因还在胎脑发育中期高表达[151],说 明这些新基因很可能参与了胎脑发育的表型演化。   

早期的重复基因演化模型总是假设重复基因在产生初期存在功能的完全冗余,然而随着人们 对于基因重复机制的理解逐渐深入,这一假设在 WGD 机制下应该是成立的,而在某些小规模重复 机制下可能不成立。在小规模重复中,重复基因在产生伊始即可能因为不完整重复导致与祖先基 因存在功能差异[152]。例如,由转座子介导产生的重复基因可能引入外显子重排等直接导致编码区 的序列与祖先基因存在较大差异[16];逆转录重复基因插入后需要从头产生(de novo)或使用附近 基因的调控序列[153],其表达组织可能一开始就和祖先基因不同。例如,通过分析人类及其近缘灵 长类物种的基因组,研究人员发现 SRGAP2C、ARHGAP11B、NOTCH2NL 等人类特异的重复基因 推动了人类脑回或突触连接的增加[30,31,154~156]。但这些基因均属于部分重复,这可能使得它们在很 短的演化时间内就获得了新的功能,进而推动了人类的表型演化。通过对逆转录基因的全面分析 发现,绝大多数逆转录基因从头开始演化出新的启动子,或者在其基因组附近招募了原始启动 子,使得这些新拷贝倾向于表现出与母基因不同的组织表达模式与极高的表达特异性[153],如下文 中将要详细介绍的 GLUD2 基因等。逆转录基因获得新启动子的另一种方式是直接插入其他基因的 内部,利用被插入基因的启动子进行表达,甚至与被插入基因的外显子发生融合,形成嵌合基 因,如果蝇的 Jingwei 基因[37,153]。这样的嵌合基因在形成之初就获得与母基因不同的表达模式和分子功能。

实际上,根据重复基因对与祖先基因的功能差异,可以将功能分歧分为新功能化 (neofunctionalization)与亚功能化(subfunctionalization)[11],前者指重复基因产生了与祖先基因 不同的功能,后者指重复基因对各自继承了祖先基因的部分功能(图 3,右),重复基因的功能分 歧可能是它们被保留在基因组中的原因。于是,对功能的定义将会是探讨重复基因功能分歧的关 键。在表达产物层面上,功能的分歧表现为基因表达的组织差异[157]、亚细胞定位差异[158]、时间差 异[151]或者蛋白互作的差异[117]等,这些表达产物的差异可能由基因调控序列的分歧或编码区分歧贡 献,例如调控序列的分歧可能导致重复基因在祖先基因不表达的组织进行表达从而逐渐新功能 化,基因编码序列的分歧则可能导致重复基因的互作蛋白变化,或者催化活性改变,使得其功能 与祖先基因产生差异。举例来说,在斑马鱼发育过程中,同源异型体基因 eng1 在胸附肢芽发育中 表达,eng1b 在后脑/脊髓中表达,二者的直系基因 en1 则在外群物种的两个区域中表达。而在基因调控网络层面上,功能的分歧可能表现为基因-基因互作网络的差异,功能相似的基因更可能拥有 相同的互作基因[117]。   

本文以降解兴奋性神经递质谷氨酸的谷氨酸脱氢酶的新功能化为典型例子介绍重复基因的功 能分歧(图 4)。起源于人类和猿的共同祖先(约 2300 万年前)的逆转录基因 GLUD2 和其母基因 GLUD1 均编码能够降解谷氨酸的谷氨酸脱氢酶[159](图 4A)。GLUD1 和 GLUD2 的表达模式截然 不同:GLUD1 是一种重要的管家基因(housekeeping gene),广泛表达于许多组织中;而 GLUD2 只在神经组织和睾丸中特异性表达,暗示其在这些组织中扮演的特殊角色[160]。不同物种的序列比 对结果显示,GLUD2 编码的酶在逆转录转座事件发生后不久,通过关键的氨基酸替换(G456A) 获得了在相同抑制剂 GTP 浓度下更高的代谢活性[160]。选择压力分析证明,这些氨基酸替换在正选 择作用下被固定[159]。除了表达模式和分子功能的改变,GLUD2 编码的酶 N 端靶向序列中的单个 氨基酸正选择替换,使得其特异性靶向线粒体,而不像祖先谷氨酸脱氢酶定位于线粒体和细胞质 [161](图 4B)。以上多个层面的新功能化,被认为有助于 GLUD2 对大脑中神经递质谷氨酸代谢的 功能适应。

部分重复基因之间的功能分歧可能是非对称的[46,117,141],即在重复基因对中,只有一个子基因 的功能相比母基因发生了明显的变化,这种假设来源于 Ohno 的经典新功能化假说,该假说认为基 因重复使得纯化选择放松,在一个拷贝维持祖先功能的前提下,另一个拷贝演化速率更快,可能 孕育了新功能,因此产生拷贝之间的分歧。但是功能的不对称分歧在亚功能化或者功能特化 (specialization)等其他假设下也可能成立。例如,酵母中重复基因对编码的 Vik1 与 Cik1 分别通 过不同的中间基因与 Kar3 形成蛋白复合体行使功能,然而二者在互作基因数目以及互作基因分子 功能上都有所差异[117]。   

重复基因产生后,其命运由分子机制和环境共同塑造。大多数重复基因在种群内迅速丢失, 无法保存下来。对保存下来的完整重复基因而言,相似的功能一方面通过增加剂量等途径提高了 种群的适合度,另一方面也可能造成功能冗余,而与祖先基因不同的功能则由后继的突变推动, 执行新的功能。而 GLUD2 等调控或编码区不完整的重复基因由于其与祖先基因不同的序列组成, 演化出新功能的可能性更高。

3 重复基因的演化模型与演化动力

根据前文的描述,重复基因自产生后可能经历留存与丢失的命运。重复基因的留存可能保留 功能相似性、产生功能分歧或者二者同时发生。重复基因产生后的命运根据几个关键节点的不同 路径而发生差异。首先在固定(fixation)阶段,重复基因可能直接丢失,或者持续留存在基因组 中,在群体中达到 100%的等位基因频率。然后在功能决定阶段,重复基因可能发生功能分歧或者 行使相似功能。重复基因的不同命运决定于不同的演化力量。自 20 世纪 70 年代起,不同的重复基 因演化模型和背后的演化力量被刻画。这些复杂的模型对重复基因从产生到固定或消亡的一生进 行了描述。其中被领域广泛认可的模型包括新功能化模型、亚功能化模型、剂量主动选择模型、 功能补偿选择模型和剂量平衡模型等,其中部分模型仅对于重复基因命运的某个阶段进行建模, 例如剂量平衡模型。祖先基因的性质千差万别,由此形成的重复基因命运各异,每个模型可能仅 能描述部分重复基因的演化命运,因此各个模型之间并非互斥关系,例如亚功能化可能延长了重 复基因在基因组中存在的时间,并不意味着此后不可能继续发生新功能化,也并不意味着重复基 因之间一定不存在冗余性。下文简要介绍不同模型的整体框架以及各个模型中重复基因演化轨迹 中关键节点的选择动力。

3.1 演化模型

3.1.1 经典模型(新功能化模型)

经典模型是指在 20 世纪 70 年代到本世纪初基于群体遗传框架提出的重复基因演化模型,由 Ohno 首先描述为重复基因诞生形成完全冗余的重复基因对后,重复基因对经历纯化选择放松,由 一份拷贝维持祖先拷贝功能,而另一份拷贝则可以自由地产生新功能。这一理论被 Ohno 生动的描 述为“amplius redundatiae, amplius mutationis(越多冗余,越多突变)”,而更多的突变则孕育了 更为广阔的可演化性[5]。随后 Nei 等[162]、Ohta 等[8,10]、Ferris 等[82]、Bailey 等[90]、Takahata 等[89]和 Li[76]等进一步完善了新功能化模型。实际上,这一时期的各个模型重点在于探究重复基因的丢失 速率以及影响重复基因丢失的各种因素。由于产生有利突变的概率非常低,由新功能化驱动的重 复基因留存更可能发生在较大的群体中。然而,在新功能化过程中,对于有利突变的固定过程究 竟是由纯化选择放松导致还是直接由正选择导致还存在争论,Zhang 等[163]通过严格的演化检验揭 示了正选择固定重复基因的案例。Chen 等[148]则通过分析果蝇不同年龄的小规模重复基因,发现随 着演化时间延长,重复基因受到的选择由正选择转向纯化选择。   

3.1.2 亚功能化模型

新功能化模型虽然被逐步完善,但是群体中固定有利突变的概率非常低(1%)[164],而且新功 能化模型无法解释硬骨鱼远超预期的 ohnologues 留存比例(30%~75%)。基于以上背景,亚功能 化模型被提出,直至今日依然被不断丰富改进。

亚功能化模型可以进一步区分为经典亚功能化模型与低功能化(hypofunctionalization)模型。

经典亚功能化模型的基本假设是基因具有多效性,即基因具有多种功能,基因重复后,两份 重复基因拷贝分别继承了祖先拷贝的部分功能,被 Conant 等[165]描述为“turning a hobby into a job”,形象地体现了祖先基因作为“hobby”的功能被子基因继承并作为“job”行使的含义。在 序列上可以包含编码区功能域的分别继承以及调控序列的分别继承,亚功能化模型主要包含 duplication-degeneration-complementation(DDC)模型[166,167]、escape from adaptive conflict(EAC) 模型[168,169]、永久性杂合(permanent heterozygote)模型[116]以及功能缠绕模型(entanglement)[170] 等。其中 Lynch 等提出的 DDC 模型是较为完善的重复基因演化模型,主要建立在重复基因调控序 列的多效性假设基础上,当不存在多效性时,模型与经典模型等效。由于主要基于近中性演化假 说,DDC 模型在描述较小的群体大小中重复基因的演化动态时更为适用,且对前文中 Ferris 描述 的硬骨鱼同工酶具有单向或双向表达分歧的特征进行了解释。EAC 模型与 DDC 模型非常相似,其 适应冲突指祖先基因具有的多个功能无法同时达到最优,而基因重复后的重复基因则可以分别独 立演化和优化不同的功能。这一观点与永久性杂合类似,在经历平衡选择的祖先基因中,两个等 位基因分别具有一定的优势,因此杂合个体具有最高的适合度,经典例子为疟疾疫区镰刀型红细 胞贫血症致病基因[171]。功能缠绕模型则是在祖先基因多效性基础上更进一步,认为祖先基因的多 个功能域如果存在功能依赖的情况下,被共同依赖的功能域保持较低的演化速率。   

低功能化模型[172,173]是建立在部分基因在发生祖先基因重复后,子基因的表达量分别下调的基 础上,子基因功能相似且保持剂量共享。因为任意一个子基因的丢失都导致总表达水平下降,这 可能对生物体是有害的,剂量共享可以防止任何一个子基因的丢失;此外,表达量减少将同时要 求两个子基因保留所有的祖先功能,避免功能差异的发生。尽管剂量共享模型最初被提出,是为 了解释大量古老的重复基因之间,如一对 ohnologues 之间的负效上位效应——这意味着在经历了 数亿年的演化时间之后,这些重复基因之间仍存在着的分子功能冗余。但进入测序时代以后,人 们利用比较基因组学的手段发现,剂量共享对于年轻重复基因的初始存活似乎更为重要[174]。针对 哺乳动物重复基因的研究发现,大多数年轻的重复基因表达被下调以匹配祖先单拷贝基因的表达 水平,这种表达的剂量共享允许哺乳动物重复基因的初始存活,进而才是可能的功能分歧[175]。

3.1.3 剂量正选择模型

剂量主动选择模型主要描述剂量不敏感祖先基因的重复基因的演化过程,即祖先基因在重复 后由于提供了较高剂量的核糖体蛋白或酶等,提升了翻译以及酶促反应速率,导致这种类型的基 因由于正选择被保留在基因组中[176,177]。与此同时,由于高表达基因在突变后可能产生错误折叠蛋 白,对机体产生毒性从而降低适合度,因此高表达基因在序列演化上受到更强的纯化选择,产生 更慢演化速率,这样可能会导致重复基因间表现出较高的序列相似度[178]。

3.1.4 剂量平衡模型

在所有描述重复基因演化的模型中,剂量平衡模型可能是相对复杂的,如果说剂量正选择模 型更适用于剂量不敏感的基因,那么剂量平衡模型则针对剂量敏感的基因。剂量平衡主要描述在蛋白复合体中或者转录调控网络中,不同的蛋白之间的相对剂量受到严格限制,如果其中某些亚 单元发生过表达(由基因重复引起),那么这种相对剂量平衡被破坏可能导致机体适合度下降。早在 1970 年 Ohno 已经指出[5],SSD 相比于 WGD 有更高的可能破坏剂量平衡,因此 SSD 产生的 重复基因可能较难在基因组中固定。全基因组重复后被保留下来的 ohnologues 更少经历后续的 SSD 和拷贝数变异(copy number variation,CNV),暗示这些被保留下来的 WGD 可能富集了剂 量敏感基因[85],完整复制的串联重复基因也可能受到相似的剂量束缚[16]。剂量平衡模型与低功能 化模型均是基于剂量的敏感性,但是前者并不像后者一样假定基因重复发生后的剂量下降。在剂 量平衡模型下,发生小规模重复后重复基因难以在群体中固定,而发生全基因组重复后重复基因 则是难以丢失。   

3.1.5 功能补偿模型

功能补偿模型猜测对于重复基因功能冗余的主动选择是维持重复基因长期留存在基因组内的 主要原因。Nowak 等[179]通过模拟显示功能冗余的重复基因可以在基因组中稳定存在,特别是发育 过程中具有时空特异性表达的必要基因发生基因重复后,主要发生于突变率高、有效群体较大的 群体中,而小群体中可能以多效性介导的亚功能化为主。Wagner[180]的模拟结论与 Nowak 等的类 似,在较大的群体中自然选择可能会直接选择冗余性。

在简要了解各个模型的主要内涵后,需要指出的是这些模型尚未达到完善:一方面由于算力 限制,需要对模型中的参数进行理想化假设;另一方面,人们对于基因重复的认知尚未达到面面 俱到,例如 20 世纪的大多数模型以基因重复后产生完全冗余为基础,但是随着基因重复的机制被 逐渐解析,人们认识到小规模重复的不完整性,进而不断完善重复基因演化的理论框架。

3.2 演化动力

群体中,在不同的假设下,重复基因从出现到丢失/固定的不同阶段受不同的演化动力驱动 [165,181,182]。下文对不同生命阶段的重复基因演化动力进行了总结(图 5)。将重复基因的演化阶段人 为分为固定阶段与功能决定阶段的目的是便于分析驱动的演化力量,并不意味着重复基因的功能 一定在固定后才发生分歧。

重复基因从产生到在群体中固定的阶段,可能发生重复基因的丢失与留存:其中,重复基因 的丢失可能源于随机漂变事件,也可能由于基因重复破坏了蛋白复合体内部的剂量平衡导致其因 受到纯化选择而丢失。而重复基因的固定则可能源自遗传漂变或者正选择,对于剂量或者冗余性 的正选择也可能使得子基因拷贝在基因组中固定。

重复基因的两个拷贝在群体中固定后(或者在固定的过程中)即可发生功能上的分歧。基因 重复发生后,一个或两个子基因的演化速率上升,如前文所述,这可能是由于纯化选择放松或者 正选择导致,而在经典模型描述中,演化速率较低的拷贝经历纯化选择。除了分歧之外,重复基 因亦可以通过 5 种方式维持功能的相似性:其一,重复基因经历了对于冗余性的正选择;其二,在 亚功能化过程中由于功能域缠绕(entanglement)使得序列以较慢速率发生分歧;其三,由于维持 基因剂量总和的纯化选择压力使得序列不再发生分歧;其四,重复基因之间形成了涌现属性,限 制了序列的进一步分歧;最后,反复的基因转换(conversion)可能参与了基因家族的协同演化 (concerted evolution)[183],从而使得重复基因拷贝间维持了较高的序列一致性。   

本文对重复基因产生后各个时间节点发生变化的动力进行了总结。研究人员从不同角度出 发,为重复基因的演化建立了新功能化、亚功能化、剂量正选择、剂量平衡以及功能补偿等众多 模型;虽然每个模型都难以完整地描述所有重复基因的演化命运,但是从模型的演变中人们能够 发现随着技术的进步,认识的边界也在不断推进。

4 结语与展望

基因重复具有两个方面的适应性意义:通过剂量效应增加了自然选择需要的某一种基因产物 的剂量;是新基因起源最主要的机制,而新基因承担的新功能直接推动物种的表型演化。在 《Evolution by Gene Duplication》发表后的 50 年中,Ohno 描绘的道路不断向外延伸,演化生物学 家对重复基因的产生机制、丢失与留存、相似与分歧等进行了深入研究,并提出了重点各异的重 复基因演化模型,揭示了重复基因在真核生物基因中占据的重要地位。而重复基因的系统性深入 研究,与基因组学的迅猛发展密不可分。

首先,从二代测序到三代长读长基因组测序技术的进步,使人们对重复机制的了解更加深 入。早期对于重复基因的研究均基于一个共同的前提假设:突变机制高保真,产生两个完全相同 的冗余拷贝[5,166,181]。尽管该假设对于全基因组重复的确成立,但随着对突变机制的研究逐渐深 入,人们发现重组、逆转录转座等重复机制不一定都是高保真的。重复过程中发生的部分重复 [16,30,31,155]、外显子重排[13,14,16,37]、调控序列丢失[34,153,159,175]等事件均可能导致子基因在诞生之初与 母基因编码的蛋白质结构或者表达调控发生分歧,进而影响子基因的功能演化。正如只有在非人 灵长类基因组被大量高质量拼装的背景下,通过比较基因组学分析,研究人员才发现了 SRGAP2C 等人类特异的部分重复基因可能在很短的演化时间内甚至形成瞬间就获得了新的功能,促进人类 脑回或突触连接的增加[30,154]。通过对逆转录转座基因的系统性分析,才了解了与母基因表达模式 与分子功能存在较大差异的 GLUD2[159]与 Jingwei[37]等。

其次,大量的基因表达数据,使人们对重复基因的表达演化过程有了更全面的认识。在前基 因组学的年代,对重复基因表达演化的研究大多只停留在定性阶段,例如比较两个基因的表达域 的数量。而进入基因组学时代以后,特别是 RNA-Seq 测序技术的出现,使得人们可以定量地研究 重复基因的演化过程,这也促使了大量关于重复基因剂量效应的研究,例如剂量共享模型[172~174] 等。另外,借助丰富的群体测序数据,重复基因演化的早期阶段中基因表达剂量对不同类型重复 事件的响应机制得以深入研究[16]。当然,大量的 RNA-Seq 测序数据使人们得以在全基因组的水平 探索哪些模型对于重复基因的保留贡献更大。例如,利用来自 46 个人组织和 26 个小鼠组织上千个 样本的 RNA-Seq 数据,研究人员发现哺乳动物演化过程中出现的较为年轻的重复基因主要是通过 剂量共享机制被保留[174]。而对于脊椎动物演化过程中发生的不同全基因组重复的研究显示,新功 能化是这些古老 ohnologues 功能分歧的主要机制[58,66,146,184]。综合针对群体数据的研究成果,可以 猜测,剂量共享效应使得重复基因可以早期演化过程中不被丢失,进而在漫长的演化过程中逐渐 发生如新功能化等功能分歧。   

最后,近 10 年迅猛发展的基因编辑技术,为研究重复基因之间的功能冗余提供了利器。早期 研究只能通过一些低通量的方法,如观察自然群体里基因丢失以后的表型,或引入随机突变,如 使用紫外线照射构建突变体来研究一对重复基因之间的功能补偿效应。而以 CRSPR/Cas 系统为代 表的基因编辑技术使得高通量的靶向敲除单个基因或多个基因成为可能[123,185]。如今,研究人员可 以对数千对的重复基因进行单双敲实验,通过研究细胞的生长表型来研究这些基因之间的互作。近年兴起的 Perturb-Seq 技术将基于 CRISPR 的基因筛选与单细胞 RNA 测序相结合[186],得以直接 观测到遗传扰动后的转录效应。

除了重复基因理论的日趋完善外,其应用价值也逐渐被发掘。例如在恶性肿瘤中,常常存在 突变修复机制的缺失,合成致死(synthetic lethality)疗法则是利用了这一特点,在具有高频基因 突变的肿瘤中,通过药物抑制其候补通路上的重要基因,从而达到特异性抑制肿瘤生长的效果。例如使用 PRAP 抑制剂用于治疗具有 BRCA1 或 BRCA2 突变特征的乳腺癌。由于重复基因之间更为 高频的相互补偿,靶向驱动突变基因的重复基因的合成致死药物正经历临床试验,例如针对 CREBBP/EP300[187]以及 ARID1A/ARID1B[188]的药物等。在孟德尔遗传病中,探究重复基因的补偿作 用有助于人们理解遗传疾病的组织特异性或者外显率差异[125,189,190],且在其治疗方面也具有应用前 景。例如,脊髓型肌肉萎缩症(spinal muscular atrophy)是由 SMN1 基因突变引起的骨骼肌运动障 碍,其疾病的严重程度受 SMN1 的重复基因 SMN2 影响[191]。目前该疾病的治疗药物利司扑兰 (risdiplam)为 SMN2 的剪接修饰剂,通过增加 SMN2 中外显子 7 的留存达到使其补偿缺失的 SMN1 功能的效果[192]。研究重复基因之间相互补偿的分子机制,有助于大规模的寻找更多的单基 因遗传病治疗靶点。   

尽管有关重复基因演化过程的研究在基因组学时代迎来了新的突破,但领域内仍在不断涌现 新的问题。例如,祖先基因的剂量敏感性逐渐成为研究重复基因演化的重点,这提示了重复基因 的演化并非开始于完全随机的背景下,突变机制本身以及祖先基因的固有性质可能影响了基因重 复后的演化动力。单细胞体系酵母与细胞系在提升研究通量方面体现了巨大优势,然而较为简单 的生理功能与功能分化使得其难以模拟多细胞生物的发育与更复杂生理过程,类器官等新兴的模 式体系可能在模拟真实组织器官的方向上更进一步。同时,多组学联合提供的丰富信息与强大的 人工智能算法将有助于人们从多个角度进一步验证 50 年来各种独树一帜的理论,在从细胞到生态 的尺度上揭示重复基因如何整合入细胞的复杂调控网络,如何影响疾病,并如何最终影响种群对 环境的适应。


中国科学院动物研究所张勇研究员与谭生军副研究员为文章共同通讯作者,博士研究生沈洁宇苏天晗为文章共同第一作者。余大奇博士在文章写作等方面提供了大力支持。张勇课题组深耕新重复基因研究,在转座子介导的基因重复机制、重复机制对新重复基因功能演化的影响、转座子驱动的生物技术开发等方面有较深的积累。课题组相关研究得到国家自然科学基金、国家重点研发计划项目以及中科院基础前沿科学研究计划的资助。

文章录用版链接:沈洁宇, 苏天晗, 余大奇, 谭生军, 张勇. 基因重复驱动的演化:基因组学时代的回顾与展望. 遗传, 2024.

DOI:10.16288/j.yczz.24-215

进化随想
生物学的一切都是相比较而言
 最新文章