大规模平行报告基因测定:一种分析基因表达调控的新技术

2025-01-07 11:15   湖北  
摘要: 大规模平行报告基因测定(massively parallel reporter assay,MPRA)是一种可以同时研究基因组数千个调 控元件活性的高通量分析方法。该方法在传统的荧光素酶报告基因载体上引入一段具有唯一标识的条形码, 通过二代测序技术对转染前的 DNA 条形码和转染后的 mRNA 条形码进行测序,用 mRNA 和 DNA 条形码读 数的比值来分析顺式调控元件的活性。自 MPRA 提出以来,已被广泛应用于基因组顺式调控元件和功能性变 异的鉴定、转录后调控对表型的影响等方面的研究。本文对 MPRA 的发展历程、基本原理、实验流程、统 计分析方法以及在顺式调控元件和转录后调控方面的应用进行了综述,并对其发展前景进行了展望,以 期为相关领域研究人员了解与应用 MPRA 提供有益参考。 关键词: 大规模平行报告基因测定;基因表达调控;顺式调控元件;转录后调控
基因表达调控一直是现代分子生物学基础研究 的热点之一,其过程十分复杂,可分为染色质水平、 转录水平、转录后水平、翻译水平和翻译后水平等 调控[1,2]。转录和转录后水平上的调控是基因表达调 控的重要部分,转录水平主要指特定顺式调控元件 (cis-regulatory elements , CREs) 与 反 式 作 用 因 子 (trans-acting factors)相互作用而调控基因的表达。 CREs 是一段可调节基因表达的 DNA 序列,主要包 括启动子、增强子和沉默子,它本身不编码任何蛋 白质,但能够提供与反式作用因子相互作用的位点, 进而参与基因表达调控[3,4]。因此,CREs 的变异可 能会通过改变转录因子结合位点来调控基因表达。 转录后水平是指转录形成的前体信使核糖核酸 (pre-mRNA)经过加工修饰成为信使 RNA (mRNA)的 过程,其主要包括 RNA 剪切、RNA 编辑等[5~8]。 pre-mRNA 在加工修饰的过程发生突变不仅会影响 RNA 剪切[9]、RNA 编辑[10]等过程,还可能影响 mRNA 稳定性[11],从而影响基因表达。目前,大多 采用传统的双荧光素酶报告基因检测变异位点的调 控活性,但每次只能检测单个变异位点,无法做到 高通量检测[12~17]。 全 基 因 组 关 联 研 究 (genome-wide association study,GWAS)已被广泛用于检测与人类疾病和动植 物经济性状相关的遗传变异的筛选,目前已经发现 了大量的显著相关变异位点,但大多数变异位点位 于基因组非编码区内,通过影响 CREs 来调控基因 表达[18~20]。由于变异位点间存在强烈的连锁不平衡 (linkage disequilibrium,LD),使得从众多变异位点 中鉴别具有调控活性的变异位点(因果变异)具有很 大 的 挑 战 性 [21,22] 。 大 规 模 平 行 报 告 基 因 测 定 (massively parallel reporter assay,MPRA)是解决这一 难题的有效方法,该技术能够高通量检测 GWAS 关 联信号区域中突变位点的等位基因活性差异,与基 因编辑技术相结合能对功能性变异进行功能鉴定和 验证,以鉴定可能的因果变异[23]。自 MPRA 提出以 来,已广泛应用于人类疾病研究中,如鉴定与疾病 相关调控元件的功能性变异,分析转录后调控对疾 病的影响等[24~28]。本文对 MPRA 的发展历程、基本 原理、实验流程、统计分析方法以及在 CREs 和转 录后调控方面中的应用进行了总结,并对其发展前 景进行了展望,以期为相关研究及其应用提供参考。 
1 MPRA 发展历程 
从发展历程来看,MPRA 技术发展可分为两类: 第一类是基于有条形码的常规 MPRA 及其改进方法; 第二类是基于无条形码的 STARR-seq 及其改进方法。 表 1 总结了两类 MPRA 技术及其改进方法的目标序 列来源、载体、转染方式、应用及其优缺点等信息。 2009 年,Patwardhan 等[29]首次提出一种以单核 苷酸为研究对象对启动子进行高通量功能分析的方 法,该方法需要大规模平行合成 DNA 序列并对其进 行测序。在此基础上,Melnikov 等[30]于 2012 年在 对两种诱导型增强子(合成 cAMP 调节增强子和病毒 诱导的干扰素 β 增强子)变异位点的研究中提出了 MPRA 这一技术。自此,随着 MPRA 技术的普及和 发展,适用于各种实验的 MPRA 被不断的开发出来。 2013 年,Arnold 等[31]开发了一种可以在全基因组 范围内直接定量评估数百万候选增强子活性的技 术——STARR-seq (self-transcribing active regulatory region sequencing)。与有条形码的 MPRA 相比, STARR-seq 技术通过调控序列与启动子的相互作用 来驱动报告基因和序列自身进行转录,调控序列的 转录本作为标签而不需要条形码序列,使实验操作更为简便。在 STARR-seq 基础上,Vanhille 等[32]于 2015 年开发了 CapSTARR-seq 技术,该技术克服了 STARR-seq 在哺乳动物中由于基因组过于复杂而使 文库制备困难和测序深度过深的问题,为哺乳动物 中增强子活性的研究提供了一种快速且经济的方法。 至 2016 年为止,MPRA 仅能在有限的细胞类型中检 测短 CREs 的活性差异。为此,Shen 等[33]开发了 AAV MPRA (adeno-associated virus MPRA)技术以扩大 MPRA 的应用范围,该技术通过将 DNA 文库包装成 AAV,使文库可以转导至广泛的组织中,从而能对 任何可被 AAV 感染的组织或器官进行 MPRA;同年, Inoue 等[34]开发出一种基于慢病毒的 MPRA 技术, 即 lentiMPRA(lentivirus-based MPRA),该技术可用 于任何被慢病毒有效感染的细胞,这使 MPRA 技术 在生物学上的应用范围进一步扩大[35]。2018 年, Kalita 等[36]开发了一种检测调控序列内等位基因特 异性表达的简化方法,称为 BiT-STARR-seq (biallelic targeted STARR-seq)。该方法在反转录中引入了单分 子标签(unique molecular identifiers,UMI),使得克 隆和转化步骤中不会出现由于文库的复杂性而导致 的误差,从而提高检测等位基因特异性表达的能力; 同年,Wang 等[37]提出了基于 ATAC-seq (assay for transposase accessible chromatin with high-throughput sequencing)和 STARR-seq 的 ATAC-STARR-seq 技术, 该技术可直接从开放染色质区域捕获目标片段,无 需进行寡核苷酸合成,可以分析较长目标片段的活性。有研究表明,转录因子对 DNA 甲基化水平的敏 感性普遍存在差异,但这种差异敏感性是否会转化 为基因表达差异尚无定论[38]。因此,Lea 等[38]于 2018 年开发了 mSTARR-seq (methyl-STARR-seq)技术,主 要用于研究 DNA 甲基化对数十万个基因片段(数百 万个 CpG 位点)的调控作用,为分析 DNA 甲基化与 基因表达水平之间的因果关系提供了有力工具。为 了探索 CREs 和区域染色质是否以复杂的序列相互 作用,以及它们与基因表达是否存在因果关系, Maricque 等[39]于 2018 年开发了 patchMPRA (parallel targeting of chromosome positions by MPRA)技术,该 技术的关键点在报告基因产生的 mRNA 有两种不同 的条形码:一个是用于指定 CREs 的 CREs 条形码 (cBC);另一个是用于指定报告基因位置的基因组条 形码(gBC),这使 patchMPRA 能够在不同的染色体 位置测量同一组 CREs,从而研究局部 CREs 和区域 染色质对基因表达的调控作用。2023 年,Zhao 等[40] 基于 patchMPRA 技术[39]的两种条形码模型开发了 一种 scMPRA(single-cell MPRA)技术,可检测具有 细胞类型或细胞状态特异性的 CREs,解决了传统的 MPRA 难以鉴定细胞类型或细胞状态特异性的 CREs 这一难题。由于在单细胞中回收 mRNA 的效 率较低,因此可以从 mRNA 回收效率方面改进 scMPRA。

AIBioPioneer
分享人工智能,生物信息与植物生理的点点滴滴
 最新文章