论文题目: 植物顺式调控元件研究进展
期 刊:浙江农业学报
作 者:张鑫,刘鹏*
作者单位:扬州大学,江苏省作物遗传生理国家重点实验室,植物功能基因组学教育部重点实验室,江苏省作物基因组学与分子育种重点实验室, 粮食作物现代产业技术协同创新中心,农业科技发展研究院,教育部农业与农产品安全国际合作联合实验室
发表时间:2024年9月6日
Summary
摘要:顺式调控元件是具有调控功能的非编码DNA序列,确保植物在不同生长发育阶段和环境应答时相关基因正确的时空表达。目前,植物顺式调控元件的功能研究落后于动物,然而依托较完善的基因组注释信息和开放染色质技术,植物顺式调控元件研究取得了重要进展。本文综述了植物顺式调控元件的相关研究,发现活性顺式调控元件与染色质活性相关联,转录因子和顺式调控元件之间的相互作用决定了基因转录水平,高通量测序技术提供的不同分子层面的组学数据能高效鉴定到顺式调控元件,由转座子衍生的顺式调控元件调控农艺性状基因转录。精准鉴定和深入功能解析顺式调控元件是未来重要的研究方向。植物顺式调控元件的挖掘与功能解析有助于系统阐明农作物重要农艺性状基因的调控机制,更好助力于培育高产、优质、高抗、高效的优良新品种。
关键词:顺式调控元件;开放染色质;转录因子;染色质活性
随着模式植物基因组测序完成,植物科学研究已经进入后基因组时代,功能基因组的解析已成为当前的研究重点。研究表明,占基因组绝大多数的非编码序列具有重要调控功能[1]。其中,顺式调控元件(cis-regulatory element, CRE)是非编码DNA,它与转录因子(transcription factor, TF)结合调控基因转录。本综述将CRE定义为单个TF结合位点;顺式调控元件集合(cis-regulatory module, CRM)代表一系列TF结合位点的集合,常见的CRM有启动子、增强子、沉默子和绝缘子等[2]。CRE和TF是构成转录调控网络的重要因素,具有调控功能的CRE能够决定 TF的结合与作用模式,而差异表达的TF也能够影响CRE激活,二者相辅相成的调控是导致基因表达多样性和特异性的原因。因此, 研究CRE和CRM的生物学功能有助于了解基因转录的调控机制。本综述主要总结了植物基因组中CRE和CRM的重要特征、鉴定方法和功能验证的最新进展。
2 顺式调控元件集合CRM的鉴定和表征
高通量测序技术可灵敏捕获CRM位点具有的高识别度和区分度的染色质特征,结合多组学整合分析,能更高效地鉴定出潜在的CRM。如何鉴定和表征CRM并确定其靶基因是一项具有挑战性的工作。现有研究工作主要从两个方面展开,一方面是单个CRM的鉴定,另一方面是在基因组水平高通量鉴定 CRM。
2.1 对单个CRM进行识别与表征
增强子捕获技术是鉴定未知CRM的有效工具。具体方法是,利用T-DNA载体将增强子捕获元件随机插入到植物基因组中创建植物增强子捕获系,由于报告基因的表达受到插入位点邻近调控元件的控制,因此通过检测不同增强子捕获系中报告基因的表达模式从而筛选到新的CRM。目前在拟南芥、水稻、棉花等物种中,已成功构建增强子捕获突变体库,并鉴定到具有组织特异表达模式的 CRM。Wu等[47]通过构建GAL4/VP16-UAS元件融合GUS报告基因的载体,创制了水稻增强子捕获突变体库。
对其中1000个阳性转基因植株进行GUS染色组化分析,发现 GUS基因表达呈现组织特异性,说明CRM调控的特异性。McGarry等[48]利用增强子捕获技术在拟南芥中成功分离出 MMVE1(MATURE MINOR VEIN ELEMENT1)元件, MMVE1在于“头对头”表达的ABC转运蛋白ATM1(At4g28630)和生长素应答蛋白IAA11(At4g28640)基因之间的基因间区;通过克隆基因间区启动子序列并分析其不同长度截短体的调控活性发现,靠近ATM1基因5’端上游的序列促进叶脉中细脉的表达,这说明MMVE1是一种调控叶脉中细脉特异表达的增强子。
利用传统的遗传转化方法研究基因组较大物种的CRM功能存在一定的困难。对这类物种而言,数量性状基因座(QTL)定位方法为鉴定活性CRM提供了新的研究思路,也是挖掘未知增强子的有效工具。在玉米中,基于作图群体和分子标记的QTL定位分析并结合遗传精细定位的方法获得多个有功能的增强子。通常玉米的增强子位于靶基因的上游。串联重复b1增强子位于其靶基因booster1转起始位点上游大约100 kb[49],它是植物中发现的第1个远端增强子。迄今为止在植物中鉴定的最远端增强子DICE[50],位于玉米bx1 (benzoxazinless1)基因转录起始位点上游141 kb处,DICE 是 bx1 高表达所必需的。然而,也发现增强子位于靶基因下游的例子。例如,KRN4(KERNEL ROW NUMBER4)增强子位于其靶基因UB3(UNBRANCHED3)下游约60 kb处[51]。随后,在玉米瞬时表达系统和转基因植株中,均验证了KRN4、b1 和tb1增强子的功能[51-53]。
2.2 CRM 的高通量鉴定
高通量测序技术的发展为在全基因组范围鉴定CRM提供了便利[12]。CRM自身具有多样性和复杂性的调控特点,也被称为基因组中的“暗物质”,因此,CRM注释与功能研究在植物领域相对滞后。利用高通量测序的策略,获取不同分子层面的具有特征性的组学数据,如基因组、开放染色质组、表观基因组、染色质三维空间结构等,进而获得多维度的 CRM整合信息, 能更好地预测 CRM,并解析其潜在调节机制(图 2) 。
图2 CRM的高通量鉴定方法示意简图
ATAC-seq,转座酶可及性测序; DNase-seq,脱氧核糖核酸酶 I 超敏位点测序; FAIRE-seq,甲醛辅助分离调控元件测序; ChIP-seq,染色质免疫共沉淀测序; ChIA-PET,配对末端标签测序分析染色质相互作用; Hi-ChIP,基于染色质免疫共沉淀的原位 Hi-C。ATAC-seq, Assay for transposase accessible chromatin sequencing; DNase-seq, DNase I sequencing; FAIRE-seq, Formaldehyde assisted isolation of regulatory element sequencing; ChIP-seq, Chromatin immunoprecipitation sequencing; ChIA-PET, Chromatin interaction analysis by paired-end tag sequencing; Hi-ChIP, In situ Hi-C followed by chromatin immunoprecipitation.
在基因组水平鉴定开放染色质的方法很多,包括 DNase-seq(DNase I sequencing)、FAIRE-seq(formaldehyde assisted isolation of regulatory element sequencing) 、MNase-seq (micrococcal nuclease sequencing)和ATAC-seq(assay for transposase accessible chromatin sequencing)。其中,ATAC-seq需要较少的起始材料,建库周期短,文库质量高,因此应用较广泛[54]。该方法利用Tn5转座酶优先将接头插入ACR,随后利用接头序列进行扩增,富集开放染色质 DNA 序列后进行高通量测序。单细胞ATAC-seq技术也为在单细胞水平检测CRM 提供了便利[55],常采用的分析技术有 2 种:一是使用10X Genomics平台的基于液滴的scATAC-seq [56],二是单细胞组合索引barcode标记法sciATAC-seq [57]。这 2 种方法都适用于通过流式细胞荧光分选技术或传统的洗涤和离心技术分离的植物细胞核。研究证实,即使使用少量细胞也能鉴定出细胞类型特异性的CRM。理论上,与基因表达成正相关。因此,整合分析实验中转录组和ATAC-seq数据能将基因表达与开放染色质特征相关联,更好地理解转录调控机制。在拟南芥和玉米中单细胞测序的研究结果表明,约三分之一的ACR对具有细胞类型特异的基因表达有影响[55, 58]。Farmer 等[59]在单细胞水平研究拟南芥根部细胞中染色质可及性对基因表达的影响,发现细胞类型特异表达的基因与细胞类型特异的 ACR 呈正相关。Marand等[55]利用单细胞测序技术发现, 在玉米不同细胞类型中ACR和基因表达之间的相关性存在差异,Spearman相关系数为 0.52~0.69;使用整株材料做转录组和 ATAC-seq 实验, 并计算二者的相关性, 发现它们之间不存在相关性。
ChIP-seq 技术用于鉴定和表征 CRM[60], 该方法依赖商业化抗体,常用抗体有组蛋白修饰、组蛋白变体、 TF、 RNA 聚合酶等抗体[9]。其中组蛋白修饰在基因组位点的差异富集有助于判定 CRM 的活性状态。在小鼠中,组蛋白 H3K4me3 修饰富集在活跃转录的启动子区,组蛋白 H3K4me1 修饰标记增强子,组蛋白 H3K27ac 修饰可用于辨别增强子是否处于活性状态[7-8]。 Lu 等[61]利用 ATAC-seq 和 ChIP-seq 整合分析,探索 13 种被子植物中开放染色质特征,结果表明, 在基因组较小的植物拟南芥中,大多数 CRE 位于转录起始位点附近, 而在基因组较大的植物玉米中,远端 CRE 是普遍存在的且高度保守, 远端 CRE 与其靶基因的距离还受 TE 活性影响; 进一步发现,在这 13 种被子植物中,组蛋白 H3K4me1 修饰与远端CRE 没有相关性, 实际上, 仅一部分远端 CRE 位点富集组蛋白乙酰化或 H3K27me3 修饰,大多数远端 CRE 位点未富集任何组蛋白修饰。
由于远端 CRM 距离其靶基因超过 10 kb,因此,远端 CRM 通过远程调控方式与启动子互作影响靶基因表达[4, 61-62]。染色质构象捕获技术(chromosome conformation capture, 3C)及衍生技术为检测远程染色质互作提供了方法, 该技术原理是对染色质进行原位酶切和邻近连接得到的嵌合体序列进行测序,获得染色质互作信息,从而解析基因组的三维结构。对基因组较大的植物则可以采用 ChIA-PET(chromatin interaction analysis by paired-end tag) 和Hi-ChIP (in situ Hi-C followed by chromatin immunoprecipitation) 方法, 这两项技术都是在3C 基础上建立起来的,在细胞核内进行原位酶切和连接,并结合 ChIP 实验研究特定组蛋白修饰或调控蛋白与 CRM 的远程相互作用[62-63]。 Ricci 等[62]和 Peng 等[63]分别利用 ChIA-PET和 Hi-ChIP 方法揭示了玉米中组蛋白 H3K4me3、 H3K27ac 和 H3K27me3 修饰介导的三维基因组图谱, 发现远程增强子与启动子之间发生的组织特异性长距离互作形成染色质环, 进而调控靶基因的表达。 玉米 b1 基因与远端 CRM 互作频率与 b1 的表达水平呈正相关[64]。值得注意的是,约 40%的玉米远端增强子不与邻近基因启动子发生互作,它更倾向于调控相隔 1个或多个的远端基因, CRM 之间发生的远程互作在不同的组织、发育阶段和环境条件中是动态变化的[65]。
3 CRM的功能验证
验证 CRM 功能的工作充满挑战。目前评估和验证 CRM 活性主要依赖于瞬时转化体系和稳定转化体系,因此通量低、耗时长[51-53]。具体方法为构建增强子与最小启动子(mini35s)组合或启动子直接驱动下游报告基因(GFP、 GUS、 LUC 等) 的融合载体,通过瞬时转化或农杆菌介导的稳定转化实现报告基因表达,最后根据报告基因的表达强弱评估 CRM 的活性[51-53]。
STARR-seq(self-transcribing active regulatory region sequencing) 是一种高通量筛查增强子活性的方法[66], 该方法利用增强子不受距离和序列方向限制的特点设计了增强子检测载体。 具体思路为, 将打断的基因组片段插入到到核心启动子启动的报告基因的下游, 活性增强子会发生自我转录并成为报告基因转录本的一部分, 在测序结果中检测不同增强子的表达丰度从而评估不同增强子的活性。 已经有研究证实 STARR-seq 在植物中同样适用。 Tian 等[67]优化了传统 STARR-seq 方法,结合流式细胞分选技术以降低实验背景噪音,利用水稻原生质体体系鉴定到活性增强子, 这些序列富含 A、 T 碱基,也富集 AP2/ERF 家族识别的基序。 Jores 等[68]利用烟草叶片的瞬时转化体系进行 STARR-seq 实验, 结果表明,在检测载体中,改变增强子序列与报告基因前后位置会造成增强子转录活性的差异, 当增强子克隆到TSS 上游而不是 3’UTR 时,增强子转录活性最强; 依据此结果将特异条形码和增强子序列一对一匹配,依据测序结果中各条形码转录本的富集度确定活性增强子。更重要的是, ATAC-seq 筛选到的 ACR 可作为 STARR-seq 实验中待检测增强子序列,有效验证了玉米增强子远距离调控的活性。值得一提的是, STARR-seq 还用于分析全基因组的核心启动子特征。 Jores 等[69]对拟南芥、玉米和高粱的启动子活性进行分析, 发现核心启动子元件特别是TATA box、 启动子 GC 含量和启动子近端转录因子结合位点都影响启动子强度。在此基础上,利用机器学习方法训练核心启动子强度预测模型,为设计人工启动子元件奠定了研究基础。
此外, CRISPR/Cas 技术也成为研究 CRM 功能的首选工具。 Cas 蛋白利用特异性的引导RNA 识别目标 CRM 序列并切割目标位点, 导致 CRM 位点发生编辑,进而影响其靶基因的表达。 通常启动子区关键的 CRE 可以通过 TF 结合位点预测、整合 ChIP 图谱分析等方法获得, 因此,启动子区的 CRE 是基因组编辑应用领域的热点。 在植物中, 利用 CRISPR/Cas技术突变或直接删除靶基因启动子区关键的 CRE 序列,研究其对靶基因表达和植株表型的影响, 明确其调控功能。 研究发现, CRISPR/Cas 编辑技术可以改造启动子区的 CRE 序列,优化后的 CRE 可以高效精准地调控靶基因表达,从而改善农作物的农艺性状,如抗病性、非生物胁迫耐受性、 产量和品质性状[70]。 与启动子相比, 借助 CRISPR/Cas 工具研究植物增强子功能的报道较少。 Osterwalder 等[71]利用 CRISPR/Cas9 技术研究小鼠增强子功能,发现调控肢体形态表型的增强子存在功能冗余,由于同一基因附近存在多个活性相似的增强子,因此,有效避免了由于单个增强子突变造成有害表型的严重后果。
4 TE是CRM的重要来源
TE 通过直接破坏 CRM 或者为基因提供新的 CRM 影响基因表达[72]。在人类和玉米中分别有 25%和 30%的 CRM 是由 TE 衍生而来[4, 73],其中部分 TE 序列能够与 TF 结合[74-75]。通过瞬时转化检测由 TE 衍生的 CRM 的活性,发现多数 CRM 表现为增强子或沉默子[74, 76]。值得注意的是,在玉米中还筛选到 8 个 TE 衍生的 CRM 能驱动报告基因的表达[76]。以上结果表明, TE 来源的 CRM 具有调控功能[77]。物种特异的 CRM 也通常富集在 TE 中[61]。 TE衍生的 CRM 与特定表型相关的研究还较少。一个典型的例子是在栽培玉米中 Hopscotch 转座子插入到株型基因 tb1 上游的约 58 kb 处, Hopscotch 的存在能够增强其靶基因 tb1 的转录水平,抑制玉米分枝生长[53]。 Ricci 等[62]利用 STARR-seq 技术检测到 Hopscotch 序列有增强子活性。另一方面, TE 能破坏 CRM 功能。例如, 玉米中 Vgt1(Vegetative to generative transition 1) [78]位于开花时间的负调控因子 ZmRap2.7 基因上游约 70 kb,它作为增强子调控 ZmRap2.7表达, 当 MITE 转座子插入 Vgt1 序列后,增强子元件受到破坏导致玉米开花时间提前。
5 总 结 与 展 望
CRM是一系列TF结合位点的集合,CRM的活性状态受与其结合的转录子调控,不同活性 CRM 具有各自独特的染色质特征,同时染色质特征也是鉴定CRM的重要依据。目前,系统研究 CRM 主要基于基因组学、转录组学等多组学联合分析, 利用高通量测序的策略大规模获取基因组、转录组、表观基因组等不同分子层面组学数据,整合多组学数据获取 CRM基本特征及其潜在调节机制。利用遗传学、生物化学、分子生物学等策略验证 CRM 功能,推动不断校正系统注释 CRM 的精度和新度。虽然 CRM 和 TF 互作构成的转录调控网络已相对完整,在未来仍需要深入探究其中的诸多细节。
精准鉴定CRM,特别是依托高通量测序技术在全基因组范围鉴定特异 CRM 是今后研究探索的方向之一。 为深入解析植物生长发育过程中高度复杂的动态调控机制, 研究工作的切入点是聚焦不同细胞在各个发育时期的基因表达和调控。 高通量单细胞测序技术可以揭示单个细胞内染色质特征和基因表达情况, 明确细胞类型特异和发育时期特异的 CRM, 从而揭示细胞间功能差异。单细胞组学应用包括单细胞基因组、 转录组、 开放染色质组、 表观基因组等。在植物中,结合单细胞转录组和 ATAC-seq 技术, 能有效鉴定出组织特异性和环境应答特异性的 CRM[55, 59, 79-81]。 Tu 等[82]开发了新的单细胞表观基因组技术,结合其他单细胞测序结果,以低成本组合索引方法无偏差地识别到细胞类型特异性开放染色质位点。CUT&Tag 是研究蛋白质-DNA 互作的一种方法,在此基础上, Ouyang 等[83]在水稻中建立了单细胞 CUT&Tag 方法,能够以高通量方式分析单个细胞核的组蛋白修饰特征,为 CRM 精准注释提供了技术保障。单细胞 Hi-C 技术揭示了水稻配子和单细胞受精卵的三维基因组结构特征[84],为研究单细胞内 CRM 之间长距离互作提供了新的工具。
解析 CRM 功能仍是将来的重要工作之一。 利用染色质捕获技术鉴定出的发生远程互作的 CRM, 需要进一步实验证据揭示其调控功能。 特别是, 仍需继续探索增强子/沉默子远距离调节靶基因表达的机制。 近年来的研究成果表明, CRM 序列发生的自然变异会造成农作物性状的改变[85], 改造启动子区 CRE 序列能精细地调节基因表达水平或基因的特异性表达[86]。 因此, 现代生物技术的研究重心从基因编码区转移到 CRM 序列。 在未来继续利用基因编辑等技术优化 CRM 序列可实现各种农艺性状精准改良, 提高精准育种效率, 为步入分子育种 4.0 阶段提供实验支撑。农作物 CRM 应用研究将有助于解析决定重要农艺性状的基因及其机制,加速培育高产、优质、高抗、高效的优良新品种。
0.1PBJ ||陈晓亚院士团队:<揭示青蒿aamyc3转录因子偶联青蒿素代谢与腺毛密度的分子调控机制>
0.2[精读] 高等植物花青素生物合成、调控、生物活性及其检测的研究进展
0.3[精读]Plant Cell ||中国农大张小兰教授联合多家单位,揭示葫芦科作物果实长度调控新机制
0.4[精读]JIPB ||上海交大唐克轩教授团队: <揭示aabbx21-aahy5模块介导光信号调控青蒿素生物合成的新机制>
0.6[精读]Plant Physiology ||安徽农大牛庆丰教授联合南方科大郎曌博教授揭示转录因子调控番茄果实成熟代谢的分子机制
0.7[精读]Plant Cell ||韩月彭/安建平/由春香联合团队:揭示苹果独脚金内酯信号通路与赤霉素交互诱导花青素的生物合成机制
0.8[精读] 浙江中医大开国银教授组: CRISPR/Cas9技术在药用植物中的应用与展望
3.Nat. Commun.||中药所陈士林研究员团队:<七叶树种子娑罗子药效成分生物合成机制和绿色合成研究获突破>
4.[精读]New Phytologist ||长江学者唐克轩教授组揭示AaMYB108整合光和JA信号调控青蒿素生物合成的新机制
5.[精读]Trends in Plant Science||唐克轩教授组联合黄璐琦院士撰写药用植物活性成分转录调控的顶级论文
6.[精读]Plant Cell ||华中师大李学宝教授组:<转录因子erf108与arfs互作调控棉纤维次生细胞壁的生物合成>
7.[精读]PBJ ||中科院植物所国家杰青秦国政组:比较转录组学分析揭示关键促成熟基因SlDML2对番茄抗病性的调控机制
8.[精读]New Phytologist ||四川大学:综合转录组和代谢组分析揭示了红肉猕猴桃的主要品质调控机制
9.[精读]New Phytologist ||川大浙大:代谢组和全基因组转录组的整合分析揭示了猕猴桃风味形成的调节网络
10.[精读]PBJ ||中国农大马超教授组采用CRISPR/Cas9构建eYGFPuv和靶基因敲除载体, 显著提高筛选效率
11.[精读]PJ ||西北农林麻鹏达/董娟娥团队: 揭示MeJA介导的SmMYC2-SmMYB36转录复合体参与调控丹参酮的生物合成
12.[精读]Commun Biol || 药植所马小军教授组: 多基因叠加策略在黄瓜和番茄中实现了罗汉果甜苷的异源生物合成
13.教材推荐 ||《植物代谢》[主编]: 薛哲勇教授 张秀丽副教授 [副主编]: 开国银教授 麻鹏达副教授
14.Advanced Science ||东北林大徐志超教授课题组: <防己科苄基异喹啉生物碱结构多样性形成机制的研究获突破>
15.J.Adv.Res. ||东北林大薛哲勇教授团队:<谷物三萜化合物的生物合成及其功能研究>
16.Phytomedicine ||东北林业大学薛哲勇/华欣团队: <天然甾体皂苷抗肿瘤活性及机制研究:回顾、挑战与未来展望>
17.东北林大薛哲勇团队NPR: 天然产物五环三萜–从发现到异源生物合成
18.[精读]Horticulture Research ||东北林大徐志超教授组综述: 大麻的历史起源、腺毛发育和大麻素生物合成
19.[精读]Crit Rev Biotechnol ||东北林大徐志超教授组发表黄芩属药用植物的药理学、生物合成及代谢调控论文
20.[精读]Metabolic Engineering||东北林大薛哲勇/华欣组:重楼胆固醇合成途径破译及薯蓣皂素在烟草中的高效合成
此公众号致力于植物、真菌(如灵芝)等生物中单萜、倍半萜、二萜、三萜、甾体皂苷、类黄酮、生物碱等 [次生代谢产物] 代谢途径、生物合成、转录调控、miRNA等领域国内外研究、综述、技术前沿、学术论坛、学术讲座等 [相关] 知识分享与交流。
由于水平精力有限,文中难免有不当之处,恳请批评指正。欢迎您随时对公众号运行或发布文献等信息中存在的问题或不足提出您的宝贵建议(文末评论或留言),感谢您的关注和支持!