揭秘非编码RNA的发生与功能是理解生命活动的关键环节,对人类健康和疾病防治具有重要意义。与真核生物类似,原核微生物中也有种类丰富、数量众多的非编码小RNA(non-coding small RNA,sRNA),长度通常在50~300个碱基之间,统称为非编码sRNA。sRNA是原核细菌中最重要的一类转录后调节基因,在RNA水平调节靶标基因的翻译表达,介导形成复杂的基因表达调控网络,全面参与细菌的各种生理过程,包括压力应激反应、营养代谢、群体感应、生物膜合成、抗生素耐药、毒力与致病性等[1-9]。非编码小RNA广泛分布于各类微生物,包括病原微生物、农业微生物、工业微生物等,发挥重要的生理调控作用。在模式病原细菌——沙门氏菌中已发现了200~300个sRNA,在总表达量方面与mRNA相当,是细菌体内表达丰度最高的一类基因[4,10,11]。近年来,对sRNA的研究已经成为微生物学最活跃的领域之一,不断涌现出新的基因调控机制和分子生物学范式,推动了生命科学的快速发展。例如,在化脓性链球菌中首次发现的tracrRNA(trans-acting CRISPR RNA),通过与CRISPR RNA(clustered regularly interspaced short palindromic repeats RNA)配对结合,共同作为guide RNA激活Cas9核酸酶,广泛用于基因组编辑技术[12,13]。因此,挖掘鉴定原核生物来源的新型非编码RNA不仅具有重要的科学意义,也有助于新型RNA生物技术的开发与应用。1 原核sRNA的产生机制
传统观点普遍认为原核sRNA主要位于基因间区(intergenic region,IGR),与mRNA一样由独立基因转录产生,具有自身的转录起始和转录终止元件,因此转录产生的sRNA普遍带有5′三磷酸帽子(5′PPP cap)和转录终止子结构。随着RNA测序技术的发展和对sRNA研究的逐渐深入,越来越多的sRNA被发现可以由mRNA的3′非翻译区(3′ untranslated region,3′UTR)和5′非翻译区(5′ untranslated region,5′UTR)衍生而成[10,14],它们往往和亲本基因具有共同的转录起始位点或终止位点。这类sRNA和其他经典sRNA一样,也能与靶标mRNA形成碱基互作,调控靶标基因的表达,从而发挥重要的生物学功能。3′UTR衍生的新型sRNA是近年来的研究热点,目前已有20多个来源于不同细菌的3′UTR sRNA被详细研究报道[15-18]。3′UTR衍生的sRNA主要有两种形成机制(图1A)。第一种方式是通过编码基因内部隐藏的启动子独立转录产生,如sRNA DapZ的启动子位于二氢吡啶二羧酸还原酶基因dapB的开放阅读框中,在沙门氏菌毒力条件下被特定的转录因子HilD激活,转录出一小段RNA序列即DapZ,与Hfq结合后调控细胞膜ABC转运蛋白的表达[10]。图1 原核3′UTR衍生的sRNA的发生机制与调控功能A:原核3′UTR衍生的sRNA的发生机制;B:代表性3′UTR-sRNA CpxQ的形成及功能机制另外一种方式是编码基因的mRNA在RNase E、RNase Ⅲ等核酸内切酶的作用下剪切形成,不带5′三磷酸帽子,亦被称为“无帽”sRNA。此类sRNA一般能够协助亲本基因调控关键生物学过程。其中CpxQ是第二种亚型的典型代表,由其亲本基因cpxP mRNA剪切加工产生,受其亲本基因启动子的调控(图1B)。当细菌感知外界内膜压力信号刺激时,CpxA/R双组分系统迅速激活cpxP mRNA的转录表达,其3′UTR被RNase E剪切后释放,形成CpxQ sRNA[19,20]。因为CpxQ与cpxP共用一个启动子,在同样的环境条件下转录表达,所以CpxQ与CpxP具有高度的功能相关性。与CpxP蛋白的功能相似,CpxQ阻止细胞周质伴侣蛋白Skp的表达,以免外膜桶蛋白过量定位到细菌内膜上,缓解内膜压力;另外CpxQ也能抑制Na+/H+逆向转运蛋白NhaB的合成,减少质子的吸收,从而抵消由内膜压力导致的质子动力的丧失[19,21]。有意思的是,CpxQ的序列保守性远高于CpxP,提示CpxQ可能拥有比CpxP蛋白质更加保守的功能,从进化角度上佐证sRNA基因存在的必要性和重要性。在另外一个例子中,沙门氏菌硝酸盐转运蛋白NarK mRNA的3′UTR亦高度保守,被RNase E剪切生成NarS sRNA,下调亚硝酸盐转运蛋白NirC的表达,从而协助亲本基因narK维持硝酸盐代谢平衡[22]。
2 原核sRNA调控功能与分子机制
原核sRNA通常在转录后水平调控靶标基因的表达,通过与靶标mRNA形成短小且不完美的碱基配对发挥调控功能,通常包含8-15个不连续的碱基互补配对(图2)[23-29]。绝大多数sRNA结合在靶标mRNA的5′UTR区域,尤其是核糖体结合位点(ribosome binding site,RBS)附近,阻止核糖体与mRNA结合,从而有效抑制靶基因的翻译起始[23,30],如sRNA ChiX与chiP mRNA的翻译起始区域结合,抑制外膜蛋白ChiP的表达[31]。该方式是sRNA最主要的作用方式,也是生物信息学预测sRNA靶基因的一个重要参数[32,33]。调控靶标mRNA的稳定性是另一种非常普遍的sRNA作用机制(图2),包括增强或抑制mRNA的降解、促进或解除基因的转录提前终止等。如sRNA ArcZ、RprA和DsrA能够结合在rpoS基因的5′UTR区域,抑制ρ因子依赖的转录提前终止,促进rpoS的转录和表达[34,35];sRNA也可以与mRNA的5′UTR结合后使该区域的构象改变,暴露核糖体结合位点,促进靶基因的翻译,如大肠杆菌在缺铁条件下,sRNA RyhB与shiA mRNA的5′UTR配对,破坏RBS区域固有的抑制结构,促进莽草酸转运相关蛋白ShiA的翻译,增强细菌在铁缺陷条件的适应性[36]。sRNA不仅能与mRNA产生碱基互作,还可以直接与其他sRNA结合,作为RNA分子“海绵”(sponge),影响该sRNA的稳定性或者干扰sRNA对靶标基因的调控作用(图2)[23,37,38]。如沙门氏菌操纵子oppABCDF的5′UTR衍生的sRNA OppX,能够直接通过碱基配对结合sRNA MicF,不影响MicF的稳定性,但是能够阻遏MicF与靶标ompF mRNA的结合,上调外膜桶蛋白OmpF的表达,调节细菌外膜的通透性[39]。除此之外,少数sRNA通过与蛋白质互作进而调控蛋白质的活性[40,41]。如大肠杆菌全局性调控蛋白CsrA是一种RNA结合蛋白,可结合在mRNA分子上的GGA保守基序进而影响mRNA稳定性或翻译起始,参与调节糖原生物合成、群体感应和运动性相关基因的表达。CsrA的活性主要受到CsrB和CsrC两个sRNA的调节,它们分别含有22个和13个重复的GGA序列,可以与mRNA竞争性结合CsrA,隔离CsrA的活性位点,阻遏CsrA对靶标mRNA的调控[42,43]。Csr系统或其同源类似物广泛存在于多种细菌中,如假单胞菌属中RsmA蛋白的功能受到3个sRNA(RsmX、RsmY、RsmZ)的调节。这种sRNA与蛋白结合的调控机制在细菌中是常见的[44-46]。传统意义上,sRNA以不编码蛋白的非编码RNA形式存在,但近年来研究发现,一些sRNA自身序列包含小的开放阅读框,可以翻译产生多肽或微型蛋白质发挥功能,亦被称为双功能sRNA[47,48]。其中,大肠杆菌sRNA SgrS是最早发现的双功能sRNA之一。当6-磷酸葡萄糖在大肠杆菌中积累时,产生代谢毒性,转录因子SgrR激活sRNA SgrS的转录,SgrS与葡萄糖渗透酶基因ptsG mRNA的SD序列结合阻止核糖体进入,同时招募RNase E加速mRNA的降解,从而有效抑制PtsG蛋白的合成与葡萄糖摄入[49]。此外,SgrS还编码一个长度仅为43个氨基酸的微型蛋白SgrT,通过与细胞膜上的PtsG蛋白结合抑制其转运活性,缓解葡萄糖代谢压力[50]。随着研究的深入,人们发现了越来越多的双功能sRNA,如金黄色葡萄球菌的sRNA RNAⅢ、枯草芽孢杆菌的sRNA SR1和SR7、霍乱弧菌的sRNA VcdR等,并逐渐发展成为一个独特的研究方向[51-55]。原核sRNA的功能也需要关键RNA结合蛋白的协助,如在革兰氏阴性菌中广泛存在且高度保守的Hfq蛋白。Hfq是一个专职的sRNA分子伴侣蛋白,相对分子质量仅为11 000,其结构与真核Sm和Lsm蛋白具有高度相似性[56,57]。Hfq蛋白表面拥有至少3个不同的RNA结合位点,一方面可以保护sRNA 3′末端免受核酸酶的攻击,另一方面在共转录过程中结合在mRNA的5′区域,促进sRNA与mRNA靶标之间的配对互作,降低结合自由能[56,58-60]。Hfq和众多与其结合的sRNA(Hfq-associated sRNAs)一起构成了一个大型的转录后基因调控网络,控制数百个靶标基因的表达,并参与了许多复杂的生理生化过程[10,26,61,62]。Hfq结合的RNA转录组测序结果表明,沙门氏菌中大约四分之一的基因受到Hfq直接或间接的调控[10]。敲除hfq的沙门氏菌表现出多种生理缺陷[56],如致病性大幅降低,对各种环境压力和刺激的耐受能力下降,表明Hfq和与之结合的sRNA分子参与了细菌致病因子和多种压力应激反应的调控,但是还不完全清楚有哪些关键sRNA参与了这些调控过程。因此,阐明这些sRNA的调控机制及其在细菌中发挥的生物学功能,可帮助深入了解细菌的毒力和致病机制。3 sRNA转录后调控网络
由于sRNA与靶标通常形成短的不完全碱基配对,同一个sRNA可以调节相关通路的多个基因,协同控制相应的生理过程,形成调控网络中的关键节点(图3)。sRNA参与碳代谢调控是研究得比较深入的案例。在肠杆菌科中,sRNA Spot42的转录受到其上游转录因子环磷酸腺苷受体蛋白(cAMP receptor protein,CRP)的激活,Spot42与CRP二者共同作用抑制次级碳水化合物利用基因的表达。研究发现,在首选碳源葡萄糖存在的条件下,Spot42参与调控29个基因的表达来抑制次级碳源的利用,主要包括碳源转运相关基因glpF、mglB、nanC等,碳源分解代谢相关基因galK、caiA、paaK等,以及中心碳代谢相关基因gltA、sdhC、sucC等[63-66]。这些受调控的基因仅限于经过实验验证的,随着高通量sRNA靶标鉴定技术的发展,有更多的Spot42靶标被鉴定出来,有待进一步实验验证[67,68]。- 绿色方框为sRNA,椭圆为受sRNA调控的靶标基因mRNA,黑色六边形为转录调控因子。图中所示的调控关系均已被实验证实,不包含多组学预测结果
另一方面,同一个靶标mRNA也可以被多个不同的sRNA所调节,使细胞内不同的靶标基因通过sRNA连接成复杂的调控网络,以协调细菌复杂的生理行为(图3)。例如,细菌菌毛是生物膜合成的关键,其上游转录因子CsgD的表达受到RprA、GcvB、McaS、RybB等7个不同的sRNA在转录后水平的调控[69-75]。这些sRNA分别在不同的生理条件下激活表达,如RprA在高渗透压条件下大量表达[76],RybB在包膜压力条件下被激活[77]。细菌响应不同的环境压力条件激活不同sRNA的表达,参与靶标基因的表达调控来适应生长。不同sRNA共同作用的最终效应取决于sRNA和mRNA的表达时期、速率与水平,以及sRNA与mRNA结合能力等多种因素。因此,细菌sRNA及其调控的靶标基因构成了一个复杂庞大的调控网络。4 sRNA靶标鉴定与互作组研究技术
原核sRNA主要通过调控靶标基因的表达来发挥生物学功能,因此鉴定靶标基因是研究sRNA功能的核心与关键。在伴侣蛋白Hfq的协同作用下,一个sRNA可以作用于多个靶标,同一个靶标也有可能被多个sRNA调控。常用的sRNA靶标鉴定方法有sRNA瞬时表达法、MS2-sRNA亲和纯化测序技术等[4,78-81],但是这些方法都有一定的局限性,只能鉴定单个sRNA的靶标基因,并且无法精确获得sRNA与靶标mRNA的碱基配对区域。近年来,随着RNA测序技术和平台的飞跃发展,已经有一些大规模高通量鉴定sRNA靶标的技术被提出,主要包括以下几种。4.1 Hi-GRIL-seq技术
Hi-GRIL-seq技术(high-throughput global sRNA target identification by ligation and sequencing)在细菌中转入了一个编码T4 RNA连接酶的质粒,当细菌生长到指定时期时,加入IPTG诱导T4 RNA连接酶的表达,利用该酶将胞内两个碱基配对的邻近RNA分子连接在一起,形成RNA嵌合体分子,如含sRNA-mRNA片段的嵌合体[82-84]。通过提取细菌的总RNA,去除rRNA,下一步或者利用反义核酸探针富集某个特定的sRNA,或者使用随机引物对所有RNA分子构建cDNA文库,最后使用高通量测序和生物信息学分析,获得嵌合体中两条RNA分子的具体序列与信息。Hi-GRIL-seq实现了对稳态生长条件下的细菌活细胞中全基因组水平的RNA-RNA互作的鉴定,包括sRNA与靶标mRNA的互作,操作简单方便,后续分析难度不高,但是具有敏感性低、假阳性多的问题。由于缺乏对sRNA类群的富集,sRNA整体在文库中丰度较低,sRNA与mRNA形成的嵌合体在总测序数据中的占比相对更低。在铜绿假单胞菌的Hi-GRIL-seq实验中,嵌合体片段仅占0.26%~0.29%[84]。因此,Hi-GRIL-seq对于sRNA靶标基因的检测能力大大受限于测序的深度,特别是当sRNA或者其靶标基因的表达量丰度较低时,只能通过增加测序深度才能检测到。4.2 RIL-seq技术
RIL-seq技术(RNA interaction by ligation and sequencing)是由以色列科研团队提出的一种基于免疫共沉淀和体外连接的sRNA靶标鉴定技术[67]。RIL-seq技术首先通过短波紫外线交联将细菌中的sRNA与靶标mRNA互作分子固定在带FLAG标签的Hfq蛋白上,裂解细胞后在体外使用免疫共沉淀捕获Hfq蛋白和RNA复合物,配对RNA分子末端经过RNase A/T1核酸酶消解和T4 PNK酶修复后,在T4 RNA连接酶的作用下进行连接反应,形成sRNA-mRNA嵌合体分子,之后使用蛋白酶K处理,将Hfq与RNA解离。最后,通过高通量RNA测序及统计置信分析,RIL-seq技术能够全面鉴定Hfq蛋白结合的sRNA靶标基因和互作网络。他们利用RIL-seq技术对三种不同生长条件下的大肠杆菌进行鉴定,总共获得约2 800个Hfq蛋白相关的RNA互作,覆盖了超过一半已知的sRNA-mRNA互作[67]。此外,该研究还发现了一个由编码基因3′UTR衍生的sRNA PspH,它能够作为一种新型的RNA海绵,反向调控另外一个sRNA Spot42在体内的丰度与功能,揭示了一种新的sRNA产生方式和调控模式[67]。RIL-seq技术通过对Hfq蛋白的免疫共沉淀实现了富集sRNA及其相关靶标的目的,嵌合体RNA在总测序数据中的占比可达到5%,能够覆盖大部分已知的sRNA。因此,与Hi-GRIL-seq不同,RIL-seq技术对测序深度的要求不高,从有限的测序数据中就可以获得大量的RNA-RNA互作信息。迄今为止,RIL-seq技术已经应用到大肠杆菌(Escherichia coli)、沙门氏菌(Salmonella enterica)、肺炎克雷伯菌(Klebsiella pneumoniae)、铜绿假单胞菌(Pseudomonas aeruginosa)、霍乱弧菌(Vibrio cholerae)等多种革兰氏阴性致病菌中[38,39,67,85-88],革兰氏阳性菌艰难梭菌(Clostridium difficile)[89]中也有应用,极大地拓宽了人们对细菌sRNA调控网络的认识和理解。然而,RIL-seq技术也存在一些缺陷和不足,在cDNA文库构建之前需要经过不可逆的紫外交联和多步体外酶促反应,这些对于技术要求相对较高的操作步骤极易引起RNA的降解或者引入一些人为造成的非特异性连接,增加了实验的操作难度和失败的概率。4.3 CLASH技术
CLASH(cross-linking,ligation and sequencing of hybrids)技术最初在2011年被提出,用于检测真核酵母细胞中的RNA-RNA互作,之后被澳大利亚科研团队应用于大肠杆菌中Hfq相关的sRNA与靶标互作网络的鉴定[68]。CLASH技术的基本流程与RIL-seq技术相似,只是在免疫共沉淀和体外酶促反应实验中利用高盐缓冲液进行了更加严格的清洗步骤。利用CLASH技术他们鉴定了大肠杆菌在7个不同生长时期的RNA-RNA互作,总共鉴定到大约2 000个sRNA相关的RNA互作,包括200个sRNA-sRNA之间的互作,如sRNA ArcZ与CyaR[68]。该团队还将CLASH技术应用于耐药性金黄色葡萄球菌(Staphylococcus aureus)中[90,91],通过免疫沉淀捕获核酸内切酶RNase Ⅲ,鉴定了大量不依赖Hfq的sRNA-靶标互作,揭示金黄色葡萄球菌毒素基因的表达受到sRNA的广泛调控。4.4 iRIL-seq技术
上述3种RNA-RNA互作组研究方法都存在一定的局限性,操作繁琐、耗时耗力、失败率高、RNA互作鉴定的准确性和分辨度不足。我们近期开发了一项全新的RNA互作组高通量研究技术iRIL-seq(intracellular RNA interaction by ligation and sequencing)技术[92]。通过在微生物活细胞中诱导表达T4 RNA连接酶,促使RNA-RNA互作分子之间在体内发生邻近连接;借助sRNA结合Hfq伴侣蛋白的特点,使用免疫共沉淀富集Hfq和与之结合的众多sRNA及其互作分子;最终通过高通量测序鉴定所有捕获的RNA分子与序列特征(图4)。整个实验操作流程高度精简,在一天之内即可完成,且不需要任何交联和体外酶促反应。图4 iRIL-seq技术检测活细胞中RNA-RNA互作组的原理与方法iRIL-seq技术综合了上述3种方法的优势,一方面在生理条件下诱导T4 RNA连接酶表达形成RNA互作嵌合体,避免了繁琐的体外操作步骤和交联造成的非特性背景,同时也节约了实验成本;另一方面,iRIL-seq技术利用免疫共沉淀捕获sRNA分子伴侣Hfq蛋白结合的RNA互作嵌合体,极大地提高了RNA互作嵌合体在测序数据中的占比,显著增强了检测的敏感性与特异性。利用iRIL-seq技术,我们绘制了沙门氏菌多个生长时期的动态RNA互作网络图谱,总共鉴定了2 000多个RNA-RNA互作关系,包含128个sRNA和1 122个基因mRNA,表明Hfq介导sRNA参与了沙门氏菌中多达四分之一基因的表达调控[92]。其中,iRIL-seq检测的靶标mRNA中超过95%含有与sRNA互补配对的碱基序列,表明体内生理条件下Hfq蛋白结合的RNA分子在T4 RNA连接酶的介导下形成了可靠的连接[92]。iRIL-seq技术既实现了对微生物RNA-RNA分子互作网络的全景式解析,也能在单核苷酸水平鉴定RNA-RNA碱基互作位点信息,具有高度的灵敏性和特异性,为解析细菌中的RNA互作图谱提供了一种简单、快捷、准确的通用性技术,也为病原微生物基因表达调控及分子致病机制研究奠定了基础。5 总结与展望
sRNA是原核基因表达调控的重要组成部分,在细菌的多项生命活动,特别是毒力、环境应激和营养代谢中发挥着关键调节作用。目前的sRNA-mRNA互作组鉴定技术iRIL-seq技术、RIL-seq技术和CLASH技术等实现了对sRNA靶标基因的高通量鉴定,绘制了模式大肠杆菌、沙门氏菌以及包括肺炎克雷伯菌、铜绿假单胞菌等重要病原微生物在内的sRNA调控网络。然而,当前大多数研究主要集中于实验室人工培养条件下sRNA对基因表达的影响,对压力应激条件下或者病原-宿主互作过程中sRNA发挥的调节作用的认识相对较少。揭示sRNA在病原感染宿主过程中的关键生物学功能对于阐明病原细菌的毒力和致病机制具有更加深远的意义。值得注意的是,越来越多的研究报道,sRNA可以由编码基因mRNA的不同区域剪切加工形成,特别是3′UTR区域。这些新型无帽sRNA与经典的sRNA一样具有重要的生物学功能,其产生和调节机制逐渐受到科学家们的重视。然而,目前尚缺乏特定的方法来全面鉴定这些sRNA及其功能,并将它们与降解产物明确区分开来。iRIL-seq技术在鉴定这类sRNA及其参与的RNA-RNA互作方面具有显著的优势,对于揭示这一类新型sRNA在原核细胞中发挥的生物学功能具有重要的意义,不仅能够扩展sRNA的多样性,也能够补充或发现sRNA功能与机制的新范式。基金资助
国家重点研发计划项目(2022YFE0111800);中国科学院B类先导计划项目(XDB0570000)
--核糖核酸功能与应用专刊--
中国科学院核糖核酸功能与应用重点实验室聚焦“RNA的功能与应用”重大科技问题,着力研究RNA时空调控核心规律、RNA相关重大疾病致病机制、RNA原创技术与高效应用等,志在建立前沿性理念驱动、通用型技术为底盘的研发体系。依托核心骨干团队与《生命的化学》杂志精心组织了本期专刊。专刊聚焦于“新型RNA”“RNA新功能”“RNA新应用”等三个重要方向。专刊面向生物医学科研人员、科技政策管理人员、本科生及研究生等,期望展现RNA基础研究的科学前沿、RNA生物医学技术应用的瓶颈以及重点实验室面向国家重大战略需求的科研布局。
《生命的化学》创刊于1980年,中国生物化学与分子生物学会主办、向国内外公开发行的生物综合类学术期刊。月刊,中国科技核心期刊,中国期刊网来源期刊,科技期刊世界影响力指数报告(WJCI)(2021)来源期刊,被化学文摘(CA)(美)、日本科学技术振兴机构数据库(JST)(日)等国际数据库收录。重点刊登生物化学、分子生物学及生命科学相关领域原创性研究论文、综述,反映当前领域国内外最新研究进展,介绍最新研究技术与方法。设有研究论文、综述、教学、科普等栏目。投稿网址:http://smhx.cbpt.cnki.net/