可变转录起始(ATI)是基因表达过程中的一个重要现象,它打破了转录起始位点(TSS)仅限于经典启动子区域的传统观念。在ATI中,TSS可以在基因的不同区域(如内含子、编码区等)或不同的起始位置上启动转录,从而赋予了基因表达前所未有的多样性和灵活性。尽管ATI在真核生物中普遍存在,但它在多大程度上影响基因表达的产物以及它是如何进化和被调控的,目前仍是一个未解之谜。最近的研究“Noncanonical transcription initiation is primarily tissue specific and epigenetically tuned in paleopolyploid plants”通过利用高通量测序技术(STRIPE-seq)对大豆(Glycine max)的转录起始进行了深入分析,识别到多个转录起始位点簇(TSRs)。该研究发现,有6,845个基因在编码序列(CDS)内发生了可变转录起始(ATI)。这些CDS-TSRs具有组织特异性,且不包含典型启动子特有的TATA-boxes,其嵌入在由核小体包围的无核小体区域内并带有增强型组蛋白标记,表明ATI受到表观遗传调控且与组织特异性功能密切相关。此外,复制基因相较于单拷贝基因拥有更多TSRs,表现出较低的组织特异性,并经历更强的纯化选择。综上所述,该研究强调了ATI在基因表达调控中的关键作用,揭示了基因组和表观遗传因素是如何影响古多倍体植物中CDS内ATI的分布。
主要科学问题:
传统的TSS识别方法成本高且劳动强度大,STRIPE-seq是一种高效的全基因组TSS定位技术。目前转录起始对大豆基因表达、进化和调控的影响尚未完全解析。本研究利用STRIPE-seq技术对大豆的转录起始区(TSRs)进行分析,并探讨其组织特异性的转录和进化动态。通过整合其他现有的组学数据集,旨在识别与这些TSRs相关的表观遗传特征,以及它们在跨组织基因功能多样化中的潜在作用。
主要研究结果:
1、利用STRIPE-seq技术鉴定大豆全基因组中的TSRs
作者在研究中采用了略微修改版的STRIPE-seq流程,在大豆的8种不同组织(包括叶片、茎、茎尖、根、根瘤、花、荚和发育中的种子)中识别了转录起始区(TSRs)。为了去除rRNA干扰,作者使用了RiboMinus Plant Kit,以提高根瘤组织中去除根瘤菌rRNA的效果。这一优化显著提升了实验质量,共生成了6.46亿个reads,其中92%包含唯一分子标识符(UMI),表明reads主要源自mRNA的5′帽子端。通过去除PCR扩增中的冗余读数,并进行饱和度分析,作者确定了各组织中基于UMI的非冗余读数定义的特定TSS(转录起始位点)。当某TSS在至少一个组织中的支持非冗余转录本数大于1 TPM时,将其定义为有效TSS。这些TSS大多位于先前注释的TSS下游42个碱基对内,验证了STRIPE-seq在捕捉TSS方面的有效性。最终在WM82.a2参考基因组中检测到了492,858个独特的TSS,定义了193,579个TSRs,覆盖了大约三分之二的蛋白编码基因。通过与参考基因组注释和其他RNA-seq数据的比较,验证了STRIPE-seq在识别TSRs方面的高效性。研究还发现,大多数参考基因组中的TSS注释未能准确反映真实的转录起始位点。
图1 使用STRIPE-seq技术检测启动子元件处转录起始区域的TSRs的注释与评估
2、具有多个TSRs的基因相较于具有单个TSR的基因表现出更高的表达水平,并且经历了更强的纯化选择
所识别的193,579个转录起始区(TSRs)在长度上展现出显著的差异性,范围从单个核苷酸至数百个碱基对不等(图2A)。依据形状特征,这些TSRs被细分为三种类型:单核苷酸TSRs(S型,占比64.8%)、窄型TSRs(N型,IQR ≤ 4,占比16.3%)和宽型TSRs(B型,IQR > 4,占比18.9%)(图2A)。STRIPE-seq数据显示,拥有“S”形TSRs的基因,其表达水平普遍低于具备“N”形和“B”形TSRs的基因(图2B)。此外,通过与菜豆(Phaseolus vulgaris,两者分化时间约为1700万年)的同源基因进行比对,“S”形TSRs基因展现出较高的非同义替代(Ka)/同义替代(Ks)比率(即ω值),相比之下,“N”形和“B”形TSRs基因的ω值则较低,表明“S”形TSRs基因可能经历了相对较低的纯化选择(图2C)。
为验证TSRs的形状与基因进化速率间的关联是否普遍存在于植物界?后续作者参照大豆STRIPE-seq分类的标准,在玉米(Zea mays cv. B73)参考基因组中进行了TSRs的注释与分类,结果显示,尽管玉米(单子叶作物)与大豆(双子叶作物)的分化历史已超过1亿年,但两者在TSRs结构与基因功能上展现出的相似性,进一步证实了这种关联在植物界中普遍存在。
图2A-D 利用STRIPE-seq检测大豆中TSRs的特征
通过STRIPE-seq技术鉴定的37,911个大豆基因中,作者发现80.1%的基因含有多个TSRs,这些TSRs既可存在于同一组织内,也可跨不同组织分布,且88.3%的多TSR基因所含TSRs数量少于10个(图2D)。当单独分析每个组织时,平均有57.8%的基因被检测出含有多个TSRs。值得注意的是,拥有多个TSRs的基因,其Ka/Ks比率普遍低于仅含单一TSR的基因(图2E)。此外,基因的表达水平与Ka/Ks比率呈负相关,即表达水平越高的基因,其Ka/Ks比率越低。同时,TSR数量与基因表达水平之间也存在正相关关系。然而,目前尚无法确定是基因的表达水平、TSR数量还是两者的共同作用,推动了这些基因的纯化选择。除此之外,作者还发现约67.7%的基因具有多种TSR形状,这些形状同样可存在于同一或不同组织中。平均而言,有43.0%的基因在每个组织中展现出多种TSR形状,这充分表明大量基因具有组织特异性的TSRs和TSRs形状。
3、非典型转录起始区(Noncanonical TSRs)在基因内区域广泛存在,并且与典型转录起始区(Canonical TSRs)具有不同的特征。
通常,转录起始区域(TSRs)位于调控区,如近端序列、核心启动子或5'非编码区(UTRs),称为典型的TSRs(图1A)。本研究中,50.4%的TSRs(56,450个)属典型TSRs,其中56.2%位于核心启动子。而43.5%(84,312个)TSRs位于内含子、编码区(CDS)或3' UTRs,即基因内区域,其中82.5%在CDS。这些CDS-TSRs(C-TSRs)在根部占18.9%,在叶部占28.6%(图2F)。另有3.6%(6,907个)TSRs位于基因间区,可能关联非编码RNA基因、未注释基因或附近基因的调控序列。典型调控区域中“B”形TSRs比例较高,而基因内区域“S”形TSRs比例最高,仅在核心启动子区域“S”形TSRs占比不到50%(图2G),表明核心启动子处的转录组织特异性最低。
后续作者比较了不同区域TSRs周围的序列,发现典型调控区域、反义和基因间区域的TSRs上游有TATA-box,而内含子、C-TSRs和3' UTR-TSRs周围没有。二核苷酸PyPu元素分布基本一致,但C-TSRs中GG最丰富,核心启动子TSRs(P-TSRs)中GG富集较少。作者通过比较同一组织中P-TSRs和C-TSRs的相对丰度,发现大多数基因P-TSRs比C-TSRs更丰富,但在8个组织中,有4.5%-9.8%的基因表现出C-TSRs更丰富。这些观察表明,CDS中的转录启动机制可能与典型调控区域内核心启动子不同。
图2E-G利用STRIPE-seq检测大豆中TSRs的特征
4、ATI的形成受全基因组复制及后续亚基因组分化影响
为了理解在最近的全基因组重复(WGD)事件后保留下来的复制基因的TSRs是如何进化并促进其功能分化,以及复制基因和单拷贝基因的TSRs是如何受到亚基因组分化过程的影响,作者分析了在8种组织中的WGD基因和单拷贝基因的表达模式和ATI,并发现了以下模式:(i)复制基因通常比单拷贝基因表达水平更高(图3A);(ii)复制基因比单拷贝基因具有更多的TSRs(图3B和C);(iii)复制基因展现的组织特异性TSRs少于单拷贝基因(图3D)。在比较每对复制基因的TSRs时,作者发现表达水平较高的基因具有更多的TSRs和更少的组织特异性TSRs(图3E和F)。
为探究WGD对植物ATI进化的影响,作者比较了玉米中WGD基因与单拷贝基因的TSRs结构以及两类基因的进化速率。作者发现复制基因拥有比单拷贝基因更多的TSRs,且表达水平更高。之前的研究也表明WGD基因经历更强的纯化选择。这些结果表明TSRs的分布模式是植物重复基因的功能、进化保守性和分化程度的关键指标。
图3 大豆WGD后TSR的分化特征
5、CDS中的ATI倾向于具有组织特异性并行驶组织特异性功能
为了探究ATI(可变转录起始)的功能意义,作者对8种组织中所有TSRs(转录起始位点)的分布模式进行了分析。结果显示,62.7%的TSRs(121,353个)具有组织特异性,而5.5%(10,712个)在所有组织中共享。这些组织特异性TSRs中,93.1%呈“S”型,3.7%呈“B”型,且在根部的丰度最低,在根瘤中最为丰富,表明它们在维持组织特异性或者行驶组织特异性功能(如共生)中起重要作用。
图4 大豆不同组织间的ATI
值得注意的是,45.6%的组织特异性TSRs位于CDS(编码序列)区域,可能促成新蛋白的产生,而位于经典核心启动子区域的仅占17.7%。组织特异性的C-TSRs和基因内TSRs(包括内含子和3′ UTR的TSRs)数量约为P-TSRs(位于经典核心启动子区域的TSRs)的4倍,突显了ATI在组织特异性基因调控中的重要性。
后续通过对8个组织中的TSRs进行了成对比较分析,根据TSRs在不同组织间的分布模式可以将基因分为6个组,其中第四组的基因数量最多,而第二组的基因数量最少。在根和根瘤中,15.3%的表达基因表现出两个组织之间的ATI。
为了揭示ATI潜在的功能后果,作者提取了第2组和第5组基因的子集(组2和组5),其中预测的替代C-TSRs可能导致蛋白质截断或移码,这可能影响基因的功能。比如Glyma.01G223700是一个假定的USO1样细胞内蛋白质转运蛋白基因,预测其在根中产生的蛋白质比在根瘤中产生的蛋白质短67个氨基酸,N端被截断。Glyma.19G131000是一个假定的锚蛋白重复家族基因,预测其在根瘤中产生的蛋白质比在根中产生的蛋白质短92个氨基酸,N端被截断(图4C)。这些结果表明由ATI介导的组织特异性蛋白质截断或移码可能与它们的组织特异性功能相关。
6、反义和正义TSRs在基因序列上表现出相似的分布模式,同样适用于双向TSRs
STRIPE-seq的链特异性特性能够精确地确定反义和双向TSRs及其相对丰度。具体而言,当一个具有正义转录起始位点(sense TSR)的基因被发现存在一个产生相反方向重叠转录本的转录起始位点时,就定义为反义转录起始位点(antisense TSR)(图5A)。在大豆的8种组织中,作者共发现了4574个反义TSRs,占所有鉴定出的TSRs的2.36%。这些反义TSRs展现出显著的组织特异性,并且它们主要定位于CDS区域。
双向TSR则被定义为在600 bp的范围内,并且在相反方向上启动转录的TSR(图5A)。根据它们与参考基因组中已注释的TSRs之间的关系,双向TSRs可以进一步细分为三个亚类:mRNA-mRNA、mRNA-PROMPT以及其他类型。作者共鉴定出506个双向TSRs,其中包括156对mRNA-mRNA、162对mRNA-PROMPT以及184对其他类型的双向TSRs,这些双向TSRs涉及664个基因。
值得注意的是,作者发现产生反义和“其他类型”TSRs的基因总体上进化速率更快,并且这些基因经历了更强的纯化选择(图5D)。此外,双向TSRs之间的平均距离约为250 bp,这一距离接近两个核小体之间的DNA长度。在表达模式上,反义TSRs的表达通常与相应正义TSRs的表达呈负相关,而所有类型的双向TSRs在转录本丰度上则显示出正相关关系。
图5 大豆反向和双向TSRs的特征
7、核心启动子和编码区中的TSRs展现出独特的表观基因组特征
为了理解在基因内区域,特别是编码区(CDS)内,可变转录起始(ATI)是如何发生的,作者分析了来自大豆叶片的全基因组染色质图谱中,转录起始区域(TSRs)周围的关键组蛋白修饰(H3K4me3、H3K56ac、H3K36me3、H3K4me1和H3K27me3)以及组蛋白蛋白标记(H3)的分布情况。H3K4me3、H3K56ac和H3K36me3是与活跃转录相关的组蛋白标记,而H3K27me3则是与转录抑制相关的组蛋白标记,H3K4me1在动物中标记静止状态的增强子,在植物中则与多种过程相关。
总体而言,8个组织中表达基因的核心启动子区域(P-TSRs)具有类似典型启动子的染色质结构,表现为H3K4me3、H3K56ac和H3K36me3存在重叠的峰值。同样,非基因间隔区和产生反义转录本的TSRs周围也检测到了这些峰。相比之下,基因内区域的这些组蛋白修饰分布均匀但丰度较低。C-TSRs是主要的基因内TSRs,具有高度组织特异性。作者重点比较了大豆叶片中叶片特异性C-TSRs(LsTSRs)与其他组织特异性C-TSRs(OsTSRs)的表观基因组特征。发现LsTSRs处的染色质可及性对CDS中转录起始至关重要,但C-TSRs周围的NFR短于P-TSRs,这可能解释了TATA-box基序的差异。此外,在叶片中C-TSRs周围观察到低丰度的H3K4me1峰,被其他组蛋白修饰峰包围。分析表明,P-TSRs与C-TSRs的物理位置在决定富集程度上比表达水平更为关键。
除此之外,7个组织中的C-TSRs与叶片中H3的分布曲线以及H3K4me3、H3K56ac、H3K36me3的峰位置相近(图6B)。叶片中这些与活跃转录相关的标记物,在叶片特异性C-TSRs周围的富集程度高于其他组织。相反,叶片中的H3K4me1在叶片特异性C-TSRs周围的富集程度较低(图6A、B)。这表明H3K4me1可能在转录起始的表观遗传记忆中起关键作用,并与H3K4me3等共同作用,决定特定组织中CDS的ATI。
图6叶片异性转录起始区(LsTSRs)和其他7种组织中各自特有的转录起始区(OsTSRs)周围组蛋白修饰的分布情况
8、总结与讨论
本研究利用STRIPE-seq技术绘制了大豆转录起始位点(TSRs)的全面图谱,进一步补充了现有的基因组注释和转录组数据。STRIPE-seq技术具有高精度、低成本的优势,能够识别TSRs的分布及其可变转录起始(ATI),并评估其在不同组织中的特异性和相对丰度。然而,该技术尚未能够揭示所有的ATI。研究发现,大豆中普遍存在具有多个TSRs的基因,且与单拷贝基因相比,大豆基因组中的复制基因拥有更多的TSRs,这可能是导致该现象的一个重要原因。
此外,本研究还揭示了TSRs在核心启动子与基因内区域之间的显著基因组和表观基因组特征,但目前驱动CDS中广泛且具有组织特异性ATI的机制尚未完全解析。总体而言,本研究为探索ATI在塑造植物表型可塑性中的作用奠定了基础,但仍需进一步研究以深入理解ATI的遗传和表观遗传因素。
在大豆中,多个TSRs的存在显示了其在蛋白质多样性、基因功能特异性及基因组功能特化中的重要作用。而小麦作为异源六倍体作物,同样经历了全基因组复制,导致其基因组和转录调控更加复杂。ATI可能引起基因产物的变化,产生不同的蛋白亚型,因此,研究ATI不仅有助于发现更多具备新功能的基因,还可能揭示与小麦适应性、抗性和品质相关的关键基因。进一步研究小麦中的ATI,能够识别更多的转录起始位点,这些TSRs对完善小麦基因组注释、揭示基因结构变异具有重要意义。
原文链接:https://doi.org/10.1093/plcell/koae288