最近,重新读 Moderna 团队 2019 年发表在 PNAS 上面的文章:mRNA structure regulates protein expression through changes in functional half-life,发现了很多有意思的结论,本期内容随便聊聊 mRNA 序列和结构特征对蛋白表达水平的影响。
mRNA 指导蛋白表达。每个 mRNA 分子能生产出多少蛋白质取决于翻译机器在编码序列 (CDS) 上启动或者延伸的程度以及 mRNA 的功能半衰期。mRNA 功能半衰期反映了 mRNA 在合成蛋白质时的生产寿命,不一定与物理降解半衰期相同。翻译效率和功能半衰期均受到 mRNA 一级序列影响。同义密码子的选择会直接影响 mRNA 翻译过程。高表达 mRNA 往往含有更多的最适密码子,相反,非最适密码子会增加核糖体暂停概率、降低 mRNA 半衰期。还存在其他被多次重复报道的与蛋白表达相关的序列特征,例如,二核苷酸频率、密码子顺序对局部可接触到的 tRNA 集合的影响。由于这些影响因素与 mRNA 一级序列密切相关,很难区分各自对 mRNA 蛋白表达的影响,而且,得到的很多结论之间存在着争议。
mRNA 一级序列除了决定编码蛋白质的氨基酸序列,还决定着 mRNA 二级结构和三级结构。mRNA 的不同结构区域与蛋白质表达之间也存在着一定的关系。改变 mRNA 二级结构的方式有两种:第一种,直接改变一级序列。然而,在 CDS 序列中,一级序列的变化必然会带来密码子的变化,从而混淆密码子和 mRNA 结构变化对蛋白表达的影响。第二种,保持密码子不变,即序列不变,掺入修饰核苷酸,维持相同的碱基配对,但是,这会对 mRNA 局部二级结构造成影响。这种修饰核苷酸有时可以稳定碱基配对,有时会使得碱基配对变得不稳定,从而影响 mRNA 整体结构。
CDS 序列变化对 mRNA 蛋白表达的影响
编码同一种蛋白的 mRNA 序列,5'/3'UTR 序列和 100nt Poly A 保持相同,将 CDS 区域经密码子优化,便可得到一组编码同种蛋白的 mRNA 序列集合。采用天然尿嘧啶核苷酸(U)合成这些 mRNA,转染细胞后,不同 CDS 序列的 mRNA 在细胞中的蛋白表达量存在明显差异。密码子适应性差距越大,不同 mRNA 的蛋白表达差异越明显。Moderna 团队发现一个在其他多数研究中得到验证的普遍规律:那些高表达的 mRNA 序列往往 GC 含量比较高,但是,并非所有高 GC 含量的 mRNA 都是高表达的。
在一组编码相同蛋白的不同 mRNA 序列中,每条 mRNA 序列中使用唯一的密码子编码特定氨基酸。这些不同的 mRNA 序列在细胞中的蛋白表达是存在明显差异的,但是,比较含有同义密码子对的 mRNA 蛋白表达量,发现一个让人意外的结果,同义密码子的替换,即便适应性很差,对 mRNA 的蛋白表达普遍不会造成显著影响。
来源:https://epochlifescience.com/pages/codon-optimization
修饰核苷酸对 mRNA 蛋白表达的影响
与含有天然尿嘧啶核苷酸(U)的 mRNA 相比,更换修饰核苷酸会显著影响 mRNA 蛋白表达水平。不同的修饰核苷酸对于 mRNA 蛋白表达水平的影响是完全不同的:在一些 mRNA 序列中,使用修饰核苷酸,会明显提升蛋白表达水平;在一些 mRNA 序列中,使用修饰核苷酸反而会降低蛋白表达水平;对于大多数 mRNA 序列,特定修饰核苷酸会显著提升蛋白表达水平。对于编码同种蛋白含有不同 CDS 序列的一组 mRNA 序列来说,使用不同的修饰核苷酸时,蛋白表达最高的 mRNA 序列和蛋白表达最差的 mRNA 序列是不一致的。
修饰核苷酸对 mRNA 蛋白表达水平的影响很容易让人想到这是由于掺入的修饰核苷酸对核糖体解码过程造成直接影响。如果真的是这样,mRNA 蛋白表达水平应该与修饰核苷酸总体含量相关,或者,与含有修饰核苷酸的特定密码子相关。实际上,mRNA 蛋白表达水平与序列中天然尿嘧啶核苷酸(U)百分含量并无清晰的关系。确实,有少数含有修饰核苷酸的密码子会对 mRNA 蛋白表达水平会造成显著影响,可惜,并未发现普遍规律。
从上面,我们可以看到 CDS 序列和修饰核苷酸以不同的方式在影响 mRNA 蛋白表达水平。
来源:Neo-Antigen mRNA Vaccines
mRNA 二级结构对 mRNA 蛋白表达的影响
对于相同的序列,m 1 Ψ 通常比 U 或 mo 5 U 给出更高的表达。生物物理学研究表明, 与 U 相比,m 1 Ψ 和 mo 5 U(分别稳定和不稳定)对整体 mRNA 折叠、最近邻碱基配对、二级结构有显著不同和相反的影响。也就是说,修饰核苷酸掺入 mRNA 序列会导致 mRNA 二级结构发生变化。
mRNA 序列中二级结构的位置会对蛋白表达造成独特影响。5'UTR 序列和 CDS 前 30 个核苷酸序列拥有的二级结构越少,mRNA 蛋白表达水平越高。然而,令人感到意外的是,CDS 区域前 30 个核苷酸下游和 3'UTR 序列二级结构的增加与蛋白表达水平提升有关。与具有中等程度二级结构的 mRNA 相比,无论其实用的密码子适用性是中等还是最佳,高度结构化的 mRNA 功能半衰期均会增加,也就是说二级结构可通过延长 mRNA 功能半衰期来增加蛋白输出,这是一种独立于密码子适应性的调节机制。
来源:Modifications in an Emergency: The Role of N1-Methylpseudouridine in COVID-19 Vaccines
小结
任何一个给定的 mRNA 分子表达的蛋白总量会受到由一级序列决定的多种因素的影响,这些因素包括 GC 含量、密码子实用性、密码子对以及二级结构。由于这些因素对 mRNA 蛋白表达的影响是混杂在一起的,要想区分各自的单独影响非常困难。在维持 mRNA 序列相同的情况下,掺入修饰核苷酸,会影响 mRNA 二级结构,从而对蛋白表达过程造成影响。独立于密码子序列优化,合理设计二级结构同样可改善 mRNA 蛋白表达水平。