11 月 29 号,Moderna 公司 CSO Melissa J.Moore 在 Nature Reviews Drug Discovery 发表文章:Tailor made: the art of therapeutic mRNA design,系统性论述了 mRNA 药物序列设计的理论和策略,重点讨论核苷酸序列、修饰核苷酸、RNA 结构对于蛋白翻译效率和 mRNA 稳定性的影响。此前,我们也做过零散的几期过于 mRNA 序列设计方面的内容,相比之下,这篇综述是提纲携领的,绝对值得 mRNA 药物开发者反复阅读领会(原始文献可后台私信)。我们将分为两期内容:理论篇和策略篇,详细聊聊对于这篇综述的理解。
关于mRNA序列设计的往期内容:
大家已经非常熟悉mRNA 药物设计和工艺生产的整体流程,车轱辘话,这里不多提及。对于预防性疫苗来说,设计者希望 mRNA 疫苗具备足够的免疫刺激性,然而,对于其他的 mRNA 药物来说,例如,治疗代谢疾病的蛋白酶疗法,设计者又要竭力避免触发免疫反应。根据给药途径(例如,皮下、静脉或吸入)和靶向的组织或者细胞,开发者还得对递送系统做出专门的优化。总体来说,一旦药物靶点定下来,在 mRNA 药物设计考虑的诸多因素中,序列设计便成为核心。序列设计做不好,蛋白表达就不理想,其他一切如同无源之水。
mRNA 药物设计生产的流程图
一般来说,序列设计只为实现一个目标:最大化递送至细胞中的每个 mRNA 的蛋白产出。蛋白产出取决于 mRNA 在细胞内的半衰期以及翻译效率,而翻译效率又取决于穿越 mRNA 的核糖体数量(即核糖体密度)和核糖体移动速度(蛋白延伸速度)。直觉上来说,翻译的核糖体数量越多越好,但是,太多的核糖体会促进翻译依赖性的 mRNA 降解,从而降低总蛋白质产出,影响药效持续时间。所以,找到适宜的核糖体密度对于蛋白产出最大化非常重要的。此外,研究者也在探索构建一些表达可控的 mRNA,使其蛋白合成依赖于细胞类型或者细胞状态。
来源:How mRNA Medicine Will Change the World | Melissa J. Moore | TED
然而,复杂的是,蛋白产出最大化和高效的 mRNA 药物之间并不能划等号。mRNA 序列内部会形成二级和三级机构,还会与外部的其他分子相互作用。因此,mRNA 序列设计还要考虑工艺生产的可行性、细胞内或者储存稳定性、递送系统及其他的共递送分子等。比方说,有些序列,在 IVT 反应的时候,产量很低或者非常容易出现沉淀;有些序列容易跟可电离脂质成分形成加合物,使得 mRNA 丧失表达活性。
所以,理解 mRNA 序列和结构之间的相互作用,对于开发有效的 mRNA 药物至关重要。作为 mRNA 设计师,你得平衡各种因素,才能找到一个可以满足产品特性的单一序列。
1
一条 14 个氨基酸组成的生长抑制素拥有 393216 条可能的 CDS 编码序列。蛋白质序列越长,可能的 CDS 序列越发难以计数,例如,1273 个氨基酸组成的新冠病毒 Spike 蛋白有 10623 条可能的 CDS 序列,而在宇宙中,目前已知的原子数量仅为1080。
那么到底该如何从大量的候选序列中选择最优的 CDS 序列呢?
目前,所有生物体对密码子均展现出偏好性。更加频繁使用的密码子称为最适密码子,通常与之配对 tRNA 也是高丰度的。使用高丰度 tRNA 的密码子被认为可以促进翻译过程中的蛋白链延伸,因为需要稀缺 tRNA 的密码子会导致核糖体在空的 A 位点停留更长的时间。
密码子优化对于蛋白产量最大化来说非常重要。例如,人们将原始水母 GFP 蛋白序列中的 88 个密码子替换为相应的人体内最适密码子,导致 GFP 在哺乳动物细胞中表达量增加了 5 到 10 倍。在哺乳动物中,密码子在摇摆位置(密码子中的第三个核苷酸)强烈偏好 C,这使得最优密码子倾向于富含 GC。由于 GC 碱基对通常比 AU 碱基对更稳定,哺乳动物密码子优越性的增加意味着编码区二级结构强度的提升。事实上,研究者发现,在不特别考虑密码子最优性的情况下,只最大化 GC 含量(特别是在编码区域的前半部分),也可将蛋白质表达产量提高 5 到 30 倍。
人们构建了多种度量参数表征密码子最优性,最为广泛使用的是相对同义密码子使用度(RSCU)、密码子适应指数(CAI)及 tRNA 适应指数(tAI)。
1.1
RSCU
相对同义密码子使用度指的是观测到的某一个特定密码子的使用频率与其所有同义密码子的平均使用频率之间的比值。RSCU 代表着密码子使用偏好性。如果 RSCU 值等于 1,说明同义密码子之间没有使用偏好性;如果 RSCU 值大于 1,则说明某个同义密码子的使用频率高于平均使用频率。
1.2
CAI
密码子适应指数(CAI)是异源基因在宿主细胞中表达效率的指标,它反映了异源基因的密码子使用频率与宿主细胞的最佳密码子使用频率的匹配程度。CAI 值介于 0~1 之间,该值越大表示密码子适应性越强,
1.3
tAI
tRNA 适应指数(tAI)是衡量一个基因的密码子使用频率与细胞内 tRNA 分子丰度和效率的匹配程度的指标。tAl 越高,说明一个基因的密码子使用频率越适合细胞内 tRNA 分子的浓度和效率,反之则越低。细胞内 tRNA 分子的浓度很难测量,所以,通常用 tRNA 基因的数量或者 tRNA 的测序数据来作为替代。在不同的组织和细胞类型种,tRNA 分子的浓度会发生变化,所以,只有在测量了 tRNA 分子浓度的细胞类型中,才能可靠地计算 tAl。
1.4
局部密码子偏好性
除了整个转录本的平均密码子偏向性,还存在局部密码子偏向性,例如,内源性转录本的头 30-50 个密码子有轻微的稀有密码子富集趋势。“坡道假说”认为减缓 CDS 编码区 5' 端的翻译延伸有助于间隔开延伸的核糖体,从而减少核糖体移动堵塞的可能性并有利于蛋白质表达。然而,最近一项针对酵母的研究表明,编码区 5' 端较高突变频率带来的稀有密码子富集是非适应性的,实际上会导致更低的蛋白表达。目前,还没有任何已发表的文章支撑 CDS 序列开头的稀有密码子对于蛋白表达最大化具有重要影响的证据。
2
在体外转录反应中,RNA 分子边转录边折叠。对于一个全长的转录本来说,只有当其充分变性,然后,通过缓慢折叠才会采用最小自由能(MFE)结构。最近,有研究表明,在共转录折叠中,RNA 可以利用中间折叠态来达到最终折叠态。RNA 最终折叠态高度依赖于环境条件,比如,单价和二价阳离子浓度,分子拥挤剂,以及稳定(例如,茎环结合蛋白)或者破坏(例如,RNA 解旋酶)局部结构的 RNA 结合蛋白(RBPs)。
长 RNA 分子中间的共转录折叠态和最终折叠态
2.1
细胞内 mRNA 结构动力学
在真核细胞核内,新生 mRNA 折叠是一个非常复杂的过程,其中分子内和分子间的相互作用高度竞争构建 mRNA-蛋白质颗粒 (mRNP)。从细胞核进入细胞质中,初始 mRNP 结构时会经历多次重塑,然后被核糖体重复转运,最终发生降解。
最近有研究探测了染色质相关、核质和细胞质 RNA 的相对结构含量。结果显示,对于内源性 mRNA,它们在核质和细胞质中的总体结构非常相似。因此,从核内赋予内源性 mRNA 的结构印记(折叠状态、相互作用的 RBP)会显著影响它们细胞质中的结构和功能。外源性 mRNA 未与核质相互作用,因此不受核内印记的影响。目前,关于外源性 mRNA 的细胞内折叠状态或与 RBP 相互作用方面的情况了解很少,也不清楚这些因素如何影响外源性 mRNA 的功能。
无论来源如何,细胞内的长 mRNA 很可能永远无法实现理论上的最小自由能结构。那些在每一轮结构扰动后很快重塑的局部结构元件更为重要。局部 RNA 结构大致分为与周围序列背景无关的或相关的。与周围序列背景无关的 mRNA 元件往往具有明确的结构,通常出现在 UTR 中,例如 IRES。这些结构中的单个核苷酸具有低的位置熵,因为它们往往有固定的相互作用。相反,依赖于位置的局部结构(例如,隐藏或暴露微 miRNA 结合位点的茎)更容易在遇到不同细胞环境时遭受重塑,这些环境由不同的 RBP 和结构重塑机器(例如,解旋酶和核糖体)组成。因为它们在与周围序列的相互作用中更加混乱,位置依赖的结构中的核苷酸具有更高的位置熵。
通过形成二级结构和三级结构,mRNA 可参与到自身活性的调控中来。这些结构要么直接增强或者抑制翻译起始、延伸及终止,要么为调节翻译或者细胞内 mRNA 降解的蛋白提供结合位点。此外,mRNA 结构还与其存储稳定性相关。核苷酸序列、修饰核苷酸、线性或者环状等因素共同决定着 mRNA 形成何种结构,影响着其稳定性和动力学特征。
2.2
RNA 折叠驱动力
要设计出理想结构特征的 mRNA,首先要理解驱动 RNA 折叠的化学原理。在生理 pH 下,每个磷酸键都带有一个负电荷,碱基的质子化很少。因此,在阳离子不足以中和磷酸根负电的水溶液环境中(例如,纯水),碱基对之间的氢键和相邻碱基对之间的堆集力是 RNA 折叠的主要驱动力,它们可以把最多数量的疏水碱基埋在 A 型螺旋的茎环内,同时,借助电荷排斥使茎环之间彼此分离。在阳离子存在情况下(特别是能够连接两个磷酸根的二价阳离子,如镁离子和钙离子),这些茎环彼此靠近,通过非经典碱基配对,形成更紧凑的结构,例如,剪切的 GA 碱基对,K 转角,G-四链体和假结。
代表性的 RNA 二级结构元件
对于二级结构来说,稳定其结构的最主要的力来自相邻碱基对之间的堆集力。堆集力将驱使相邻的碱基对形成有序的结构(螺旋),以尽可能达到相邻碱基对之间的最大从程度的堆集。然而,另外一方面,一个有序的(更受约束的)RNA 分子结构的形成一定伴随着相应构型熵的减小。例如,环的形成伴随着熵的减小从而导致自由能的上升。熵的减少会阻止 RNA 的折叠。以上两种有利于和不利于 RNA 折叠的力的竞争结果决定了 RNA 分子的最终稳定结构分布及其热力学性质。
各种相互作用的元件对于自由能的贡献
理论上,一个 RNA 可能采用的二级结构数量估计有 2.3n,其中 n 是 RNA 的长度,以核苷酸计算。这意味着一个 2000nt 的 mRNA 拥有的理论结构是个天文数字。然而,在这些无数的可能的二级结构中,自由能最小的结构,是最可能采用的 RNA 结构,也是最稳定的。
由于 GC 碱基对要比 AU 碱基对更加稳定,大家通常认为,GC 含量是稳定结构的最强驱动力。虽然一般情况下,GC 含量极高的长转录本比要比 GC 含量极低的长转录本具有更低的自由能,但是,最近有研究发现,这种情况并不适用于中等 GC 含量的转录本。以最大化碱基对总数量或者优化 mRNA 二级结构(即,创建具有最低 MFE 的序列)为优化参数的 mRNA 设计算法(LinearDesign、Ribotree、CDSFold)输出的序列含有中等 GC 含量。GC 最大化与高碱基对/低 MFE 序列之间的主要区别是它们的平均“位置熵”(positional entropy)或“碱基配对熵”(base-pairing entropy)。位置熵是源自结构预测的一个可靠参数,单链或处于大多数低能量结构的碱基对的位置被认为具有低位置熵。也就是说,位置熵得分为 0 表示预测某个位置为始终不配对或总是与另一个碱基形成相同的相互作用。因此,此位置很容易可推断预测构型。相反,位置熵得分为 1 代表结构混杂性较高的位置。与直觉相反,与高碱基对/低 MFE 序列相比,GC 含量最大化序列往往具有更高的平均位置熵(即序列中所有位置的平均值)。这说明一个很有意思的现象:虽然 GC 碱基对在热力学上比 AU 碱基对更稳定,但是,与核苷酸含量跟均衡的序列相比,富含 GC 的序列更加活跃,并且倾向于拥有更显著的结构多样性。
富含 GC 的茎环要比 GCAU-混杂茎环倾向拥有更高的位置熵。A 序列和 B 序列有 10 个最低能量结构。虽然仅富含 GC 的茎环(-26.1 kcal/mol))要比 GCAU-混杂茎环(-23.4 kcal/mol)具有更低的 MFE,但是,其他低能量结构在折叠能量上更加接近仅含 GC 的茎环 MEF,而不是 GCAU-混杂茎环 MFE。
虽然们很容易认为单一的 MFE 结构是最有可能形成的,因此会被大多数 RNA 分子采用,但是,需要指出的是动力学屏障会将 RNA 分子分隔为不同的折叠状态。也就是说,不同结构之间的转换需要多个碱基对的重组和三级结构的相互作用。如果两个折叠态之间不存在动力学上的有利途径,那么平衡很难实现,并且多个折叠态将会共存于 RNA 分子之中。
单一样品中 35 个单个的 mRNA-1273 分子的原子力显微镜图像(AFM)表明对于长 mRNA 分子(4100nt)来说,具有各种各样的折叠态。
3
mRNA 序列设计要考虑密码子和 RNA 结构两方面的因素。以 CAI 为指标的密码子优化是最为基础的操作,也是我们很容易就能做到的。但是,仅仅优化改变密码子,往往不会带来蛋白产出的极大提升。非变性条件下的 RNA 分子会折叠成为各种二级机构和三级结构,而且,其结构很容易受到周围环境的影响。RNA 结构与核糖体翻译过程、细胞内外的稳定性、工艺生产的均质性密切相关。密码子的改变,带来序列的改变,最终导致 RNA 折叠结构也会发生变化。因此,在 mRNA 药物设计过程,对密码子和结构做出双重优化才能找到最佳的 RNA 序列。尽管有一些研究者已经开发出以密码子和二级机构为双重导向的序列设计算法,但是,一切才刚刚起步,我们未来还需要对蛋白产出、RNA 稳定性与 RNA 结构之间的关系做出更加深入的探索。