点击蓝字,关注我们
经典编码区翻译广泛存在,尤其是在衰老、神经退行性疾病和癌症中。本文综合分析大量人类基因组序列和随机序列,结合CRISPR筛选及遗传和生化特征,发现非编码序列翻译产生的蛋白都倾向于有一个C端疏水区,并且 BAG6 系统特异性识别非编码蛋白上 C 端疏水区进而导致蛋白降解。
人类基因组中98%的DNA都不编码蛋白质。这些非编码序列具有哪些功能以及一部分非编码序列是如何进化为可编码蛋白质的序列成为了亟待解决的两个问题。研究表明,大部分的非编码序列不仅能被转录成RNA,而且还可以被翻译为蛋白质。但是这些蛋白质绝大部分不具备新功能,而且会使细胞损伤。相当多的人类疾病都与非编码区的翻译相关,例如在癌症细胞中,绝大多数肿瘤的特异性抗原都是由非编码区翻译产生的,细胞是如何降解这些非编码翻译蛋白的也是需要进一步深入研究的问题。近些年的研究还发现,一小部分产生新功能的非编码翻译蛋白主要在细胞膜上发挥功能,这些由非编码序列进化而来的新蛋白又是如何定位到细胞膜的呢?
哥伦比亚大学吴雪兵等研究人员结合高通量并行多肽标签表达检测、全基因组CRISPR筛选以及遗传生化解析细胞限制非编码区域翻译效率的机制,发现多种非编码区域统一依赖蛋白酶体降解途径降解 “错误编码的蛋白”。而识别非编码区蛋白的关键是,相对于编码区蛋白,非编码区翻译的蛋白的C端疏水性偏高;编码区与非编码区蛋白C端疏水性的差异的成因是演化对功能蛋白C端疏水进行了逆向筛选。进一步研究发现,识别非编码区蛋白C端疏水结构域并介导非编码区蛋白降解的是一个识别跨膜结构域分选蛋白上膜的复合物,这也提示非编码区蛋白可能通过这套体系“转正”,变成有功能的膜蛋白。
01
非规范蛋白质是不稳定的
在包含非编码区域的翻译过程中,其通常含有一段源自非编码区的c端尾巴(图1a)。研究者将各种非编码序列融合到eGFP开放阅读框的c端,并使用eGFP/mCherry比率在293T细胞中量化非编码序列翻译对eGFP量的影响(图1b)。结果显示,翻译在HSP90B1的3′UTR、GAPDH的最后一个内含子和ACTB的早期多聚腺苷酸化内含子3中均导致了eGFP的显著减少(图1c)。
为了系统性研究不同类型的非编码序列的翻译,研究者生成了包含12,000个双顺反子报告基因的HEK 293T细胞库,结果表明几乎所有报告基因的eGFP都有显著减少,表明大多数非编码序列的翻译导致蛋白质积累减少,而不影响mRNA的丰度(图1d)。进一步的实验表明,这些异常翻译产物主要通过蛋白酶体降解。此外,其中eGFP融合了大约5百万个不同的由39个核苷酸组成的随机序列,并观察到类似的eGFP损失(图1e)。这些结果表明,源自不同非编码序列的异常翻译产物主要由人类细胞中的蛋白酶体进行降解。
图1
02
不稳定性与疏水性的C末端相关
为了量化每个报告基因的表达,作者将高eGFP和低eGFP的细胞分别进行了文库DNA测序(图2a)。结果显示,来自非编码序列的C末端多肽长度越长,eGFP表达量越低(图2b),这表明eGFP的减少主要由于非编码序列的翻译,而不是其他非翻译机制。为了解尾肽长度导致降解的决定性因素,使用相同长度的肽段(30 aa,n = 4,726)进行了分析:非编码序列的翻译通常与低蛋白表达相关,尤其是内含子,其次是3′ UTR、lncRNAs和5′ UTR(图2c)。研究表明,所有类别的非编码序列中的翻译通常与低蛋白表达有关,而这一过程中C末端蛋白会起到介导蛋白质降解的作用,同时,功能蛋白则已经进行了相应的进化以避免被蛋白酶体降解,携带未进化的C末端的蛋白则默认被降解。
研究还发现,尾部多肽的氨基酸组成和各种理化性质中,平均疏水性与eGFP表达呈现最强的负相关性,表明C末端的疏水性在引发蛋白酶体降解中起主导作用,而不是C-degrons或蛋白质无序性(图2d和e)。
总之,这项研究揭示了非经典蛋白质在细胞中的不稳定性,主要是由于其C末端的疏水性导致被蛋白酶体降解,从而为理解非编码序列翻译产物的降解机制提供了新见解。
图2
03
针对C-末端疏水性的选择
研究发现,C末端疏水性在经典蛋白质与其他序列(包括内部蛋白质序列和非编码序列产生的多肽)之间的不稳定性差异中起着关键作用。通过全基因组计算机分析发现,经典蛋白质的C末端疏水性逐渐减少,而其他序列则呈现相反的趋势(图2f)。在不同的疏水性标度测试中都得到了相同的结果,但是蛋白质的N端则没有检测到相同的疏水性消耗结果。进一步的研究表明,在人类和小鼠中,年轻的蛋白编码基因在C末端尾具有更高的疏水性(图2g)。这些结果支持了进化过程中对蛋白质C末端疏水性的选择,以及非编码序列产生的多肽容易受到蛋白酶体降解的结论。
04
遗传密码中的疏水性偏差
研究发现非编码序列倾向于编码更多疏水性氨基酸。通过分析Pep30和Pep13文库,观察到低eGFP表达的序列中U的富集具有3个核苷酸的周期性,且主要在密码子中心位置(图3a)。去除早期终止密码子的序列后,这种周期性消失,表明这是翻译依赖的现象。低报告基因表达与疏水性和富含U的密码子关联,尤其是密码子中心的U,编码疏水性氨基酸(图3b和c)。
虽然自1979年以来已知这种关联,但其生物学意义尚不清楚。经典编码区富含GC,非编码区则富含AT(转录后为U),因此更可能编码疏水性残基。不同基因组区域显示出U含量、C末端疏水性和低报告基因表达之间的一致性,例如内含子中U含量最高,报告基因GFP表达最低(图2f和c)。
总体而言,非编码序列的高U含量使其更可能编码疏水性残基,导致疏水性C末端,从而触发蛋白酶体降解。而功能性蛋白质则进化出减少C末端疏水残基的特性,以避免降解。
图3
05
AMD1 3′ UTR翻译的监测
研究发现,AMD1 3′ UTR翻译延伸导致蛋白质输出减少主要是由于C端疏水性介导的蛋白酶体降解,而不是核糖体会在框内终止密码子附近暂停引起。针对AMD3的1′UTR中联读翻译的检测都是用核糖体停滞解释,而不是蛋白酶体降解。核糖体会在框内终止密码子附近暂停,且AMD1 3′ UTR ORF的最后21个密码子被发现对于介导核糖体停滞极为重要。
在本研究中,翻译延伸至AMD1 3′ UTR导致eGFP/mCherry比值显著下降,蛋白质印迹分析证实了eGFP蛋白的丧失。使用蛋白酶体抑制剂MG-132几乎完全恢复了eGFP/mCherry比值,表明蛋白酶体降解是主要原因(图4a和b)。通过P2A肽进行共翻译性切割也几乎完全稳定了eGFP,进一步支持蛋白酶体降解的结论(图4b)。AMD1肽中的多个疏水区域被发现可能作为降解信号。删除这些疏水区域显著恢复了eGFP的表达,表明这些区域在降解过程中起重要作用(图4c)。删除核糖体暂停序列(最后21个密码子)未能恢复eGFP的表达,进一步反驳了核糖体排队模型(图4d)。综上所述,AMD1 3′ UTR翻译导致蛋白质输出减少的主要机制是C端疏水性介导的蛋白酶体降解,而非核糖体停滞引起的翻译延长抑制。
图4
06
BAG6介导蛋白酶体降解
为了揭示非编码序列介导蛋白酶体降解蛋白的分子机制,研究人员通过CRISPR系统对相应降解基因进行了敲除(图5a-b)。研究发现,BAG6及其通路有关基因(BAG6、TRC35(也称为GET4)和RNF126)的敲除影响了eGFP/mCherry比率。(图5e)。相比之下,敲除溶酶体基因没有影响。
BAG6途径嵌入于跨膜结构识别复合物(TRC)途径中,用于分类尾锚膜蛋白。尾锚蛋白具有疏水的C端尾巴,既作为跨膜结构也作为膜靶向信号(图5c),即:尾锚蛋白从核糖体释放后,立即被核糖体相关共伴侣SGTA捕获,SGTA结合并屏蔽新生尾锚蛋白中的疏水跨膜结构。SGTA将底物传递给BAG6-UBL4A-TRC35异三聚体复合物,通过与UBL4A结合。真正的尾锚蛋白从SGTA直接转移到TRC40(与三聚体复合物通过TRC35相连),并被提交到膜靶向。有缺陷的尾锚蛋白从SGTA释放,并被BAG6重新捕获,BAG6招募E3泛素连接酶RNF126,使底物泛素化,提交到蛋白酶体降解。TRC35除了作为膜靶向路径中的TRC40适配器,还阻挡BAG6上的核定位信号,将BAG6保留在细胞质中进行蛋白质质量控制。
BAG6途径有三个特点使其特别适合监控非编码序列中的翻译:首先,该途径识别C端疏水尾巴,这是异常翻译产物的一个定义特征,并与其降解相关。其次,包括BAG6、TRC35和SGTA在内的多个途径成分与翻译核糖体物理关联,使复合物能够在异常翻译产物释放到细胞质前进行快速监控。最后,BAG6复合物在膜靶向和蛋白酶体降解的交汇处工作,可能解释了大多数从非编码序列衍生的进化上年轻蛋白质更倾向于定位到膜上的原因。
为了系统地测试BAG6在介导AMD1尾部以外的不同非编码序列的异常翻译产物的蛋白酶体降解中的作用,作者在BAG30-KO细胞中进行了同样的Pep30文库实验(图5 f)。细胞被分成四个区域,然后计算每个序列的归一化表达值。观察到许多序列在BAG6-KO细胞中的表达量增加,表明BAG6介导了许多非编码翻译产物的降解(图5 g)。BAG6-KO的恢复程度与尾巴序列的平均疏水性相关,支持BAG6结合疏水性C端尾巴并介导蛋白酶体降解的模型(图5h )。进一步的生物化学实验证实,BAG6与C端疏水区域结合,促使底物进入蛋白酶体降解途径。这一发现在系统性测试中得到验证,揭示了BAG6在介导多种非编码序列异常翻译产物的蛋白酶体降解中的重要性。
图5
07
作为内源性底物的癌症突变体
COSMIC癌症突变数据库中反复发生的突变会破坏超过400个与癌症相关的基因的终止密码子,导致这些基因被翻译成它们的3' UTR(3'非翻译区),包括肿瘤抑制基因SMAD4。SMAD4的3' UTR编码了一个短的疏水序列,导致SMAD4的翻译延伸产物被蛋白酶体降解。利用双色报告基因系统,研究人员确认将SMAD4的3' UTR编码的肽段与eGFP融合会导致eGFP荧光显著(20.5倍)的丧失,而在BAG6-KO细胞中部分恢复。同时通过其它细胞系实验发现,内源性SMAD4联读蛋白可以通过BAG6敲除来稳定,而SMAD4的RNA水平则没有增加,,而不增加SMAD4 mRNA丰度(图6b)。类似地,减少RNF126也导致了报告基因和内源性SMAD4翻译延伸蛋白的恢复。BAG6会与内源性SMAD4联读蛋白共免疫沉淀,但不是野生型SMAD4(图6c)。这些结果表明,除了外源性表达的报告基因外,BAG6途径还介导内源性翻译延伸蛋白(如SMAD4翻译延伸)的降解,通过与3' UTR编码的疏水C端尾巴结合。这揭示了肿瘤抑制基因如何在癌症中失活的新机制。
图6
这项研究通过多种方法揭示了人类细胞中对多样非编码序列翻译的监控机制。他们发现U富集度或疏水性以及C末端的偏向性是区分非编码序列翻译产物和功能性编码序列翻译产物的两个共同特征。此外,研究还发现BAG6途径在非编码序列翻译产物的降解中起着重要作用,这可能是肿瘤特异性抗原中非编码序列翻译产物优势的原因之一。他们还发现了其他可能的非编码序列翻译监控机制,这为未来研究提供了重要线索。
文献万事屋