点击蓝字 关注我们
泛素-蛋白酶体系统通过调节蛋白质降解在生物学中起着至关重要的作用。尽管它们很重要,但在600个E3中,仅有少量的特异性识别是已知的。在这里,我们建立了一种双管齐下的策略,用于在HEK-293T细胞的蛋白质组尺度上识别和绘制内部降解的关键残基。我们采用全局蛋白质稳定性分析结合机器学习来识别15,800个可能包含序列依赖度的肽。我们将此与扫描诱变相结合,以确定超过5000个预测度的临界残基。以Cullin-RING连接酶为研究对象,我们生成了219个位点的突变指纹图谱,并开发了DegronID,这是一种能够对具有相似基序的位点进行聚类的计算算法。CRISPR分析能够发现E3-degron对,其中我们发现了16对,揭示了广泛的degron变异性和结构决定因素。我们在公共DegronID数据浏览器上提供这些数据的可视化,作为未来探索的资源。
细胞调节信号转导的主要机制之一是通过蛋白质降解。通过选择性调节蛋白质降解,细胞信号通路可以快速适应不断变化的环境条件。选择性蛋白质降解主要由蛋白酶、选择性自噬和泛素-蛋白酶体系统(UPS)介导,UPS是一个复杂的系统,涉及哺乳动物中大约600个E3泛素连接酶,它们选择性地相互作用并泛素化它们的底物。据估计,至少80%的蛋白质降解是由UPS介导的,UPS底物在几乎所有主要的细胞过程中起着至关重要的作用。蛋白质降解的失调经常与许多病理性疾病有关,从癌症、免疫病理到神经退行性疾病。
除了对刺激的反应外,蛋白质稳定性的组成调节对质量控制也很重要。蛋白质错误折叠是一个严重的问题,有一些专门的途径参与质量控制,以指导错误折叠的蛋白质降解。同样,细胞也需要一种机制来识别那些不能组装成适当复合物的蛋白质。质量控制的其他领域包括解决蛋白质在亚细胞细胞器(如线粒体或内质网(ER)或其他特定膜)上正确定位的失败,如BAG6对错误定位的信号序列的识别。虽然有些表现出调节(例如,热休克反应),但其他表现出组成性。当蛋白质在复合物中错误折叠或错误组装时,组成型活性E3连接酶可以识别隐藏的退化,对其底物的构象变化或翻译后修饰起作用,或将蛋白质的丰度严格地与其mRNA水平联系起来,这是在响应某些刺激时受到调节的。
为什么UPS需要这么多不同的e3 ?据推测,它们具有不同的调节模式并识别不同的底物。然而,自从1986年发现第一个degron以来,已知的degrons数量一直很少。此外,许多degrons的基序特征很差,这使得使用这些序列预测E3底物具有挑战性。我们之前建立了global protein stability (GPS)-peptidome技术,并将其应用于C-degrons和N-degrons的分析。这些degrons的简单性和位置使得它们可以通过计算来定义。然而,这种方法无法定义更复杂的degrons,因此,仍然缺乏对自然存在的内部degrons (位置无关degrons)进行系统描述的尝试。
GPS-多肽组筛选内部降解物
为了开发一种系统的方法来识别内部退化,我们遵循图1所示的策略。在这一过程中,我们发现了一个编码横跨整个人类蛋白质组的肽的寡核苷酸文库。该文库有470,000个28个残基的肽,有5个残基重叠。以GFP报告基因的C端为框架克隆多肽组文库。为了避免在与GFP的C端融合时产生不需要的人工C-degrons,在文库的C端放置了20个缺乏已知C-degrons的氨基酸。
对于真正的c端degrons,我们保留了自然终止密码子作为先前研究的对照。将克隆的GPS-多肽组文库包装成慢病毒,在低感染多重性(MOI)下感染HEK293T (American Type Culture Collection [ATCC] cat# CRL-3216)细胞,并使用潮霉素抗性进行选择(图1中的第1步)。根据单个GFP-peptide融合物相对于DsRed蛋白的稳定性,通过荧光活化细胞分选(FACS)将所得群体分为6个bins,然后进行DNA测序,量化每个箱中每个GFP-peptide序列的相对丰度。为了确定每个GFP-peptide融合的稳定性,我们使用了蛋白质稳定性指数(protein stability index, PSI),它是6个bins中每个肽的加权平均值,PSI = 1是最不稳定的,PSI = 6是最稳定的 (图S1A)。我们的分析集中在260,000个多肽上(称为260,000个肽库),具有足够的高置信度分析。
氨基酸组成与肽稳定性的关系
肽的不稳定性可以是序列依赖的,即基于特定残基的确定的序列模式,或组成依赖的,即基于氨基酸的单个性质的总和,而不管顺序如何。我们主要对前一类感兴趣,并试图首先确定由成分依赖机制解释的不稳定肽的类别,以便最大限度地减少它们对我们后续分析的贡献。我们观察到肽氨基酸组成与肽稳定性之间存在很强的相关性(图1的步骤2,图S1b)。除丙氨酸外,具有疏水侧链的氨基酸数量与肽的稳定性呈负相关。值得注意的是,亮氨酸与肽PSI的Pearson相关系数为- 0.42。具有酸性侧链的氨基酸(谷氨酸和天冬氨酸)和脯氨酸的频率与PSI呈正相关。谷氨酸的相关性最显著,Pearson相关系数为0.35 (p值< 2.2 e- 16),其次是脯氨酸(r = 0.30, p值< 2.2 e-16),天冬氨酸(r = 0.23, p值< 2.2e-16),丝氨酸(r = 0.22, p值< 2.2e-16)、谷氨酰胺(r = 0.16, p值< 2.2e-16)和甘氨酸(r = 0.14, p值< 2.2e-16)(图1第2步)。丙氨酸、苏氨酸、天冬氨酸、精氨酸、组氨酸和赖氨酸相对中性,其余较大的疏水性与稳定性呈负相关。与不稳定性的强相关性表明,特定氨基酸在一般肽周转中起核心作用,与先前的定性观察一致。
图1 E3-degron对映射的工作流程
对于真正的c端degrons,我们保留了自然终止密码子作为先前研究的对照。将克隆的GPS-肽段文库包装成慢病毒,在低感染多重性(MOI)下感染HEK293T (American Type Culture Collection [ATCC] cat# CRL-3216)细胞,并使用潮霉素抗性进行选择(图1中的第1步)。根据单个GFP-peptide融合物相对于DsRed蛋白的稳定性,通过荧光活化细胞分选(FACS)将所得群体分为6个箱,然后进行DNA测序,量化每个箱中每个GFP-peptide序列的相对丰度。为了确定每个GFP-peptide融合的稳定性,我们使用了蛋白质稳定性指数(protein stability index, PSI),它是6个bin中每个肽的加权平均值,PSI = 1是最不稳定的,PSI = 6是最稳定的10,14(图S1A)。我们的分析集中在260,000个肽段(称为260,000个肽库)上,具有足够的高置信度分析(表S2;STAR Methods)。
结合机器学习预测和基因分析来识别序列依赖度
接下来,我们试图利用这些信息来识别复杂的退化。我们之前发现,神经网络可以用于预测含有2个氨基酸的c端degron的小数据集中的序列依赖的degron基序,但无法在较大的数据集中轻松识别更罕见和更复杂的degron。我们采用了双管齐下的方法来识别序列特异性度。首先,我们预测了多肽的稳定性依赖于组成。其次,我们将重点放在那些不能仅通过组成来预测其稳定性的肽上,因此它们是包含序列依赖度的候选肽,并进行了遗传分析以确定其中负责不稳定性的序列。
为了预测成分依赖肽,我们在10%的肽数据上训练了一个支持向量机(SVM)模型,使用肽内每个氨基酸的计数作为预测PSI的特征(图S1B;STAR Methods)。然后,我们使用这个训练模型来预测基于剩余肽组成的PSI。预测PSI和观察PSI的Pearson相关系数约为0.9,超过92%的肽的预测PSI和观察PSI之间的差异小于1 PSI单位(图1的步骤3)。预测PSI和实验观察PSI之间的差异被称为degron指数(DI)。DI越大,肽的序列特异性降解活性越强。例如,具有已知C-degron基序的c端肽作为阳性对照,与其他c端肽相比,显示出明显更大的DIs(图S1C)。我们选取了15800个DIs大于+1的多肽作为我们的多肽库,这些多肽可能编码大量的降解肽。许多类型的E3调节肽应该存在于DI分析中,我们对Cullin-RING连接酶(CRLs)调节的肽特别感兴趣。因此,我们也测量了用MLN4924处理的细胞的PSI,以阻断CRL介导的CRL调节肽的破坏。我们计算了MLN4924 DPSI以确定哪些肽可能是强CRL底物。
接下来,我们试图用遗传方法鉴定不稳定肽中的退化基序。我们建立了一个扫描诱变文库,包含283,880个寡核苷酸,涵盖9,817个肽段。这包括使用MLN2924处理CRL底物时DPSI > 1的1782个肽段和使用非CRL底物处理时DI > 1的5790个肽段,以及其他肽段,以促进文库均匀稳定分布和有效分选(表S3; STAR Methods)。为了最大限度地提高每个突变引起氨基酸化学性质显著变化的机会,我们采用了“相反”扫描诱变方案,其中每个氨基酸突变为具有不同化学性质的氨基酸。“一个G, V, L,I,T, C, D, E”被突变“R”;“M, W, F和P”突变为“S”;将“Y, N, Q, K, R, H”突变为“A”,生成单突变肽库(STAR Methods)。该GPS肽库按照原始蛋白组范围文库的描述进行筛选,以确定每个肽的PSI。
由于稍后将对CRL-degron肽进行更详细的描述,我们将暂时集中讨论假定的非CRL degron肽:具有大DIs但未被MLN4924 (MLN4924 DPSI < 0.2)显著稳定的degron肽。有趣的是,我们观察到一个普遍存在于许多非CRL degron的基序(图2A),通常以一系列疏水残基为特征,有时被一个或两个亲水残基打断。对于4个代表性的降解肽,我们进行了CRISPR筛选,以鉴定针对这些降解肽的E3连接酶(图2B; STAR Methods)。
引人注目的是,所有4种肽都被BAG6破坏了稳定(图2C)。先前已经证实,BAG6作为一种胞质蛋白伴侣,与RNF126一起靶向具有N端信号肽的蛋白,这些蛋白无法转运到内质网中进行破坏,作为一种转运质量控制机制。RNF126没有获得成功,因为它的单向导RNA(sgRNAs)在筛选过程中被淘汰了。有人提出BAG6通过识别暴露的信号肽来发挥这一功能,否则这些信号肽在适当的易位时应该被掩埋。然而,BAG6识别的精确的degron基序从未在精确的氨基酸水平上得到解析。信号肽的长度通常为16-30个氨基酸,具有具有疏水核心区的三方结构。我们的研究结果表明,BAG6通过其疏水核心区域识别信号肽,因为许多信号肽被预测编码非CRL degron,并且它们的扫描诱变在其疏水区域内显示BAG6 degron基序(图2A)。重要的是,与CD68一样,BAG6识别的基序可以短至3-4个疏水残基。由于许多不含信号肽的蛋白质也编码一个可能在错误折叠时暴露的假定的BAG6基序(图2A),我们的研究结果表明,传统观点认为BAG6专门负责分泌途径的易位质量控制可能是不完整的。相反,BAG6可能作为一种一般的质量控制途径来保护细胞免受由蛋白质异常折叠和潜在聚集引起的压力。由于疏水性是蛋白质折叠的主要驱动因素,大多数蛋白质错误折叠可能会暴露出一小段疏水序列,这些序列可以被BAG6识别,通过蛋白酶体降解来控制蛋白质的质量。
除了BAG6 degron基序外,我们的扫描诱变还在其他假定的非CRL degron肽中发现了degron基序模式(图S1D)。虽然本研究主要集中在表征CRL-degron肽,但我们预计未来对这些degron肽的研究将确定大量的非CRL degron途径。
图2 SVM机器学习辅助BAG6退化基序的识别
(A)非CRL -degron肽的扫描诱变。顶端组的肽经过CRISPR筛选,BAG6被鉴定为一个不稳定基因。BAG6样基序不仅存在于n端信号肽序列的末端肽(中间组)中,也存在于内部肽(底部组)中。
(B)说明CRISPR筛选工作流程的示意图,该筛选旨在识别每个降解肽所需的基因。
(C)使用UPS相关基因的sgRNA慢病毒文库对(A)中描述的基序的4个代表性脱粒肽进行CRISPR筛选,鉴定出BAG6是脱粒活性所需的基因。
用MLN4924进行GPS-肽筛选,鉴定CRL识别的降解酶
接下来,我们重点研究了CRL调控的退化特征。为了鉴定含有CRL调控的degron-containing 肽段,我们在MLN4924存在的情况下进行了GPS -肽段筛选(图3A和3B;STAR Methods)。MLN4924-DPSI评分大于0.8的肽段共有4245条。我们选择了180个高置信度的肽,并将编码它们的DNA克隆到慢病毒GPS报告中,使用两种形式的c端序列之一进行下游分析(STAR Methods)。共有101个已验证的肽被验证,并使用显性阴性Cullins将其分类到不同的Cullin支架中(图3C和S1E;表S5)。我们鉴定了多种多肽,其稳定性由五种不同的Cullins调节。我们观察到,所有被DN CUL2稳定的肽都同样被DN CUL5稳定,但并非所有被DN CUL5调节的肽都被DN CUL2稳定,这表明CUL2和CUL5在抑制功能上存在差异。总之,这些都证实了我们的方法对CRL退化进行采样,而不偏向于特定的降解途径。
图3 使用MLN4924的GPS -肽段筛选鉴定了依赖于CRL的降解肽
(A) MLN4924存在时GPS -肽段筛选工作流程示意图。
(B)显示了在(A)中筛选出的对MLN4924有反应的代表性肽。对每一种多肽,对照条件下与MLN4924处理条件下在6个箱内的相对分布进行比较。另见图S1。
(C)具有代表性的GPS测量的肽稳定性与显性阴性(DN) CUL表达。图中显示了两种被(DN)cul1、dncul2 /5、dncul3、dncul4a和dncul5选择性稳定的肽。
DegronID使基于degron基序相似性的degron肽聚类
为了系统地确定降解基序,我们使用饱和诱变GPS-肽段进行了GPS-肽段筛选,该文库包含133,250个寡核苷酸,覆盖250个选定的由MLN4924稳定的肽,其中每个肽的每个残基突变为其他19个氨基酸(表S6)。我们实现了219个degron足迹的高分辨率映射。31个肽被遗漏,要么是因为代表性低,要么是因为它们具有多个不容易消歧的degron。饱和诱变显示出明显的退化基序。然而,我们也注意到几个degron基序之间的相似性,这提高了多个肽可能被相同的同源E3连接酶识别的可能性。
然后,我们开发了一个基序聚类算法,DegronID,对含有相似基序的肽进行分类(图1的第7步)。简而言之,对于具有饱和突变数据的DegronID, DegronID对人类肽肽库与degron足迹的相似性进行评分。然后,DegronID计算足迹对之间的相似性得分,并执行分层聚类来分组相似的图案(STAR Methods)。从我们的参考数据库中,由DegronID预测的与我们精细绘制的degron基序最相似的肽段,往往比我们的库作为一个整体更不稳定(图4A),也比基于我们的成分依赖的SVM模型的预期更不稳定(图S2B)。此外,它们更有可能含有比统计预期的由MLN4924稳定的肽(图4B)。从DegronID对degron足迹的分层聚类来看,为了实用性,我们将树形图限制为40组(DegronID组),并观察到多个相邻组之间具有相似性的多个元聚类(图4C)。我们还使用JPred419对a-螺旋二级结构进行了注释,并鉴定了随后验证中鉴定的Cullin和E3连接酶接头(图4C)。正如预期的那样,我们发现多个具有预测基序相似性的肽底物共享E3连接酶。作为DegronID的计算验证,我们发现具有共享E3的肽倾向于聚集在一起,并且相对于不相关的肽,彼此的得分相似(图4C 和S2D)。
图4 Degron ID基于序列相似性将饱和诱变基序分成簇
(A)在GPS屏幕上观察到的肽的PSI分布(x)和基于成分的PSI预测(y),来自26万个文库(黑色)和DegronID评分前200的点击(颜色)。
(B) MLN DPSI对198个CRL肽的DegronID预测的前200个DegronID命中摘要;(下)从我们的26万个文库中随机选择200个肽的迭代。括号和星号表示绿色条的值大于或等于错误发现率(FDR)为0.1的预期值的实例。
(C)饱和诱变退化足迹的层次聚类。来自验证实验的a-螺旋结构预测和配对连接酶显示在聚类图下面。与具有共享相同CRL的多个成员的degrons组相对应的元集群被装箱并标记(参见图S3)。另请参见图S2。
我们还验证了degronID评分算法通过检查与先前表征的其他degron最相似的序列来选择不稳定肽。APC/C-degron库中的D-box基序序列和我们之前研究中含有GG*或RG*末端的c -末端基序14也预测了不稳定肽(图S2A;STAR Methods)。此外,我们检查了DegronID可以正确地预测特定连接酶的顶部命中的已知度。例如,对于BTRCP识别的degron基序,已知的2个底物CDC25A和CDC25B在预测中排名前0.02%,分别排在第40位和第41位。此外,已知的被KLHL15降解的底物与GLB1L的一个强FRY结构域相似,得分在前0.2%(2),我们通过饱和诱变来表征(图S2C,左上)。此外,在BioPlex 3.0中鉴定的与KLHL15相互作用的52个蛋白中,DegronID鉴定出16个蛋白(31%)在序列上含有与GLB1L(2) FRYV基序最接近的[FL]R[FY]基序,另外13个蛋白含有较弱版本的[FL]R[FY]基序。相比之下,我们的文库中只有8.8%的蛋白质含有[FL]R[FY]基序(图S2C)。经Fisher精确检验,[FL]R[FY]在klhl15相互作用蛋白中的富集程度与我们文库中所有人蛋白相比,具有p < 6.7e-06的显著性。这表明DegronID可能有助于为可能被特定E3降解的底物修剪高通量免疫沉淀数据。
为了检验使用DegronID来表征特定E3内源性底物的可能性,我们从BioPlex 3.0中选择了6个klhl15相互作用蛋白,这些蛋白包含一个FRY样基序,并且在我们的肽段筛选中对MLN4924表现出敏感性。将这些蛋白的全长开放阅读框(ORFs)克隆到GPS 6.0目的载体(DEST)中,然后在野生型(WT)或KLHL15敲除(KO) HEK293T细胞中稳定表达。ZNF511在KLHL15 KO细胞中表现出很强的稳定性,而包含其他KLHL15相互作用蛋白的GPS-ORF构建体在KLHL15 KO细胞中表现出更微妙的稳定性增加,而包含随机选择的不含FRY样基序且已知不与KLHL15相互作用的蛋白的对照GPS-ORF构建体在WT或KLHL15 KO细胞中的稳定性没有差异(图S5D)。
CRISPR筛选鉴定出同源的CRL-degron肽E3连接酶
DegronID通过饱和诱变识别出看起来相似的基序簇(图S3)。鉴定同源的E3连接酶负责具有明显不同基序的肽的脱蛋白活性,我们对不同簇中的脱蛋白肽进行了CRISPR筛选。鉴定出15个CRL适配器负责肽的降解活性,包括CUL1FBXO21, CUL1fbxo3, CUL1fbxo38, CUL1FBXW5, CUL1β-trcp, CUL2FEM1B, CUL3klhl9, CUL3klhl15, CUL4DTL, CUL4Dcaf5, CUL4TRPC4AP, CUL4ambra1, CUL4VPRBP, CUL5asb7,和CUL5ASB3(图6和S4;STAR Methods)。一个肽被映射到CUL1,但没有标记CUL1接头,这增加了靶向相应接头的sgRNAs在筛选过程中丢失或冗余的可能性。随后对degron基序的检测表明,它与一个典型的b-TrCP degron基序相匹配,其中有两个类似物,b-TrCP1和b-TrCP2。虽然典型的b-TrCP degron基序需要一个或两个磷酸丝氨酸,但我们的degron具有酸性残基,作为拟磷物,如CDC25B所见。我们还对肽DLST进行了CRISPR筛选(7),这是我们没有获得其足迹高分辨率映射的19个肽之一,并将其映射到CUL5ASB3。除了底物受体外,这些筛选还鉴定了CRL途径的常见成分,包括ARIH1、ARIH2、NEDD8和NAE1,以及其他核心UPS成分,包括VCP和蛋白酶体亚基。在这15个CRL接头中,CUL1b-TrCP和CUL4DTL已经得到了广泛的研究,并准确地定义了它们的同源退化基序。对于CUL2FEM1B、CUL3klhl1和CUL4TRPC4AP,尽管已经确定了它们的脱子基序的实例,但我们在这里的结果包括许多新的脱子,这些新脱子是先前已知的脱子基序的不同变体。一些新的基序变异与先前建立的degron基序有关,如CUL3KLHL15,或者可能是完全不相关的序列,通过不同的结合位点结合到相同的E3连接酶上,如CUL2FEM1B的预测(见下文)。据我们所知,对于我们鉴定的其他10个E3连接酶,包括CUL1FBXO21、CUL1fbxo3、CUL1FBXO38、CUL1fbxw5、CUL3KLHL9、CUL4dcaf5、CUL4ambra1、CUL4vprbp、CUL5asb7和CUL5ASB3,没有鉴定出精确定义的降解基元。以前研究过FBXO21和VPRBP检测到的degron,但没有精确定义。
图5 饱和诱变鉴定了MLN4924稳定多肽中的退化基序
选择的CRL-degron肽的饱和诱变degron足迹: (A) IFNA8 (5), (B) FBXO10 (3), (C) ZFHX4 (40), (D) HINFP (3), (E) MDN1 (196), (F) DPP4 (25), (G) FRMD8 (15), (H) SH3BP2 (2), (I) ATP2B2 (34), (J) ZNF510 (2), (K) ALAS2 (8), (L) CCDC3 (10), (M) ZNF19 (8), and (N) CCDC17 (9). 从随后的CRISPR筛选中鉴定的同源E3也被指出。另请参见图6和S3。
FEM1B degron
最大的degron元簇(簇1-8)的特征是一个类似WxxYL的degron基序,更常见的是W[VAC]x [YRT][ILT](图S3B)。CRISPR筛选鉴定CUL2FEM1B是DPP4的不稳定因子(25),DPP4是该元簇的代表性肽(图5F A和6F)。通过CRISPR介导的FEM1B KO,我们也测试了具有相似基序的其他几个元簇成员,并确认它们是FEM1B底物(图4C和S5C)。这种联系是出乎意料的,因为我们小组之前的结果发现了一个被FEM1B识别的R* c端退化子。同一E3连接酶所识别的2种结构不同的degron,表明同一E3连接酶可能具有不同的degron结合域。
KLHL15 degron
第二大的degron元簇(簇11-15)具有一个类似LRF的degron基序(图S3C)。
CRISPR筛选鉴定CUL3KLHL15是肽SH3BP2的不稳定因子(2),也是该簇的代表性成员(图5H a和6H)。通过CRISPR介导的KLHL15 KO,对具有相似基序的簇的其他几个成员也进行了测试,确认它们是KLHL15底物(图S5B)。先前已经确定KLHL15识别一个三肽FRY degron,迄今为止有3个已鉴定的底物含有FRY degron。2然而,我们的研究结果表明,实际的基序要微妙得多,因为KLHL15不仅识别基序,还识别其他变体,特别是FRF、LRF和LRY(图S3C)。此外,在某些情况下,核心三肽基序的邻近残基似乎也是必需的,这表明了degron E3识别的灵活性。这些都强调了对degron基序的精确理解如何能够实现更具体的基序预测,同时扩大E3连接酶识别的潜在底物库。
FBXO21 degron
CRISP,含有degron的IFNA8(5)肽,其稳定性由FBXO21调节,具有不连续的基序残基延伸(图5A和6A)。间距让人联想到两亲a-螺旋,PROTEUS2分析确定它极有可能形成a-螺旋结构(图S6B)。此外,尽管IFNA8基序区域内的非必需残基中的大多数替换是耐受的(5),但将该区域内的任何残基突变为脯氨酸(已知会破坏a螺旋),从而完全消除了整个氨基酸链中的脱蛋白活性,支持了脱蛋白活性需要a-螺旋(图5A)。
ASB7 degron
团簇16的多肽是几个团簇中的一个,在它们的度中显示有规则间隔的关键残基(图5N和S3E)。CRISPR筛选鉴定CUL5ASB7是CCDC17(9)稳定性的调节因子,也是该簇的代表成员(图5)。该簇的其他几个肽具有相似的基序,GIGYF1(19), LZTS1(16)和CEP152(52)。也经过测试并确认符合ASB7规范(图S5A)。预计这些肽将形成一个a-螺旋结构,其降解活性明显被预测螺旋区域内任何位置的脯氨酸破坏(图S6)。有趣的是,CUL5ASB7基序的4个肽底物与明显相关的扩展基序相比显示出很大的灵活性(图S3E)。典型的asb7调控的degron分布在16-19个氨基酸上,其中6或7个关键氨基酸沿着a-螺旋的同一表面分布。在每个位置上,似乎都有一个或两个氨基酸是重要的,尽管在某些位置上,氨基酸对似乎占主导地位。从左到右,在位置1(残基+1),有一个酸性残基,通常是E,通常是疏水残基,如L或I。在位置2,(残基+5)通常是L残基,但可以容忍I或m。位置3(残基+8)是另一个酸性残基,通常是E,有时可以容忍T或疏水。位置4(残基+12)通常是L,但通常两侧有带电残基。位置5(残基+16)和6(残基+19)通常是亮氨酸,可以耐受I或M替换。由于表面相互作用广泛,一个位置上的次优氨基酸可能被另一个位置上更强的相互作用所补偿,从而产生足够的结合效率来与E3连接酶相互作用。这就对这个degron复合体做出了预测。
图6 CRISPR筛选鉴定出了与CRL-degron肽同源的E3连接酶
从CRISPR屏幕上进行MAGeCK评分,鉴定每个所示肽的同源E3连接酶: (A) IFNA8 (5), (B) FBXO10 (3), (C) ZFHX4 (40), (D) HINFP (3), (E) MDN1 (196), (F) DPP4 (25), (G) FRMD8 (15), (H) SH3BP2 (2), (I) ATP2B2 (34), (J) ZNF510 (2), (K) ALAS2 (8), (L) CCDC3 (10), (M) ZNF19 (8), (N) CCDC17 (9), and (O) DLST (7) (STAR Methods). 从每个肽的诱变足迹衍生的标志图也显示在可用时。另见表S7、图S4和图S5。
AlphaFold2辅助全球对接
E3泛素连接酶通常识别底物降解中的关键残基,正如一些晶体结构所显示的那样。考虑到结构预测算法的最新进展,我们试图探索我们的退化蛋白与其同源E3连接酶之间的可预测复合物。因此,我们利用了AlphaFold2-多定时器算法36,37 (STARMethods)。我们发现FEM1B、FBXO21和ASB7的对接显示出预测的相互作用界面,与我们的降解饱和诱变结果一致。
ASB7接头是一种锚蛋白重复序列蛋白,编码7个锚蛋白重复序列,每个重复序列形成一个螺旋-螺旋-螺旋结构。因此,多个锚蛋白重复序列具有识别目标蛋白上分散的相互作用残基的潜力,并可能识别a-螺旋degron中的分布残基。引人注目的是,CCDC17(9)和LZTS1(16)与ASB7的对接预测了一个相互作用表面,该相互作用表面直接映射到我们之前通过饱和诱变确定的关键残基上,与降解肽上的关键残基相互作用的每个点都被不同的锚蛋白重复识别(图7A)。在排名前三的AlphaFold2结构预测模型中,这些肽关键残基与ASB7的对接是稳定的。分散残基可能能够与由多个重复组成的E3底物适配器(如许多CRL适配器)相匹配,这一概念可能是允许许多不同底物特异性进化的一般特性。
尽管许多F-box蛋白接头含有重复序列,如WD40和LRR重复序列,但相当一部分缺乏重复序列,属于FBXO类。其中一个成功的对接预测是FBXO21。通过饱和诱变在多肽IFNA8(5)中发现的基序残基被预测为对接结构中的相互作用残基。
我们还应用AlphaFold2来预测FEM1B底物的degron对接,并发现该预测成功地识别了FEM1B基序中关键的W残基对FEM1B结合至关重要(图S7A)。FEM1B与R* degron肽结合的结构较早得到了解决。然而,将FEM1B内部的degron肽与FEM1B对接,发现它们通过与R*不同的结合区域与FEM1B结合。我们假设,在同一个E3连接酶上存在2个降解结合位点,可以通过结合不同的表面进行选择性降解调节,从而使该E3连接酶在底物识别方面非常灵活。
E3-degron结合的表征
图7 利用AlphaFold2对E3-degron进行对接,鉴定出与饱和诱变、共免疫沉淀和GPS等方法一致的关键degron残基
(A) ASB7 degron肽在ASB7上的Alphafold2多时间对接。显示并标记了相互作用界面上选定的残基。
(B) ASB7的免疫印迹:在293T ASB7 KO细胞中CCDC17(9)结合。(上)FLAG-ASB7 (WT或指定突变体)在稳定表达GFP-CCDC17的细胞中共免疫沉淀(9)(WT)。(下)FLAG-ASB7 (WT)在稳定表达GFP-CCDC17(9) (WT或指定突变体)的细胞中共免疫沉淀。来自lane 1、3、4和5的细胞稳定表达以c端序列A为侧翼的特定GFP-degrons融合物(QGRARP NQEVQIGEMENQLS),而来自lane 2的细胞稳定表达以c端序列B为侧翼的GFP-CCDC17(9) (QGRARPNQEVQIGEMENQLD)。
(C) CCDC17(9) GPS报告肽与KO、稳定表达WT或稳定表达突变体ASB7的流动稳定性数据。另见图S6和S7。
降解肽半衰期的测定
我们还通过环己亚胺追踪测试了ASB7、FEM1B和FBXO21突变体对其同源降解肽稳定性的影响(图S6A)。在这三种情况下,我们发现E3连接酶的存在导致相应的GPS报告肽的半衰期缩短。
DegronID数据浏览器
为了方便地访问这个大型突变数据集,我们创建了一个web托管应用程序来共享数据可视化。该网站提供了Cullin抑制剂MLN4924对GPS测量的稳定性(图3B)和扫描和饱和诱变的degron足迹的可视化效果(图2A和5)。此外,该网站还纳入了DegronID的degron聚类结果,使用户能够轻松地探索相关的degron足迹组。该应用程序可在https://elledge.hms.harvard.edu/?page_id=2960免费访问。
系统阐明细胞降解对于理解蛋白质稳定性及其在形成稳态和调节生物学中的作用至关重要。在这里,我们确定了在蛋白质中具有降解潜力的肽,这取决于它们在蛋白质中的可及性,可受变构作用、复合物形成或错误折叠的影响。该文库中的绝大多数肽可能被一般质量控制机制识别,以响应无序序列简单的氨基酸组成,因为它们的稳定性可以通过单独的组成贡献的总和来预测。氨基酸与稳定性的相关性与我们之前在N端和C端观察到的相似,例如疏水性与不稳定性相关,酸性残基与稳定性相关;然而,有几个重要的区别很突出。最显著的是,我们发现脯氨酸、谷氨酰胺、甘氨酸和丝氨酸与稳定性相关,苏氨酸倾向于这个方向。出乎意料的是,所谓的“PEST”序列的所有氨基酸成分(脯氨酸、谷氨酸、丝氨酸和苏氨酸)都与稳定性相关。PEST序列有很长的被认为是赋予蛋白质不稳定性的区域。我们的研究结果表明,从统计学上讲,这些氨基酸本身不太可能引起不稳定。要么PEST假说是不正确的,要么是这些残基的特殊排列或磷酸化在这些低复杂性区域内产生了退化。这些序列如何赋予蛋白质稳定性还有待确定。
从我们的扫描突变筛选中,我们发现最常见的一类非CRL退化是由BAG6调控的,BAG6是一种E3相关的伴侣蛋白,已知可以识别错定位膜蛋白上的疏水信号序列。我们发现BAG6可以识别长度为5-7个残基的短疏水度,该组合物不属于疏水残基的延伸,但可以容纳内部中性甚至带电残基。根据我们的扫描突变模式确定,在非CRL类中显然还有许多不受BAG6调控的其他序列特定度,它们也应该扩展这个度类。
基于DegronID的基序分离,我们发现许多其他的基序仍未被发现,我们期望在未来对这些基序的分析中出现更多的孤儿E3-degron对。本研究中开发的相同策略可以应用于研究非CRL分级。此外,在不同细胞条件下或不同细胞类型中具有不同E3连接酶活性的细胞退化也可以使用我们在这里构建的这种策略进行调查。
我们发现,由DegronID组合在一起的degron基序往往具有视觉上明显的相似之处。通过DegronID聚集在一起的degron不一定具有相同的E3。多个E3连接酶可以识别相似的降解酶识别序列。然而,通过探索DegronID生成的degron基序簇,我们确实发现了一组聚在一起并共享相同E3连接酶的degron基序,这为degron和E3可塑性提供了更深入的见解。CUL3KLHL15就是一个很好的例子,它是一种已知能识别FRY基因的E3连接酶。然而,我们的饱和诱变检测到一个更细微的退化,允许许多替换,并将参与识别的额外残基的数量从3个增加到4到7个,每个位置都有必要和避免的残基。据推测,偏离中央FRY基序的降解基可以通过获得额外的相互作用来利用远端残基来提高其降解潜力。例如,许多FRY度在+4位置有疏水残基,通常为V。L位于+1位的分子,如CILP(51)和SYT2(11),通常在- 2处疏水,偶尔在- 3或- 4处疏水。
其次,我们发现了一个缺乏R* motif的FEM1B degron motif W[VC]xxL,它利用了FEM1B上存在的不同的degron binding pocket,正如AlphaFold2模型预测的那样。在R*degron中,c端R与ANK3重复序列上的D131结合。然而,对于W [VC]xxL基序,预测其度子的W与位于TPR结构域附近的W367相对应。在WxxYL的情况下,degron的Y与FEM1B上的F501坐标(图S7A)。我们已经证实,FEM1B W367和F501对于通过coIP将FEM1B与含有wvtyl的肽结合以及通过GPS使含有wvtyl的肽不稳定至关重要(图S7B和S7C)。相比之下,FEM1B突变H345A和Y84A并不会接触到WVTYL基因的关键残基(图S7A),却不会影响到coIP对FEM1B:WVTYL的结合。
第三,尽管许多degrons存在于蛋白质的非结构化区域,我们发现了明显涉及稳定二级结构的肽,特别是由CUL5ASB7调节的CCDC17(9)肽和由CUL1FBXO21调节的IFNA8(5)肽(图7A和S6C)。预测这两种肽都是螺旋状的,降解所需的疏水残基主要位于螺旋的一面。与这一结构预测相一致的是,a-螺旋断裂脯氨酸和甘氨酸(在较小程度上)在degron区域的任何位置放置都能引起稳定(图5A和5N),支持螺旋结构在degron功能中的作用。
重要的是,将这些降解肽与它们的E3对接表明,在一个螺旋面上预测对降解活性至关重要的残基与与E3接触的残基完全相同。在锚蛋白重复序列ASB7的情况下,锚蛋白重复序列末端的环与a-螺旋的间距相同,以识别螺旋表面上等距的关键残基。我们已经证实ASB7上的D116A或I159A突变干扰了ASB7结合或破坏CCDC17(9) a-螺旋的能力(图7B和7C)。我们还发现,对于ASB7:CCDC17(9)和FBXO21:IFNA8(5),沿degron肽的一个螺旋面推定的关键残基的突变会损害E3:degron结合(图7B和S6D)。
本研究中绘制的大量degron有可能扩展靶向嵌合体(PROTACs)的蛋白水解工具箱。PROTACs在治疗学中是一个越来越重要的概念。尽管在过去的十年中,PROTACs带来了深刻的兴奋,但它们的全部潜力并没有得到充分发挥。这在一定程度上受限于相对较少的具有同源退化精确定义的E3连接酶。PROTACs通常模拟内源性底物。研究表明,一种模拟已知FEM1B基因的化学物质能够发现一种新的PROTACs治疗方法。该配体通过靶向先前确定的FEM1B上涉及ANK3-ANK6.27的脱颗粒结合口袋与FEM1B结合,这说明了通过了解天然脱颗粒基序开发新的PROTACs治疗方法的可行性和重要性。
在近40年的脱序分析历史中,大多数脱序都是在一次研究中发现的,而且所报道的基序往往是不完整的。我们开始开发一种高通量系统来表征degrons,但以前只能很容易地识别模式和肽的N和C端,这些模式和N和C端是简单的,并且通过定位在蛋白质末端获得特异性。然而,绝大多数的退化是内部的。在此,我们扩展了之前的N/C度研究,并应用GPS系统地研究了内度。为了衡量我们在过去40年内在序列领域的进展程度,真核线性基序(ELM)数据库目前提供了14个泛素连接酶识别的哺乳动物内部序列的集合。我们的概念验证工作包括对16个泛素连接酶识别的大量内部脱蛋白进行诱变指纹鉴定,并突出了许多具有潜在脱蛋白活性的额外肽。在这16个E3s中,只有2个E3s与ELM集合重叠,b-TrCP和CDT2 (DTL)。因此,预计在这个数据集中将发现更多的degrons,他们的知识将推动发现同源E3s调节的全长蛋白部分,并可能与像AlphaFold2这样的结构预测程序相结合。通过类似于DegronID的基序搜索过滤高通量免疫沉淀数据,全长底物的预测可能成为可能。最近开发的高通量筛选E3:degron对的方法将有助于未来的研究。我们预计,未来对这些降解的研究将有助于揭示复杂但尚未被充分探索的细胞降解及其在生物系统中的生理作用。
我们选择了一个28元的肽段来代表人类的内部退化,因此,我们可能会固有地错过一些结构或构象基序。然而,我们的肽段能够有效地捕获许多a-螺旋退化基序。本研究中的E3-degron对具有遗传特征,因此,在某些情况下,E3对degron肽的不稳定在理论上可能是由于间接影响。然而,我们对FBXO21、ASB7和FEM1B的底物结合实验结果表明,这些影响是直接的,就像破坏E3结合的肽中稳定突变的影响一样。这与我们之前对N端和C端退化的研究结果一致,在我们和其他人的测试中,这些影响都是直接的。
一些具有E3相互作用基序的肽可能不被标记为脱蛋白肽,原因如下:(1)脱蛋白活性的激活需要一个空间可及的赖氨酸来进行泛素化。虽然GFP中有18个表面可接近的赖氨酸残基,但我们不能排除在某些情况下,被degrons招募的E3s不能接近赖氨酸进行泛素化的可能性。(2)同源E3s在HEK293T细胞中可能不表达。(3) CRL退化需要通过磷酸化或乙酰化等翻译后修饰激活。这种肽系统可能缺乏大多数蛋白质修饰,并将错过许多。然而,尽管CUL1b-TrCP需要磷酸化其度基,但我们发现了6个缺乏磷基但含有可能作为拟磷物的酸性残基簇的度基(图S5A)。因此,我们可能能够检测到在某些度上需要磷酸盐的E3连接酶。
虽然我们能够使用AlphaFold2预测模型来识别在诱变时破坏COIP的降解结合的关键E3残基,但已确认的结构肯定有助于识别此类残基。
尽管存在这些局限性,但这些系统的研究对该领域的现有知识做出了重大贡献,并为未来发现更多的degron-E3对提供了基础。