A universal system for boosting gene expression in eukaryotic cell-lines
DOI:10.1038/s41467-024-46573-5通讯作者:Roee Amit,以色列理工学院,以色列https://doi.org/10.1038/s41467-024-46573-5
多年来,T7启动子表达系统得到进一步发展,加之优化系统的输出,得以产生更高的蛋白表达水平。不幸的是,许多工业相关蛋白质不能在细菌细胞中表达。这是因为真核蛋白经常需要经历无数的翻译后修饰,这些修饰只能发生在真核细胞中(例如糖基化),这在决定蛋白质的功能中起着关键作用。而迄今为止,T7和类似的高水平蛋白质表达系统均未被证明在真核细胞系中起作用。
在过去二十年间试图使用两种方法破译调控密码,一是使用传统的敲低和拯救方法剖析大的调控区域,直到每个活性TFBS的调控作用得到表征;二是各种构型排列的少量TFBS组成的大量合成顺式调节区域(例如合成增强子)被编码在寡核苷酸文库(OL)中,并使用大规模并行报告基因测定(MPRA)进行表征。两种方法都取得了一定的成功。然而,目前的表达“增压”系统远非最佳。基于此,该研究开发出一种广泛适用或通用的基因表达增强系统,该系统在不同的真核细胞系和多种生长条件下具有相似的功能,并具有多个核心启动子。
我们展示了一种转录调控设计算法,该算法可以增强酵母和哺乳动物细胞系中的表达。该系统由一个简化的转录结构组成,该结构包含最小核心启动子和一个合成上游调控区(sURS),由真核生物谱系中保守的41个基序列表中选择的最多三个基序组成。首先使用包含189,990个变体的寡核苷酸库对sURS系统进行表征,使用一组43个看不见的sURS设计验证了生成的表达模型。验证sURS实验表明,酵母细胞中可能存在一组用于增强和衰减的通用语法规则。最后,我们证明了这套通用语法规则在哺乳动物CHO-K1和HeLa细胞中存在类似的功能。因此,我们的工作提供了一种设计算法,用于增强在酵母和哺乳动物细胞系中表达工业相关蛋白质的启动子的表达。研究内容一:基于基序的合成URS寡核苷酸文库设计
通过编码从生物体中挖掘出41个DNA调控基序,为酵母细胞构建了基于基序的sURS
OL(寡核苷酸文库,图1a)。为了确保所有变体的背景表达水平相同,研究者设计了一个计算机模拟“沙漠”底盘,以排除任何已知的酿酒酵母TFBS基序,通过计算排除了YeTFaSCo数据库中指定的所有已知的共有酵母基序。使用PCR扩增OL并克隆到质粒中,在大肠杆菌10G电感受态细胞中扩增并进行中克隆深度测序以评估OL覆盖率。纯化的质粒线性化后整合到酵母URA3基因组位点中(图1d),整合后,将细胞在选择培养基中生长3天,并根据黄色荧光进行细胞分选。在对NGS(二代测序,Illumina Nova-seq)数据进行初步分析后,发现了三组独立的检索变异,分布在广泛的平均荧光表达水平范围内。这表明OL编码了黄色荧光蛋白表达的广泛调控活性(图1e)。图1 基于基序的sURS OL示意图和表达数据集
研究内容二:变异表现出广泛的调控行为
分析具有高读取计数的不饱和变体(第1组,总共107,868个变体),结果在图中显示为单独的箱线图(图2a),按每个分布计算的中位数(红线)的降序排列,绿线表示为“沙漠”基序的平均荧光表达水平分布计算的中位数。观察到除基序16-21(共42个)外,所有包含基序的组都存在显着差异。正如研究者预期的那样,沙漠变体本身表现出较低的表达水平(图中的黑线)。因此,位于列表顶部和底部的基序均荧光表达水平分布更有可能分别富集上调和下调结合位点。中位数与特定基序分布内的变异数量之间存在~0.3的正相关关系。这种相关性表明,以低中值和低变异数量为特征的基序分布可能表明存在抑制性基序。将所有相同的变异对(即具有两个不同条形码的相同寡核苷酸)分组,并计算每个变体获得的读取计数4向量(对应于四个箱中每个箱中的读取次数)之间的相关性,发现高相关区域与上调的sURS一致(高荧光机制,图2c右上)和下调sURS(低荧光机制,图2c左下),其中图案的调节作用强烈影响表达。最后,在中间荧光机制中,发现主要不相关的对(图2d中)。图2 实证分析表明,真核细胞内存在功能上调和下调基序
研究内容三:深度学习证明只有多条码的变体才能生成统计上可靠的数据为了对数据进行更定量的分析,研究者训练了一个卷积神经网络(CNN)来预测给定DNA序列的基因表达水平(图3)。样本权重对应于变体的总读取计数与库的总读取计数或每个箱的比例贡献,具体取决于模型。总共测试了 112 个模型,在平台区范围内,实现的最高Pearson相关性为~0.45,表明随着读取计数阈值的降低,各种噪声源变得越来越占主导地位(图3b)。假设两个主要的噪声源可能是仅使用两个条码(大多数OL变体的情况:146,802个变体),以及一大批不编码调节功能的基序,为此训练了额外两个模型。第一个模型基于各种ADM模型的观察结果,即忽略条形码似乎不会影响模型的预测能力,称之为“全主题”模型(AMM);第二个模型使用2098个变体的子集,每个变体有22个条码和至少一个混合基底,称为“仅混合基础”(MBO)模型。此外还使用了de Boer-Regev(dBR)模型在不同的酵母表达库上进行训练,以对构成我们每个模型的训练集的变体进行评分。对11个sURS数据集的预测性能评估表明,dBR模型的性能优于AMM和ADM模型(图3d)。图3 卷积神经网络识别出一组具有稳定表达的2435个变体
研究内容四:从2435变体子集中识别激活和抑制的基序和子基序
通过采用最小超几何(mHG)分析在2435变体集上确定可能发挥调节作用的基序,并应用mHG分析来鉴定富集和未富集的混合碱基基序中的富集子基序。总共鉴定了5个富集的非混合碱基基序和13个富集的子基序,在这些功能基序中,8个基序与下调有关,而10个与上调有关,18个功能基序中有5个在任何生物体中都没有已知的相关TF(图4)。图4 对2435变异组的mHG分析揭示了功能性上调和下调基序
基于mHG分析选择了23个基序和子基序进行验证实验。结果表明sURS的行为与预测一致:含有预测的上调和下调基序的盒分别增强和抑制表达(图5a-c)。两种启动子背景均呈上调和下调,表明总表达水平是核心启动子和sURS产生的调控程度的乘积。特别是对于弱核心启动子和强核心启动子,分别观察到x3-x10和x2-x4的增强值,而在两种启动子背景中观察到大约x1.5-x4的表达抑制,此外没有检测到主要的位置依赖效应(见图5b,c)。mHG分析和验证实验支持一个调控模型(图5g),其中表达水平可以量化为核心表达水平的乘积(图5f),sURS上所有基序的累积增强总贡献,如果存在一个或多个衰减基序,则为~x2抑制。使用这个“基序加法模型”(MAM)在酵母中产生了一个经过验证的sURS库,该文库在具有相同核心启动子的荧光黄蛋白表达水平上跨越了~x50的范围。研究内容六:从酵母和哺乳动物细胞翻译的表达水平升高
MAM模型表明,如果结合这些DNA基序的TF的生物学作用在高级真核生物基因组中也是保守的,那么迄今为止产生的预测也应适用于酵母和哺乳动物细胞中的任何生长条件。为了验证这一断言,首先测试了合成的43个sURS变体,以验证MBO模型(11个变体,图3d)和mHG分析(32个变体,图5)。结果显示,支持sURS序列调节作用的所有五种条件中的一组与表达水平紧密相关,其独立于酵母的生长条件和核心启动子结构(图6a)。为了进一步检验这些验证变体的跨物种适用性,计算了相关系数(图6d)和p值(图6e),显示酵母中sURS变体的调控输出在所有五种酵母条件下都高度相关,具有高度的统计学意义(p值<1e-10)。对于哺乳动物变异体,HeLa和CHO数据集之间的相关性与通过关联24个蓝色CHO变异体(即图中的蓝色圆圈)获得的相关性相似(图6b)。蓝色HeLa变体与酵母的相关性略低于CHO的相关性,但对于2%葡萄糖生长条件(p值~0.05)具有轻微的统计学意义。酵母-CHO、酵母-HeLa和CHO-HeLa的相似跨物种相关性具有中等统计学意义,为32个sURS序列中的24个序列产生独立于所使用的真核细胞类型的调节反应的解释提供了支持。
图6 sURS变体在不同细胞类型和生长条件下的功能相似
该研究提供了一种合成生物学设计算法,用于在酵母和哺乳动物细胞中产生非诱导型的基因表达增强。这项工作中开发的计算和实验工具为替代蛋白质、合成生物学和更广泛的生命科学界提供了组成型启动子设计资源。这些工具,无论是一起还是单独,都将允许用户设计各种功能性合成高、中、低表达启动子,从而大大缩短真核生物合成调控系统的设计-构建-测试-学习周期。该研究还为潜在的真核生物调控语法提供了进一步的见解,这些发现支持了一种假设,即至少一些真核生物调控基因组密码并不像以前认为的那样复杂,这为构建额外的设计算法打开了大门,这些算法将进一步提高基因表达水平,从而在非细菌细胞中实现普遍的过表达能力。