在生物医学研究中,细胞特异性反式调控元件(cell-type-specific cis-regulatory element, CRE)的设计是一个热门研究领域。最近发表于《Nature》的一项研究《Machine-guided design of cell-type-targeting cis-regulatory elements》,利用机器学习模型指导合成具有高度细胞类型特异性的CRE,为精准医疗提供了全新的工具。这项技术不仅有望解决现有基因治疗中靶向递送不足的问题,还可能为基因编辑、报告基因开发等提供新的解决方案。
基因表达是一个复杂的过程,受到多种因素的调控,其中CRE扮演着关键角色。这些DNA序列通过与特定转录因子结合来调节目标基因的活性。尽管近年来的研究已经鉴定了数百万个潜在的人类CRE,但这些自然进化的序列仅仅是所有可能性的一小部分,并不一定符合临床应用中的最佳表达需求。理论上,一段200碱基对的DNA可以包含超过2.58×10120种不同的组合——比可观测宇宙中的原子数量还要多。这些DNA序列组成了一个尚未被充分发掘的DNA序列空间,也是挖掘具有临床和生物技术应用潜力的CRE的储备库。
为了克服传统方法在识别和验证CRE时遇到的挑战,Gosai团队引入了三项关键技术:
1)大规模平行报告基因检测(Massively Parallel Reporter Assay,MPRA):能够同时评估成千上万个CRE的功能,从而获得关于调节语法(regulatory grammar)的广泛认识。
2)深度学习算法(Malinois):用于预测不同细胞类型中遗传序列如何影响CRE活性,构建出精确的“调控语法”模型。
3)基于预测模型的定向CRE生成(CODA):基于上述CRE序列评分算法,对随机序列进行迭代,允许研究人员根据所需功能和特定细胞定制合成CRE。
实验结果显示,使用这些合成的CRE可以在斑马鱼和小鼠中实现细胞类型特异性的驱动效能。此外,该研究也展示了如何利用CODA软件库及Malinois模型来生产合成序列,并通过体外和体内实验验证了其效能。
图1:Malonis模型的开发流程及其预测CRE的能力
为了建立精确的CRE活性模型,研究人员首先在K562(红系前体细胞)、HepG2(肝细胞)和SK-N-SH(神经母细胞瘤)三种人类细胞类型中通过MPRA分别分析了超过77万段200 nt长的DNA序列,筛选具有细胞特异性CRE活性的基因组序列信息(图1a)。
使用这些数据,研究人员借鉴了Basset模型(一个用于预测染色质可及性的模型),构建了基于卷积神经网络(Convolutional Neural Network,CNN)的深度学习模型Malonis(图1b)用以预测DNA序列的细胞特异性CRE活性。Malonis在K562、HepG2和SK-N-SH细胞中的预测值与实际测量值之间显示出高度相关性(Pearson’s r=0.88–0.89;Spearman’s ρ=0.81−0.83;P < 10-300;图1c)。这意味着Malonis不仅能够很好地拟合已知数据,而且还能准确预测新序列的CRE活性。
Malinois预测重现了MPRA筛选的重叠片段,这些片段来自以GATA1基因为中心的2.1 Mb窗口(图1d)。此外,在K562细胞中,Malonis预测的CRE区域与DNaseI超敏感位点(DHS)、H3K27乙酰化(H3K27ac)和STARR-seq峰均有很好的一致性(图1e)。这些结果说明Malonis具有良好的CRE活性预测功能。
图2:CODA有效地设计了细胞类型特异性的CRE
接着,研究人员又设计了一个名为CODA的模型,用以从头设计新CRE序列。CODA遵循一个迭代循环:预测序列的活性(通过上文提到的Malonis)、量化序列是否符合设计目标,并更新序列以增加目标值(图2a)。设计目标是获得在模型细胞系中驱动特定细胞类型报告基因转录的CRE序列。通过计算序列在目标细胞类型中预测MPRA活性值与两个非目标细胞类型中预测MPRA活性最大值之间的最小差距(MinGap)来衡量成功程度。迭代方法则分别尝试了进化式的AdaLead、基于概率的模拟退火以及基于梯度的Fast SeqProp。
通过使用不同迭代方法的CODA,研究人员设计了36000个细胞特异性CRE序列,却发现CODA对某些最大化细胞特异性的特定序列具有偏好性。为此,研究人员通过在目标函数中引入惩罚机制来减少这种偏好性的产生,尽管这会牺牲细胞特异性,但极大丰富了序列的多样性。
通过MPRA,对Malonis预测的天然CRE序列、CODA设计(惩罚/非惩罚)的CRE序列以及基于DHS(结合H3K9ac和染色质可及性)预测的天然CRE序列(统称为MPRA测试库)的活性进行验证,进一步证明了Malonis的CRE活性预测能力(图2b&c)。并且Malonis对CRE细胞特异性的预测能力显著强于基于DHS的预测(图2d&e)。
此外,CODA设计的CRE序列对比天然序列展现出更高的细胞特异性(图2d&e)。并且,基于Fast SeqProp的CODA方法所设计的CRE序列具有更好的稳定性和更高的MinGap。而惩罚模式会降低设计序列的细胞特异性但仍显著优于天然CRE序列(图2d&e)。
图3:解释功能序列的内容
为了将序列内容与对应的转录因子(TF)联系起来,研究人员通过Malinois和改良的集成梯度方法,分别预测每个序列在三种细胞类型中单核苷酸分辨率的活性贡献分数(contribution score),并基于贡献分数筛选出66种DNA基序(motif)序列模式。
然后通过TF-MoDISco方法,从中提取出在MPRA测试库中富集的36种非冗余的核心基序模式(7-18 bp),其中31种与已知的人类TF结合位点高度吻合。在36个核心基序中,28个对序列活性具有阳性预测贡献,而其余8个具有抑制作用(图3b)。这包括众所周知的激活因子,如GATA63,GATA63是在K562细胞中表达的必需TF, Malinois预测其仅在K562细胞中驱动活性。
使用贡献分数为基础的模式扫描,发现所有36个核心基序模式在算法设计和天然序列中都至少出现一次,表明这两种类型的序列共享TF库(图3b)。词法分析表明,算法设计序列通常包含更多的独特基序模式以及模式类型数,而惩罚性设计则显示出比非惩罚性设计更高的非冗余基序使用。
此外,合成序列中特定的基序组合使用频率更高(图3c),大多数非惩罚性和Malinois天然序列中都存在不同的激活-激活基序对(95.7%和93.4%),而激活-抑制和抑制-抑制基序对在天然序列中出现的比例较低。
除了单个TF基序和成对的使用外,细胞类型特异性还被认为通过更高阶的基序语义产生。这些基序语义可以介导许多转录因子之间的复杂相互作用,并赋予CRE活性。研究人员采用非负矩阵分解(NMF)将序列库中每一条序列分解由12种功能程序组成的基序组合。NMF鉴定出5种细胞特异性的程序,1种出现于K562细胞,2种出现于HepG2细胞,2种出现于SK-N-SH细胞中(图3d)。
与天然的CRE相比,算法设计的CRE包含更多程序,这与较多的基序使用一致。此外,自然序列主要依赖激活程序,而合成序列也经常使用非目标细胞类型中具有抑制作用的程序。这些结果提示,算法设计序列性能的提高是由于细胞特异性激活和非目标细胞特异性抑制基序的结合。
图4:合成元素的体内验证
为了CODA序列在更多细胞类型中的特异性,研究人员针对A549细胞(肺上皮癌细胞)和HCT116(结直肠上皮癌细胞)也进行了训练,依旧发现CODA设计序列在特定细胞类型中展现出最高的预测活性。
接着,研究人员尝试在体内验证这种CODA设计序列的特异性。他们首先通过Enformer筛选计算了人工序列的表观调控能力,并证明组织特异性的Enformer评分与MPRA验证的细胞特异性CRE活性相关。接着,基于MPRA实验结果、Malinois贡献分数、Enformer评分以及基序构成的人工检查,研究人员筛选出3个HepG2细胞和3个SK-N-SH细胞特异性的CRE,并认为他们可能分别具有肝脏和神经组织特异性(图4a)。
然后,他们构建了一个报告基因质粒,在驱动GFP表达的最小启动子上游插入了人工合成序列,并导入斑马鱼胚胎,发现三个预测肝脏特异性CRE中的两个能够诱导GFP在斑马鱼胚胎发育过程中肝细胞的强烈表达,而在非目标细胞中仅有较低的非特异性表达(图4b),神经特异性CRE也展现出类似的结果(图4c)。
在小鼠胚胎上的进一步验证,发现神经特异性的CRE(synN1 CRE)能够驱动报告基因在发育的皮层中表达,而这种皮层特异性的表达在出生后的小鼠中也存在(图4d),主要是新皮质第6层的神经元和板下神经元(图4e-g)。
基于Malinois贡献分数,在synN1 CRE中发现一个ETS GGA (A/T) 结合域和四个CREB样TGACGCA结合域,提示ETS因子与CREB形成异源二聚体的可能性,而在SK-N-SH细胞上的饱和突变MPRA研究验证了ETS和CREB结合区域的作用。
人工设计CRE具有广泛的应用前景。
● 个性化医疗与精准医学
1.基因治疗和药物开发
合成CRE的应用可以直接改善现有基因疗法中存在的主要障碍之一——即缺乏有效的细胞类型特异性递送机制。通过创建高度组织特异性的合成CRE,我们可以更好地控制治疗性基因的表达模式,减少脱靶效应的风险,提高疗效的同时降低副作用的发生几率。这对于治疗那些由单基因突变引起的罕见病尤其重要,因为这类疾病往往需要非常精确地修复或替换受影响的基因。此外,借助机器学习的力量,我们还可以针对不同类型的癌症细胞设计专门的CRE,使其仅在肿瘤细胞内激活特定的治疗性基因,而不影响正常细胞。这种策略不仅可以增强抗癌药物的效果,还能显著减少传统化疗所带来的全身性毒性反应。
2.疾病模型构建
利用合成CRE可以更精细地模拟人类疾病中的基因表达变化,从而建立更加真实的动物模型。例如,在神经系统疾病的研究中,科学家们可以使用这些工具来驱动神经元特异性基因的表达,以研究帕金森病、阿尔茨海默病等复杂病症背后的分子机制。同样地,在心血管疾病领域,合成CRE可以帮助研究人员探索心脏发育过程中关键信号通路的作用,进而找到新的治疗方法。
基础生物学研究
3.发育生物学
在发育生物学中,理解细胞命运决定过程是核心问题之一。合成CRE使得科学家能够以前所未有的精度操纵特定细胞群体中的基因表达,揭示出哪些因子在胚胎形成早期阶段起着决定性作用。比如,通过在斑马鱼胚胎中引入合成CRE,研究者可以观察到不同器官原基形成时的关键事件,深入了解多能干细胞向各种成熟细胞类型分化的过程。
4.进化生物学
从进化的角度来看,合成CRE提供了一个全新的视角去探讨物种间基因调控网络的变化。由于这些序列不是自然界存在的产物,而是基于对已知调控语法的理解人工设计出来的,因此它们可以作为“实验探针”,帮助我们检验关于遗传变异如何塑造生物多样性的假设。例如,比较两种亲缘关系较近但表型差异明显的物种之间的合成CRE活性,可能有助于识别出导致二者分化的关键调控变化。
● 农业与环境科学
1.作物改良
农业领域同样可以从这项新技术中受益匪浅。通过设计能够响应环境信号(如光照强度、水分含量等)的合成CRE,科学家们可以培育出适应性强的新品种植物。这些改良后的农作物不仅能在恶劣条件下保持产量稳定,还可能具备更好的营养品质或抗病虫害能力。例如,合成光敏型CRE可以让作物在低光照环境下依然维持高效的光合作用;而干旱耐受型CRE则可以使植物在缺水期间关闭不必要的代谢活动,节省资源。
2.生态工程
合成生物学原理也被应用于构建人工生态系统,其中合成CRE扮演着至关重要的角色。例如,在污水处理厂中,工程师可以利用合成微生物群落来降解有害物质。为了确保这些有益菌能够在特定条件下发挥最佳性能,科学家们可以通过合成CRE精确调节其基因表达水平,保证整个系统的高效运行。类似的方法也可以用于土壤修复、空气净化等多个方面,促进可持续发展。
对于临床医生而言,这项新技术带来的最大益处在于它有可能改善目前基因疗法中存在的主要障碍之一——即缺乏有效的细胞类型特异性递送和表达机制。通过创建高度组织特异性的合成CRE,我们可以更好地控制治疗性基因的表达模式,减少脱靶效应的风险,提高疗效的同时降低副作用的发生几率。这对于治疗那些由单基因突变引起的罕见病尤其重要,因为这类疾病往往需要非常精确地修复或替换受影响的基因。
总之,Sager J. Gosai及其同事的工作标志着我们正站在一个新时代的门槛上,在这个时代里,借助先进的人工智能技术和生物学知识,我们将能够书写出前所未有的生命密码,为人类健康事业开辟新天地。
参考文献
Gosai SJ, Castro RI, Fuentes N, Butts JC, Mouri K, Alasoadura M, Kales S, Nguyen TTL, Noche RR, Rao AS, Joy MT, Sabeti PC, Reilly SK, Tewhey R. Machine-guided design of cell-type-targeting cis-regulatory elements.Nature.2024 Oct;634(8036):1211-1220.