NAR | 刘毓文/倪建泉团队开发基于人工智能的DNA顺式调控元件设计新方法
2025-01-07 10:13
湖北
近年来,基于人工智能(AI)的蛋白质结构预测和蛋白质从头设计为整个生命科学领域带来了巨大变革,今年的诺贝尔化学奖也授予了该领域做出开创性工作的三位科学家。然而,相比于只占基因组3%-5%的编码区序列,利用人工智能设计基因组中非编码顺式调控元件序列(CRE)的研究还非常少。CRE在基因表达的时空模式中扮演着关键角色,决定了细胞和组织的身份和功能。因此,无论是在合成生物学生物反应器中提高目标产物的表达、基因治疗中精准控制药物蛋白的表达,还是在生物育种中通过微调功能基因的表达量提升经济性状的表现,都迫切需要利用人工智能设计全新的CRE序列。增强子是CRE中最为重要的一类元件,控制着基因的时空特异性表达。然而,由于增强子调控语法的复杂性,传统的增强子设计方法通常依赖于繁琐的迭代突变以及已知DNA基序的组合操作,精准设计符合需求的增强子序列面临巨大的局限性。去年12月,Nature发表的两篇文章首次利用深度学习算法进行了增强子的从头设计,但是其计算模型还存在优化的空间,且设计的增强子在活性上相对于自然序列提升非常有限,并没有完全释放从头设计DNA序列在合成生物学领域的巨大潜力。为进一步探索增强子设计的解决方案,中国农业科学院深圳基因组研究所刘毓文团队和清华大学倪建泉团队合作,于2024年10月18日在 Nucleic Acids Research 期刊发表了题为:A novel interpretable deep learning-based computational framework designed synthetic enhancers with broad cross-species activity 的研究论文。该研究开发了DREAM(DNA cis-Regulatory Elements with controllable Activity design platforM,DREAM)的计算框架,旨在彻底变革增强子等顺式调控元件的设计方式。DREAM代表DNA顺式调控元件的可控活性设计平台,这个名字恰如其分地反映了其核心功能。DREAM具有高度的可扩展性和解释性,能够自动从头设计具有用户理想性质的启动子、增强子、沉默子。通过深度学习技术,DREAM自动学习和识别与调控活性相关的DNA“词汇”,并基于这些知识精确预测增强子的活性。 基于该方法,研究团队首次设计出了在超过10亿年分化物种(包括哺乳动物、鸟类、鱼类、昆虫和酵母等)中具有保守功能的增强子序列,揭示了增强子调控语法的跨物种保守性。此外,设计出的超强增强子活性显著高于不同物种中常用的最强增强子,同时也首次设计出了基因表达抑制效果显著的沉默子序列,为合成生物学基因表达操作提高了新的高效元件。最后,研究团队还将设计的增强子成功整合入果蝇基因组中,首次获得了携带人工智能设计调控元件的成体动物。在成体果蝇中,报告基因的表达量提升了1万倍以上,为基于CRE元件优化的合成生物学育种提供了重要理论依据和技术参考。通过基于Squeeze-and-Excitation注意力机制的深度学习技术(SENet),DREAM自动学习和识别与调控活性相关的DNA“词汇”,并基于这些知识精确预测增强子的活性。研究表明,与现有的其他基于序列预测功能的模型相比(包括Nature论文中首次增强子设计用到的DeepSTARR算法),DREAM的增强子活性预测模块在准确性和性能上有显著提升。此外,DREAM兼具超高的元件活性性能预测能力以及良好的生物学可解释性,因此DREAM可以将学习到的增强子的调控语法用于后续的元件设计任务之中。在PCC、MSE等四项指标上,DREAM均超越目前主流的顺式调控元件预测模型。同时DREAM能够有效地捕获调控元件相关的DNA motif的特征。同时基于该框架,研究团队揭示了增强子元件中motif具有的位置效应以及距离依赖的上位性效应。由于其透明性,用户可以明确地了解在调控元件的设计和优化过程中,元件活性有关的重要的DNA特征是如何被利用和组织的。DREAM可以捕获增强子相关的DNA motif并揭示motif的位置效应以及距离依赖的上位性效应研究团队利用DREAM模拟了果蝇基因组中发育增强子和持家增强子进化动态,并成功设计出具有超强活性的增强子元件。这些元件的序列分析表明设计序列在motif的数目,空间排布、多样性、结合力以及GC含量等方面具有与自然元件截然不同的性质。作者合成了增强子DreaMer001,通过双荧光素酶实验测定其活性达到了果蝇基因组中最强天然增强子的3.6倍,同时构建了转基因果蝇在体内测量了该元件元件的活性,结果表明该元件在果蝇体内可以提高报告基因转录活性约10000倍,进一步证明了该元件具有极强的增强转录活性的能力。更为重要的是,这些经过DREAM设计的高活性合成增强子不仅在果蝇S2细胞中表现出超高的活性,还在包括人类、小鼠、猪在内的多种物种的不同细胞系中具有超强的活性(平均为CMV增强子活性的2倍以上),在SF9细胞中DREAM设计的增强子活性是Hr5增强子活性的15.7倍,另外该人工设计元件在鸡(DF1细胞)以及鱼(精原细胞)分别是CMV增强子活性的7.6倍和26.6倍。这表明DREAM有能力通过计算设计比自然进化产生的更高效的基因调控元件,也揭示了增强子调控语法的跨物种保守性。另外,DREAM框架具有的良好可扩展性,研究团队进一步展示了细胞特异性的强增强子,高AT含量超强增强子,具有固定酶切位点强增强子,以及强沉默子元件的设计。值得注意的是,作者利用DREAM获得了能够降低基因表达44.7倍的超强沉默子DreaMer002。这些结果证明了DREAM的设计成果在实际应用中具有广泛的应用场景和可靠性。DREAM设计的高活性增强子在多物种的不同细胞系中具有超强的调控活性中国农业科学院深圳基因组所刘毓文研究员和清华大学医学院倪建泉教授为论文共同通讯作者;基因组所博士后李昭宏、博士生张圆圆、清华大学博士生彭博、基因组所硕士生秦胜华为论文共同第一作者。刘毓文研究员长期从事非编码CRE的高通量定量和调控语法解析,并应用于复杂性状遗传机制解析;倪建泉教授长期从事果蝇中基因编辑技术的开发和应用。论文链接:https://doi.org/10.1093/nar/gkae912