NAR | 中国农业科学院深圳基因组研究所刘毓文团队和清华大学倪建泉团队合作开发基于人工智能的DNA顺式调控元件设计新方法

学术   2024-10-21 10:51   浙江  
近年来,基于人工智能进行蛋白质结构预测和蛋白编码序列的从头设计为整个生命科学领域带来了巨大的变革,今年的诺贝尔化学奖也授予了该领域做出开创性工作的三位科学家。然而,相比于只占基因组3%-5%的编码区序列,利用人工智能设计基因组中非编码顺式调控元件序列(CREs)的研究还非常少。CRE在基因表达的时空模式中扮演着关键角色,决定了细胞和组织的身份和功能。因此,无论是在合成生物学生物反应器中提高目标产物的表达、基因治疗中精准控制药物蛋白的表达,还是在生物育种中通过微调功能基因的表达量提升经济性状的表现,都迫切需要利用人工智能设计全新的CRE序列
增强子是CRE中最为重要的一类元件,控制着基因的时空特异性表达。然而,由于增强子调控语法的复杂性,传统的增强子设计方法通常依赖于繁琐的迭代突变以及已知DNA基序的组合操作,精准设计符合需求的增强子序列面临巨大的局限性。去年12月,Nature发表的两篇文章首次利用深度学习算法进行了增强子的从头设计,但是其计算模型还存在优化的空间,且设计的增强子在活性上相对于自然序列提升非常有限,并没有完全释放从头设计DNA序列在合成生物学领域的巨大潜力。
为进一步探索增强子设计的解决方案,中国农业科学院深圳基因组研究所刘毓文团队和清华大学倪建泉团队合作在Nucleic Acids Research在线发表了题为“A novel interpretable deep learning-based computational framework designed synthetic enhancers with broad cross-species activity”的研究论文,该研究开发了DREAM(DNA cis-Regulatory Elements with controllable Activity design platforM,DREAM)的计算框架,旨在彻底变革增强子等顺式调控元件的设计方式。DREAM代表DNA顺式调控元件的可控活性设计平台,这个名字恰如其分地反映了其核心功能。DREAM具有高度的可扩展性和解释性,能够自动从头设计具有用户理想性质的启动子、增强子、沉默子。通过深度学习技术,DREAM自动学习和识别与调控活性相关的DNA“词汇”,并基于这些知识精确预测增强子的活性。基于该方法,研究人员首次设计出了在超过10亿年分化物种(包括哺乳动物、鸟类、鱼类、昆虫和酵母等)中具有保守功能的增强子序列,揭示了增强子调控语法的跨物种保守性。此外,设计出的超强增强子活性显著高于不同物种中常用的最强增强子,同时也首次设计出了基因表达抑制效果显著的沉默子序列,为合成生物学基因表达操作提高了新的高效元件。最后,研究人员还将设计的增强子成功整合入果蝇基因组中,首次获得了携带人工智能设计调控元件的成体动物。在成体果蝇中,报告基因的表达量提升了1万倍以上,为基于CRE元件优化的合成生物学育种提供了重要理论依据和技术参考。
DNA顺式调控元件的可控活性设计平台
通过基于Squeeze-and-Excitation注意力机制的深度学习技术 (SENet),DREAM自动学习和识别与调控活性相关的DNA“词汇”,并基于这些知识精确预测增强子的活性。研究表明,与现有的其他基于序列预测功能的模型相比(包括Nature中首次增强子设计用到的DeepSTARR算法),DREAM的增强子活性预测模块在准确性和性能上有显著提升。
DREAM具有超高的元件活性预测性能
此外,DREAM兼具超高的元件活性性能预测能力以及良好的生物学可解释性,因此DREAM可以将学习到的增强子的调控语法用于后续的元件设计任务之中。在PCC、MSE等四项指标上,DREAM均超越目前主流的顺式调控元件预测模型。同时DREAM能够有效地捕获调控元件相关的DNA motif的特征。同时基于该框架,作者揭示了增强子元件中motif具有的位置效应以及距离依赖的上位性效应。由于其透明性,用户可以明确地了解在调控元件的设计和优化过程中,元件活性有关的重要的DNA特征是如何被利用和组织的。
DREAM可以捕获增强子相关的DNA motif并揭示motif的位置效应以及距离依赖的上位性效应
研究人员利用DREAM模拟了果蝇基因组中发育增强子和持家增强子进化动态,并成功设计出具有超强活性的增强子元件。这些元件的序列分析表明设计序列在motif的数目,空间排布、多样性、结合力以及GC含量等方面具有与自然元件截然不同的性质。作者合成了增强子DreaMer001,通过双荧光素酶实验测定其活性达到了果蝇基因组中最强天然增强子的3.6倍,同时构建了转基因果蝇在体内测量了该元件元件的活性,结果表明该元件在果蝇体内可以提高报告基因转录活性约10000倍,进一步证明了该元件具有极强的增强转录活性的能力。更为重要的是,这些经过DREAM设计的高活性合成增强子不仅在果蝇S2细胞中表现出超高的活性,还在包括人类、小鼠、猪在内的多种物种的不同细胞系中具有超强的活性(平均为CMV增强子活性的2倍以上),在SF9细胞中DREAM设计的增强子活性是Hr5增强子活性的15.7倍,另外该人工设计元件在鸡(DF1细胞)以及鱼(精原细胞)分别是CMV增强子活性的7.6倍和26.6倍。这表明DREAM有能力通过计算设计比自然进化产生的更高效的基因调控元件,也揭示了增强子调控语法的跨物种保守性。另外,DREAM框架具有的良好可扩展性,作者进一步展示了细胞特异性的强增强子,高AT含量超强增强子,具有固定酶切位点强增强子,以及强沉默子元件的设计。值得注意的是,作者利用DREAM获得了能够降低基因表达44.7倍的超强沉默子DreaMer002。这些结果证明了DREAM的设计成果在实际应用中具有广泛的应用场景和可靠性。
DREAM设计的高活性增强子在多物种的不同细胞系中具有超强的调控活性
中国农业科学院深圳基因组所刘毓文研究员和清华大学医学院倪建泉教授为本研究的共同通讯作者;基因组所博士后李昭宏、博士生张圆圆、清华大学博士生彭博、和基因组所硕士生秦胜华为本文的共同第一作者。刘毓文研究员长期从事非编码CRE的高通量定量和调控语法解析,并应用于复杂性状遗传机制解析;倪建泉教授长期从事果蝇中基因编辑技术的开发和应用。该研究工作获得了十四五重点研发项目和国家自然科学基金项目的支持。

参考消息:
https://doi.org/10.1093/nar/gkae912

END

内容为【iNature】公众号原创,

转载请写明来源于【iNature】


微信加群


iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。



投稿、合作、转载授权事宜

请联系微信ID:13701829856 或邮箱:iNature2020@163.com



觉得本文好看,请点这里!

iNature
专注前沿科学动态,传递科普信息。
 最新文章