声明:因水平有限,错误不可避免,或有些信息非最及时,欢迎留言指出。本文仅作医疗健康相关药物介绍,非治疗方案推荐(若涉及);本文不构成任何投资建议。
DNA承载着生命的蓝图,通过RNA和蛋白质组织生物功能。然而,解码这些基础分子之间的复杂相互作用,并生成新的、功能性的序列,特别是在基因组范围内,长期以来未能实现。
如今,Arc研究所、斯坦福大学和加利福尼亚大学伯克利分校的研究人员领导开发了Evo,这是首个在大规模DNA基础上训练的生物基础模型。通过使用最前沿的深度学习架构,Evo不仅能在DNA层面实现预测和设计,还能跨越RNA和蛋白质层面进行操作。其解释和生成能力从核苷酸一直延展到整个基因组,使得整个生命形式得以完整呈现。
Evo由Brian Hie(Arc研究所创新研究员、斯坦福大学化学工程助理教授)和Patrick Hsu(Arc研究所核心研究员、加州大学伯克利分校生物工程助理教授)实验室创建。今年早些时候的一篇预印本中首次介绍了Evo,现在它已发表在《科学》杂志上。自预印本发布以来,研究人员使用Evo设计了一个自然界中未知的功能性CRISPR系统,这展示了更深刻地理解生物序列如何能带来新的分子工具。
Evo模型
“Evo解读了数十亿年进化过程中写入DNA的模式,在我们理解和工程生物学的能力上开辟了新天地,” Hsu说道。“就像生成性AI革命了我们处理文本、音频和视频的方式,这些创作能力现在可以应用于生命的基本代码。”
“Evo的令人兴奋之处在于它是一个真正的生物学基础模型,” Hie补充道。“它既是多模态的,又是多尺度的,给我们提供了一个统一的方法来掌握生命系统的巨大复杂性。”
CRISPR系统是由蛋白质和RNA共同组成的分子机器,能够编辑DNA。传统上,开发新的CRISPR工具需要在自然界的现有系统中寻找。《科学》论文在预印本的基础上,解释了如何通过Evo从头开始设计这些复杂的分子机器,同时创建蛋白质和RNA组件,使它们能够协同工作。研究团队通过Evo生成了全新的CRISPR系统。他们创造了EvoCas9-1—一个完全功能性的系统—仅在测试了11个设计后就成功了。这个成功尤其显著,因为EvoCas9-1与已知系统显著不同,其序列只与常用的CRISPR-Cas9系统共享约73%,但却实现了可比的活性,这表明AI可能帮助发现更多有效的生物系统。
“创建功能性CRISPR系统需要蛋白质和RNA之间的精细协调,” Hsu解释道。“Evo同时设计这两种组件,并使它们有效工作,展示了生物工程工具的新层次复杂性。” 研究团队还进一步推动Evo,要求其设计能够在基因组内移动的遗传元素。尽管这些系统要求多个组件协调工作,Evo还是成功设计了一组新的插入序列,能够成功剪切和粘贴DNA。
Evo由跨领域的20多位科学家开发,包括计算和生物两大领域的专家。核心机器学习子团队专注于架构开发、模型训练和扩展基础设施;计算生物学子团队重点是收集大量生物序列数据并严格评估模型;实验生物学子团队进行了生物实验以验证Evo生成的复杂设计。“我们希望Evo的训练和测试能激发多样的受众,包括机器学习研究者、计算生物学家和实验科学家,” Hsu说道。“我们认为这是一个生物研究的基础模型,因为它能够执行如此广泛的核心任务。” 团队成员还考虑了Evo和其他生物学基础模型的审慎使用。
Evo团队成员
Evo能够生成超过百万碱基的DNA序列,大于许多简单生命体的基因组。研究团队现计划将Evo扩展到更复杂的生物,并应用到更大规模的生物组织。“我们所展示的第一个Evo模型只是开始,” Hsu说道。“我们的下一个目标是理解由数十亿年进化产生的多细胞生物。长远来看,我们致力于开创一个’基因组设计’的新领域,创造整个细胞路径,甚至整个生物体。”
“随着我们将Evo扩展到更复杂的数据集和更广的尺度,我们将努力使这种复杂性变得可编程,允许研究人员利用这些已学会的生物设计规则,” Hie补充道。
通过Evo,细胞基因治疗和生物工程的新时代已经到来,带来了理解和设计生命的新方法和新工具。
参考资料:
https://arcinstitute.org/news/blog/evo-science
https://www.science.org/doi/10.1126/science.ado9336
-END-