合成生命设计新路径,《科学》发表 Evo 生物大模型丨再创

学术   2024-11-15 20:50   广东  


引言 /Introduction

2024年11月,《Science》杂志刊登了一篇突破性的研究成果「Sequence modeling and design from molecularto genome scale with Evo」。Evo 是一款全新的基因组基础模型,展示了人工智能与生命科学深度结合的可能性。由斯坦福大学和Arc研究所的团队开发,Evo不仅能在分子层面预测生物功能,还能生成复杂的基因组序列。Evo 为合成生物学的生命设计开辟了全新路径。

再创为各位读者整理了 Evo 的关键作者之一 Patrick Hsu 在 SynbioBeta 2024 上的演讲内容,视频中介绍了 Evo 大模型的核心内容,并畅想了其在医药开发上的潜在应用。本文后续文字内容亦对 Evo 模型的基本信息进行了总结。

 Evo 是一个拥有 70 亿个参数的基因组基础模型, 经过了 270 万个原始原核生物和噬菌体基因组序列的训练,具有天然的多模态性。Evo 还具有固有的多尺度性,可以在分子、系统和基因组层面进行预测和生成任务。
Zhining,孟凡康 / 作者
Zhining / 视频整理
锐锐 / 审校






// 从分子到基因组的多模态建模
Evo 模型的设计和开发旨在解决当前生物序列建模中的两大核心问题:生物分子的多模态性和基因组的多尺度复杂性。论文通过以下几个方面详细描述了 Evo 的原理与功能:
先进的算法架构:Evo 采用了 StripedHyena 混合架构,结合了信号处理中的卷积算子和注意力机制。这一设计允许模型以单核苷酸分辨率处理长达 131kb 的序列,为基因组全局特性建模提供了基础。
大规模预训练和优化:Evo 在超过 3000 亿个核苷酸的序列数据集上进行训练,涵盖了数百万个原核生物和噬菌体基因组。在模型的优化中,团队进行了严格的规模化分析,确保了在性能和计算成本之间找到合理的平衡。
任务多样性:Evo 不仅能进行突变效应预测和转录调控分析,还能生成长达 1 Mb 的基因组序列,且生成的基因组序列表现出接近天然基因组的多种特性,如编码密度、操作子结构和四核苷酸使用偏好。
通过这些创新,Evo 首次将生物生成能力从分子层级扩展到基因组规模,成为一款真正的多模态、多尺度生物建模工具。
// Evo 在 CRISPR 与基因组设计上的实践
Evo 的生成能力在 CRISPR-Cas 系统设计和基因组生成两大应用上取得了一定的突破。
CRISPR-Cas 设计Evo 能够生成全新的 CRISPR-Cas 系统,其中一种新型 Cas9 变体(EvoCas9-1)在体外实验中展现了不错的 DNA 切割活性。通过与 AlphaFold3 的协作,研究团队验证了 Evo 生成的蛋白质和 RNA 分子的结构和功能相容性。

基因组生成:Evo 生成的基因组序列最高可长达 1 Mb,展现出多层次的生物学特性:

  • 编码密度接近天然基因组,远高于随机序列。

  • 操作子结构和四核苷酸使用偏好等指标表明生成序列在系统发育关系上与目标物种相符。

  • 尽管生成序列在 rRNA 等精细功能元件上仍有不足且生成的基因序列未得到实际功能的验证,但在蛋白质折叠和基因组整体组织上已经显示出不错的潜力。
这些成果表明,Evo 不仅能捕捉生物序列的统计特性,还具备设计复杂功能系统的能力
// Evo 的重要意义、局限性与未来展望
Evo 模型是一个体现 AI 在生命科学中的重要影响的显著案例:
  • 推动合成生物学发展:Evo 能够从头生成具有生物学意义的基因组序列和蛋白质分子,为基因(组)工程和分子设计提供重要工具。

  • 加速新技术应用:通过对突变效应的预测和功能性系统的生成,Evo 为疾病研究、基因编辑等生物技术可以提供新思路与新方向。

  • 探索多模态生物学:Evo 首次实现了 DNA、RNA 和蛋白质之间协同设计的统一建模。
尽管 Evo 取得了重要进展,但其仍有改进空间:
  • 生成的精细功能元件不足:如 rRNA 和保守标记基因的生成能力有限,与真正的基因组还有很远的距离。

  • 实验验证不足:需要更多的生物学实验来评估生成序列的实际功能性。

  • 计算成本较高:处理长序列的计算需求限制了其应用的广泛性,未来需要算法的继续优化迭代以及算力成本和效率上的提升

再创认为,对于 Evo 等生物大模型来说,未来需要:

  • 模型优化:提高对精细功能元件的生成能力,例如通过结合更丰富的训练数据集和生物学约束条件。增强模型在多物种背景下的生成能力,以支持生态系统建模。

  • 结合实验与工程:将生成的序列与实验验证紧密结合,推动实际生物技术应用。这需要未来长与复杂 DNA 合成与高通量生物测试能力上的显著提升。同时我们需要开发更高效的 AI 工具以支持分布式计算,降低计算成本。

  • 跨领域融合:与蛋白质设计、药物发现等领域结合,实现更广泛的生命科学应用。
Evo 的发布不仅展示了 AI 与合成生物学结合的可能性,也为未来更复杂、更精准的生物生成模型提供了基础。在 Evo 的启发下,我们可以期待,一个由 AI 驱动的生命设计时代正在悄然到来,虽然这个路途上并不会非常平坦。
END \

再创丨Regenesis
机器,正在生物化;而生物,正在工程化。
 最新文章