引言 /Introduction
2024年11月,《Science》杂志刊登了一篇突破性的研究成果「Sequence modeling and design from molecularto genome scale with Evo」。Evo 是一款全新的基因组基础模型,展示了人工智能与生命科学深度结合的可能性。由斯坦福大学和Arc研究所的团队开发,Evo不仅能在分子层面预测生物功能,还能生成复杂的基因组序列。Evo 为合成生物学的生命设计开辟了全新路径。
再创为各位读者整理了 Evo 的关键作者之一 Patrick Hsu 在 SynbioBeta 2024 上的演讲内容,视频中介绍了 Evo 大模型的核心内容,并畅想了其在医药开发上的潜在应用。本文后续文字内容亦对 Evo 模型的基本信息进行了总结。
编码密度接近天然基因组,远高于随机序列。
操作子结构和四核苷酸使用偏好等指标表明生成序列在系统发育关系上与目标物种相符。
尽管生成序列在 rRNA 等精细功能元件上仍有不足且生成的基因序列未得到实际功能的验证,但在蛋白质折叠和基因组整体组织上已经显示出不错的潜力。
推动合成生物学发展:Evo 能够从头生成具有生物学意义的基因组序列和蛋白质分子,为基因(组)工程和分子设计提供重要工具。
加速新技术应用:通过对突变效应的预测和功能性系统的生成,Evo 为疾病研究、基因编辑等生物技术可以提供新思路与新方向。
探索多模态生物学:Evo 首次实现了 DNA、RNA 和蛋白质之间协同设计的统一建模。
生成的精细功能元件不足:如 rRNA 和保守标记基因的生成能力有限,与真正的基因组还有很远的距离。
实验验证不足:需要更多的生物学实验来评估生成序列的实际功能性。
计算成本较高:处理长序列的计算需求限制了其应用的广泛性,未来需要算法的继续优化迭代以及算力成本和效率上的提升
再创认为,对于 Evo 等生物大模型来说,未来需要:
模型优化:提高对精细功能元件的生成能力,例如通过结合更丰富的训练数据集和生物学约束条件。增强模型在多物种背景下的生成能力,以支持生态系统建模。
结合实验与工程:将生成的序列与实验验证紧密结合,推动实际生物技术应用。这需要未来长与复杂 DNA 合成与高通量生物测试能力上的显著提升。同时我们需要开发更高效的 AI 工具以支持分布式计算,降低计算成本。
跨领域融合:与蛋白质设计、药物发现等领域结合,实现更广泛的生命科学应用。