基因组是所有生命体的基本遗传信息库,它通过DNA序列编码着生命体的功能指令,并影响着生物体的发育、代谢和适应性等多种生物学过程。随着人工智能技术的快速发展,基因组数据的解读与应用已不再局限于传统的生物学方法。近年来,人工智能,尤其是大型语言模型(LLM)的出现,使得生物学研究进入了新的时代。与传统的基因组学研究方法相比,这些模型能够从海量基因组数据中提取出更深层次的规律性,并提供更加精准的基因功能预测。基于这种技术,研究人员能够在分子水平上对基因组进行操作,甚至设计新的生物学系统,推动了基因编辑和生物工程的发展。
然而,现有的人工智能模型在生物学应用中依然面临诸多挑战。现有的语言模型大多数只能处理较短的基因序列,且在长序列的处理能力上存在瓶颈,难以在全基因组范围内进行精准的预测和生成。此外,如何理解基因组中DNA、RNA和蛋白质之间复杂的多模态关系,仍然是一个亟待解决的问题。
近日,来自斯坦福大学Brian L. Hie、Patrick D. Hsu等研究人员在这一领域取得了重要进展。该团队设计并开发了Evo,一个7亿参数的基因组基础模型,能够从分子到基因组层面进行多模态的功能预测和生成任务。与传统的基因组学方法相比,Evo通过深度学习架构,能够有效地处理长达131千碱基的基因组序列,在DNA、RNA和蛋白质模态之间实现零-shot功能预测。通过对数百万个原核生物和噬菌体基因组的训练,Evo能够理解小规模基因变异如何影响有机体的适应性,并能生成具有合理基因组结构的长达1兆碱基的DNA序列。
Evo的应用不仅限于功能预测,还在多模态生成任务中表现出色。例如,研究人员成功使用Evo生成了合成CRISPR-Cas分子复合物和转座系统,并通过实验验证了这些系统的功能活性,标志着蛋白质-RNA和蛋白质-DNA代码设计的首次实现。利用Evo模型,科学家们能够更精确地设计新的生物学系统,推动基因组工程和合成生物学的发展。
这一研究的成功,标志着人工智能在生物学领域的应用迈出了重要一步,未来,随着DNA合成和基因组工程技术的发展,类似Evo的模型将进一步加速我们对生命的理解与工程化进程。
👉 点击左下角“阅读原文”,即可直达原文!💖