[DALL-E]
“通过分析数百万个微生物基因组,Evo 对生命复杂的遗传密码有了全面的了解,从单个 DNA 碱基到整个基因组,”Di 江 在编辑总结中指出。这种深刻的理解使 Evo 能够预测 DNA 的微小变化如何影响生物体的适应性,生成真实的基因组长度序列,甚至设计新的生物系统。事实上,该模型的功能已在实验室中得到验证,成功创建了合成 CRISPR 系统和 IS200/IS605 转座子。
破解生命密码
DNA 及其四个字母的核苷酸词汇编码了生命所必需的所有遗传信息。这些序列的变化反映了数百万年进化磨练的适应能力,使生物体能够在不断变化的环境中茁壮成长。DNA 测序的进步已经绘制了整个基因组中的这些变异,提供了数据宝库。但理解这些庞大的信息一直是一项巨大的挑战。
以前尝试使用受大型语言模型 (LLM) 启发的技术对 DNA 进行建模,但都失败了。这些模型通常狭隘地关注单个分子或 DNA 片段,而忽略了对理解复杂生物过程至关重要的基因组相互作用的更大图景。计算限制进一步限制了它们的范围。
这就是 Evo 的用武之地。
生物学理解的新时代
Evo 不仅更大;它更智能。它基于 StripedHyena 架构构建,旨在处理全基因组规模的序列。根据 Nguyen 及其同事的说法,Evo 在预测和生成任务方面都表现出色。它在预测突变对细菌蛋白质和 RNA 的影响以及建模基因调控的零样本评估中实现了很高的准确性。
也许最令人印象深刻的是,Evo 了解编码和非编码序列之间的复杂舞蹈,即定义复杂生物系统的协同进化。这使得该模型能够设计功能性 CRISPR-Cas 分子复合物和转座因子,这标志着语言模型首次用于蛋白质-RNA 和蛋白质-DNA 共设计。
“基因组是一个编码 DNA、RNA 和协调生物体功能的蛋白质的序列,”研究人员写道。“我们推出了 Evo,这是一种长环境基因组基础模型,具有在数百万个原核和噬菌体基因组上训练的前沿架构。”
对医学和生物技术的影响
Evo 的潜在应用是惊人的。“预测突变对细胞所有调节层的影响并设计 DNA 序列以操纵细胞功能的能力将对疾病具有巨大的诊断和治疗意义,”Christina Theodoris 在相关观点中写道。
考虑个性化医疗:借助 Evo 的预测能力,我们可以预见基因突变如何影响个人的健康,从而实现量身定制的治疗。在生物技术中,设计具有特定功能的生物体(如消耗污染物或生产生物燃料的细菌)变得更加可行。
前方的道路
虽然 Evo 是一个巨大的飞跃,但这仅仅是个开始。研究人员承认,还有更多需要探索的地方。Theodoris 建议:“未来的模型可能会从不同的人类和其他真核生物基因组中学习,使用更大的上下文长度来捕获更大基因组规模上的遥远基因组相互作用。
桥接生物学和技术
Evo 代表了生物学和人工智能的融合,展示了机器学习如何解开隐藏在我们遗传密码中的秘密。通过捕获中心法则(DNA、RNA 和蛋白质)的多模态以及进化的多尺度性质,Evo 实现了从分子水平到整个基因组的预测和设计任务。
合成生物学的新前沿
Evo 的出现标志着一个新的领域,合成生物学的极限被重新定义。它是一个工具,它不仅读取生命的密码,而且编写它。
正如 Walter Beckwith 恰当地总结的那样,“Evo 预测、生成和设计整个基因组序列的能力可能会改变合成生物学的完成方式。
人工智能驱动的合成生物途径设计工具:
人工智能驱动的酶挖掘和优化设计工具:
人工智能驱动的合成生物制造工艺优化系统: