Evo:解码生命基因蓝图的 AI

2024-11-20 09:01   湖北  

[DALL-E]

导 语

Evo 在 270 万个微生物基因组上进行了训练,利用深度学习来预测微小的 DNA 变化如何影响生物体的适应性,并可以生成逼真的功能性基因组序列


想象一下,一个如此强大的 AI 模型可以读取生命的遗传密码,理解它,甚至编写它。认识 Evo,这是一种开创性的人工智能模型,旨在通过以前所未有的规模解码和设计 DNA、RNA 和蛋白质序列来彻底改变合成生物学。
Evo 由 Eric Nguyen 和他的团队开发,不仅仅是另一个 AI,它还是一个配备了 70 亿个参数的基因组基础模型。Evo 在 270 万个微生物基因组的惊人数据集上进行了训练,利用先进的深度学习技术以前所未有的效率处理长 DNA 序列。最近发表的详细说明新开发平台的研究数据最近发表在《科学》杂志上。

“通过分析数百万个微生物基因组,Evo 对生命复杂的遗传密码有了全面的了解,从单个 DNA 碱基到整个基因组,”Di 江 在编辑总结中指出。这种深刻的理解使 Evo 能够预测 DNA 的微小变化如何影响生物体的适应性,生成真实的基因组长度序列,甚至设计新的生物系统。事实上,该模型的功能已在实验室中得到验证,成功创建了合成 CRISPR 系统和 IS200/IS605 转座子。

破解生命密码

DNA 及其四个字母的核苷酸词汇编码了生命所必需的所有遗传信息。这些序列的变化反映了数百万年进化磨练的适应能力,使生物体能够在不断变化的环境中茁壮成长。DNA 测序的进步已经绘制了整个基因组中的这些变异,提供了数据宝库。但理解这些庞大的信息一直是一项巨大的挑战。

以前尝试使用受大型语言模型 (LLM) 启发的技术对 DNA 进行建模,但都失败了。这些模型通常狭隘地关注单个分子或 DNA 片段,而忽略了对理解复杂生物过程至关重要的基因组相互作用的更大图景。计算限制进一步限制了它们的范围。

这就是 Evo 的用武之地。

Evo 是一个包含 70 亿个参数的基因组基础模型,它学习从单个核苷酸到整个基因组的生物复杂性。Evo 在 270 万个原始原核生物和噬菌体基因组序列上进行训练,自然是多模态的,能够形成高阶功能系统的 DNA、RNA 和蛋白质分子的协同设计。Evo 本质上也是多尺度的,能够在分子、系统和基因组层面进行预测和生成任务。[Eric Nguyen et al. , 使用 Evo 从分子到基因组规模的序列建模和设计科学 386,eado9336(2024)。DOI:10.1126/science.ado9336]

生物学理解的新时代

Evo 不仅更大;它更智能。它基于 StripedHyena 架构构建,旨在处理全基因组规模的序列。根据 Nguyen 及其同事的说法,Evo 在预测和生成任务方面都表现出色。它在预测突变对细菌蛋白质和 RNA 的影响以及建模基因调控的零样本评估中实现了很高的准确性。

也许最令人印象深刻的是,Evo 了解编码和非编码序列之间的复杂舞蹈,即定义复杂生物系统的协同进化。这使得该模型能够设计功能性 CRISPR-Cas 分子复合物和转座因子,这标志着语言模型首次用于蛋白质-RNA 和蛋白质-DNA 共设计。

“基因组是一个编码 DNA、RNA 和协调生物体功能的蛋白质的序列,”研究人员写道。“我们推出了 Evo,这是一种长环境基因组基础模型,具有在数百万个原核和噬菌体基因组上训练的前沿架构。”

在基因组规模上,Evo 可以生成长度超过 1 兆碱基的序列,大大超过了以前的模型。这种能力为创建具有合理架构的完整合成基因组打开了大门,这一壮举在几年前还是科幻小说。

对医学和生物技术的影响

Evo 的潜在应用是惊人的。“预测突变对细胞所有调节层的影响并设计 DNA 序列以操纵细胞功能的能力将对疾病具有巨大的诊断和治疗意义,”Christina Theodoris 在相关观点中写道。

考虑个性化医疗:借助 Evo 的预测能力,我们可以预见基因突变如何影响个人的健康,从而实现量身定制的治疗。在生物技术中,设计具有特定功能的生物体(如消耗污染物或生产生物燃料的细菌)变得更加可行。

此外,Evo 的方法可以加速疫苗开发。通过了解和预测病毒如何变异,我们可以在对抗传染病方面领先一步。

前方的道路

虽然 Evo 是一个巨大的飞跃,但这仅仅是个开始。研究人员承认,还有更多需要探索的地方。Theodoris 建议:“未来的模型可能会从不同的人类和其他真核生物基因组中学习,使用更大的上下文长度来捕获更大基因组规模上的遥远基因组相互作用。

这意味着,随着计算能力的增长和算法的改进,像 Evo 这样的模型最终可以处理更复杂的植物、动物和人类基因组。对于理解癌症等涉及许多遗传相互作用的疾病,其意义是深远的。

桥接生物学和技术

Evo 代表了生物学和人工智能的融合,展示了机器学习如何解开隐藏在我们遗传密码中的秘密。通过捕获中心法则(DNA、RNA 和蛋白质)的多模态以及进化的多尺度性质,Evo 实现了从分子水平到整个基因组的预测和设计任务。

“Evo 从数百万生物体的全基因组序列中学习这两种表示,以实现从分子到基因组规模的预测和设计任务,”研究人员解释说。“像 Evo 这样的大规模生物序列模型的进一步发展,结合 DNA 合成和基因组工程的进步,将加速我们设计生命的能力。”

合成生物学的新前沿

Evo 的出现标志着一个新的领域,合成生物学的极限被重新定义。它是一个工具,它不仅读取生命的密码,而且编写它。

正如 Walter Beckwith 恰当地总结的那样,“Evo 预测、生成和设计整个基因组序列的能力可能会改变合成生物学的完成方式。

未来的旅程令人兴奋且未知。有了像 Evo 这样的模型,我们不仅仅是进化的观察者,我们正在成为积极的参与者,利用生命密码的力量来塑造未来。
文章来源:SynbioBeta


  



武汉丽合智造生物科技有限公司拥有基于全球最大合成生物反应/途径大数据的人工智能定制化创新体系。为了协助产业方(天然产物提取和化学合成等企业),利用绿色合成生物制造工艺,进行“降本增效”,增加商业竞争力,公司推出了大数据和人工智能双驱动的一站式合成生物制造创新工艺"LifeGenius"定制化研发服务为了帮助更多青年科学家进行科研成果转化,司打造了“合生星”产业赋能计划。为了促进行业的智能化发展,承办了全球人工智能+合成生物挑战赛“GAS”活动。


合作请联系,备注公司+名字+职位


人工智能驱动的合成生物途径设计工具:


人工智能驱动的酶挖掘和优化设计工具:


人工智能驱动的合成生物制造工艺优化系统:

合成生物产业动态
针对合成生物产业链的关键环节,知晓全球的相关最新动态。
 最新文章