Evo|基因语言模型
24年11月15日基因组语言模型 Evo 模型登上了 Science 封面文章。我立马跑去下载学习,眼前一亮的通讯作者 Brian L. Hie,名副其实的后浪
。因为 Brian 参与了 ESM 系列工作,也发表了蛋白语言模型进行抗体亲和力成熟的 Science 和 Nature Biotechnology 文章,所以他对语言模型的理解肯定是出类拔萃的。下面跟随笔者一起看看这篇文章。
正文
Evo 是24年11月15日在 Science 见刊的封面文章 [1],阅读了《基因组语言模型的学习笔记》就对GLM有了初步认识。下面进一步介绍 Evo 这一篇文章:
2.1. 为什么不选择 Transformer,选择StripedHyena?
基因组的数据长度太长,平均在3mb,
下图D
,Transformer学不好这么长的依赖关系基因组数据有许多的不同门(phylum)和纲(class),例如 Bacteroidota 是拟杆菌门,
下图E
性能更优:在比较不同的模型架构时,StripedHyena具有更低的困惑低 PPL,
下图F
。可扩展性和计算效率:StripedHyena在DNA序列数据上展现出了更好的缩放率(scaling law),这意味着随着模型或数据规模的增加,其性能提升更为显著,
下图G
。下游任务,StripedHyena架构在预测蛋白质功能、ncRNA功能以及基因表达调控等方面,表现出了与特定领域语言模型相媲美的性能,甚至在某些任务上超过了它们。
2.2. 什么是 StripedHyena?
StripedHyena 其实是一个类似 ChatGPT 的一个因果语言模型(下图
),结合前文可知,Evo 其实是一个类似 Progen2 的 CLM。
StripedHyena 的中文音翻是条纹鬣狗,它已经开源在 Github(https://github.com/togethercomputer/stripedhyena
)和 Hugging Face(https://huggingface.co/togethercomputer/StripedHyena-Nous-7B
)。
2.3. Evo 各种下游任务的表现
下图B
展示了蛋白Fitness预测,Evo展现出与蛋白语言模型相当的性能。
下图D
是zero-shot ncRNA Fitness预测,Evo超过其他同类模型;
下图F
Promoter活性预测;
下图G
是在蛋白表达量预测,Evo表现最佳;
2.3. 设计 CRISPR-Cas 体系
笔者一直信奉“找专业的人,做专业的事”的原则。Evo 文章的作者之一 Patrick David Hsu 是张锋的博士生,他也是 CRISPR-Cas9 体系的早期关键开发者,所以本文能够成功设计 CRISPR-Cas 体系他功不可没。
Evo 设计的 EvoCas9 能够裂解(clevage)EvoCas9-1 sgRNA,左边 SpCas9 是阳性对照组实验。同时还不难发现,EvoCas9 的裂解 EvoCas9-1 sgRNA 速率更快、活性更高,在5分钟已经出现更多的裂解产物(2条短的RNA)。简而言之,设计的 EvoCas9不仅有活性有功能,且活性优于对照组,下图F
。同时作者在下图I、J
展示了 AF3 预测的结构EvoCas9-1 sgRNA 单体,以及蛋白-RNA复合物结构。
参考文献
Nguyen, Eric, et al. "Sequence modeling and design from molecular to genome scale with Evo." Science (2024).
https://github.com/evo-design/evo
进群交流
进群请认真填问卷!
广告勿扰,广告勿扰。
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于*AI蛋白相关的论文解读&学术速运