Science|基因语言模型Evo

文摘   2024-11-17 11:05   广东  

Evo|基因语言模型

24年11月15日基因组语言模型 Evo 模型登上了 Science 封面文章。我立马跑去下载学习,眼前一亮的通讯作者 Brian L. Hie,名副其实的后浪。因为 Brian 参与了 ESM 系列工作,也发表了蛋白语言模型进行抗体亲和力成熟的 ScienceNature Biotechnology 文章,所以他对语言模型的理解肯定是出类拔萃的。下面跟随笔者一起看看这篇文章。

正文

Evo 是24年11月15日在 Science 见刊的封面文章 [1],阅读了《基因组语言模型的学习笔记》就对GLM有了初步认识。下面进一步介绍 Evo 这一篇文章:


2.1. 为什么不选择 Transformer,选择StripedHyena?

  1. 基因组的数据长度太长,平均在3mb,下图D,Transformer学不好这么长的依赖关系

  2. 基因组数据有许多的不同门(phylum)和纲(class),例如 Bacteroidota 是拟杆菌门,下图E

  1. 性能更优:在比较不同的模型架构时,StripedHyena具有更低的困惑低 PPL,下图F

  2. 可扩展性和计算效率:StripedHyena在DNA序列数据上展现出了更好的缩放率(scaling law),这意味着随着模型或数据规模的增加,其性能提升更为显著,下图G

  3. 下游任务,StripedHyena架构在预测蛋白质功能、ncRNA功能以及基因表达调控等方面,表现出了与特定领域语言模型相媲美的性能,甚至在某些任务上超过了它们。

图|Evo在不同模型架构时的实验效果对比

2.2. 什么是 StripedHyena?

StripedHyena 其实是一个类似 ChatGPT 的一个因果语言模型(下图),结合前文可知,Evo 其实是一个类似 Progen2 的 CLM

StripedHyena 的官网演示例子,可以像 GPT 一样提问回答

StripedHyena 的中文音翻是条纹鬣狗,它已经开源在 Github(https://github.com/togethercomputer/stripedhyena)和 Hugging Face(https://huggingface.co/togethercomputer/StripedHyena-Nous-7B)。

StripedHyena 的官方卡通图案条纹鬣狗

2.3. Evo 各种下游任务的表现

下图B展示了蛋白Fitness预测,Evo展现出与蛋白语言模型相当的性能。

下图Dzero-shot ncRNA Fitness预测,Evo超过其他同类模型;

下图FPromoter活性预测

下图G是在蛋白表达量预测,Evo表现最佳;

图|Evo模型在下游任务的计算原理和表现

2.3. 设计 CRISPR-Cas 体系

笔者一直信奉“找专业的人,做专业的事”的原则。Evo 文章的作者之一 Patrick David Hsu 是张锋的博士生,他也是 CRISPR-Cas9 体系的早期关键开发者,所以本文能够成功设计 CRISPR-Cas 体系他功不可没。

Evo 设计的 EvoCas9 能够裂解(clevage)EvoCas9-1 sgRNA,左边 SpCas9 是阳性对照组实验。同时还不难发现,EvoCas9 的裂解 EvoCas9-1 sgRNA 速率更快、活性更高,在5分钟已经出现更多的裂解产物(2条短的RNA)。简而言之,设计的 EvoCas9不仅有活性有功能,且活性优于对照组下图F。同时作者在下图I、J展示了 AF3 预测的结构EvoCas9-1 sgRNA 单体,以及蛋白-RNA复合物结构。

图|Evo设计的sgRNA、蛋白EvoCas9 预测结构和实验结果

参考文献

  • Nguyen, Eric, et al. "Sequence modeling and design from molecular to genome scale with Evo." Science (2024).

  • https://github.com/evo-design/evo

进群交流

进群请认真填问卷!

广告勿扰,广告勿扰

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于*AI蛋白相关的论文解读&学术速运

历史文章

  1. AlphaFold3 图解

  2. AlphaFold3 万字长文解读

  3. AlphaFold3 预测蛋白突变亲和力变化?

  4. 一文看懂 Binder 设计

  5. 蛋白结构和序列的共同设计

  6. 深度学习如何助力抗体设计

  7. 蛋白计算海内外课题组汇总

  8. Meta AI 蛋白语言模型ESM系列

  9. COMPSS 酶蛋白从头设计的筛选方法

  10. 简述酶的定向进化

  11. Cell 综述:从头蛋白设计之结构到功能

  12. CSH 综述文章:结构预测与蛋白设计

  13. CSH 综述文章:蛋白质序列的生成模型

  14. Nat. Biotech. 蛋白设计专刊

  15. Nat. Biotech. 深度学习与功能蛋白设计

  16. Nat. Biotech. 功能蛋白从头设计的星火

  17. ProteinBench 蛋白设计最全的Benchmark

  18. ProteinGym 蛋白突变最好的Benchmark

  19. DiG 预测蛋白构象分布

  20. MaSIF 基于表面指纹的蛋白从头设计

  21. SaProt 结构感知的蛋白质语言模型

  22. InstructPLM 语言模型与逆向折叠的结合

  23. CRISPR-GPT 基因编辑的大模型智能体

AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章