Seminar|结构感知的蛋白语言模型 SaProt

文摘   2024-11-15 12:09   广东  

蛋白语言模型 SaProt

SaProt
主讲人

粟锦(西湖大学在校博士生)

时间

2024年11月17日,周日晚 20:00-21:30

腾讯会议

546-448-347

https://meeting.tencent.com/dm/cRTht2VHYUWG

关键词

蛋白语言模型|Foldseek|蛋白设计

引言

蛋白语言模型(PLMs),如ESM系列,在经过氨基酸序列的无监督训练后,在与蛋白的各种下游任务中取得了优异的表现。

然而,传统PLMs的缺乏对蛋白结构信息的考虑,这表明有进一步改进的潜力。

SaProt 模型引入了“结构感知词汇表”的概念,将残基标记与结构标记相结合。结构标记是通过使用 Foldseek 编码蛋白质的3D结构而得到的。SaProt 是一个大规模通用 PLM ,它在 AFDB 大约4000万个蛋白序列和结构的数据集上进行训练。SaProt模型在10个重要的下游任务中超越了既定的和知名的基线算法,也位居蛋白突变任务 Benchmark 榜单 ProteinGym 的第一名,展示了其卓越的能力和广泛的适用性。

主讲人简介

粟锦,现在是西湖大学原发杰老师的三年级博士生。粟锦2022年从华中科技大学获得了学士学位,在那里与魏伟教授一起研究自然语言处理模型的对抗性攻击和防御。

目前,他的研究兴趣在于人工智能在蛋白质领域的应用,主要关注蛋白质表示学习。也对最新的人工智能技术感兴趣,并希望将它们应用于蛋白质领域。

粟锦的个人主页,https://ltenjoy.github.io

文献代码

  • Su, Jin, et al. "Saprot: Protein language modeling with structure-aware vocabulary." bioRxiv (2023): 2023-10.
  • https://github.com/westlake-repl/SaProt

进群交流

进群请认真填写问卷!

广告勿扰,广告勿扰!

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于*AI蛋白相关的论文解读&学术速运

历史文章

  1. AlphaFold3 图解

  2. AlphaFold3 万字长文解读

  3. AlphaFold3 预测蛋白突变亲和力变化?

  4. 一文看懂 Binder 设计

  5. 蛋白结构和序列的共同设计

  6. 深度学习如何助力抗体设计

  7. 蛋白计算海内外课题组汇总

  8. Meta AI 蛋白语言模型ESM系列

  9. COMPSS 酶蛋白从头设计的筛选方法

  10. 简述酶的定向进化

  11. Cell 综述:从头蛋白设计之结构到功能

  12. CSH 综述文章:结构预测与蛋白设计

  13. CSH 综述文章:蛋白质序列的生成模型

  14. Nat. Biotech. 蛋白设计专刊

  15. Nat. Biotech. 深度学习与功能蛋白设计

  16. Nat. Biotech. 功能蛋白从头设计的星火

  17. ProteinBench 蛋白设计最全的Benchmark

  18. ProteinGym 蛋白突变最好的Benchmark

  19. DiG 预测蛋白构象分布

  20. MaSIF 基于表面指纹的蛋白从头设计

  21. SaProt 结构感知的蛋白质语言模型

  22. InstructPLM 语言模型与逆向折叠的结合

  23. CRISPR-GPT 基因编辑的大模型智能体



AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章