蛋白语言模型 SaProt
SaProt
主讲人
粟锦(西湖大学在校博士生)
时间
2024年11月17日,周日晚 20:00-21:30
腾讯会议
546-448-347
https://meeting.tencent.com/dm/cRTht2VHYUWG
关键词
蛋白语言模型|Foldseek|蛋白设计
引言
蛋白语言模型(PLMs),如ESM系列,在经过氨基酸序列的无监督训练后,在与蛋白的各种下游任务中取得了优异的表现。
然而,传统PLMs的缺乏对蛋白结构信息的考虑,这表明有进一步改进的潜力。
SaProt 模型引入了“结构感知词汇表”的概念,将残基标记与结构标记相结合。结构标记是通过使用 Foldseek 编码蛋白质的3D结构而得到的。SaProt 是一个大规模通用 PLM ,它在 AFDB 大约4000万个蛋白序列和结构的数据集上进行训练。SaProt模型在10个重要的下游任务中超越了既定的和知名的基线算法,也位居蛋白突变任务 Benchmark 榜单 ProteinGym 的第一名,展示了其卓越的能力和广泛的适用性。
主讲人简介
粟锦,现在是西湖大学原发杰老师的三年级博士生。粟锦2022年从华中科技大学获得了学士学位,在那里与魏伟教授一起研究自然语言处理模型的对抗性攻击和防御。
目前,他的研究兴趣在于人工智能在蛋白质领域的应用,主要关注蛋白质表示学习。也对最新的人工智能技术感兴趣,并希望将它们应用于蛋白质领域。
文献代码
Su, Jin, et al. "Saprot: Protein language modeling with structure-aware vocabulary." bioRxiv (2023): 2023-10. https://github.com/westlake-repl/SaProt
进群交流
进群请认真填写问卷!
广告勿扰,广告勿扰!
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于*AI蛋白相关的论文解读&学术速运