Seminar|多模态生成式蛋白质基础模型
Large-scale multimodal generative protein foundation models
主讲人
郑在翔,字节跳动高级研究员
时间
2024年12月21日,周六晚 20:00-22:00
腾讯会议
244-948-512 https://meeting.tencent.com/dm/t64jKK2mOE0b
关键词
蛋白语言模型|DPLM|蛋白设计
引言
蛋白质是一切生命的物质基础,相关研究不仅可以加深对基础科学的探索,也对药物研发有着重要的作用。AlphaFold 2 展现了人工智能(AI)在科学发现(AI for Science)中前所未有的前景,也为人们使用 AI 来帮助理解蛋白质序列、结构和功能原理,乃至设计自然界中不存在的全新蛋白质解锁了可能性。在本次分享中,我将介绍我们团队在探索「大规模生成式蛋白质建模与设计」上的一系列研究进展,特别是如何充分利用海量蛋白质数据驱动最前沿的生成式 AI 技术,包括大语言模型(LLMs)与扩散概率模型(DIffusion Models),构建和实现统一、通用和强大的「多模态生成式蛋白质基础模型」及其在蛋白质建模、理解、生成和设计上的应用。本次分享内容主要会覆盖到以下系列工作:
LM-Design: Structure-informed Language Models Are Protein Designers (ICML'23 Oral) DPLM: Diffusion Language Models Are Versatile Protein Learners (ICML'24) DPLM-2: A Multimodal Diffusion Protein Language Model (preprint)
简介
郑在翔博士现在为字节跳动 ByteDance Research 高级研究员。博士毕业于南京大学计算机系 NLP 组,主要研究兴趣为基于数据驱动的大规模深度生成式 AI 及其在广泛的现实世界场景与重要问题中的应用,包括 NLP 与 AI for Science,最近的关注重点在多模态生成式蛋白质建模与设计。他在 ICML、NeurIPS、ICLR、ACL 等人工智能顶级学术会议和期刊上发表论文近 20 篇,同时担任 ACL/EMNLP/NAACL 等会议领域主席。他曾获得中国中文信息学会优秀博士论文奖,ACL'21 和 INLG'22 最佳论文奖,并在字节跳动火山翻译作为主要带头人获得 WMT'21 国际机器翻译大赛第一名。
个人主页:https://zhengzx-nlp.github.io/
文献
[1]. LM-design: Structure-informed Language Models Are Protein Designers
[2]. DPLM: Diffusion Language Models Are Versatile Protein Learners
[3]. DPLM-2: A Multimodal Diffusion Protein Language Model
[4]. LM-design: https://github.com/BytedProtein/ByProt
[5]. DPLM: https://github.com/bytedance/dplm