Seminar|多模态生成式蛋白质基础模型

文摘   2024-12-19 23:31   广东  

Seminar|多模态生成式蛋白质基础模型

Large-scale multimodal generative protein foundation models

主讲人

郑在翔,字节跳动高级研究员

时间

2024年12月21日,周六晚 20:00-22:00

腾讯会议
  • 244-948-512
  • https://meeting.tencent.com/dm/t64jKK2mOE0b
关键词

蛋白语言模型|DPLM|蛋白设计

引言

蛋白质是一切生命的物质基础,相关研究不仅可以加深对基础科学的探索,也对药物研发有着重要的作用。AlphaFold 2 展现了人工智能(AI)在科学发现(AI for Science)中前所未有的前景,也为人们使用 AI 来帮助理解蛋白质序列、结构和功能原理,乃至设计自然界中不存在的全新蛋白质解锁了可能性。在本次分享中,我将介绍我们团队在探索「大规模生成式蛋白质建模与设计」上的一系列研究进展,特别是如何充分利用海量蛋白质数据驱动最前沿的生成式 AI 技术,包括大语言模型(LLMs)与扩散概率模型(DIffusion Models),构建和实现统一、通用和强大的「多模态生成式蛋白质基础模型」及其在蛋白质建模、理解、生成和设计上的应用。本次分享内容主要会覆盖到以下系列工作:

  1. LM-Design: Structure-informed Language Models Are Protein Designers (ICML'23 Oral)
  2. DPLM: Diffusion Language Models Are Versatile Protein Learners (ICML'24)
  3. DPLM-2: A Multimodal Diffusion Protein Language Model (preprint)

简介



郑在翔博士现在为字节跳动 ByteDance Research 高级研究员。博士毕业于南京大学计算机系 NLP 组,主要研究兴趣为基于数据驱动的大规模深度生成式 AI 及其在广泛的现实世界场景与重要问题中的应用,包括 NLP 与 AI for Science,最近的关注重点在多模态生成式蛋白质建模与设计。他在 ICML、NeurIPS、ICLR、ACL 等人工智能顶级学术会议和期刊上发表论文近 20 篇,同时担任 ACL/EMNLP/NAACL 等会议领域主席。他曾获得中国中文信息学会优秀博士论文奖,ACL'21 和 INLG'22 最佳论文奖,并在字节跳动火山翻译作为主要带头人获得 WMT'21 国际机器翻译大赛第一名。

个人主页:https://zhengzx-nlp.github.io/


文献

[1]. LM-design: Structure-informed Language Models Are Protein Designers

[2]. DPLM: Diffusion Language Models Are Versatile Protein Learners

[3]. DPLM-2: A Multimodal Diffusion Protein Language Model

[4]. LM-design: https://github.com/BytedProtein/ByProt

[5]. DPLM: https://github.com/bytedance/dplm

AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章