浙大/华为团队: 3DSMILES-GPT:基于词元化语言模型的3D分子生成

学术   科学   2025-01-08 10:50   英国  

研究背景

分子生成是药物先导物发现和优化领域的一项重要创新技术,但当前这类方法在生成分子的有效性、结构合理性和合成可行性等多属性优化方面存在挑战,精度和效率往往难以两全。

研究内容

近日,浙江大学药学院康玉副教授侯廷军教授谢昌谕教授以及华为刘力维研究员团队在分子生成领域取得突破,成功研发了一种全新的基于纯语言模型的分子生成框架:3DSMILES-GPT。这一框架通过将分子的二维和三维结构视为语言表达,在语言模型的帮助下,实现了药物分子的高效生成。

3DSMILES-GPT 方法通过在大型药物样分子数据集上预训练模型,使其能够在保证结构合理性的前提下,快速生成具有良好成药性的分子。模型以 Transformer 解码器为骨架,通过将生成二维和三维结构的任务构建为自然语言生成的问题,将原子 2D 结构和 3D 坐标编码为字符,从而有效捕获分子的 2D 和 3D 信息。模型首先在 PubChem 数据集上进行预训练,然后在特定蛋白质-配体数据集上进行微调。此外,为了更好地提取蛋白质口袋信息,3DSMILES-GPT 引入了一个可拆卸蛋白质编码器。

  • 图 1. 3DSMILES-GPT 模型架构

实验结果显示,相较于现有方法,3DSMILES-GPT 在包括生物活性、类药性和可合成性在内的 10 项基准指标中的 8 项上表现出色。

这一研究为分子生成方法开发提供了新的视角,为实现创新药物的快速、合理设计提供了技术支持,期待这项技术能在未来的药物设计中展现出更大的应用价值。相关成果以 “3DSMILES-GPT: 3D Molecular Pocket-based Generation with Token-only Large Language Model”(《3DSMILES-GPT:基于语言模型的 3D 分子生成》) 为题发表在 Chemical Science 上,并入选为 2024 Chemical Science HOT Article Collection

论文信息

  • 3DSMILES-GPT: 3D molecular pocket-based generation with token-only large language model
    Jike Wang,‡ Hao Luo,‡ Rui Qin,‡ Mingyang Wang, Xiaozhe Wan, Meijing Fang, Odin Zhang, Qiaolin Gou, Qun Su, Chao Shen, Ziyi You, Liwei Liu,* Chang-Yu Hsieh,* Tingjun Hou* and Yu Kang*
    Chem. Sci., 2025, 16, 637-648
    https://doi.org/10.1039/D4SC06864E

作者简介

王極可 博士
浙江大学

本文第一作者,浙江大学药学院博士,主要研究方向为人工智能药物设计,包括小分子、多肽和抗体的设计。主导和参与开发了 MCMG、ClickGen 和 DrugFlow 等分子生成、成药性预测方法和软件 10 余件,主持国家自然科学基金青年科学基金项目等科研项目 4 项。在 Nat Mach Intell、Nat Commun、J Med Chem、Chem Sci 等国际知名期刊发表 SCI 论文 40 余篇。








罗浩 硕士研究生
浙江大学

本文共同第一作者,浙江大学研究生,主要从事基于大规模语言模型与检索增强生成技术的智能分子设计研究,包括分子生成与优化等方向。








秦睿 博士研究生
浙江大学
本文共同第一作者,浙江大学药学院博士研究生。2023 年本科毕业于中山大学药学院。研究方向为化学语言模型和基于深度生成模型的药物设计。







康玉 副教授
浙江大学
本文通讯作者,浙江大学药学院副教授,主要从事人工智能/计算机辅助药物设计领域的创新算法研究工作,开发了包括分子生成、构象采样和生成、虚拟筛选打分方法等系列创新算法和软件工具,部分创新算法已落地碳硅智慧一站式药物设计平台DrugFlow,并作为华为云盘古药物大模型2.0的核心技术底座,获得华为前瞻性创新研究项目资助。近年来在Nat Mach Intell、Nat Comput Sci、J Am Chem Soc、Chem Sci、J Med Chem、Acta Pharm Sin B等领域内重要期刊发表论文100余篇,H-index 36;获授权国家发明专利和软件著作权20余件;主持国家级科研项目4项、企业创新研究资助项目2项、省级人才项目及其他项目多项。







侯廷军 教授
浙江大学
本文共同通讯作者,浙江大学药学院求是特聘教授,长期围绕计算机辅助药物设计中的核心问题展开前沿交叉学科研究,开发了 MCMG、ADMETlab、BioMedR、ASFP、HawkRank、MORT、CaFE、farPPI、PROTAC-DB 等分子描述符计算、分子生成、成药性预测、蛋白-蛋白对接、自由能计算软件和数据库 40 余套。在 Nat Mach Intell、Nat Comput Sci、Nat Protoc、Nat Commun、Chem Rev、J Am Chem Soc、Sci Adv、Adv Sci、Nucleic Acids Res、ACS Cent Sci 等国际知名期刊共发表 SCI 论文 500 余篇,总引超过 33000 次,H 因子 89。获授权专利和软件著作权 90 余项。入选国家万人计划领军人才、科技部中青年科技创新领军人才、科睿唯安全球高被引科学家、爱思唯尔中国高被引学者、首届中国化学会计算(机)化学专委会青年计算化学家奖、英国皇家化学会“Top 1%”高被引中国作者、第八届药明康德生命化学研究奖等学术奖项和荣誉。担任中国计算机学会智能医学委员会副主任委员、中国化学会计算(机)化学专业委员会副主任委员,Brief Bioinform、J Cheminform、Mol Pharmaceut、J Chem Inf Model、Int J Mol Sci、Front Pharmacol 等 14 本 SCI 期刊副主编、编委或顾问编委。







谢昌谕 教授
浙江大学
本文共同通讯作者,浙江大学药学院求是工程教授,于加拿大多伦多大学获得工程物理学士学位、加拿大渥太华大学获得物理博士学位,随后在多伦多大学与麻省理工进行理论化学的博士后研究。2018 年加入腾讯量子实验室,从事量子计算和 AI for Science 的前沿计算技术研究与落地探索。2022 年加入浙江大学药学院,现任浙江大学求是工程教授,从事前沿计算技术在药物研发的应用研究和理论与算法开发。在 Nat Mach Intell、Nat Comput Sci、Nat Comm 等国际知名期刊共发表 SCI 论文 200 余篇,总引超过 6000 次,H 因子 37。







刘力维 研究员
华为技术有限公司

本文共同通讯作者,华为技术有限公司中央研究院研究员。从事 AI4S 前沿研究,重点关注药物/生命科学/医疗/健康/材料领域,在 Nat Mach Intell、Adv Sci、Chem Sci、Brief Bioinform 等发表多篇论文。

期刊介绍

Home to exceptional research and thought-provoking ideas. Open and free, for authors and readers.

rsc.li/chemical-science

Chem. Sci.

2-年影响因子*7.6
5-年影响因子*8.0
JCR 分区*Q1 化学-综合
CiteScore 分14.4
中位一审周期33 


Chemical Science 是涵盖化学科学各领域的跨学科综合性期刊,也是英国皇家化学会的旗舰期刊。所发表的论文不仅要在相应的领域内具有重大意义,而且还应能引起化学科学其它领域的读者的广泛兴趣。所发表的论文应包含重大进展、概念上的创新与进步或者是对领域发展的真知灼见。发文范围包括但不限于有机化学、无机化学、物理化学、材料科学、纳米科学、催化、化学生物学、分析化学、超分子化学、理论化学、计算化学、绿色化学、能源与环境化学等。作为一本钻石开放获取的期刊,读者可以免费获取所发表论文的全文,同时从该刊的论文版面费由英国皇家化学会承担,论文作者无需付费。

Editor-in-Chief

  • Andrew Cooper
    🇬🇧 利物浦大学

Associate editors
  • Vincent Artero
    🇫🇷 格勒诺布尔阿尔卑斯大学/法国原子能和替代能源委员会

  • Luis M. Campos
    🇺🇸 哥伦比亚大学

  • Lin Chen
    🇺🇸 西北大学

  • Graeme Day
    🇬🇧 南安普敦大学

  • Mircea Dincă
    🇺🇸 麻省理工学院

  • François Gabbaï
    🇺🇸 得克萨斯农工大学

  • Subi George
    🇮🇳 贾瓦哈拉尔·尼赫鲁高级科学研究中心

  • Ryan Gilmour
    🇩🇪 明斯特大学

  • Stephen Goldup
    🇬🇧 伯明翰大学

  • Jinlong Gong (巩金龙)
    🇨🇳 天津大学

  • Zaiping Guo (郭再萍)
    🇦🇺 阿德莱德大学

  • Christian Hackenberger
    🇩🇪 德国莱布尼茨分子药理学研究所

  • Malika Jeffries-EL
    🇺🇸 波士顿大学

  • Ning Jiao (焦宁)
    🇨🇳 北京大学

  • Tanja Junkers
    🇦🇺 莫纳什大学

  • Hemamala Karunadasa
    🇺🇸 斯坦福大学

  • Maja Köhn
    🇩🇪 弗莱堡大学

  • Yi-Tao Long (龙亿涛)
    🇨🇳 南京大学

  • James K McCusker
    🇺🇸 密歇根州立大学

  • Thomas J Meade
    🇺🇸 西北大学

  • Paolo Melchiorre
    🇮🇹 博洛尼亚大学

  • Gabriel Merino
    🇲🇽 墨西哥国家理工学院科研和高级研究中心

  • Hannah Shafaat
    🇺🇸 加州大学洛杉矶分校

  • Dmitri Talapin
    🇺🇸 芝加哥大学

  • Toshiharu Teranishi
    🇯🇵 京都大学

  • Andrei Yudin
    🇨🇦 多伦多大学

* 2023 Journal Citation Reports (Clarivate, 2024)

 CiteScore 2023 by Elsevier

 中位数,仅统计进入同行评审阶段的稿件








欢迎联系我们发布论文报道
📧 RSCChina@rsc.org

点击下方「阅读原文」查看

↓↓↓

RSC英国皇家化学会
英国皇家化学会,是全球领先的化学学术团体,致力于推动化学科学的卓越发展。推送最新的国际化学新闻,分享顶尖的化学科研成果及丰富的化学学术活动。
 最新文章