首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

学术 2024-11-09 08:24 北京

作者：田小幺

编辑：十九

湖南大学、中南大学、湖南师范大学、湘潭大学的研究团队联合提出了一种多尺度生物医学知识指导的大语言模型 Y-Mol，它能够在不同的文本语料库和指令上进行微调，增强了模型在药物研发方面的性能与潜力，这是大语言模型在药物研发领域的一次全新突破。

以 ChatGPT、ChatGLM 和 LLaMA 等为代表的大语言模型已成为人们探索未知世界的有力工具，这些拥有数十亿参数的模型，通过大规模文本语料库的精心训练，在生成文本和理解上下文方面展现出强大的能力。然而，这些模型大多在一般任务中表现出色，在某些特定领域，尤其是药物研发领域，却面临着不小的挑战。

与自然语言处理领域不同，药物研发领域缺乏统一的标准范式，研发过程复杂且成本高昂。此外，它还涉及计算化学、结构生物学和生物信息学等多个学科，相关数据难以获取，且药物相关实体之间的交互数据需要精细的领域知识才能进行标注，这些因素共同限制了大语言模型在药物研发领域的应用。

对此，湖南大学、中南大学、湖南师范大学、湘潭大学的研究团队联合提出了一种多尺度生物医学知识指导的大语言模型 Y-Mol。Y-Mol 是一种自回归的序列到序列模型，它能够在不同的文本语料库和指令上进行微调，大大增强了模型在药物研发方面的性能与潜力，这是大语言模型在药物研发领域的一次全新突破。

该研究以「Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development」为题，已在 arxiv 发表预印本。

研究亮点：

* Y-Mol 是首个为药物研发构建的大语言模型典范
* Y-Mol 通过整合多尺度生物医学知识，构建了一个信息丰富的指令数据集

* Y-Mol 在药物-药物相互作用、药物-靶标相互作用、分子属性预测等方面表现优异，在各种药物研发任务的理解和通用性方面表现出强大的能力

论文地址：
https://doi.org/10.48550/arXiv.2410.11550
关注公众号，后台回复「药物研发大模型」获取完整 PDF

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

充分挖掘两大类数据集，构建全面的生物医学语料库

在构建 Y-Mol 的预训练数据集方面，该研究挑选了两种类型的数据集：来自生物医学 PubMed 出版物的文本语料库；基于生物医学知识图谱构建的监督指令，以及从专家模型中提取的推理数据。

为了深入挖掘出版物中丰富的生物医学知识，该研究从在线出版平台（如 PubMed）中提取并预处理了超过 3,300 万份涵盖多个学科的出版物。如下图 A 所示，研究人员从这些出版物中提取了可见的摘要和简介，将其作为生物医学文本数据 (Reconstructed Text)，确保语料库的质量和相关性。

出版物的收集

为了从生物医学知识库中高效提取领域知识，该研究将知识库中的事实转化为自然语言提示。如下图 B 所示，该研究认为子图中的每个推理链 (Reasoning Chains) 都具有明确的关系语义，因此提取了每个连贯的路径 (Pathway)，并使用精心设计的模板将其转换为自然语言描述，作为提示上下文。然后，该研究将这些构建的上下文与相应的问题结合，输入到 Y-Mol 中，以输出有监督的答案。

知识图谱的说明

此外，为了获取基于药物属性和领域知识的大规模指令，该研究利用现有小模型的专家合成数据构建指令，将药物知识谱提炼到 Y-Mol，最终，该研究汇集了 1,120 万个语料库条目和 230 万个精心设计的指令。

如下图 C 所示，针对给定的药物分子，为了提取更全面的分子性质 (Molecular Properties)，该研究汇集了一系列先进的分子工具和计算模型，如 ADMETlab、RDKit、TDC 和 DrugBAN。这些工具和模型从公开可用的数据集中提取了具有不同特性的分子信息，包括 QED、SAs、LogP、毒性 (Toxicity)、吸收性 (Absorbency) 以及亚结构 (Substructures) 等。通过这种方式，该研究可以持续集成最新的模型和工具，并利用它们的预测数据来训练模型，从而使 Y-Mol 实时进化，保持其在药物研发领域的领先地位。

专家合成数据的说明

最后，如下图所示，该研究展示了 Y-Mol 在预训练和监督微调阶段，针对不同任务的数据分布情况。在推理能力的评估方面，为了全面测试 Y-Mol 在药物-靶标相互作用 (DTI) 预测和药物-药物相互作用 (DDI) 预测方面的性能，研究团队选用了业界广泛认可的基准数据集 DrugBank 和 DrugCentral 来进行 DTI 预测。

Y-Mol 在不同任务的数据分布

同时，为了对 DDI 预测的性能进行评估，研究者们采用了 Ryu 和 Deng 提供的数据集。这些评估方法经过精心选择，确保 Y-Mol 能在药物研发领域的行业标准下得到公正和全面的检验，证明其有效性。

Ryu’s dataset: https://doi.org/10.1073/pnas.1803294115

Deng’s dataset: https://doi.org/10.1093/bioinformatics/btaa501

Y-Mol：基于 LLaMA2-7b，专用于药物研发

该研究选用了 LLaMA2-7b 作为基础的大语言模型，进而构建一个专门用于药物研发的高级训练和推理框架——Y-Mol。如下图所示，Y-Mol 的开发分为两个关键阶段：

首先，Y-Mol 在生物医学出版物的大规模语料库上进行预训练，通过自监督预训练 (self-supervised pretrain) 的方式微调 LLaMA2，使 Y-Mol 能够对药物研发的背景知识有一个基本的掌握。接着，进一步监督 LLaMA2，利用药物相关领域知识和专家合成数据进行微调 (finetuning)。这一过程将大量药物相关信息输入 Y-Mol，增强了模型对药物研发流程中相互作用机制的理解。

Y-Mol 的架构

该研究精心设计了多样化的指令集，对 Y-Mol 进行细致的微调，这些指令包括了分子文本对的说明 (Instructions from Molecule-text Pairs)，以及从药物数据库中提取的描述 (Descriptions from drug databases)，这些描述以自然语言的形式呈现了药物的属性、结构和功能，蕴含了丰富的语义信息，有助于加强人类与大语言模型在药物实体感知上的一致性。

如下图所示，该研究采用生成的指令 (Instructions) 作为监督学习的输入 (input)，并将其送入 Y-Mol 中。具体来说，将构建的提示上下文 (prompt contexts) 和问题输入到 Y-Mol 中，并使用这些构建的答案来监督模型生成的输出。

基于设计指令的 Y-Mol 监督微调过程

在根据这些生成的指令对 Y-Mol 进行细致的微调之后，研究人员将其应用于一系列下游任务，涵盖了从先导化合物的发现 (Lead compund Discovery) 到临床前和临床预测等 (Clinic Predictions) 多个环节。通过这种监督微调 (Supervised Fine-tuning) 的方法，Y-Mol 能够更准确地理解和处理药物研发中的复杂问题，为计算机辅助药物研发提供了一个强大的工具。

研究结果：Y-Mol 具备最优预测性能

为了全面验证 Y-Mol 在药物研发领域的有效性，该研究精心设计了一系列覆盖先导化合物发现 (lead compound discovery)、临床前研究 (pre-clinic) 和临床预测 (clinic predictions) 等不同阶段的任务。具体来说，不同的关键任务如下：(1) 用于先导化合物发现的虚拟筛选、药物设计；(2) 临床前阶段对已发现先导化合物的物理和化学性质进行预测；(3) 预测临床阶段潜在的药物不良事件。

在虚拟筛选中，识别未知的药物-靶标相互作用对是至关重要的。如下表所示，相较于 LLaMA2，Y-Mol 在 DrugBank 和 DrugCentral 数据集上的 AUC 得分分别提升了 5.02% 和 4.13%。这表明，Y-Mol 在多尺度数据源的 DTI 预测上表现优异，证明了其在虚拟筛选中的优越性能。

4 个数据集的 DTI 和 DDI 预测性能比较

在药物设计中，为了验证 Y-Mol 在发现新先导化合物方面的性能，该研究还设计了一个针对特定条件产生有效化合物的任务，即给定一个目标条件和描述性查询，评估 Y-Mol 能否从上下文信息中精准生成对应的 SMILES 序列分子。

如下表所示，该研究引入 Valid、Unique、Novelty、Diversity 等标准指标，对 BBB、LogP 等不同的单一目标 (Single Objective) 进行预测。结果表明，Y-Mol 整体性能更好，相比之下，只有 LLaMA2-7b 模型的结构域适应能力表现不佳，无法生成有效的分子。同时，该研究还同时测试了多重目标 (Multiple Objective) 下 Y-Mol 的药物设计性能。结果表明，Y-Mol 在这种情况下也表现良好。

Y-Mol 在药物设计中的性能

BBB是血脑障壁；LogP是辛醇-水分配系数；QED是药物相似性；SAs是化合物合成难度；lsValid函数用于检查SMILES字符串是否有效

在分子属性预测中，如下图所示，Y-Mol 在所有任务中都展现出比 LLaMA2 更低的 R² 分数，这表明 Y-Mol 在预测理化属性方面具有更强的泛化能力。

对 Y-Mol 的理化性质进行了性能预测

在药物研发的临床阶段，预测潜在的药物-药物相互作用是确保药物安全使用的关键。如下图所示，Y-Mol 在识别潜在的药物相互作用任务方面表现出色 (DDI)。

4 个数据集的 DTI 和 DDI 预测性能比较

如下图所示，Y-Mol 设计的药物有效地满足了在查询中 (query) 提出的约束条件。同样地，Y-Mol 能够准确地预测给定分子 LogD7.4，且预测结果与实际值非常接近，这证明了 Y-Mol 在解决药物研发任务方面的有效性。

药物设计与分子理化性质预测的案例研究

AI 技术：药物研发领域的新引擎

事实上，在药物研发的漫长旅程中，科学家们一直在寻找能够加速这一过程的新技术。近年来，AI 技术在这一领域展现出了巨大的应用潜力，它们不仅能够深入理解疾病机制，还能在药物发现和临床试验等关键阶段发挥重要作用。

在企业界，一些公司已经在 AI 药物研发方面取得了显著成果。例如，AI 药物研发公司 Insilico Medicine 在今年初宣布，他们发现了一种全新机制的用于治疗特发性肺纤维化的临床候选新药，该药物已经通过了多次人类细胞和动物模型实验验证。此外，华为云与中国科学院上海药物研究所合作，推出了盘古药物分子大模型，该模型能够实现针对小分子药物全流程的人工智能辅助药物设计，提高药物研发的效率和准确性。

在科研领域，本文研究的作者之一，湖南大学曾湘祥教授团队也曾设计了一款多肽序列大语言模型，通过逐步添加计算和筛选条件，对模型进行训练。仅用 3 个月时间，该模型便成功设计并合成了 29 种潜在的抗菌肽，其中 26 种显示出广谱抗菌活性。在小鼠实验中，有 3 种抗菌肽表现出与 FDA 批准的抗生素相当抗菌效果，且在长达 25 天的连续培养和监测中未观察到明显的耐药性产生。这一成果已被《Nature Communications》正式接收。
论文链接：

https://www.nature.com/articles/s41467-024-51933-2

此外，本文研究的另一作者，中南大学曹东升教授联合浙江大学的侯廷军教授和谢昌谕教授，前不久也共同开发了分子优化工具 Prompt-MolOpt。该算法利用提示学习的训练策略，实现了零样本学习和少样本学习在多性质优化中的应用。
论文链接：

https://www.nature.com/articles/s42256-024-00916-5

从深入理解疾病机制到加速药物发现，再到优化临床试验设计，AI 技术正在成为药物研发的新引擎，随着技术的不断进步，它将在未来的医药研究中发挥出愈发关键的作用。

戳“阅读原文”，免费获取海量数据集资源！

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Nat. Methods | 基于单细胞RNA测序的植入前小鼠和人类胚胎深度学习模型

Nat. Commun. | 计算速度远远优于DFT，NewtonNet推导ab initio海森矩阵用于过渡态优化

Nat. Commun. | 整理大规模扰动谱整合图，PRNet成功预测233种疾病的药物候选物

华东师范大学联合发布中医药领域多模态大模型：数智岐黄2.0

Nat. Commun. | 利用TE位点两侧邻近读数，MATES提高TE定量准确性

Nat. Methods | SurfDock：利用表面信息的扩散生成模型实现蛋白质-配体复合物结构精准预测

Nat. Commun.｜准确性达93.7%！高度自动化临床mNGS检测可快速识别病毒性呼吸道病原体

打破专利封锁，踏出中国小核酸药物未来之路！

Nat. Commun. | 疾病相关蛋白难成药，sChemNET探究microRNA疗法

Science | 在“放松”序列空间中实现可扩展的蛋白设计

PNAS | UBC大学团队发现AlphaFold-Multimer能够准确捕捉蛋白IDR区域的相互作用

Cell | 蛋白质-蛋白质相互作用的发现及其在健康与疾病中的重要意义

Chem. Sci. | 设计蛋白-蛋白相互作用界面的深度学习模型

Nat. Commun. | ClickGen: 一种基于模块化反应和强化学习对可合成化学空间定向探索的生成式AI模型

Nat. Commun. | 将合成与筛选速度提升6倍！！浙江大学提出最新全自动高通量系统

招聘 | 德克萨斯大学西南医学中心王涛实验室生物信息学与计算生物学博士后研究员

受限原料合成目标产物，MIT Coley团队提出解决方案

Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

Brief. Bioinform. | 基于肿瘤免疫微环境数学建模和强化学习的免疫检查点抑制剂（ICI）联合化疗决策优化

Nat. Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式

报告免费领取 | 热门减肥增肌靶点调研及非临床研究策略报告

Nat. Biotechnol. | 透视疾病突变：揭示蛋白质相互作用网络中的全组学级别扰动

英伟达发布BioNeMo平台，加速全球生物制药与科学产业数字化升级

Boltz-1：让生物分子交互建模更普及

Nat. Mach. Intell. | 蛋白质语言模型也能预测热稳定性？滑铁卢大学团队亲测！

从理想变为现实，从中国走向世界：国产AI药物发现软件MolProphet的成长故事

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉