J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

学术 2024-11-05 09:31 上海

在药物开发早期阶段，化学空间的全面探索对于发现新的药物化合物至关重要。然而，传统的虚拟筛选方法通常依赖于有限的化合物数据库，无法有效探索数十亿甚至更多的虚拟化学空间。化学语言模型为探索这些广阔的化学空间提供了一种新方法。然而，现有的模型在生成的化合物的合成可行性和目标特性优化方面仍存在不足。

2024年10月29日，来自日本神户大学的研究人员在Journal of Chemical Information and Modeling上发表研究Navigating Ultralarge Virtual Chemical Spaces with Product-of- Experts Chemical Language Models。

研究人员提出了一种新的模型架构，名为专家产品化学语言模型（Product-of-Experts, PoE），该模型通过结合预训练模型、专家模型以及反专家模型，导航超大虚拟化学空间，并生成具有目标属性的化合物。PoE模型通过优化化合物的合成可行性和目标特性，显著提高了药物筛选的效率。实验结果表明，PoE模型生成的化合物在多巴胺D2受体结合力预测和血脑屏障渗透性等关键指标上优于传统化学语言模型。

图1: PoE化学语言模型示意图

随着计算化学的飞速发展，虚拟化学空间的规模呈现指数增长。超大规模的化学空间为药物研发提供了无数的化合物候选，但完全筛选这些空间几乎是不可能的。传统虚拟筛选方法面临两个主要挑战：

1. 计算复杂度高：随着虚拟化学库规模的增加，筛选计算资源消耗也随之线性增长，难以快速评估化合物的药效和物理化学特性。

2. 合成可行性不足：即便现有的化学语言模型能够生成大量新化合物，这些化合物往往难以实际合成，限制了其在实际药物开发中的应用。

为了解决这些问题，研究者们转向了化学语言模型，这些模型基于分子表示学习生成新的化合物，并能快速探索超大化学空间。然而，这些模型在优化生成化合物的特定药理属性和保证合成可行性方面仍存在局限。针对这些不足，研究人员提出了PoE模型，以提高生成化合物的可行性和药效预测能力。

专家产品（PoE）模型的构建

PoE模型的设计灵感来源于机器学习中的专家产品（Product-of-Experts, PoE）。它结合多个专家模型的输出，通过协作的方式实现更精准的预测。在PoE化学语言模型中，研究者结合了以下三种模型：

1. 预训练模型：该模型在超大化学空间上进行训练，提供对整个空间的全面理解。它可以为生成化合物提供基本的化学结构。

2. 专家模型：专家模型是专门针对目标特性优化的模型，例如生成对特定受体具有高亲和力的化合物。通过在特定化学空间上的微调训练，专家模型可以生成符合特定药物开发需求的化合物。

3. 反专家模型：反专家模型则用于减少不合成可行或不具备目标特性的化合物生成。它通过与专家模型的协同工作，确保生成化合物的化学特性和合成可行性相互平衡。

通过将这三个模型结合，PoE模型不仅能够生成结构多样化的化合物，还能针对目标药物特性进行优化，保证化合物的可合成性。

表1 化学空间建模模型性能总结

实验设计与结果分析

本文的实验集中于使用PoE模型生成具有良好多巴胺D2受体结合力的化合物，并且这些化合物具有良好的血脑屏障渗透性（BBB）。为验证PoE模型的有效性，研究者设置了两组实验：

1. 化合物对接实验：研究者首先评估了PoE模型生成化合物的对接评分，结果显示，PoE生成的化合物与多巴胺D2受体的对接评分显著优于传统的化学语言模型。这表明，PoE模型在优化化合物的药理学特性方面表现优异。

2. 血脑屏障渗透性预测：通过使用预测模型，研究者进一步评估了生成化合物的血脑屏障渗透性。实验结果表明，PoE模型生成的化合物不仅能够通过血脑屏障，还能保持其在中枢神经系统中的药效作用。

此外，研究者还通过合成可行性评分验证了PoE生成化合物的实际合成可能性，结果显示，生成的化合物大多数在合成上具有较高的可行性。

图2 由先前模型生成的化合物的物理化学性质的核密度估计

图3 85 M模型生成的化合物随机示例

模型优势与实际应用

PoE模型的核心优势在于其模块化设计，通过结合多个专家模型，它可以灵活应对不同的药物开发需求。例如，在某些药物开发任务中，研究者可以调整专家模型的权重，以生成更符合特定药效需求的化合物。同时，反专家模型的引入使得生成化合物在化学空间中的合成可行性得到保证。

这一架构使PoE模型不仅适用于药物发现中的早期筛选，还能应用于化合物的优化过程，生成同时具备理想药效和物理化学性质的候选药物。该模型已经成功应用于多个药物靶标的筛选任务，显著加速了新药的发现。

未来展望与挑战

尽管PoE模型在化合物生成和筛选上展现了巨大的潜力，仍有一些挑战需要克服。首先，如何进一步提升模型生成化合物的物理真实性仍是一个难题。其次，随着化学空间的不断扩大，如何在保证化合物多样性的同时优化其药效和可合成性，仍是未来研究的重点。

未来，PoE模型将会与更多的大语言模型（LLM）结合，用以处理更广泛的化学数据。同时，通过整合更多的实验数据，PoE模型的预测能力也将进一步提升，为药物研发提供更加全面的解决方案。

本文提出的PoE化学语言模型，通过结合预训练模型、专家模型和反专家模型，实现了对超大虚拟化学空间的高效导航和探索。实验表明，PoE模型生成的化合物不仅具有良好的目标药效特性，还在合成可行性方面表现出色。未来，PoE模型有望在更广泛的药物开发领域发挥重要作用，加速新药的发现与开发进程。

参考资料:

Nakata S, Mori Y, Tanaka S. Navigating Ultralarge Virtual Chemical Spaces with Product-of-Experts Chemical Language Models[J]. Journal of Chemical Information and Modeling, 2024.

--------- End ---------

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507382&idx=2&sn=ed929cab358d0d2c99cef3f7744640b6

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉