成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

学术 2024-10-23 11:46 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。

虽然人工智能很适合处理平衡多个（可能相互冲突的）优化目标的任务，但是例如多属性标记训练数据的稀疏性等技术挑战，长期以来阻碍了解决方案的开发。

在最新的研究中，浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。

它利用大型语言模型中使用的基于 Prompt 的嵌入来提高 Transformer 优化分子进行特定属性调整的能力。

Prompt-MolOpt 擅长处理有限的多属性数据（即使在零样本设置下），因为它可以有效地概括从单属性数据集中学习到的因果关系。

在与 JTNN、hierG2G 和 Modof 等成熟模型的比较评估中，与领先的 Modof 模型相比，Prompt-MolOpt 的多属性优化成功率相对提高了 15% 以上。

此外，Prompt-MolOpt 的一个变体，即 Prompt-MolOptP，可以在结构变换下保留药效团或任何用户指定的片段，进一步拓宽其应用范围。

通过构建定制的优化数据集，Prompt-MolOpt 将分子优化引导至与领域相关的化学空间，从而提高优化分子的质量。

该研究以「Leveraging language model for advanced multiproperty molecular optimization via prompt engineering」为题，于 2024 年 10 月 21 日发布在《Nature Machine Intelligence》。

在材料和分子设计领域，目标从来都不是简单的，也从来都不是单一的。设计任务通常必须满足许多（有时甚至可能相互冲突的）约束，例如要求候选药物具有高效力和特异性。

然而，研究人员通常会简化问题，并在漫长的设计过程的初始阶段专注于发现满足一些主要先决条件的分子。例如，在药物设计中，首先通过筛选确定的命中化合物必须对特定的分子靶标表现出强活性。

在关键的药物形成特性（如功效、安全性和药代动力学）之间实现平衡是一项具有挑战性的多目标优化。当前的分子优化方法主要针对单目标优化。

LLM 结合 Prompt 来灵活应对

大型语言模型 (LLM)（例如 GPT-3）最近已成为计算领域的关键实体，并在多学科领域获得了广泛关注。

这些 LLM 的一个显著特点是它们善于利用 Prompt，这使它们具有无与伦比的零次和少次学习能力，以及在一系列任务中独特的多功能性。

在分子优化中，基于 Prompt 的技术的应用可以有效地定制模型以解决复杂的优化目标，从而克服传统的多目标障碍。

这种灵活的方法有助于描绘复杂的目标函数，从而避免了多目标优化中长期存在的需要明确构建多目标函数的瓶颈。

这种灵活性在药物研发领域尤为重要，因为药物研发领域经常受到数据稀缺的阻碍。

Prompt-MolOpt

浙江大学、中南大学、碳硅智慧的研究人员认为，通过使用具有特定于属性的 token 嵌入的 Prompt，可以充分利用现有数据（无论多么稀疏）来实现零次和少量学习能力，从而缓解因数据稀缺而引起的问题。

该团队通过引入基于多功能 Transformer 架构的 Prompt 驱动分子优化方案 Prompt-MolOpt 来支持他们的观点。

图示：Prompt-MolOpt 的整体工作流程。（来源：论文）

值得注意的是，子结构掩码解释 (SME) 方法提供了类似于 MMPA 的单属性优化方法。通过使用它，研究人员可以为任何可以构建预测模型的属性生成领域相关的分子优化训练数据集，从而作为 Prompt-MolOpt 的训练基础。

该团队最初使用多图注意神经网络（MGA）构建一个多任务属性预测模型，该模型能够生成特定于属性的原子节点嵌入。在分子结构优化过程中，通过向原子标记添加特定属性的嵌入，引入 Prompt 来引导优化朝着指定属性的方向发展。

测试结果表明，该方法在多属性优化方面的表现远远优于现有方法。此外，该模型展示了少样本学习和零样本学习的潜力，与分子优化中的实际应用场景非常吻合。

图示：分子优化数据集的构建。（来源：论文）

这种创新方法可以精确指定需要保存的分子结构，同时巧妙地优化剩余的结构，产生符合所需特性的分子。通过药效团注释和 Prompt，Prompt-MolOpt 促进了 AI 与领域专家之间的互动协作。

这种协同作用使专家能够指导优化过程，无论是通过药效团注释保留关键结构元素，还是使用特定 Prompt 灵活选择优化属性。

与 JTNN、hierG2G 和 Modof 等成熟模型相比，Prompt-MolOpt 在多属性优化方面表现出色，多属性优化成功率相对提高了 15% 以上。

Prompt-MolOpt 的一个显著优势是其零样本学习能力，即使在没有直接进行多属性训练的情况下也能提供令人称赞的性能。

值得注意的是，分子优化任务的成功复制，特别是在改善 BBBP 和减轻 hERG 心脏毒性方面，凸显了 Prompt-MolOpt 在实际应用中的显著有效性。

认识到在实际分子优化中保留药效团的共同要求，研究人员提出了一种可以修复这些关键结构的模型变体（Prompt-MolOpt^p），从而允许有针对性的优化，同时保留所需的药效团。

图示：Prompt-MolOpt^p分子优化框架概述。（来源：论文）

现实世界的优化案例（例如涉及血脑屏障通透性优化的测试）证实了 Prompt-MolOpt^p 的有效性，揭示了其在分子结构优化中的巨大潜力，并为多目标结构优化提供了一条有潜力的途径。

图示：Prompt-MolOpt^p 现实世界的多属性和多站点 BBBP 优化案例研究。（来源：论文）

此外，Prompt-MolOpt 的综合工作流程适用于各个领域的类似分子优化任务，不仅限于药物发现，使其成为分子优化的有效工具。

改进空间

尽管取得了这些进步，Prompt-MolOpt 仍有改进空间。

首先，当前的优化没有充分整合目标信息以考虑活性。虽然研究人员将活性视为可优化属性（DRD2）或通过固定的药学大分子保留它，但利用目标蛋白质的 3D 数据将与现实世界的药物设计场景更加契合。

其次，目前的方法并非专门用于处理手性，而手性对分子的物理化学性质有重大影响。手性是结构-活性关系中一个长期存在的挑战，解决手性问题需要进一步探索。

第三，在构建数据集时，这里依赖于 Murcko 子结构、逆合成有趣的化学子结构 (BRICS) 和功能基团的破坏，而不合并其他子结构，如生物电子等排体。在数据集构建中扩展更多的子结构将进一步增强模型的泛化能力。

同时，研究人员强调这三个挑战更像是有待实施的工程任务，而不是根本性的障碍。

结语

总之，Prompt-MolOpt 在多属性任务优化方面表现出了巨大的潜力，有望成为先进分子设计的强大工具。重要的是，除了药物分子，这个流程很容易适应其他分子优化工作。

论文链接：https://www.nature.com/articles/s42256-024-00916-5

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503397&idx=1&sn=e9ae0ead9d1ece1246f8dce55175341d

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

贝佐斯、OpenAI领投，给机器人装AI「大脑」的Physical Intelligence获4亿美元融资

精准预测RNA可变剪接，浙大多模态深度学习模型SpTransformer登Nature子刊

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉