Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

学术 2024-11-23 00:02 韩国

DRUGAI

今天为大家介绍的是来自牛津大学Charlotte M. Deane教授团队的一篇论文。许多研究预测，将机器学习技术整合到小分子治疗药物的开发中将有助于实现药物发现的真正飞跃。然而，尽管算法和新型架构不断进步，结果的改善却并不总是显著。在本文中，作者提出，应更加关注用于训练和基准测试这些模型的数据，这更有可能推动未来的改进。同时，作者探讨了未来研究的途径以及应对这些数据挑战的策略。

小分子药物占全球已批准药物的90%，因其小分子量可穿透细胞膜并直接作用于蛋白或RNA靶点，广泛应用于制药领域。然而，小分子药物开发过程复杂，临床前和临床阶段的失败导致成本高昂，从1950年至2012年，每10亿美元研发投入的获批药物数量每9年减半，被称为“逆摩尔定律”。

尽管机器学习（ML）在计算机视觉、自然语言处理和蛋白质结构预测等领域取得成功，但其在小分子药物发现领域的应用效果不佳。研究表明，这些方法在处理分布外数据时表现不佳，在不同基准测试上也难以保持一致性能。此外，对于已知的靶点或化学空间区域，简单方法或人类专家可能足够，复杂的ML方法在此背景下显得多余。ML在小分子药物发现中的主要应用包括分子设计、合成路径预测、分子对接和性质预测等。

在相关领域中，AlphaFold 2在蛋白质结构预测方面取得巨大成功，为小分子药物发现带来启示。然而，目前小分子药物发现尚未迎来类似的“突破时刻”，仅有渐进性提升。文章分析了小分子药物发现领域面临的挑战，并探讨了算法、数据质量与数量以及验证方法的改进方向，以期实现重大进展。

算法选择的影响

ML方法的发展通常遵循一种模式：提出新架构，用常用的训练集训练，再在常用的基准上测试，这通常只带来渐进性改进。以CASF-2016、USPTO-50k和HIV数据集为例，虽然在USPTO-50k上有所提升，但未出现类似AlphaFold 2的突破性进展。

如图1所示，其他领域的先进ML方法如Transformer和图神经网络（GNN）在小分子药物发现中的应用效果有限。GNN可直接编码化合物和靶标的分子结构，但其对提升小分子方法的准确性和通用性作用有限。扩展的GNN尽管具备三维结构的对称性，但实际效果并未显著提升。

扩散模型在其他领域成功生成图像，但在小分子领域中，虽然准确度有所提升，但未能生成物理上合理的分子或有效的蛋白相互作用。其他新方法如一致性模型和流匹配也难以单独实现突破，未来的进步需要依赖于算法、架构、数据质量和数量的结合。

数据量问题

小分子数据稀缺

ML方法通常需要大量数据才能有效建模，而生物和化学数据生成成本高、难以自动化，导致小分子数据远少于图像或文本数据。相比于大模型训练所需的亿级甚至万亿级数据，当前小分子领域的公开数据量仅有数万到十万级。此外，许多数据因知识产权原因由公司保留，导致公开数据主要依赖学术界或少量专利数据，如KIBA、USPTO和PDBBind等。解决数据稀缺对推动小分子ML研究至关重要。

结构数据

小分子ML方法的对接算法、结构生成方法和评分功能依赖于小分子蛋白质复合物结构数据，但目前可用数据集（如PDBBind）仅包含19,443个蛋白质-配体复合物，限制了模型性能提升。短期内难以显著增加数据量或多样性，因此需优化现有结构数据的利用。当前的解决方法如数据增强，其使用与晶体配体差异较小的交叉对接构象来训练生成器和构象分类器。此外，合成构象和基于PDBBind互动频率生成的合成口袋数据也能扩大数据集并提升准确性。自蒸馏和基于物理的预训练也可提高预测精度，未来可能会整合多种方法以进一步提升模型表现。

负面数据

在小分子药物发现中，负面数据（如无效结合或合成失败）很少公开，这通常由于发表仅记录正面结果引起的偏差。这种现象导致数据集正负比例失衡，影响ML模型包括如产率预测在内的分类准确性。药企有时需减少负面数据权重或增加正面数据采样，但这些数据通常不公开。

为解决此问题，建议严格的出版准则、合成负面数据和众包数据（如已停用的“暗反应数据库”），但效果可能有限。增加负面数据量的另一途径是从论文和实验结果中提取复杂数据，通过如ChemDataExtractor、DECIMER.ai和Nougat等工具可自动提取科学文献中的信息。

新颖数据源

药物发现领域的变革为数据增加带来了新途径。例如，众包药物发现通过开放合作的方式开发药物，使全球研究者可以基于已有实验数据提出化合物或创意，释放大量数据供ML利用。COVID Moonshot项目就是一个众包药物发现的例子，提供了470个晶体结构、2000多个化合物的IC50测试数据和3000多个合成化合物。

此外，联邦学习技术在药物发现中允许在不转移数据的情况下共享私有数据，如MELLODDY项目和Effiris项目通过联邦学习分别扩大了模型适用领域10%和83%。这些方法有助于增加ML模型的训练数据量，但数据质量同样重要。

数据质量控制

数据偏差

ML模型通过训练数据学习趋势，但可能学习到与现实不符的偏差，影响模型准确性。这在小分子研究中尤为常见，因数据多来源于不同来源，且采样偏向特定化学空间，从而导致偏差。数据偏差还包括“归纳偏差”，如虚拟筛选工具仅依赖配体特征而非蛋白-配体相互作用模式，影响模型推广能力。为解决此问题，可采用不对称验证嵌入等方法生成更严苛的训练-验证分割，以避免模型记忆配体特征。随着领域内对偏差问题的重视，避免无效偏差的学习或应用领域适应成为关键策略。

数据噪声

小分子数据的一个主要限制是噪声较多，通常由不同来源数据合并造成。例如，将不同实验条件下的IC50数据合并训练QSAR模型会导致不确定性增加，使模型精度指标虚高。此外，许多数据集中未标注不确定性，需依赖数据类型或实验近似估计。

另一噪声来源是假阳性结果，如泛试剂干扰化合物（PAINs），这些化合物易与多靶点非特异性结合，导致假阳性。现有方法可通过分子子结构标记检测PAINs，但数据集通常未检查这些标记。此外，基于PAINs靶点匹配频率的预测也显示出较高的噪声问题。为降低噪声，需建立易用的数据清理流程，促进实验与计算研究的协作，以优化数据质量。在小分子ML开发中，数据质量管理与验证是关键环节。

方法验证

揭露性能提升

小分子ML方法的验证通常通过使用与训练集同源的测试集或标准基准集进行，提升多为渐进性，难以证明其在药物发现中的独特优势。基线和消融测试可帮助评估模型特征和复杂性增加的实际效果。例如，简单的决策树评分函数仅基于配体或蛋白质特征，与更复杂方法的准确性相当，说明许多性能提升可能源于数据集偏差，而非通用物理特性。消融测试应更普遍，以便随着数据选择多样化，提供有效性验证。AlphaFold 2的消融测试显示，多项创新特性而非单一因素共同提高了模型精度。这些方法虽揭示改进来源，但是否适用于药物发现还需进一步验证。

鲁棒性测试

该领域方法通常在训练数据上进行评估，但实际药物发现中的数据类型可能不同，未被充分考虑。例如，基于ML的蛋白-配体对接常用“再对接”测试已知结构，导致对实际准确性过于乐观。当用更真实的测试集评估时，准确性显著降低。同样，逆合成方法常在单步预测上测试，但实际应用中通常结合路径搜索算法，单步准确性并不能反映完整路径的成功率。现有基准数据集规模较小，难以充分评估模型。为更贴近实际需求，需要更严格的验证和基准化，在线排行榜和公开“盲”预测竞赛（如D3R、CACHE）可为模型提供更公平的评估。这种稳健验证对确保ML在药物发现中的实际应用效果至关重要。

结论与未来展望

通过ML革新小分子治疗开发，不仅依赖算法的复杂性，还依赖于训练和验证数据的质量、多样性和数量。当前的关键挑战在于：ML模型对训练分布外数据的泛化能力差，且容易学习到数据集中的混淆趋势和偏差。这些问题表明，需重新聚焦数据和验证，才能充分发挥ML算法的潜力。

本文分析了公共数据的局限及其对模型训练和验证的影响，并探讨了未来的发展方向。为应对这些问题，建议采用数据增强、数据抓取、众包数据和联邦学习来增加数据量，并处理数据中的干扰因素，如PAINS化合物、实验条件噪声和数据偏差。此外，需使用严格的训练/验证数据划分，避免模型仅学习数据集偏差。随着这些改进，ML驱动的小分子药物开发仍具前景，但要实现这一潜力，需要平衡关注模型开发的各个要素，包括ML架构、数据质量和验证方法。

编译 | 于洲

审稿 | 王梓旭

参考资料

Durant G, Boyles F, Birchall K, et al. The future of machine learning for small-molecule drug discovery will be driven by data[J]. Nature Computational Science, 2024: 1-9.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507644&idx=2&sn=f158af96e00b6914cf83b3318e286e88

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

Nat. Comput. Sci. | 前瞻性分析：牛津大学团队展望小分子药物发现的未来

Brief. Bioinform. | 基于肿瘤免疫微环境数学建模和强化学习的免疫检查点抑制剂（ICI）联合化疗决策优化

Nat. Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Artif. Intell. Chem. | 人工智能推动化学发展的二十种方式

报告免费领取 | 热门减肥增肌靶点调研及非临床研究策略报告

Nat. Biotechnol. | 透视疾病突变：揭示蛋白质相互作用网络中的全组学级别扰动

英伟达发布BioNeMo平台，加速全球生物制药与科学产业数字化升级

Boltz-1：让生物分子交互建模更普及

Nat. Mach. Intell. | 蛋白质语言模型也能预测热稳定性？滑铁卢大学团队亲测！

从理想变为现实，从中国走向世界：国产AI药物发现软件MolProphet的成长故事

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉