DRUGAI
今天为大家介绍的是来自牛津大学Charlotte M. Deane教授团队的一篇论文。许多研究预测,将机器学习技术整合到小分子治疗药物的开发中将有助于实现药物发现的真正飞跃。然而,尽管算法和新型架构不断进步,结果的改善却并不总是显著。在本文中,作者提出,应更加关注用于训练和基准测试这些模型的数据,这更有可能推动未来的改进。同时,作者探讨了未来研究的途径以及应对这些数据挑战的策略。
小分子药物占全球已批准药物的90%,因其小分子量可穿透细胞膜并直接作用于蛋白或RNA靶点,广泛应用于制药领域。然而,小分子药物开发过程复杂,临床前和临床阶段的失败导致成本高昂,从1950年至2012年,每10亿美元研发投入的获批药物数量每9年减半,被称为“逆摩尔定律”。
尽管机器学习(ML)在计算机视觉、自然语言处理和蛋白质结构预测等领域取得成功,但其在小分子药物发现领域的应用效果不佳。研究表明,这些方法在处理分布外数据时表现不佳,在不同基准测试上也难以保持一致性能。此外,对于已知的靶点或化学空间区域,简单方法或人类专家可能足够,复杂的ML方法在此背景下显得多余。ML在小分子药物发现中的主要应用包括分子设计、合成路径预测、分子对接和性质预测等。
在相关领域中,AlphaFold 2在蛋白质结构预测方面取得巨大成功,为小分子药物发现带来启示。然而,目前小分子药物发现尚未迎来类似的“突破时刻”,仅有渐进性提升。文章分析了小分子药物发现领域面临的挑战,并探讨了算法、数据质量与数量以及验证方法的改进方向,以期实现重大进展。
算法选择的影响
ML方法的发展通常遵循一种模式:提出新架构,用常用的训练集训练,再在常用的基准上测试,这通常只带来渐进性改进。以CASF-2016、USPTO-50k和HIV数据集为例,虽然在USPTO-50k上有所提升,但未出现类似AlphaFold 2的突破性进展。
如图1所示,其他领域的先进ML方法如Transformer和图神经网络(GNN)在小分子药物发现中的应用效果有限。GNN可直接编码化合物和靶标的分子结构,但其对提升小分子方法的准确性和通用性作用有限。扩展的GNN尽管具备三维结构的对称性,但实际效果并未显著提升。
扩散模型在其他领域成功生成图像,但在小分子领域中,虽然准确度有所提升,但未能生成物理上合理的分子或有效的蛋白相互作用。其他新方法如一致性模型和流匹配也难以单独实现突破,未来的进步需要依赖于算法、架构、数据质量和数量的结合。
数据量问题
小分子数据稀缺
ML方法通常需要大量数据才能有效建模,而生物和化学数据生成成本高、难以自动化,导致小分子数据远少于图像或文本数据。相比于大模型训练所需的亿级甚至万亿级数据,当前小分子领域的公开数据量仅有数万到十万级。此外,许多数据因知识产权原因由公司保留,导致公开数据主要依赖学术界或少量专利数据,如KIBA、USPTO和PDBBind等。解决数据稀缺对推动小分子ML研究至关重要。
结构数据
小分子ML方法的对接算法、结构生成方法和评分功能依赖于小分子蛋白质复合物结构数据,但目前可用数据集(如PDBBind)仅包含19,443个蛋白质-配体复合物,限制了模型性能提升。短期内难以显著增加数据量或多样性,因此需优化现有结构数据的利用。当前的解决方法如数据增强,其使用与晶体配体差异较小的交叉对接构象来训练生成器和构象分类器。此外,合成构象和基于PDBBind互动频率生成的合成口袋数据也能扩大数据集并提升准确性。自蒸馏和基于物理的预训练也可提高预测精度,未来可能会整合多种方法以进一步提升模型表现。
负面数据
在小分子药物发现中,负面数据(如无效结合或合成失败)很少公开,这通常由于发表仅记录正面结果引起的偏差。这种现象导致数据集正负比例失衡,影响ML模型包括如产率预测在内的分类准确性。药企有时需减少负面数据权重或增加正面数据采样,但这些数据通常不公开。
为解决此问题,建议严格的出版准则、合成负面数据和众包数据(如已停用的“暗反应数据库”),但效果可能有限。增加负面数据量的另一途径是从论文和实验结果中提取复杂数据,通过如ChemDataExtractor、DECIMER.ai和Nougat等工具可自动提取科学文献中的信息。
新颖数据源
药物发现领域的变革为数据增加带来了新途径。例如,众包药物发现通过开放合作的方式开发药物,使全球研究者可以基于已有实验数据提出化合物或创意,释放大量数据供ML利用。COVID Moonshot项目就是一个众包药物发现的例子,提供了470个晶体结构、2000多个化合物的IC50测试数据和3000多个合成化合物。
此外,联邦学习技术在药物发现中允许在不转移数据的情况下共享私有数据,如MELLODDY项目和Effiris项目通过联邦学习分别扩大了模型适用领域10%和83%。这些方法有助于增加ML模型的训练数据量,但数据质量同样重要。
数据质量控制
数据偏差
ML模型通过训练数据学习趋势,但可能学习到与现实不符的偏差,影响模型准确性。这在小分子研究中尤为常见,因数据多来源于不同来源,且采样偏向特定化学空间,从而导致偏差。数据偏差还包括“归纳偏差”,如虚拟筛选工具仅依赖配体特征而非蛋白-配体相互作用模式,影响模型推广能力。为解决此问题,可采用不对称验证嵌入等方法生成更严苛的训练-验证分割,以避免模型记忆配体特征。随着领域内对偏差问题的重视,避免无效偏差的学习或应用领域适应成为关键策略。
数据噪声
小分子数据的一个主要限制是噪声较多,通常由不同来源数据合并造成。例如,将不同实验条件下的IC50数据合并训练QSAR模型会导致不确定性增加,使模型精度指标虚高。此外,许多数据集中未标注不确定性,需依赖数据类型或实验近似估计。
另一噪声来源是假阳性结果,如泛试剂干扰化合物(PAINs),这些化合物易与多靶点非特异性结合,导致假阳性。现有方法可通过分子子结构标记检测PAINs,但数据集通常未检查这些标记。此外,基于PAINs靶点匹配频率的预测也显示出较高的噪声问题。为降低噪声,需建立易用的数据清理流程,促进实验与计算研究的协作,以优化数据质量。在小分子ML开发中,数据质量管理与验证是关键环节。
方法验证
揭露性能提升
小分子ML方法的验证通常通过使用与训练集同源的测试集或标准基准集进行,提升多为渐进性,难以证明其在药物发现中的独特优势。基线和消融测试可帮助评估模型特征和复杂性增加的实际效果。例如,简单的决策树评分函数仅基于配体或蛋白质特征,与更复杂方法的准确性相当,说明许多性能提升可能源于数据集偏差,而非通用物理特性。消融测试应更普遍,以便随着数据选择多样化,提供有效性验证。AlphaFold 2的消融测试显示,多项创新特性而非单一因素共同提高了模型精度。这些方法虽揭示改进来源,但是否适用于药物发现还需进一步验证。
鲁棒性测试
该领域方法通常在训练数据上进行评估,但实际药物发现中的数据类型可能不同,未被充分考虑。例如,基于ML的蛋白-配体对接常用“再对接”测试已知结构,导致对实际准确性过于乐观。当用更真实的测试集评估时,准确性显著降低。同样,逆合成方法常在单步预测上测试,但实际应用中通常结合路径搜索算法,单步准确性并不能反映完整路径的成功率。现有基准数据集规模较小,难以充分评估模型。为更贴近实际需求,需要更严格的验证和基准化,在线排行榜和公开“盲”预测竞赛(如D3R、CACHE)可为模型提供更公平的评估。这种稳健验证对确保ML在药物发现中的实际应用效果至关重要。
结论与未来展望
通过ML革新小分子治疗开发,不仅依赖算法的复杂性,还依赖于训练和验证数据的质量、多样性和数量。当前的关键挑战在于:ML模型对训练分布外数据的泛化能力差,且容易学习到数据集中的混淆趋势和偏差。这些问题表明,需重新聚焦数据和验证,才能充分发挥ML算法的潜力。
本文分析了公共数据的局限及其对模型训练和验证的影响,并探讨了未来的发展方向。为应对这些问题,建议采用数据增强、数据抓取、众包数据和联邦学习来增加数据量,并处理数据中的干扰因素,如PAINS化合物、实验条件噪声和数据偏差。此外,需使用严格的训练/验证数据划分,避免模型仅学习数据集偏差。随着这些改进,ML驱动的小分子药物开发仍具前景,但要实现这一潜力,需要平衡关注模型开发的各个要素,包括ML架构、数据质量和验证方法。
编译 | 于洲
审稿 | 王梓旭
参考资料
Durant G, Boyles F, Birchall K, et al. The future of machine learning for small-molecule drug discovery will be driven by data[J]. Nature Computational Science, 2024: 1-9.