【佳作推荐】华盛顿大学与北京大学联合团队发表NMI论文:元学习ActFound化整为零,革新生物活性预测

学术   科学   2024-09-19 08:24   上海  

生物活性实验复杂且成本高昂,科研人员一直在寻找高效的计算机辅助预测方法。然而,生物活性实验种类繁多,不同来源的数据可能会带来误差。以常用的 ChEMBL 数据库为例,其数据来自多种生物活性实验,因实验种类和方法细节的不同,数据之间往往存在差异。甚至,由于单位不同,一些实验的数据无法直接合并或比较,例如百分比(%)、纳摩尔(nM)、分钟(min)等不同的单位。为解决此问题,常见的方法是根据算法的具体需求对数据进行筛选,合并满足要求的数据。但不同实验来源导致的数据差异仍然存在,这可能是限制当前算法精度的主要因素之一。

面对这一挑战,华盛顿大学的王晟教授和北京大学的张铭教授带领的联合团队提出了一种新思路:直接根据生物实验的类型划分数据,为每类实验建立专属的预测模型。在此过程中,团队采用了元学习(meta-learning)来获得一组最优的初始参数,使模型在面对新实验时,能够基于少量数据快速收敛,生成高效的预测模型。他们开发的算法名为 ActFound,可以作为一种基础算法应用于下游各类生物活性相关的预测任务,例如预测蛋白靶标亲合性、细胞增殖抑制率、化合物代谢稳定性等。相关研究成果近期已发表在《Nature Machine Intelligence》期刊上【1】。

具体算法的实现中,研究人员构建了一套结合元学习与配对学习的架构。首先,团队搜集了来自 ChEMBL BindingDB 数据库的生物实验数据,并以实验为单位对数据进行分组。以 ChEMBL 为例,该数据库包含 35,644 组活性数据,每组数据平均包含 39.3 个化合物。研究者将这些数据组按比例划分为训练集和测试集。然后,对于每一组训练数据,研究人员使用经过微调的Siamese 网络进行配对学习。该网络由两个共享参数的双层感知器构成,提取的化合物特征通过特征差异计算后,再经过一个全连接层进行线性变换,最后输出相对生物活性预测值。此类网络架构通常在配对比较任务上表现优异。训练过程中,模型每次接收一对化合物及其相对生物活性信息,化合物通过 Morgan 分子指纹进行编码,模型通过迭代不断优化,学习如何高效提取和比较化合物特征。

在配对学习的基础上,研究者引入了 MAMLModel-Agnostic Meta-Learning)算法来优化 Siamese 网络的学习过程。MAML 的目的是为不同实验(任务)找到一组通用的初始参数,使得模型能够在面对新的实验任务时,快速拟合并收敛。研究表明,MAML 在少样本学习中表现出色,较为符合先导化合物的活性优化场景。为了增强模型在新任务中的泛化能力,研究团队还结合了 KNN 算法。KNN 帮助模型在面对新实验时,找到数据库中相似的实验,并利用这些相似实验的数据,为新实验的训练提供参考,可以进一步提升模型的预测性能。

-1ActFound 的训练流程。a. 利用元学习在大规模实验数据上进行预训练;b. 在测试场景中结合 KNN 算法,加速预训练模型的拟合和收敛。

为评估算法性能,研究者引入多种基准模型和 ActFound变种进行了对比测试。首先在 ChEMBL BindingDB 的测试集上( 2a, 2b),每个实验组使用 16 个化合物数据进行微调。无论与ActFound 的变种模型还是其他基准模型相比,ActFound 𝑟2 RMSE 指标上均表现最佳,充分体现了其架构设计的优越性。在 FS-mol 外部数据集上( 2c),随着参考化合物数量的增加,各模型的性能普遍提升。在较多参考化合物的任务场景中,ActFound与最优模型表现相当,而在较少参考化合物的任务场景中,ActFound显著优于其他模型,凸显了其在小样本任务中的优势。此外,研究者还使用 t-SNE 可视化技术分析了算法的特征提取能力( 2f)。结果显示,相较于 MAML 算法较为混乱的分布,ActFound提取的化合物特征更为合理,同实验来源的相似化合物之间彼此靠近,证明了算法卓越的特征提取能力。

-2ActFound 与其他变种模型及基线算法在生物活性预测中的表现比较。a-h 显示不同数据集上的预测结果;f 展示 MAML ActFound 学到的化合物特征的可视化分析。

在配对化合物活性比较中的一个经典场景是相对结合自由能的预测,其中 Schrödinger 公司开发的 FEP+ 是该领域的领先商业工具,计算准确但耗时较长,每对化合物大约需要 24-48 GPU 核时的计算。研究者选取了两组 FEP 基准进行评估,每组包含 16 个实验,平均每组有 29 个化合物。从 𝑟2 RMSE 指标来看( 3),ActFound 同样表现优异。当提供 20% 的实验数据作为参考时,ActFound 相比其他模型能更有效的利用数据;而当参考数据增加到 40% 时,其表现甚至超越了 FEP+

-3ActFoundFEP+等算法在相对结合自由能预测上的表现比较

【小编评论】研究者在这项工作中推出了新型基础模型 ActFound,能够兼容各种类型的生物实验,只需少量参考样本便能作出有效预测,具有广泛的应用前景。然而,该算法也存在一些局限性,例如它仅利用了配体信息,并未将通常认为对预测准确性至关重要的蛋白信息纳入其中,因此在面对独特的分子结构时,模型可能无法充分学习和准确预测。另一方面,正如研究者在讨论中提到的,ActFound 目前仅使用简单的 Morgan 分子指纹作为输入。如果采用更先进的预训练模型来提取分子特征,模型的表现可能会进一步提升。

参考文献

【1】Feng, B., Liu, Z., Huang, N. et al. A bioactivity foundation model using pairwise meta-learning. Nat Mach Intell 6, 962–974 (2024). https://doi.org/10.1038/s42256-024-00876-w


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章