人工智能技术在生物医药领域的广泛应用,极大加速了药物发现的进程。然而,受限于生物医学领域普遍存在的数据量有限问题,现有的许多模型仍然存在着泛化能力不强、可解释性一般的问题,即便在干实验测试指标上表现良好,但在应对现实世界复杂的药物发现情境时,往往难以提供准确、可靠的预测,从而增加了研发决策的难度和风险。因此,为人工智能模型所做预测的不确定性提供准确评估的方法,其重要性日益水涨船高。与此同时,现有的不确定性量化方法还不能稳健、一致地为模型对新数据的预测给出其不确定性。面对这一问题,诺华公司的Rodríguez-Pérez等人近期报道了一个不确定性量化的测试基准框架UNIQUE,能够针对不同的应用场景对多种不确定性量化(uncertainty quantification,UQ)方法进行标准化的统一评估,进而为用户提供不依赖于模型算法本身的最佳UQ方案。该工作发表在美国化学会出版的Journal of Chemical Information and Modeling期刊上【1】。
图1:UNIQUE库的整体结构
人工智能领域中的不确定性量化旨在评估模型预测与真实结果之间相关的可能性,从而为模型使用者应该在何时以及以何种程度信任模型的预测结果提供关键信息,进而辅助最终决策,并降低失败的风险。由于UQ结果会受到所使用的数据集、预测任务和模型算法的影响,因此为了评估不同的UQ方法,作者将UNIQUE设计为在给定的数据集上进行UQ指标评估的基准框架,用户可以仅提供数据集的划分、标签、特征和模型的最终预测值来测试不同的UQ指标,而不受到模型使用何种算法、框架的限制。UNIQUE的整体框架包括了四个主要模块,分别规定了输入类型、不确定性指标或方法、误差预测模型以及对UQ方法的评估指标(图1)。其中,误差预测模型通过简单的机器学习模型直接预测原始模型的误差,因此可以视作一种特殊的UQ指标。最终,UNIQUE会通过多维评估测试,为用户在不同应用场景下选择最适合的UQ方法提供参考。
图2:UNIQUE库的工作流和具体组成
现有的UQ指标大致可分为基于数据的和基于模型的指标两类。不难理解,对于数据量有限的情况下,原始模型在预测那些“远离”训练数据的新样本时有着更高的不确定性。对于回归问题而言,模型预测的区间大小或更本质的方差高低则从模型角度反映了预测的不确定性。因此,作者选取了到k-NN训练集数据的特征距离和到训练集数据的核密度估计(KDEs)两种基于数据的UQ指标,以及模型对于同一测试样本上的预测方差(UNIQUE目前仅针对回归问题)作为基于模型的UQ指标。除了这些基础指标外,作者还引入了能够整合二者的两类转化UQ指标,分别是将距离转化为方差后的方差和以及DiffkNN值(图2)。为了全面地评估不同UQ指标的效果,作者将三类测试纳入到评估过程中:基于排序的评估方法能够通过比较预测误差的排序和不确定性的排序来衡量UQ指标能否准确反映原始模型的预测误差,例如Spearman相关系数;基于校准的评估方法则是从误差分布的角度,分析不确定性预测与真实的误差分布是否一致,例如平均绝对校准误差(MACE);负对数似然等基于严格打分规则的评估方法则在整合原始模型预测和UQ指标为预测结果的分布后,直接评价预测分布与标签的理论真实分布之间是否接近(图2)。通过这三类测试,UNIQUE会为每个UQ指标基于bootstrapping计算其评估得分,再使用Wilcoxon秩和检验对不同UQ指标的评估得分分布进行两两比较,最终选取评估得分显著胜出次数最多的UQ指标作为最佳指标输出。
图3:logD7.4数据集上的UQ指标部分评估结果
为了展示UNIQUE的使用方法,作者预先使用ChEMBL数据库中的一个子集构建了预测小分子化合物亲脂性logD7.4的随机森林模型,再通过UNIQUE端到端地输出该模型的多种UQ指标,并对这些指标进行了评估比较,标注出了在相应测试中表现最佳的UQ指标(图3a、b)。结果表明,基于随机森林模型的误差预测模型在基于排序的测试中表现最优,提示其更善于区分化合物的预测置信度,可被用于定义原始模型的应用域,剔除低置信度的亲脂性预测结果;而转化的UQ指标方差和在整合了基于数据和基于模型的UQ指标后,面对基于校准的测试表现更加出色,提示其能更准确地估计预测区间,或有助于构建主动学习中的查询函数,选择预测区间宽度较大的未标注样本进行标注和学习。这一案例研究说明了,在不同测试背景下,模型的最佳UQ指标并不一定相同,用户可以根据具体的需要选择在相应评估测试中表现最佳的UQ指标。小编评论:
本文介绍了由诺华公司Rodríguez-Pérez等人开发的首个不确定性量化测试基准框架UNIQUE,实现了对多种基础UQ指标计算及评估测试的整合,为针对目标模型和数据集选择准确、稳健的UQ方法提供了一个便捷直观的解决方案。另一方面,作为一个开源的Python库,UNIQUE为日后引入更加先进的UQ指标及其评估测试方案搭建了基本框架,为日后不确定性量化领域的研究成果提供了开放公平的展示舞台,具有良好的发展潜力。参考文献:
【1】Jessica Lanini*, Minh Tam Davide Huynh, Gaetano
Scebba, Nadine Schneider, and Raquel Rodríguez-Pérez*, UNIQUE: A Framework for
Uncertainty Quantification Benchmarking. J. Chem. Inf. Model., 2024, 64(22),8379–8386. https://doi.org/10.1021/acs.jmedchem.4c01632.