【佳作推荐】Guichaoua小组JCIM论文:基于LCIdb数据集的Komet算法应用于大规模药物-靶标相互作用预测

学术   2024-11-07 08:56   上海  
在药物发现过程中,药物-靶标相互作用(DTIs)预测算法发挥着至关重要的作用。尤其是,解决新治疗靶点的去孤儿化问题以及确认表型筛选所得候选药物的靶标,均需依赖于对蛋白质和分子空间开展的大规模预测工作。而目前针对DTI的预测模型主要依赖于监督学习算法,这些算法必须具有广泛适用性,即使在数据可能稀缺的蛋白质或分子空间区域,也能实现可靠的预测。Paris Sciences & Lettres-PSL University Gwenn Guichaoua等人针对这一问题,解决了两大关键挑战:建立大规模高质量的训练数据集和设计可扩展的预测方法,以便有效地在大数据集上进行训练。近日,该项工作发表在美国化学会出版的Journal of Chemical Information and Modeling期刊上(J Chem Inf Model. 2024 Sep 23;64(18):6938-6956)1】。
作者首先依托Consensus数据库构建一个高质量的大规模DTI数据集。Consensus数据库综合了多个核心资源,包括ChEMBLPubChemIUPHAR/BPSBindingDBProbes & Drugs的数据并对其中的化合物实施了严格的标准化流程,包括脱盐处理、标准SMILES生成、互变异构体规范化及分子结构校验等步骤。在此基础上,作者设定了三项标准以进一步精炼数据集,具体包括:
(1)化学结构质量控制:仅纳入在所有数据源中配体分子的SMILES表示一致、分子量介于100至900g/mol之间,并且至少靶向一种人源蛋白的DTI。
(2)生物活性数据过滤:仅保留至少在一个源数据库中具有有效生物活性数据(包括Ki、Kd或IC50的负对数形式)的DTI。针对多个源数据库中重复出现的测试数据,仅采纳数据差异不超过1个数量级的DTI。
(3)DTI二元分类标记:依据生物活性数据的阈值,将DTI转换为二元相互作用(按Kd、Ki、IC50的顺序判断)。具体而言,若平均生物活性值小于100nM,则将该DTI标记为正样本;若平均生物活性值大于100μM,则标记为负样本。

经过上述严格筛选与标记,最终构建了一个高质量的数据集LCIdb,其中包含271,180个配体分子、2,060种蛋白、396,798个正相互作用以及7,965个负相互作用。

为了评估LCIdb数据集在化学空间覆盖方面的性能,作者使用t-SNE算法对基于Tanimoto核计算得出的分子特征进行降维处理,从而在二维平面上实现了高维分子空间的可视化。如图2所示,LCIdb不仅在分子数量上远超BIOSNAPDrugBankBindingDB等数据库,而且在分子的多样性方面也表现出显著优势。尽管整个化学空间庞大且充满未知LCIdbt-SNE图中仍展现出了更广阔的覆盖范围,这意味着它在化学空间上实现了更优的采样,且分布更均匀,从而提供了更为全面的化学空间覆盖。

1、基于分子特征的t-SNE算法二维分子空间表示,其中蓝色表示大规模的LCIdb数据集,红色则代表中等规模的DrugBankBIOSNAPBindingDB数据集。

LCIdb数据集为基础,作者对设计的可扩展算法Komet进行了全面评估。Komet是一种用于大规模药物-靶标相互作用(DTI)预测的高效算法,它使用分子核函数和蛋白核函数的Kronecker积,构建出描绘分子-蛋白作用对的核函数,并基于SVM算法实现高效的分类预测。。整个算法流程如图-2所示,具体分为三个步骤:首先,通过局部对齐核(Local Alignment kernel),计算蛋白质特征,以及利用Tanimoto核计算分子特征。其次,使用Kronecker核将分子和蛋白质的特征组合成描述分子-蛋白作用对的成对特征。最后,使用SVMLCIdb数据集上训练模型,构建出能够准确预测分子和蛋白质相互作用的模型。

2Komet用于药物-靶标相互作用(DTI)预测的全局框架。

作者通过精确度-召回曲线下的面积(AUPR)作为评价指标,在LCIdb_Orphan数据集上探究分子和白质特征表征方法对Komet预测性能的影响。研究中考虑了三种分子特征(TanimotoECFP4GNN supervised contextpred)和四种蛋白质特征(LAkernelUniProt LAkernelProtBertProtT5XUniref50ESM2)的不同组合,并给出每种组合的AUPR值及其标准差。结果显示,Tanimoto核特征与LAkernel和特征的组合在LCIdb_Orphan数据集上表现最佳,AUPR值高达0.87,而GNN supervised context特征与ESM2的组合表现最差为0.83。这一发现强调了选择合适的分子和蛋白质特征对于提高预测性能的重要性。此外,作者还在中等规模数据集BIOSNAPBindingDBDrugBank上对比了KometConPLexMolTransRF算法在预测蛋白质和分子相互作用方面的表现。结果显示,Komet在所有数据集上的表现均优于ConPLexMolTrans,这表明Komet在中等规模数据集上的卓越预测性能。在大型数据集(LCIdbUnseen_drugsUnseen_targetsOrphan)上,作者同样评估了KometConPLexMolTrans算法的表现。在LCIdb数据集上,Komet的表现最佳,AUPR值为0.99,其次是RF0.98。这些结果进一步验证了Komet算法在大型数据集上的高效性和准确性,,特别是应用于复杂的药物-靶标相互作用预测任务。

在大规模骨架跃迁问题的应用中,作者使用了LH基准测试(https://github.com/iktos/scaffold-hopping)来评估不同算法解决骨架跃迁问题的能力。该基准测试集精心设计了144对配体与69种不同蛋白的结合情况,其中每对配体包含一个已知活性的配体和一个被视为未知活性的配体,后者被混入499个诱饵分子中以增加挑战性。算法经过训练后,需根据预测的结合概率对未知活性和及诱饵分子进行排序。作者采样三个关键指标全面评价算法的性能:累积直方图(CHC)、CHC曲线下的面积(AUC)以及未知活性在前1%5%最佳排名中的检索比例。实验结果表明,KometConPLex算法在LCIdb大型数据集上训练时的性能优于在BindingDB中型数据库上训练的性能(图4)。值得注意的是,KometLCIdb上训练后,成功地在50%的案例中将未知活性分子排在前5%的位置。这一表现超越了ConPLex算法。这一结果充分证明了Komet算法中利用(分子,蛋白质)对的张量积派生特征相比于ConPLex中深度学习算法学习到的特征,能够更精准地捕捉药物-靶标相互作用的决定性因素。

3、算法累积直方图曲线(在给定排名下检索到未知活性分子的累积比例)

小结:

该研究工作基于公开蛋白-配体亲合性数据构建了LCIdb DTI数据集,该数据集在规模和化学空间覆盖范围上均超越了当前多数公共数据集。作者所设计的可扩展算法Komet基于Kronecker积构建配体-蛋白作用对特征,能更精准地捕捉DTI的关键因素因此在处理大规模DTI预测和骨架跃迁问题上,展现出了卓越的性能。Komet的开源软件版本现已发布,科研人员可通过访问以下网址(https://komet.readthedocs.io)获取。

参考文献

【1】 Guichaoua G, Pinel P, Hoffmann B, Azencott CA, Stoven V. Drug-Target Interactions Prediction at Scale: The Komet Algorithm with the LCIdb Dataset. J Chem Inf Model. 2024 Sep 23;64(18):6938-6956. doi: 10.1021/acs.jcim.4c00422. Epub 2024 Sep 5. 

ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章