DRUGAI
今天为大家介绍的是来自西安电子科技大学李朋勇团队的一篇论文。准确预测药物反应是推动精准医疗和药物发现的关键。近年来,深度学习的最新进展为药物反应预测带来了新的希望。然而,由于缺乏便捷的建模工具,这一技术的广泛应用仍受到限制。为此,作者提出了DeepDR,这是首个专为药物反应预测设计的深度学习库。DeepDR通过自动化药物和细胞特征化、模型构建、训练与推理,大幅简化了建模流程,9行代码即可实现全部流程。该库提供了3种药物特征和对应的9种药物编码器,4种细胞特征和对应的9种细胞编码器,以及2种融合模块,能够实现多达135种用于药物反应预测的深度学习模型。此外,作者利用DeepDR建立了药物反应预测的Benchmark,并在用户友好的可视化界面(https://huggingface.co/spaces/user15632/DeepDR)中提供了最佳模型以供使用。DeepDR可以通过命令“pip install deepdr”安装。源代码和实验数据可以在(GitHubhttps://github.com/user15632/DeepDR)上获得。具体的教程和细节可以在DeepDR的文档(https://deepdr.readthedocs.io/en/latest/)中查阅。
引言
精准医疗旨在从分子层面为特定肿瘤量身定制治疗方案,而预测药物反应(DR)仍然是该领域面临的重大挑战。这一难题源于癌症多组学数据与治疗疗效之间复杂的非线性关系。准确的DR预测不仅有助于设计个性化治疗方案,还能显著提升治疗效果。近年来,深度学习作为一种先进的机器学习方法,在识别生物数据中的复杂模式(如癌症多组学信息和药物分子结构)方面展现了巨大潜力。这一优势推动了其在DR建模中的广泛应用,使其成为增强理解和预测能力的有力工具。然而,尽管该领域已开发出众多模型,仍缺乏一个统一、通用的框架来支持模型构建与训练。
当前用于DR预测的深度学习方法通常采用一种模块化的架构,包括药物建模、细胞建模和融合模块三个关键组件。药物建模的目标是有效表征药物的化学性质及其潜在的生物学效应。这通常通过将分子结构转化为便于计算处理的格式(如分子指纹、SMILES和分子图)实现,并借助深度神经网络(DNNs)、卷积神经网络(CNNs)以及图神经网络(GNNs)等模型学习相关特征信息。细胞建模则专注于处理细胞的生物学数据,包括转录组学、基因组学和蛋白质组学,通过DNNs和CNNs等技术捕捉其内部的复杂模式。融合模块则将药物建模与细胞建模的见解整合起来,常采用DNNs或注意力机制来预测药物反应。
除了基本的药物反应预测功能,这些模型还具有广泛的应用前景。例如,它们可以通过预测分子的药理学性质或生物活性来进行虚拟筛选,也可以通过分析组学数据来进行细胞分类。这种多功能性使深度学习模型在多个场景下高度适用。例如,临床研究人员可以利用这些方法分析特定疾病患者的基因组数据,从而研究基因突变对药物反应的影响;同样,计算生物学家也可基于不同数据集探索各种建模架构,以提升DR预测的准确性。然而,模型的构建和实现通常需要深厚的深度学习专业知识和大量编程工作。此外,适应现有开源工具的多样化编程接口,既耗时又复杂,成为一个亟需解决的痛点。
为解决上述问题,作者开发了DeepDR(Deep Drug Response),这是一个专为DR预测设计的基于Python的深度学习库。DeepDR包含3种药物特征和对应的9种药物编码器,4种细胞特征和对应的9种细胞编码器,以及2种融合模块,支持多达135种模型的实现。其设计充分考虑了临床研究人员和计算生物学家的需求,即便是编程基础有限的用户也能轻松上手。此外,作者通过整合多种数据集,对多个模型进行了实现和验证,展示了DeepDR在识别最佳建模策略方面的强大能力。为了进一步降低使用门槛,作者还开发了一个用户友好的可视化界面,使没有编程基础的用户也能便捷地应用最佳模型。
DeepDR库
图1 A-C
DeepDR开发了3个模块:药物编码器、细胞编码器和融合模块。首先利用编码器编码药物和细胞的特性。随后将编码后的信息整合到融合模块中以生成预测的药物反应(见图1 A)。
药物特征化 DeepDR提供了3种药物特征:分子指纹(FP)、简化分子线性输入规范(SMILES)和分子图(见图1 B)。
细胞特征化 DeepDR提供了4种细胞特征:表达谱(EXP)、通路富集评分(PES)、突变状态(MUT)和拷贝数变异(CNV)(见图1 B)。考虑到处理高维数据的复杂性,除了全基因组特征外,DeepDR还提供了基于基因子集筛选的特征。
药物编码器 DeepDR集成了9种药物编码器,包括基于FP的深度神经网络(DNN),基于SMILES的卷积神经网络(CNN)、门控循环单元(GRU)和长短期记忆(LSTM),基于分子图的图卷积网络(GCN)、图注意力网络(GAT)、MPG、AttentiveFP和TrimNet(见图1 B)。DNN将药物编码为单个向量,而其他架构编码为一系列向量,每个向量对应SMILES中的一个令牌或分子图中的一个原子。基于SMILES和分子图的编码器集成了嵌入层。
细胞编码器 DeepDR集成了9种细胞编码器,包括基于EXP、PES、MUT或CNV的DNN,基于EXP、PES、MUT或CNV的CNN,基于EXP的去噪自编码器(DAE)(见图1 B)。DAE以最小化细胞特征的重建损失为目标进行了预训练,取隐向量作为细胞的编码向量。
融合模块 DeepDR集成了2种融合模块,包括基于DNN和基于多头注意力(MHA)的架构(见图1 B)。细胞编码器将细胞编码为单个向量,而药物编码器将药物编码为单个向量或一系列向量。在基于DNN的架构中,利用全局平均池化或全局最大池化等技术将一系列向量压缩为单个向量。在基于MHA的架构中,利用注意力机制将一系列向量压缩为单个向量,其中细胞向量作为查询,药物向量作为键和值。在这两种架构中,都将压缩后的药物向量和细胞向量相加或连接起来,然后将它们输入一系列线性层,以预测药物反应。
DeepDR集成了癌细胞系百科全书(CCLE)和癌症药物敏感性基因组学数据库(GDSC),并允许用户使用自己的数据集。药物反应使用以下几个指标进行量化:自然对数转换的最大半抑制浓度(IC50),剂量-反应曲线下的面积(AUC)和活性面积(ActArea)。为了支持验证模型性能,DeepDR提供了四种数据集分割策略:common random、leave-cell-out、leave-drug-out和strict split(见图1 C)。
编程框架
图1 D
DeepDR将DR预测的工作流程简化为7个部分,每个部分都被封装为一个类或函数,以增强便利性(见图1 D):(1)使用Data.DrData构建药物反应数据,包括细胞药物对、相应的药物反应、细胞和药物特征;(2)使用.clean()和.split()对药物反应数据进行清洗和拆分;(3)使用Data.DrDataset实例化数据集;(4)使用Data.DrDataLoader载入数据集以用于模型训练和验证;(5)然后利用Model.DrModel构建DR预测模型;(6)使用Model.Train对模型进行训练,同时评估性能以确保有效性;(7)最后Model.Predict利用从模型训练中获得的知识预测药物反应。关于编程框架,更多的教程和细节可以在DeepDR的文档(https://deepdr.readthedocs.io/en/latest/)中查阅。
药物反应预测Benchmark
表1 在CCLE数据集上的leave-cell-out性能
表2 在CCLE数据集上的leave-drug-out性能
表3 在GDSC2数据集上的leave-cell-out性能
表4 在GDSC2数据集上的leave-drug-out性能
为了构建药物反应预测基准,作者利用DeepDR构建了16个深度学习模型,涵盖了药物和细胞不同的特征表示、不同编码器和融合模块,并对比了leave-cell-out和leave-drug-out两种数据集划分方法。从实验结果可得出以下结论: (1)药物分子图和细胞转录表达谱是最佳的两种特征;(2)在leave-drug-out的划分方法下模型预测精度要差于leave-cell-out的划分方法,表明预测新药的反应是一个更难的挑战;(3)预训练技术有助于提升药物反应预测准确性。
参考资料
Zhengxiang Jiang, Pengyong Li, DeepDR: a deep learning library for drug response prediction, Bioinformatics, Volume 40, Issue 12, December 2024, btae688,
https://doi.org/10.1093/bioinformatics/btae688