DNA编码化合物库(DEL)技术是一种高效的小分子药物发现方法,能够对靶标蛋白进行高通量筛选,并提供广泛的数据。然而,DEL化合物库构建带来了庞大的“化学空间”的同时,产生的先导化合物也往往分子量较大,为后期的优化和类药性开发带来了挑战。
近期,中国科学院上海药物研究所陆晓杰课题组联合郑明月课题组提出通过整合亲和力筛选和光交联筛选,以增强DEL化合物库的“化学空间”多样性。同时,将DEL技术与人工智能(AI)相协同,共同促进药物的发现。相关成果于2024年10月在Journal of Medicinal Chemistry期刊上发表,题为“Enhancing the Predictive Power of Machine Learning Models through a Chemical Space Complementary DEL Screening Strategy”。
1 背景
DEL技术是将小分子通过共价方式附加到编码其化学结构的DNA标签上的集合。DEL可以包含数十亿种多样化的化合物,通过亲和选择筛选特定蛋白质靶点。结合的分子的DNA标签可以通过PCR扩增并测序,以识别潜在的活性物质。DEL已成功用于发现多种治疗靶点的新型抑制剂,并成为制药行业首次寻找活性物质的合理选择。然而,DEL的分析依赖于可视化软件,如DataWarrior和Spotfire,活性物质的选择通常是手动执行,这可能影响数据处理效率并忽略关键信息。此外,从文献获取的活性数据无法确保实验一致性,阻碍准确的模型构建。在此前的报道中,Google团队与X-Chem团队合作,根据DEL筛选结果为sEH、ERα和c-KIT三个靶点建立模型,并在后续的虚拟筛选中获得良好结果。
在之前的研究中,本文的研究人员证明了光交联筛选不仅可以识别通过亲和筛选富集的高亲和力分子,还能发现那些通常被亲和筛选忽视的中等亲和力小分子。然而,与通常需要两到三轮洗脱的亲和筛选不同,光交联筛选仅进行一轮洗脱。这一限制降低了光交联筛选数据中富集信号的扩增效果,使得数据分析变得困难。因此,理论上将这两种方法结合起来,可以通过DEL分子更全面地表征靶点结合信息。这种互补性使得光交联筛选成为DEL筛选方法的一种强大补充。
2 结果与讨论2.1 DEL文库选择
基于以上假设,研究人员选择了包含不同的骨架类型和反应组合的40个DEL库。这40个DEL库中包含多种主要架构和框架结构,包括线性库、三聚体库和各种杂环骨架库。这些组合库总共包含5.076亿个分子实体。各个库的组成如表1所示。
为了确定库中化合物的物理化学特性,研究人员随机选择了40,000个化合物子集,每个库取1000个,并进行了物理化学性质分析(图1A)。通过对数据集进行主成分分析(PCA),进一步将DEL的化学空间与DrugBank中的10,752种化合物、Natural Products Atlas 2.0 中的33,373种化合物进行了比较,揭示了DELs中的化合物与其他两个数据库的化合物在化学空间中存在一定的相似性(图1B)。
图 1. (A)从 40 个文库中随机选择的化合物的理化性质分布(分子量、AlogP、氢键供体、氢键受体、拓扑极性表面积和可旋转键)。(B)化学多样性分析(a)DrugBank 化合物和 40 种 DELs 化合物之间,(b)Natural Products Atlas 2.0 化合物和 40 种 DELs 化合物之间。
2.2 DEL筛选与数据分析
研究人员采用了经典的DEL可逆亲和力筛选和创新的光交联筛选两种策略(图 2)。值得注意的是,光交联筛选需要使用光反应性基团,而研究人员所选的DEL在其原始构造中缺乏这些基团。因此,研究人员对原始DEL进行了特定修改——双链DNA库经过酶反应转化为单链并引入带有光反应基团的单链——以使其符合光交联筛选的要求。
图 2. 亲和力筛选和酶切光交联筛的示意图。(A)亲和筛选过程包括将蛋白质固定在固体基质上,与 DEL 共同孵育,然后进行聚合酶链式反应(PCR)和测序。(B)光交联筛选过程将双链 DNA 文库转化为带有光反应部分的单链,在紫外线照射下与蛋白质发生共价相互作用,接着进行固体加载,洗脱未结合的 DEL 分子,随后进行 PCR 和 DNA 测序以完成筛选。
2.3 AI模型的建立与评价
按照上述筛选方法,研究人员分别筛选了BRD4、p300和WDR5三种蛋白。在获取了筛选数据后,分别过滤掉了NTC和非特异性结合的分子,并根据富集指数(Enrichment)和测序读数(Copy number)将数据划分为阳性数据和阴性数据。为了平衡数据量与模型学习结果,研究人员选择将最终训练集的阴性和阳性数据比例设定为5:1。所有阳性数据均被纳入,而阴性数据则根据库的大小从每个库中随机采样。
在对数据的初步研究中,研究人员对来自两种不同筛选方法的阳性数据进行了结构分析,提取并比较了它们的分子骨架、环片段和非环取代基。此外,对两种筛选方法获得的阳性数据进行了片段相似性比较及UMAP(Uniform Manifold Approximation and Projection)分析。这些片段相似性比较和UMAP结果显示了这两种筛选技术共享某些结构特征,同时又表现出独特成分,表明互补的化学空间(图3A, B)。
接下来,研究人员利用四种机器学习的模型:即AttentiveFP、图卷积网络(GCN)、消息传递神经网络(MPNN)和随机森林(RF),来训练DEL筛选数据。亲和筛选和光交联筛选数据集都被分别用于模型训练。训练过程中,未包含相关靶蛋白的细节。在模型评估后,研究人员发现三种图神经网络模型(GCN、MPNN和AttentiveFP)在性能上优于传统机器学习模型RF。而对比两种筛选策略,亲和性筛选数据得出的模型更优于光交联筛选模型(图3C)。
为了进一步提高预测精度,研究人员对每个靶标建立联合模型(joint model),该模型输出三个图模型预测概率的平均值。考虑到亲和筛选和光交联筛选之间内在的化学互补性,又进一步建立了亲和筛选和光交联筛选的协同模型(co-model),协同模型可以根据不同筛选的数据情况改变两种模型的权重。从ChEMBL数据库中收集了已发表的阳性数据(IC50 <10 μM),针对BRD4,p300和WDR5的样本量分别为1,744、219、276,形成测试集。同时,利用DUD-E网站生成了诱饵分子(decoys),选出与训练集结构相似度最高的前1,000个分子,建立名为MaxSimilarity1K的阴性数据集。
这些不同模型在ChEMBL数据集上评估的结果如图3D所示,亲和筛选和光交联筛选的协同模型(co-model)可以提高预测准确率,三个靶标的阳性数据预测准确率分别达到29.5%、36.5%和34.8%。与单个筛选方法相比,这种协同方法表现出了改进。在MaxSimilarity1K数据集上,研究人员采用检测率来估算模型对Decoys数据的阳性预测概率,较低的检测率表明模型在阳性和阴性数据之间具有更好的区分能力。T检验结果进一步表明这些模型的预测能力与随机猜测之间存在显著差异。这些发现共同表明,联合模型的预测能力基于对训练数据的真实学习,而非随机猜测(图3E)。
图 3.(A)BRD4结构提取结果的韦恩图。分别在分子框架、环片段和非环取代基方面进行了比较。粉色表示亲和筛选的结果,绿色表示光交联筛选的结果,重叠表示两种方法中相同的数据部分。(B)使用 UMAP 对 BRD4 选择结果的化学空间进行可视化(蓝点表示 BRD4 亲和选择结果,粉色点表示光交联选择结果)。(C)BRD4 模型的不同评估结果。AttentiveFP_affinity 表示使用 DEL 亲和选择数据进行了专门训练的 AttentiveFP 模型,而 AttentiveFP_pcl 指在 DEL 光交联选择数据上训练的 AttentiveFP 模型。该命名法同样适用于其余模型。(D)在 ChEMBL 数据集上评估的不同模型的性能。使用的 ChEMBL 数据集的 IC50 值都低于 10 μM。(E)在Decoys和 MaxSimilarity1K 数据集上评估的集成模型的性能。通过对Decoys数据集的预测来评估模型区分假阳性数据的能力。*:p<0.001;**:p<0.0001。
利用上述模型,研究人员从超200万的商业资源中和易于合成的文库中,预测筛选了一批化合物。经过类药性“5规则”过滤、聚类分析等,最终为BRD4选择了15种化合物,为p300选择了14种化合物,进行实验验证,结果如表2所示。
活性测试结果表明,在15个靶向BRD4的化合物中,4个化合物表现出显著的酶活性;而在14个靶向p300的化合物中,则有5个表现出活性。进而,研究人员对这些具有活性的化合物在ChEMBL数据库中进行了Tanimoto相似性搜索,其中最高的分子相似度仅为0.38,表明通过DEL筛选数据训练建立的AI模型所预测得到的活性化合物具有足够的新颖性和多样化的。而且,所预测得到的化合物通常分子量较小且具备良好的优化潜力,是药物开发的潜在候选物。
3 结论人工智能技术的兴起为各个领域带来了广泛的应用机会,尤其是在药物发现中, DEL技术展现了独特的优势。然而,DEL技术也存在局限性,并伴随着一定的改进需求。例如,如何拓展其在“亲和筛选”之外的用途,实现功能性筛选,以及如何解决数据处理中假阳性信号的问题;同时,如何构建高质量的化合物库也至关重要。
在本研究中,研究团队通过使用商业化合物库进行预测筛选,成功发现了针对BRD4和p300靶标的先导化合物,展现出良好的药物开发潜力。这一成果为针对未充分探索的靶标提供了新的药物发现途径。此外,本研究提出的协同模型(co-model)能够为不同子模型赋予不同权重,以更好地满足特定研究需求,为未来的优化工作指明了方向。事实上,单凭DEL数据构建的预测模型直接发现纳摩尔级别的活性化合物具有挑战性,通常需要进行大量湿实验验证。本研究的策略并不期望预测模型能直接识别出纳摩尔级别的活性分子,而是为药物化学优化提供了一种新的思路,尤其是在通过DEL筛选发现的活性化合物难以进一步优化时,这一策略为潜在药物候选物的开发与完善提供了宝贵的机会。随着AI技术的快速进步,DEL技术能够提供高通量且一致性良好的数据,特别是在未充分探索的靶标蛋白领域。DEL技术与AI的结合,为药物发现开辟了全新的、具有吸引力的研究方向。
中国科学院上海药物研究所博士索延瑞、苏州阿尔脉生物科技有限公司钱旭为本文的共同第一作者。中国科学院上海药物研究所陆晓杰研究员、郑明月研究员为论文通讯作者。本研究得到国家自然基金、国家重点研发计划资助。
原文链接
Yanrui Suo, Xu Qian, Zhaoping Xiong, et al. Enhancing the Predictive Power of Machine Learning Models through a Chemical Space Complementary DEL Screening Strategy. Journal of Medicinal Chemistry. (2024). https://doi.org/10.1021/acs.jmedchem.4c01416(点击下方阅读原文跳转)