Nat. Chem. Biol. | 虚拟筛选库扩展的建模

学术   2024-08-25 00:01   韩国  

DRUGAI

今天为大家介绍的是来自Brian K.Shoichet团队的一篇论文。最近,“实物”(tangible)虚拟库已经使数十亿种分子变得触手可及。对这些分子进行优先合成和测试需要计算方法,例如分子对接。它们的成功可能取决于库的多样性、与生物类似分子的相似性以及随着库的扩展,受体适应性和伪影的变化。作者将一个包含300万种“库存”(in-stock)分子的库与数十亿种实物库进行了比较。与“库存”分子相比,实物库中对生物类似分子的偏向性减少了1.9万倍。同样,在五次超大库的分子对接活动中,数千种排名靠前的分子,包括实验中表现活跃的分子,也与生物类似分子不同。同时,随着库的扩展,发现了更适合的分子,评分随着库的增长呈对数线性改善。最后,随着库规模的增加,排名异常靠前的稀有分子也增多。虽然这些伪影的性质因目标不同而变化,但它们出现的预期不会改变,并且通过简单的策略可以减少其影响。

考虑到估计有超过种类药物分子是可能存在的,在高通量筛选中随机筛选到个分子,理论上可能永远不会奏效。一种被广泛提及的解释是,筛选库远非随机,而是偏向于那些蛋白质在进化过程中已经学会识别的分子:代谢物、天然产物及其模仿药物——作者称之为“类生物”分子。这一观点的含义是,随着化学库的扩展,它们应该继续偏向于类生物分子。虽然这一观点很受欢迎,但从未被前瞻性地测试过。


随着超大型、按需合成或“实物”库的出现,这一测试机会已经到来。这些虚拟库由以前未曾合成过但可以容易合成的分子组成。自2016年以来,这些库已经将可获取的分子数量从350万扩展到超过290亿。虽然这些库无法通过经验进行筛选,但可以通过计算方法优先选择其中的分子进行合成和测试,通常使用分子对接。事实上,这些超大型实物库的分子对接已经为多个靶点发现了高效分子,其亲和力通常在中纳摩尔甚至高皮摩尔范围内,这些结果通常优于对库存集合(in-stock collection)进行对接的结果。如果化合物筛选的成功反映了库中对类生物分子的偏向,那么人们会预期这些新的超大型库及其产生的命中分子,会与在“现货”库中观察到的代谢物、天然产物和药物的偏向性相似。由于作者了解这些库中筛选的每一个分子的身份,因此可以明确地测试这一观点。


同时,考虑实体库中还有哪些其他因素促进了对接成功,以及其他库筛选方法的成功,以及随着库的不断增长可能遇到哪些挑战,也显得颇有趣味。例如,随着库的增长,库分子与其受体靶标的契合度是否会提高,如果会,那么提高的速度是多少?随着库的增长,来自库筛选的高排名分子是否会被少数化学类型所主导,还是多样性得以保持?随着库的增长,利用对接评分和采样中弱点的伪影出现的可能性是否也会增加?在本文中,作者探讨了随着库的增长,与生物类似分子的相似性如何变化,高排名分子的契合度和化学多样性如何随库的增长而变化,以及作者如何预测罕见但排名较高的伪影随库增长的变化。即使在该领域的早期阶段,所出现的结果也足够强烈,足以提出策略来最大化超大型库筛选的成功率。


与生物类似分子的相似性随库大小变化


图 1


对高通量筛选(HTS)平台和“库存”库的一个有趣观察是,与随机预期相比,它们与生物类似分子(代谢物、天然产物和药物)的相似性高出1000倍以上。为了研究这种与生物类似分子的相似性如何随库大小变化,作者将350万库存库和310亿按需制备库与世界各地的药物、代谢物和天然产物(“生物类似”分子)进行了比较。使用ECFP4拓扑指纹,作者计算了每个库分子与每个生物类似分子之间的Tanimoto相似性。在此比较中,Tanimoto系数(Tc)代表两个分子(库和生物类似分子)之间共享的特征数除以特征总数。Tc为1表示两者相同,而0.2的得分则表示相似性低到基本上没有意义。如之前所见,库存集与生物类似分子的相似性远超预期(图1a,蓝色曲线),其中有10,000个库存分子与代谢物、天然产物或药物相同(图1b)。相反,当库从350万库存分子增长到30亿个实体分子(增长886倍)时,尽管库的大小增大了三个数量级,但与生物类似分子的Tc值>0.8的分子数量实际上减少了2.3倍(图1a,橙色曲线)。与生物类似分子相比,实体库的大部分增长都来自于随机相似性区域,该区域的峰值约为 0.25Tc;在这一区域,实体库比库存库增长了3000倍。在随机相似性和完全同一性的两个极端之间,30亿实体库与生物类似分子的相似性下降速度(图1a,橙色曲线)远快于350万库存库(图1a,蓝色曲线)。当与生物类似分子的基本完全同一性(0.95 < Tc ≤ 1.0)达到时,只有0.000022%(700个分子)的按需制备库符合条件,而“库存”分子中有0.42%符合条件,减少了19,000倍。因此,尽管使用新的超大库进行的对接活动已返回具有高命中率的高效分子,但这些新库并未保留库存库和高通量筛选库所特有的对生物类似分子的强烈偏好。


当然,尽管整个库并不如此,但实际对接命中物可能仍与生物类似分子相似。因此,作者绘制了来自五个靶标的大库对接命中物与生物类似分子的相似性图,包括两个G蛋白偶联受体(GPCRs)29,30、第三个整体膜蛋白和两个酶:D4多巴胺受体22、AmpC β-内酰胺酶23、褪黑素受体25、σ2受体21和SARS-CoV-2的Nsp3宏域31(图1c)。在所有五次对接活动中,对接优先分子与生物类似分子的Tc值均小于0.6,峰值在0.3至0.35的Tc值范围内,这些相似性值与随机分子对的预期值相差不大。在选定的用于合成和测试的分子(橙色条,图1c)以及实验测试中发现对靶标有活性的分子子集(蓝色条,图1c)的分布上,差异很小。


对接分数随库大小而提高

随着库的增长,是否能发现越来越多有利的分子,将决定我们应该将可触摸库扩展到何种程度。理想情况下,我们想知道对接分子的亲和力和命中率如何随库大小而提高,但确定这一点将是一项昂贵的任务。作为替代方案,我们可以思考对接分数如何随库大小而提高。虽然对接分数(包括其错误和近似值)可能是与结合可能性的弱联系,但作者发现,在两个系统(多巴胺受体和受体)中,它与命中率相关,并且是对接筛选中选择分子的主要标准。


作者将越来越大的库与、和5HT2A受体进行对接,以研究对接分数如何随库大小而变化。作者首先分别将3.44亿、14亿和17亿个分子与这三个受体进行对接;然后,从这一最大集合中随机挑选出越来越大的库子集30次,子集大小从增加到超过个分子,增量为半对数。对于每个子集,测量了排名前5000的分子的分数和支架(分为四个等级)以及分数优于某一阈值的分子数量。

图 2


随着子集从105个分子增长到超过109个分子,针对所有三个靶标的排名最前的5000个分子的分数均单调提高(图2a)。对于5000个分子中的每个四分位数,这种改善大致呈对数线性关系,但得分最高的分子除外,其增长更快,并且似乎不会随库大小而饱和。虽然曲线似乎存在一些负曲率,但这主要反映了从小型对接库中得分改善更大;在超过100万个分子的情况下,随着库大小的对数增加,变化率似乎保持稳定。简而言之,随着库的扩大,排名最前的对接分子的拟合度稳步提高,至少在对数尺度上没有出现饱和的迹象。


对接分数的提高可能反映了库中随着增长而出现的新支架,也可能反映了库中已存在分子的类似物的优化。为了探究这一点,作者对每个库子集中的前5000个分子进行了Bemis-Murcko支架分析(图2b)。这些支架可分为两类:没有类似物的单体支架和存在类似物的支架。通过绘制单体支架、组支架中的类似物以及所有排名前5000的分子的分数变化图,作者观察到,随着库的增长,单体和类似物簇均有助于提高对接分数。虽然排名前5000的类似物比例随库大小增加而增加,但两类分子均有助于在十亿分子范围内提高分数。


作者还可以探究的是,在实验上可能结合的分子的数量如何随库大小而变化。通常,由于对接中的近似值和错误,这很难确定,但是,至少对于和受体,已经通过测试对接评分范围内的约500个分子,实验测量了命中率随对接评分的变化情况21,22(尚未对5HT2A受体进行此操作,因此将其排除在此分析之外)。对于这两个靶标,均显示出一条带有高命中率平台的S形曲线;处于此平台上的分子具有高结合可能性。对于D4和σ2受体,平台分别由≤-60和≤-55 DOCK评分单位定义。此有利评分区域中的分子数量和支架数量均随库大小而增加(图2c,d),这表明不仅找到了更适合位点的分子,而且随着库的增长,还发现了更多类型的此类分子(图3)。

图 3

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Lyu, J., Irwin, J. J., & Shoichet, B. K. (2023). Modeling the expansion of virtual screening libraries. Nature chemical biology, 19(6), 712-718.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章