Trends Pharmacol. Sci. | 利用计算科学推进PROTAC药物发展

学术   2024-11-23 00:02   韩国  

DRUGAI

本文介绍一篇由浙江大学侯廷军教授、中国药科大学孙慧涌研究员及碳硅智慧近期在药学领域权威期刊Trends in Pharmacological Sciences上发表题为《Development of PROTACs using computational approaches》的综述性论文,第一作者为浙江大学博士研究生戈婧萱。得益于事件驱动的作用机制,蛋白水解靶向嵌合体(PROTAC)已逐渐成为热门的治疗手段,特别是针对传统意义上难成药的靶点。随着计算生物学/化学的飞速发展,越来越多的CADD/AIDD方法被应用于PROTAC的设计。与此同时,PROTAC化学结构和活性相关的数据积累也为深度学习/机器学习(DL/ML)技术提供了宝贵的数据基础。

在本篇综述中,作者全面而深入地总结了最新进展,尤其聚焦于如何利用计算工具对POI-PROTAC-E3连接酶三元复合物的结构进行建模与评估。此外,作者介绍了PROTAC相关数据库,以及CADD/AIDD技术在PROTAC设计、活性预测和新靶标/E3连接酶发掘中的应用。鉴于已有PROTAC分子成功进入临床开发阶段,作者进一步分析了计算工具在预测PROTAC成药性方面的作用与价值。最后,作者针对当前数据资源有限所带来的挑战进行了深入剖析,并展望了该领域未来的发展趋势与研究方向。

图1. PROTAC的结构和工作机制


PROTAC介导的三元复合物的结构模拟与评估

高质量的POI-PROTAC-E3 ligase三元复合物对于PROTAC的理性设计至关重要,但有限的晶体结构却严重制约了我们对PROTAC构效关系的深入理解。在这种情况下,Drummond团队提出了若干种针对PROTAC介导的三元复合物结构建模新策略。其中,一种基于蛋白质-蛋白质对接的方法受到广泛关注。该方法首先通过蛋白-蛋白对接确定初始构象,进而在此基础上对PROTAC(或linker)的构象进行采样和优化。然而,利用该方法生成的构象集合仅有~40%的样本与晶体结构相似,因此,如何找到更有效的聚类与排序方法成为了复杂结构建模亟待解决的新挑战。最近,AlphaFold 3的出现使得直接预测PROTAC三元复合物的结合模式成为可能。


可用于分析的PROTAC相关数据库

利用计算机辅助技术进行PROTAC的合理设计在很大程度上依赖于已公开的实验数据。尽管如PubChem和ChEMBL等这类小分子数据库能提供部分PROTAC分子的相关信息,但这些信息对于开展高效的PROTAC设计而言仍显不足。为满足日益增长的PROTAC设计需求,多个专注于PROTAC的数据库与平台应运而生(见表1)。值得注意的是,2024年9月,Ge等人发布了PROTAC-DB 3.0(http://cadd.zju.edu.cn/protacdb),这是目前规模最大、信息最全面的PROTAC专用数据库,积累了超过6000个PROTAC分子数据,涵盖了其降解能力、结合亲和力、活性、渗透性和药代动力学参数等信息。


表1. 用于分析PROTAC化学结构、生物活性数据和鉴定潜在靶标或E3连接酶的数据库和平台


使用AI工具进行PROTAC设计

基于丰富的PROTAC相关实验数据,研究人员便能借助人工智能技术设计新颖的PROTAC分子。PROTAC的分子设计通常涉及三个组成部分:弹头、连接体(linker)和E3配体。弹头和E3配体的设计通常遵循小分子药物设计的原则,现有的小分子抑制剂或E3配体可以直接使用,也可以通过骨架跃迁或官能团修饰等技术进行进一步优化。然而,在实际的PROTAC设计中,linker的设计展现出了更高的复杂性与挑战性,因为它对PROTAC的整体构象及蛋白质降解效率起着至关重要的作用。传统的药物化学家会尝试用各种接头类型,并调节接头长度以筛选出具有高靶蛋白降解活性的PROTAC。但这种方法不仅耗时费力,而且效率有限。随着人工智能技术的飞速发展,如今已涌现出众多基于深度学习的模型,这些模型能够辅助设计或自动生成PROTAC的linker部分,从而极大地提高了设计效率与准确性。

图2. 用于PROTAC设计的分子表征和模型架构。


对PROTAC生物效应的预测

基于PROTAC-DB中丰富的PROTAC生物活性数据,利用DL模型预测PROTAC活性已成为可行。Li等人开发了的DeepPROTAC,将PROTAC分为弹头、E3配体和linker三大组件,并结合靶蛋白和E3连接酶口袋环境的信息,实现了对PROTAC活性的预测。而PROTACable方法则采用SE(3)-Transformer框架来预测PROTAC的降解能力,这种几何DL框架非常适合捕获PROTAC、POI和E3连接酶之间的复杂相互作用。


除了DL方法,基于结构的分析方法也被用于研究PROTAC。Xu等研究了影响PROTAC降解效率的关键因素,发现在四种相互作用情况中,包括KdTPE(三元结构的稳定),KdTP(靶蛋白-PROTAC相互作用)、KdEP(E3-PROTAC相互作用)和KdTPE/KdEP(钩协同性),POI-PROTAC-E3连接酶三元复合物的稳定性与PROTAC的降解效率(DC50)存在最强相关。他们还发现MM/GBSA可以准确预测PROTAC系统的稳定性和钩状效应。Tang等人则应用增强采样方法,包括τ-RAMD模拟和伞形采样,研究了PROTAC的动力学相互作用特征。Mai等人将结合CGMD模拟与FEP方法,揭示了PROTAC的协同作用机制。然而,鉴于PROTAC介导的靶蛋白降解机制复杂,考虑到完整降解系统的高级结构模拟可能是表征PROTAC活性最为直接的方法。这种方法不仅有望直接揭示PROTAC系统的深层次结构机制,还能为开发更加精准的AI模型提供有力支撑。

图3. 预测和分析PROTAC效应的计算机模拟方法。


新靶点和E3连接酶的发现

除了使用计算机模拟方法进行PROTAC效应的分子设计和预测之外,探索新(或难成药)的蛋白质靶标和E3连接酶也是至关重要的,这为治疗复杂疾病提供了更多机会。然而,当前多数PROTAC的设计仍集中于已知且充分研究的药物靶标,人类基因组中众多可调控蛋白质仍待挖掘。鉴于此,Xie等人创新性地采用预训练蛋白质语言模型ESM提取序列特征,并构建了基于随机森林算法的PrePROTAC分类器。通过该模型,他们成功筛选出600余种具有降解潜力的蛋白质,其中三种与阿尔茨海默病紧密相关。


同样值得关注的是,在人类基因组已知的600多种E3连接酶中,仅有VHL、CRBN等少数几种在PROTAC设计中得到广泛应用,这一局限性源于药物研发的早期导向。实际上,不同的E3连接酶针对特定靶标可能展现出独特的降解特性,为设计针对更难攻克蛋白质靶标的PROTAC提供了新思路。在此背景下,Liu等人开展了深入的生物信息学分析,成功鉴定出超过300种具有潜力的E3连接酶,为PROTAC研究开辟了新的方向。


PROTAC分子的成药性预测

随着PROTAC技术的发展,部分分子已进入临床试验。然而,PROTAC通常超过Lipinski五规则所界定的化学空间,这暗示着它们可能不具备小分子药物所特有的口服吸收理化特性。由于临床开发中的大多数药物都是口服的,因此PROTAC分子的成药性研究是其药物设计的核心环节。由于PROTAC在化学空间中与目前用于模型训练的分子存在较大差距,传统工具在预测其成药性时往往表现不佳。通过使用ML建模进行分析,Jiménez等人揭示了BRlogD和TPSA的相关性是决定PROTAC溶解度的关键因素。此外,Peteani等人专门评估了ML模型在预测PROTAC的ADME方面的性能。基于PROTAC成药性数据的迁移学习和微调策略有望提高相关预测的准确性。尽管DL/ML技术的引入为更精确地预测PROTAC的成药性提供了可能,但这些方法仍然需要大量的相关数据来进行模型训练。


克服数据稀缺的困境

当将DL/ML计算方法应用于PROTAC设计时,一个不可避免的挑战是数据的稀缺。这类方法的核心在于构建PROTAC(通常通过SMILES字符串或图表示法来描述)与其各项属性之间的映射关系。然而,当面临数据量匮乏或数据分布狭窄的情况时,模型极易陷入过拟合的困境,进而削弱其泛化性能。令人鼓舞的是,Zheng等人提出了一种可行的方法,可以在大型通用数据集(如ZINC)中识别与PROTAC具有相似性质的分子。考虑到小分子性质和活性预测领域的数据资源相对丰富,这一方法巧妙地利用这些与PROTAC有一定重叠但非完全一致的数据集,为模型训练构建了一个大规模的预训练数据集。随后,通过引入高质量的PROTAC数据集对预训练模型进行精细调整,从而有效提升了模型在PROTAC设计任务中的表现。这一创新方法不仅缓解了数据稀缺的问题,也为提升DL/ML模型在PROTAC设计领域的泛化能力提供了新思路。

参考资料

Jingxuan Ge, Chang-Yu Hsieh, Meijing Fang, Huiyong Sun, Tingjun Hou, Development of PROTACs using computational approaches, Trends in Pharmaceutical Sciences, 2024, https://doi.org/10.1016/j.tips.2024.10.006

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章