蛋白降解靶向嵌合体(PROteolysis TArgeting Chimeras , PROTACs)技术,自2001年由Crews团队首次提出以来已经得到了广泛的认可与应用。PROTACs由靶蛋白配体、连接链和E3泛素连接酶配体三部分组成。它通过与靶蛋白和E3泛素连接酶形成三元复合物来实现靶蛋白的泛素化和降解,而连接链在这一过程中起到关键作用,因为它的几何构型决定了复合物的稳定性,从而影响着降解的效率。与传统药物相比,PROTACs具有一些优势,如可以靶向“不可成药”靶点,在较低浓度下也能发挥作用等。然而,由于缺乏实验验证的可靠晶体结构以及清晰的构效关系,目前PROTACs的理性设计尤其是连接链的设计主要还是依赖于化学家的专业知识和实验验证技术。除此之外一些辅助PROTACs理性设计的计算方法如传统的分子动力学模拟和分子对接在某种程度上也促进了PROTACs的发展。近年来,随着人工智能技术的进步和PROTACs相关数据的积累,利用深度学习方法进行PROTACs理性设计研究也成为了一种趋势。近期,上海科技大学白芳研究员课题组在Briefings in Bioinformatics发表了题为 “ DiffPROTACs is a deep learning-based generator for proteolysis targeting
chimeras ” 的研究论文【1】。文中提出了一种融合扩散模型、图神经网络(GNN)和Transformer技术的PROTACs连接链生成模型DiffPROTACs,该模型通过输入分子片段以及指定连接链长度来实现连接链的生成和片段连接,最终输出一个完整的PROTAC分子。该模型的优势在于不仅可以输出传统的小分子还可以输出具有独特理化性质的PROTAC分子。DiffPROTACs使用了扩散模型框架(图-1a),通过扩散和去噪过程来训练和生成新数据。扩散过程是在多个时间步(T=500步)中逐步向分子样本(主要是连接链部分)添加噪声,最终使其呈现正态分布;而去噪过程则是根据上下文信息(如靶蛋白配体和E3泛素连接酶配体的空间结构)逐步恢复连接链的结构,并且通过使用O(3) 等变图 Transformer (OEGT) 模块学习和预测模型中的噪声来帮助去噪。OEGT模块使用Transformer来提取分子图中的节点和边的特征,同时使用GNN来更新分子图的坐标(图-1b)。该设计保证了分子在经过旋转或反射等几何变换后,其特征仍能保持一致性,即O(3) 等变性。在分子生成过程中,OEGT模块分为两部分更新:一部分是通过Transformer更新节点特征(即分子中的原子特征),另一部分是通过GNN更新节点坐标(即原子的空间位置)。简言之,OEGT模块主要用于学习如何处理分子的三维坐标信息和节点特征,以确保生成的分子能够保持物理和化学合理性,而该模块中的O(3) 等变性能够确保模型适应分子在三维空间中的变化,这对于生成具有复杂三维结构的PROTAC连接链尤为重要。
图-1 a. DiffPROTACs架构;b. OEGT模块架构。
为了进行模型训练和测试,作者共构建了三个数据集。其中传统的基于片段的药物设计数据集ZINC 和 GEOM是基于 ZINK20 和 GEOM 数据库,参考 2024 年 2 月发表在 Nature Machine Intelligence 上的连接链生成模型 DiffLinker 中的方法构建的【2】。对于ZINC数据集的构建,首先使用rdkit对Gómez-Bombarelli等人【3】从ZINC20数据库中随机挑选的约25万个分子生成最低能量构象作为参考三维结构,接着枚举结构中非官能团和非环处单键的双切组合,最后通过原子数量、可合成性和PAINS等标准过滤来构建最终的ZINC数据集。GEOM数据集以类似的流程构建,不同的是,该数据集中每个分子被分割为至少三个片段且包含ZINC数据集所缺乏的P元素。PROTACs 数据集是基于浙江大学侯廷军课题组开发的PROTAC-DB 2.0 数据库【4】构建的,作者收集了该数据库中的82个E3泛素连接酶配体、365个靶蛋白配体、1501个连接链和3270个PROTAC分子的二维结构,接着使用Schrödinger中的LigPrep模块进行随机三维结构生成,使用NetworkX中的子图同构模块对配体和连接链进行拆分,过滤后最终获得2813个可用于后续研究的PROTAC分子。在ZINC和GEOM数据集上的训练和测试结果均表明了DiffPROTACs在生成传统小分子方面的优越能力。由于PROTACs 数据集规模较小,而GEOM数据集中的连接链分布与PROTAC数据集中的较为相似(图-2),因此作者使用在GEOM上预训练的模型来进行PROTAC分子生成,但是结果不太理想,有效性仅为34.32 %,基于三个数据集中分子原子数量的差异,作者在 PROTACs 数据集上对模型进行了微调,测试结果与之前相比有明显的大幅提升,有效性达到了93.86 %。此外,作者对生成的总分子数和无效分子数做了统计分析,结果显示 DiffPROTACs-finetuning 在生成有效分子上明显优于 DiffLinker(图-3)。
图-2 三个数据集原子数量分布。
图-3 DiffLinker和DiffPROTACs-finetuning生成的PROTAC分子和无效PROTAC分子的原子总数、片段原子总数和连接链原子总数分布。
由于PROTACs是一类独特的分子,通常不符合类药五规则,因此作者将生成分子与训练集中分子的理化性质做了对比分析,结果表明了由DiffPROTACs生成分子的性质与真实的PROTACs之间的显著相似性(图-4),突出了DiffPROTACs的巨大潜力。
图-4 训练数据与生成数据类药五规则分布。
为了更进一步测试DiffPROTACs在实际应用场景中的潜力,作者对已有解析晶体结构(PDB code:8BEB,8BDT)但未在训练数据中出现的VHL配体和靶蛋白配体进行了连接,并将生成的分子构象与晶体结构中原有的分子构象进行了对比,结果显示两者的空间构象非常相似,RMSD值分别为0.25 Å和0.53 Å(图-5)。
图-5 生成linker构象(左)与原晶体结构中linker构象(右)对比。
由于DiffPROTACs在进行linker生成时需要用户自定义linker的长度,但是在实际应用场景中,合适的linker长度通常是未知的,考虑到这一点,作者基于PROTACs数据集进行了一系列的连接链生成,最后构建了一个连接链长度从5到28不等且具有高度多样性,包含了约260万个PROTAC分子的数据集(https://bailab.siais.shanghaitech.edu.cn/service/DiffPROTACs-generated.tgz)。由于湿实验资源密集和耗时的性质,现有的PROTACs数据集在数据量上无疑是受到限制的,因此该数据集在某种程度上是对现有PROTACs数据集有价值的补充,该数据集可以作为一个筛选库帮助研究人员获得具有特定属性的PROTAC分子进行湿实验验证或进一步结构优化。但是,有限的E3泛素连接酶配体和靶蛋白配体种类限制了该数据集中PROTAC分子的多样性,因此该数据集对于优化已知的PROTAC分子可能具有一定的意义,而对发掘更新的PROTAC分子的参考价值还有待讨论。小结:
DiffPROTACs以扩散模型为基础,通过引入O(3) 等变性,将GNN和Transformer的优势结合起来,能够有效学习分子的空间结构及特征更新,从而实现合理的PROTACs连接链生成,为PROTACs的设计提供了更广阔的空间,对于加速PROTACs的发现和开发也具有重要意义。随着人工智能技术的进步和PROTACs邻域的不断深入研究,相信未来将不再局限于通过限制靶蛋白配体和E3泛素连接酶配体,仅对连接链进行生成来获得新的PROTAC分子,对PROTAC分子全方面的重新生成亟待我们去探索。参考文献:
【1】Li F, Hu Q, Zhou Y, Yang H, Bai F. DiffPROTACs is a deep
learning-based generator for proteolysis targeting chimeras. Brief Bioinform.2024 Jul 25;25(5):bbae358.
【2】Igashov I, Stärk H, Vignac C. et al. Equivariant
3D-conditional diffusion model for molecular linker design. Nature Machine
Intelligence 2024 6(4):417-427.
【3】Gómez-Bombarelli R, Wei JN, Duvenaud D, Hernández-Lobato
JM, Sánchez-Lengeling B, Sheberla D, Aguilera-Iparraguirre J, Hirzel TD, Adams
RP, Aspuru-Guzik A. Automatic Chemical Design Using a Data-Driven Continuous
Representation of Molecules. ACS Cent Sci. 2018 Feb
28;4(2):268-276.
【4】Weng G, Cai X, Cao D. et al. PROTAC-DB 2.0: an updated
database of PROTACs. Nucleic Acids Res 2023;51:D1367-72.