鉴于细胞渗透性的实验测定往往耗时且成本高昂,计算机模拟方法提供了更具成本效益的预测途径。在此研究中,该课题组通过收集科学文献、专利和生物活性数据库的数据,建立了一个符合FAIR原则(Findable, Accessible, Interoperable, and Reusable,即可查找、可访问、可互操作、可重用)的全面数据库,包含4216个大环化合物的5638条细胞渗透性实验数据。该数据库可作为机器学习和深度学习预测模型的训练数据集。此外,该研究团队还引入了"酰胺比率"(Amide Ratio, AR)这一创新性分子描述符,首次实现了大环化合物的定量分类。这一免费在线资源将显著促进新型大环药物的开发设计。
数据收集
图1 非肽大环膜通透性数据库的构建工作流程及其功能
数据分析
数据库各子项分析
最终建立的数据库包含5638条来自不同实验方法的膜渗透性数据,其中84%来自科学文献、4%来自专利文献、11%来自ChEMBL数据库。数据库中的渗透性数据主要来自五类分子膜渗透性模型。其中PAMPA占比最高,达67%(3767条),值得注意的是91%的PAMPA渗透性数据来自同一篇文献。Caco-2细胞实验数据占26% (1502条),包含顶端到基底(PappAB)和基底到顶端(Papp BA)两个方向的表观渗透系数(Papp),以及加入转运体抑制剂后的相应值(PappAB+Inh. 和PappBA+Inh.)。通过计算外排比(ER = Papp BA/Papp AB),可评估化合物是否存在主动外排以及外排的程度。MDCK细胞实验贡献了264条数据,要用于评估被动和主动跨膜转运特性。
分子特性分析
研究团队对数据库中的大环化合物进行了全面的分子性质分析。首先,利用TMAP(Tree-MAP)对不同渗透性模型测得的化合物数据进行了可视化分析。其次,统计结果显示,虽然约半数化合物的分子量超过500 Da,但大多数化合物在极性(氢键给体 HBD、氢键受体 HBA、拓扑极性表面积 TPSA)和脂溶性(cLogP)方面仍符合Lipinski规则的界限。数据库中约9%的化合物属于'超越五规则'空间,这些分子可能在调节难治靶点方面具有独特优势。
图2 (a) 数据库中宏周期渗透率数据的嵌套饼图。内环表示不同类型的渗透性测定,外环表示终点。(b)非肽大环数据集(n=4216)结构多样性的TMAP可视化。树上突出显示了不同类型的渗透率测定。(c) 数据库中包含的大环的分子性质分布,如表示大小、极性、亲脂性、柔韧性和酰胺比的2D分子描述符所述。Ro5和Veber规则描述符的上限由灰色阴影表示。缩写:MW:分子量;MRS:大环尺寸;HBA:氢键受体;HBD:氢键供体;TPSA:拓扑极表面积;cLogP:计算出的亲脂性;Φ:基尔柔度指数;AR:酰胺比。
肽类与非肽类大环化合物的划分
在此之前,学界一直缺乏一个标准化的定量指标来描述大环化合物的肽类特征。为解决这一问题,研究团队提出了"酰胺比率"(AR)这一全新的分子描述符。首先考虑大环中的酰胺键数量(Number of Amide Bond, nAB),每个酰胺键(包括普通的NH-酰胺键和N-烷基化的酰胺键)都由三个原子(-C-N-Cα-)构成。然后将上述结果除以大环的环大小(Macrocycle Ring Size, MRS),即大环中所有原子的总数。故AR的计算公式为:AR = (nAB × 3)/MRS
基于AR值的分布特征,大环化合物可分为三类:非肽类(AR<0.3)、半肽类(0.3≤AR≤0.7)和肽类(AR>0.7)。PCA(Principal component analysis,主成分分析)结果验证了这一分类方法的合理性,不同类型的化合物在化学空间中呈现出明显的分布差异。
图3 (a) 通过将本文报告的非肽数据库(蓝色条,n=4216)和环肽数据库(CycPeptMPDB16,红色条,n=7849)中的大环组合获得的大环酰胺比(AR)的分布。该图是这样绘制的,即每个数据库的大环占100%。上图显示了按AR对大环的分类。非肽(1和2)、半肽(3)和肽(4)大环的代表性例子显示了从低到高的AR值。大环内的酰胺键已用蓝色阴影表示。(b) 主成分分析(PCA)比较了本文报告的数据库中环肽(CycPeptMPDB)和非肽和半肽的化学空间,并用箭头突出显示了描述符的贡献。前两个主成分解释了数据集中88.7%的方差。(c) 本研究中报告的大环化学空间使用前两个主成分进行描述,这解释了数据集中75.1%的方差。大环根据其酰胺比(AR)着色,两个PCA中有蓝色到红色的圆圈。PCA是使用数据库中为每个宏循环提供的10个描述符构建的。
网页数据库
研究团队开发了功能完善的在线数据库平台(https://swemacrocycledb.com/)。在浏览模块中,用户可以根据分子唯一ID、名称、实验模型类型、分子量等单个或组合条件筛选感兴趣的数据集,并以CSV格式导出。当用户点击特定分子ID时,系统会在新窗口中显示该分子的详细信息,包括名称、结构、渗透性数据和分子描述符,同时展示该分子的所有可用渗透性数据,以及具有相同"大环骨架"的类似化合物清单,这有助于用户探索结构相关分子。在下载模块中,用户可以下载完整数据集或自定义筛选的数据子集,导出的CSV文件不仅包含分子结构、细胞渗透性数据和分子描述符,还提供分子的肽类特征分类和原始数据来源信息。在统计模块中,平台支持对整体数据集及三个主要渗透性子集的细胞渗透性数据和分子描述符进行统计分析,并提供直观的数据可视化展示。这些功能的有机结合使得该数据库不仅方便用户查找和获取所需数据,还能帮助用户深入理解大环化合物的结构-性质关系,为药物设计提供有力支持。
图4(a)数据库中每个渗透率条目可用的报告和(b)“搜索”和“排序”功能的示意图。缩写:MW:分子量;HBA:氢键受体;HBD:氢键供体;cLogP:计算出的亲脂性;TPSA:拓扑极表面积;NRotB:可旋转债券的数量;Φ:基尔柔度指数;AR:酰胺比;Fsp3:sp3碳原子的分数;MRS:大环尺寸。
讨论与前瞻
然而,该数据库目前仍存在一些局限性。首先,由于缺乏可靠的计算方法来处理结构多样的大环化合物,目前数据库中并未包含3D结构信息和3D分子特征。此外,数据收集截止于2023年7月,这意味着之后发表的相关研究数据尚未被收录。
为解决这些问题,研究团队计划定期更新数据库内容,并在网站运行后及时修正发现的错误。总而言之,该研究为从事大环化合物研究的科研人员提供了宝贵的参考资源,同时还提出了一种收集和整理生物活性数据的方法论,从而充分发挥机器学习方法在药物研发项目中的潜力。
Feng, Q., De Chavez, D., Kihlberg, J. et al. A membrane permeability database for nonpeptidic macrocycles. Sci Data 12, 10 (2025).
https://doi.org/10.1038/s41597-024-04302-z
--------- End ---------