Food Anal. Methods:结合机器学习和3D-QSAR精确设计磺胺类药物半抗原

学术   2024-08-25 22:19   北京  

引言

磺胺(SAs)是一类含有对氨基苯磺酰胺抗菌药(图1a广泛应用于畜牧养殖,然而SAs在动物源性食品中残留并进入人体内,不断蓄积后,威胁着消费者健康因此,迫切需要开发灵敏、简单、快速、高通量的检测方法以严格监管动物源性食品中SAs残留。如今,最常用的SAs快速检测方法是基于单克隆抗体(mAb)的免疫分析方法灵敏度和特异性取决于mAb的亲和力和交叉反应性(CR),而这两个指标又由半抗原的结构决定。根据R取代基的不同,SAs可分为五类:单环SAs、含有五元环的双环SAs、含有六元环的SAs、含有卤素的SAs和多环SAs为了获得SAs广谱特异性单克隆抗体,免疫原必须最大限度地暴露SAs的公共结构对氨基苯环酰胺基于上述考虑,在N原子的R取代基上设计与载体蛋白氨基偶联的羧基(图1aChen设计并合成了带有噻唑环的半抗原(图1b,得到了一种可以识别15SAsmAb 2G3然而CR不能满足市场检测的要求因此,需要理论模型来分析mAbCR与化合物结构之间的关系,为SAs半抗原结构的精确设计提供理论支持以获得具有更高亲和力和更广谱特异性的mAb
1 SAs的公共结构和半抗原结构:a SAs的公共结构;b mAb 2G3免疫半抗原结构;c mAb 3D1免疫半抗原结构

定量结构-活性关系(QSAR)使用理论计算和统计分析工具来研究化合物结构包括二维(2D)和三维(3D)分子结构与其生物效应(如药物活性、毒性、药效药代动力学参数和生物利用度)之间的关系。作为一种重要的药物设计方法,QSAR已广泛应用于化学和制药领域,如环境化学、物理化学和药物开发。如今,3D-QSAR也常用来解释mAbCR然而,3D-QSAR存在一些局限性:(1)它取决于特定的软件;(2它基于分子叠合,通常对结构类似物更有效;(3)分子描述符的类型是有限的,仅基于电场和力场。目前,机器学习方法已广泛应用于生物医学领域。由流行的机器学习算法集成的QSAR方法可用于弥补传统QSAR方法的缺点,其优点在于1)有数千个分子描述符可供选择,大大提高了化学空间描述的准确性2)许多先进算法可用于获得更精确的模型3)建立的模型可以开放获取,供其他研究人员使用和共享。

本文通过分析mAb 2G3亲和力与化合物结构之间的关系,建立了CoMFA和机器学习方法的精确模型。基于mAb 2G3模型,设计了新的半抗原结构(图1c到了可以识别27SAsmAb 3D1。然后,构建了基于CoMFA和机器学习方法的mAb 3D1模型通过比较mAb 2G3mAb 3D1的模型,阐明了影响mAb亲和力的半抗原结构和物理化学因素,为进一步精准设计SAs半抗原提供了新思路。

研究内容

1.基于Sybyl软件的Topomer CoMFA模型构建结果

IC50代表着mAb 2G3mAb 3D127SAs的亲和力和CR,将mAb 2G3mAb 3D127SAsIC50转换为pIC50-logIC50并导入数据集中。Topomer CoMFA是将CoMFATopomer技术结合,不需要分子叠加,且Topomer CoMFA结果可以直接用于虚拟筛选。Topomer通过三个步骤产生1)将完整的分子切割成两个或多个片段,并生成它们的3D构象2)片段上断裂的可旋转键在3D空间中叠加成一个固定向量,导致片段的位置和方向发生变化3) 根据经验规则调整片段构象以获得Topomer

基于mAb 2G3mAb 3D1所构建的Topomer CoMFA模型交叉验证相关系数Q2范围为0.096-0.121(>0.5具有统计学意义),表明所构建的模型没有预测能力,可能是因为切割的片段没有明显的规律性。

2.基于MOE软件的CoMFA模型构建结果

27SAs的空间构象进行,选取合适的探针原子置于每个网格点上计算分子和场的之间的相互作用,记录空间不同坐标下相互作用的能量值,获取分子场的数据。将这些数据和pIC50分别作为独立变量和因变量来建立关系。

mAb 2G3mAb 3D1CoMFA模型分别使用基于药效团和骨架的叠合,12所示。结果显示基于骨架叠合CoMFA模型预测能力优于药效团叠合的模型;此外,基于mAb 3D1数据集建立的模型留一法交叉验证的Q2和测试集的R2高于mAb 2G3,表明mAb 3D1模型具有好的预测能力。此外,在所建立的两种模型中,静电场的贡献值比立体场大得多,可知静电场在模型中发挥主要作用

1 使用AutoGMA构建的mAb 2G3数据集的CoMFA模型

Overlap:基于药效团叠合中的原子叠合评分,PH4:药效团特征标R:芳族或π-环中心,H:疏水性,d:投射供体,a:投射受体,NOC组分数量,GridsQSAR模型网格点数量。SSE:均方误差。R2:相关系数,Q2:留一交叉验证相关系数,P:药效团叠合S骨架叠合S:E立体和静电的缩写 

2 使用AutoGMA构建的mAb 3D1数据集的CoMFA模型
3.CoMFA模型的SAR分析

基于mAb 2G3叠合得到CoMFA模型等势图2所示。绿色和黄色区域分别表示这些基团可以增强或弱化合物活性蓝色和红色区域表示带正电和带负电的基团可以增强化合物活性

2 mAb 2G3与代表性SAsCoMFA模型等势图:a SAb SMZc SDd SCZe SQXf 27SAs叠合图

对于单环SAsmAb 2G3显示出相对较低的亲和力。如2a所示,SA的酰氨基是电负性的附近蓝色区域表明适当引入正电性基团有利于提高活性。对于五元环的双环SAs五元环上取代基的位置至关重要2b,图S4c所示,SMZSMT邻位上的甲基远离黄色区域,活性并没有受到影响SMX间位的甲基靠近黄色区域(图S3bSIZ五元环上带负电荷的氧原子靠近蓝色区域(图S4d导致mAb 2G3对其亲和力降低。对于六元环的双环SAsmAb 2G3SMR的亲和力优于SD原因是SMR靠近绿色小斑块的甲基起了重要作用S3c2c)。对于含单甲氧基(包括SMSMMSMPSL)的SAs,嘧啶环上甲氧基的位置至关重要。如S3eS4h所示,对于甲氧基对位上SMSMP分子结构完全伸展没有空间位阻,并且带负电荷的甲氧基与左侧的红色区域重叠,因此mAb 2G3对其表现较高的亲和力。对于间位和邻位上含有甲氧基(SMMSL),由于空间位阻导致mAb 2G3表现出相对较差的亲和力S4f/i此外,甲氧基的供电子能力强于甲基,使mAb 2G3甲氧基SAsSMSMPSMM)的亲和力优于甲基SAsSDSMRSM2)。SCPSCZ所含的氯原子是强电负性,与红色区域相对应因此mAb 2G3SCPSCZ的亲和力均较高。如S3f所示,SBM的苯环是电负性的,靠近蓝色区域,导致mAb 2G3SBM的亲和力较差。在之前的研究中,苯环常作为半抗原的R取代基,然而小鼠血清对SAs没有产生抑制作用分析实验结果和已建立的mAb 2G3理论模型,可能是因为苯环的供电子能力相对较差。为了提高R取代基的给电能力,在苯环上引入了氮原子,设计了一种具有嘧啶环的新半抗原获得的mAb 3D1mAb 2G3SAs灵敏、更广泛。

S3 mAb 2G3CoMFA模型等势图:a STZb SMXc SMRd SM2e SMf SBM
S4 mAb 2G3CoMFA模型等势图:a SGb SNc SMTd SIZe SSDf SMMg SDXh SMPi SLj SPk SNTl SPZm SSZn PST

基于mAb 3D1建了CoMFA模型,发现此模型主要也受到电场的影响(S:E=0.142:0.858)。对于单环SAsmAb 3D1mAb 2G3亲和力更高。对于五元环的双环SAsmAb 3D1SMX显示出最的亲和力3bS5a/b所示,mAb 3D1两个甲基的SMX的亲和力优于仅含一个甲基的SMT和没有甲基的STZ。对于六元环的双环SAs,如3cS5c/e所示,靠近R基团上方绿色区域的甲基在增强mAb 3D1SM2的亲和力方面起着至关重要的作用。与SM2相比,mAb 3D1对没有甲基的SD和有一个甲基的SMR的亲和力相对较弱。如S6c-e所示,随着R基团体积的增加,mAb 3D1SAs的亲和力有所

3 mAb 3D1与代表性SAsCoMFA模型等势图:a SAb STZc SDd SCPe SQXf 27SAs叠合图

S5 mAb 3D1CoMFA模型等势图:a SMTb SMXc SMRd SMe SM2f SBM

S6 mAb 3D1CoMFA模型等势图:a SGb SNc SMZd SIZe SSDf SMMg SDMh SDXi SMPj SLk SPl SNTm SCZn SPZo SSZ

基于mAb 2G3mAb 3D1CoMFA结果,可以半抗原结构进行精确调整。具体来说,mAb 3D1半抗原结构的嘧啶环可以用吡嗪环或噻嗪环代替。此外,还可以引入大于六元环的萘等结构来设计新的半抗原结构。

4.机器学习模型的结果

数据集的准备和划分

SAs结构经过加氢、能量最小化、去除金属离子和电荷处理后,27SAs分为训练集和测试集。在此,手动选择了CoMFA模型五个代表性SAsSASMTSDMSCPPST)作为测试集

分子描述符的选择

在机器学习方法模型构建的过程中,MOE软件计算了432个二维描述符,涵盖了基本构成、拓扑关系和电荷。对于描述符选择,每个数据集都由三种算法进行计算:多元线性回归(MLR偏最小二乘回归(PLS)以及支持向量回归(SVR,每种算法都结合了双变量优化算法:蚁群算法ACO)和非支配排序遗传算法IINSGA-II)。作为单目标优化算法,蚁群算法可以优化子集对应的模型性能,由回归算法的R2表示作为多目标优化算法,NSGA-II可以在一定程度上同时优化描述符的数量和模型性能。通过蚁群算法和NSGA-II,找到三种算法可以使用的最优描述符组合(表3。将获得的描述符子集通过Konstanz信息挖掘器(KNIME)中的MLRPLSSVR进行机器学习建模。

3 ACONSGA-II方法的特征选择结果

对于ACO,参数设置为:验证=LOO,迭代次数=200α=2β=2;对于NSGA-II,参数设置为:验证=LOO,迭代=200Pc=0.6Pm=0.03其他参数为默认值。

最终模型中使用的最佳组合以粗体标记

一般来说,ACONSGA-II选择的描述符子集结合这三种算法可以构建性能优异的模型。LOO交叉验证的Q2和模型的均方根误差(RMSE)分别为0.669~0.9190.134~0.475。从数据集的角度来看,mAb 3D1模型的Q2RMSE优于mAb 2G3模型从优化算法的角度来看,NSGA-II选择子集中的描述符数量少于ACO,且NSGA-IIQ2在大多数情况下更高。这说明NSGA-II不仅保证了模型的性能,而且有效地去除了相关性较低的描述符,简化了模型。

模型的性能

基于上述结果,进一步分析了每个数据集分别对应MLRSVRPLS的最佳组合。选择具有最佳性能和最少描述符的模型同时,该模型在LOO交叉验证和测试集中也应表现最佳结果如4所示。LOO交叉验证的预测值与mAb 2G3mAb 3D1真值之间的关系分别如45所示。模型的LOO交叉验证Q2RMSE的范围分别为0.785~0.9520.136~0.319测试集的R2RMSE分别为0.687~0.9800.077~0.251。对于mAb 2G3SVR算法构建的模型表现出了最佳性能,其LOO交叉验证Q2和测试集R2分别为0.9520.980。对于mAb 3D1SVR模型也具有最佳性能,其LOO交叉验证Q2和测试集R2分别为0.8910.948,说明两种模型均具有高性能和较强预测能力。

4 三种机器学习方法对mAb 2G3mAb 3D1的建模结果
RMSEcvRMSEtLOO验证和测试集的RMSEQ2cvR2tLOO验证和测试集的R2

4 mAb 2G3数据集的MLRSVRPLS模型的预测值与实验值的关系图

5 mAb 3D1数据集的MLRSVRPLS模型的预测值与实验值的关系图

SAR分析和描述符的重要性

5总结了优化mAb 2G3mAb 3D1两个数据集的最佳描述符组合时,分子描述符出现的频率。描述符在所选子集中出现的频率越高,其重要性就越高本研究进一步探索化合物结构与mAb亲和力之间的关系。基于这些关系,可以实现SAs半抗原结构的精确调整。

5 mAb 2G3mAb 3D1模型中出现频率最高的描述符

对于mAb 2G3模型,最重要的描述符是出现六次的GlobVAdjMa、密度和BCUT-SMR-2。深入分析这四描述符,VAdjMa的调整是最容易实现的。化合物结构中的不饱和键越多,mAb对该化合物的亲和力就越高这一结论从理论上证实了半抗原的R取代基从含两个不饱和键的五元环(mAb 2G3的半抗原结构)变为含有三个不饱和的六元环(mAb 3D1的半抗原的结构)。对于mAb 3D1模型,三个描述符(b_ara_heavykier 2)在优化的描述符子集中出现了五次。重原子的数量与mAb 3D1的亲和力呈负相关,而芳香键的数量与mAb 3D1亲和力呈正相关这一结论与CoMFAmAb 3D1分析结果一致mAb倾向于与含有大体积R取代基SAs结合。

基于对mAb 2G3mAb 3D1模型的描述符分析,新的半抗原结构设计中,可以考虑加入大体积的R取代基,SQX可以作为增加芳香键的参考mAb 3D1半抗原的嘧啶环可以被喹喔啉环取代。

结论

研究分别基于药效团和骨架叠合构建了针对SAs广谱特异性mAb 2G3mAb 3D1CoMFA模型分别基于mAb 2G3mAb 3D1建立了机器学习的模型。本研究结合CoMFA分析和机器学习方法提出了一种互补的分析策略,以明确化合物结构与mAb亲和力之间的关系,指导新半抗原结构的精确设计。然而,本研究构建的模型也存在一定的局限性数据集中的样本数量在某些情况下,样本划分很容易影响模型的稳定性。在未来的研究中,将提高数据量和质量,以建立更稳和准确的模型。

原文出处:Chen Y, Qian J, Liang R, et al. Precise hapten design of sulfonamides by combining machine learning and 3D-QSAR approaches[J]. Food Analytical Methods, 2022, 15(4): 1085-1097.

原文链接:https://link.springer.com/article/10.1007/s12161-021-02179-x

指导教师:王战辉

抗体故事分享基于抗体的分析方法研究进展,欢迎投稿!
点击下方链接,轻松关注!

抗体故事
分享中国农业大学沈建忠院士团队王战辉教授课题组抗菌药物环境污染物、激素等小分子化合物半抗原设计、单克隆抗体发现和进化、免疫传感原理和构建、免疫检测技术及产品研发等方面的研究进展。联系方式:zhanhui.wang@foxmail.com
 最新文章