【引言】
磺胺(SAs)是一类含有对氨基苯磺酰胺的抗菌药物(图1a),广泛应用于畜牧养殖业,然而SAs在动物源性食品中残留并进入人体内,不断蓄积后,威胁着消费者健康。因此,迫切需要开发灵敏、简单、快速、高通量的检测方法以严格监管动物源性食品中的SAs残留。如今,最常用的SAs快速检测方法是基于单克隆抗体(mAb)的免疫分析方法,其灵敏度和特异性取决于mAb的亲和力和交叉反应性(CR),而这两个指标又由半抗原的结构决定。根据R取代基的不同,SAs可分为五类:单环SAs、含有五元环的双环SAs、含有六元环的双环SAs、含有卤素的SAs和多环SAs。为了获得SAs的广谱特异性单克隆抗体,免疫原必须最大限度地暴露SAs的公共结构对氨基苯环酰胺。基于上述考虑,在N原子的R取代基上设计与载体蛋白氨基偶联的羧基(图1a)。Chen等设计并合成了带有噻唑环的半抗原(图1b),得到了一种可以识别15种SAs的mAb 2G3,然而其CR仍不能满足市场检测的要求。因此,需要理论模型来分析mAb的CR与化合物结构之间的关系,为SAs半抗原结构的精确设计提供理论支持,以获得具有更高亲和力和更广谱特异性的mAb。图1 SAs的公共结构和半抗原结构:a SAs的公共结构;b mAb 2G3的免疫半抗原结构;c mAb 3D1的免疫半抗原结构定量结构-活性关系(QSAR)使用理论计算和统计分析工具来研究化合物结构〔包括二维(2D)和三维(3D)分子结构〕与其生物效应(如药物活性、毒性、药效药代动力学参数和生物利用度)之间的关系。作为一种重要的药物设计方法,QSAR已广泛应用于化学和制药领域,如环境化学、物理化学和药物开发。如今,3D-QSAR也常用来解释mAb的CR,然而,3D-QSAR存在一些局限性:(1)它取决于特定的软件;(2)它基于分子叠合,通常对结构类似物更有效;(3)分子描述符的类型是有限的,仅基于电场和力场。目前,机器学习方法已广泛应用于生物医学领域。由流行的机器学习算法集成的QSAR方法可用于弥补传统QSAR方法的缺点,其优点在于:(1)有数千个分子描述符可供选择,大大提高了化学空间描述的准确性;(2)许多先进算法可用于获得更精确的模型;(3)建立的模型可以开放获取,供其他研究人员使用和共享。本文通过分析mAb 2G3的亲和力与化合物结构之间的关系,建立了CoMFA和机器学习方法的精确模型。基于mAb 2G3模型,设计了新的半抗原结构(图1c),得到了可以识别27种SAs的mAb 3D1。然后,构建了基于CoMFA和机器学习方法的mAb 3D1模型,通过比较mAb 2G3和mAb 3D1的模型,阐明了影响mAb亲和力的半抗原结构和物理化学因素,为进一步精准设计SAs半抗原提供了新思路。1.基于Sybyl软件的Topomer CoMFA模型构建结果IC50值代表着mAb 2G3和mAb 3D1对27种SAs的亲和力和CR,将mAb 2G3和mAb 3D1对27种SAs的IC50值转换为pIC50(-logIC50),并导入数据集中。Topomer CoMFA是将CoMFA和Topomer技术结合,不需要分子叠加,且Topomer CoMFA结果可以直接用于虚拟筛选。Topomer通过三个步骤产生:(1)将完整的分子切割成两个或多个片段,并生成它们的3D构象;(2)片段上断裂的可旋转键在3D空间中叠加成一个固定向量,导致片段的位置和方向发生变化;(3) 根据经验规则调整片段构象以获得Topomer。基于mAb 2G3和mAb 3D1所构建的Topomer CoMFA模型交叉验证相关系数Q2范围为0.096-0.121(>0.5具有统计学意义),表明所构建的模型没有预测能力,可能是因为切割的片段没有明显的规律性。将27种SAs的空间构象进行叠合,选取合适的探针原子置于每个网格点上计算分子和场的之间的相互作用,记录空间不同坐标下相互作用的能量值,获取分子场的数据。将这些数据和pIC50分别作为独立变量和因变量来建立关系。mAb 2G3和mAb 3D1的CoMFA模型分别使用基于药效团和骨架的叠合,如表1和表2所示。结果显示,基于骨架叠合的CoMFA模型预测能力优于药效团叠合的模型;此外,基于mAb 3D1数据集建立的模型留一法交叉验证的Q2和测试集的R2均高于mAb 2G3,表明mAb 3D1模型具有更好的预测能力。此外,在所建立的两种模型中,静电场的贡献值比立体场大得多,可知静电场在模型中发挥主要作用。表1 使用AutoGMA构建的mAb 2G3数据集的CoMFA模型
Overlap:基于药效团叠合中的原子叠合评分,PH4:药效团特征标签,R:芳香族或π-环中心,H:疏水性,d:投射供体,a:投射受体,NOC:组分数量,Grids:QSAR模型网格点数量。SSE:均方误差。R2:相关系数,Q2:留一法交叉验证相关系数,P:药效团叠合,S:骨架叠合,S:E:立体和静电的缩写
表2 使用AutoGMA构建的mAb 3D1数据集的CoMFA模型基于mAb 2G3骨架叠合得到的CoMFA模型等势图如图2所示。绿色和黄色区域分别表示这些基团可以增强或减弱化合物活性。蓝色和红色区域表示带正电和带负电的基团可以增强化合物活性。图2 mAb 2G3与代表性SAs的CoMFA模型等势图:a SA;b SMZ;c SD;d SCZ;e SQX;f 27种SAs叠合图
对于单环SAs,mAb 2G3显示出相对较低的亲和力。如图2a所示,SA的酰氨基团是电负性的,附近的蓝色区域表明适当引入正电性基团有利于提高活性。对于含五元环的双环SAs,五元环上取代基的位置至关重要,如图2b,图S4c所示,SMZ和SMT邻位上的甲基远离黄色区域,活性并没有受到影响,而SMX间位的甲基靠近黄色区域(图S3b),SIZ五元环上带负电荷的氧原子靠近蓝色区域(图S4d),导致mAb 2G3对其亲和力降低。对于含六元环的双环SAs,mAb 2G3对SMR的亲和力优于SD,原因是SMR靠近绿色小斑块的甲基起了重要作用(图S3c和图2c)。对于含单甲氧基(包括SM、SMM、SMP和SL)的SAs,嘧啶环上甲氧基的位置至关重要。如图S3e和图S4h所示,对于甲氧基在对位上的SM和SMP,分子结构完全伸展,没有空间位阻,并且带负电荷的甲氧基与左侧的红色区域重叠,因此mAb 2G3对其表现出较高的亲和力。而对于间位和邻位上含有甲氧基(SMM和SL),由于空间位阻导致mAb 2G3表现出相对较差的亲和力(图S4f/i)。此外,甲氧基的供电子能力强于甲基,使mAb 2G3对含甲氧基SAs(SM、SMP和SMM)的亲和力优于含甲基SAs(SD、SMR和SM2)。SCP和SCZ所含的氯原子是强电负性,与红色区域相对应,因此mAb 2G3对SCP和SCZ的亲和力均较高。如图S3f所示,SBM的苯环是电负性的,靠近蓝色区域,导致mAb 2G3对SBM的亲和力较差。在之前的研究中,苯环常作为半抗原的R取代基,然而小鼠血清对SAs并没有产生抑制作用,分析实验结果和已建立的mAb 2G3理论模型,可能是因为苯环的供电子能力相对较差。为了提高R取代基的给电能力,在苯环上引入了氮原子,设计了一种具有嘧啶环的新半抗原,获得的mAb 3D1比mAb 2G3对SAs更灵敏、更广泛。
图S3 mAb 2G3的CoMFA模型等势图:a STZ;b SMX;c SMR;d SM2;e SM;f SBM图S4 mAb 2G3的CoMFA模型等势图:a SG;b SN;c SMT;d SIZ;e SSD;f SMM;g SDX;h SMP;i SL;j SP;k SNT;l SPZ;m SSZ;n PST基于mAb 3D1构建了CoMFA模型,发现此模型主要也受到静电场的影响(S:E=0.142:0.858)。对于单环SAs,mAb 3D1比mAb 2G3的亲和力更高。对于含五元环的双环SAs,mAb 3D1对SMX显示出最高的亲和力,如图3b和图S5a/b所示,mAb 3D1对含两个甲基的SMX的亲和力优于仅含一个甲基的SMT和没有甲基的STZ。对于含六元环的双环SAs,如图3c和图S5c/e所示,靠近R基团上方绿色区域的甲基在增强mAb 3D1对SM2的亲和力方面起着至关重要的作用。与SM2相比,mAb 3D1对没有甲基的SD和有一个甲基的SMR的亲和力相对较弱。如图S6c-e所示,随着R基团体积的增加,mAb 3D1对SAs的亲和力有所增强。
图3 mAb 3D1与代表性SAs的CoMFA模型等势图:a SA;b STZ;c SD;d SCP;e SQX;f 27种SAs叠合图图S5 mAb 3D1的CoMFA模型等势图:a SMT;b SMX;c SMR;d SM;e SM2;f SBM
图S6 mAb 3D1的CoMFA模型等势图:a SG;b SN;c SMZ;d SIZ;e SSD;f SMM;g SDM;h SDX;i SMP;j SL;k SP;l SNT;m SCZ;n SPZ;o SSZ基于mAb 2G3和mAb 3D1的CoMFA结果,可以对半抗原结构进行精确调整。具体来说,mAb 3D1半抗原结构的嘧啶环可以用吡嗪环或噻嗪环代替。此外,还可以引入大于六元环的萘环等结构来设计新的半抗原结构。
SAs结构经过加氢、能量最小化、去除金属离子和电荷处理后,将27种SAs分为训练集和测试集。在此,手动选择了CoMFA模型中五个代表性SAs(SA、SMT、SDM、SCP和PST)作为测试集。在机器学习方法模型构建的过程中,MOE软件计算了432个二维描述符,涵盖了基本构成、拓扑关系和电荷。对于描述符的选择,每个数据集都由三种算法进行计算:多元线性回归(MLR)、偏最小二乘回归(PLS)以及支持向量回归(SVR),每种算法都结合了双变量优化算法:蚁群算法(ACO)和非支配排序遗传算法II(NSGA-II)。作为单目标优化算法,蚁群算法可以优化子集对应的模型性能,由回归算法的R2表示;作为多目标优化算法,NSGA-II可以在一定程度上同时优化描述符的数量和模型性能。通过蚁群算法和NSGA-II,找到三种算法可以使用的最优描述符组合(表3)。将获得的描述符子集通过Konstanz信息挖掘器(KNIME)中的MLR、PLS和SVR进行机器学习建模。
对于ACO,参数设置为:验证=LOO,迭代次数=200,α=2,β=2;对于NSGA-II,参数设置为:验证=LOO,迭代=200,Pc=0.6,Pm=0.03,其他参数为默认值。一般来说,ACO和NSGA-II选择的描述符子集结合这三种算法可以构建性能优异的模型。LOO交叉验证的Q2和模型的均方根误差(RMSE)分别为0.669~0.919和0.134~0.475。从数据集的角度来看,mAb 3D1模型的Q2和RMSE优于mAb 2G3模型;从优化算法的角度来看,NSGA-II选择子集中的描述符数量少于ACO,且NSGA-II的Q2在大多数情况下更高。这说明NSGA-II不仅保证了模型的性能,而且有效地去除了相关性较低的描述符,简化了模型。基于上述结果,进一步分析了每个数据集分别对应MLR、SVR和PLS的最佳组合。选择具有最佳性能和最少描述符的模型,同时,该模型在LOO交叉验证和测试集中也应表现最佳,结果如表4所示。LOO交叉验证的预测值与mAb 2G3、mAb 3D1真值之间的关系分别如图4和图5所示。模型的LOO交叉验证Q2和RMSE的范围分别为0.785~0.952和0.136~0.319,测试集的R2和RMSE分别为0.687~0.980和0.077~0.251。对于mAb 2G3,SVR算法构建的模型表现出了最佳性能,其LOO交叉验证Q2和测试集R2分别为0.952和0.980。对于mAb 3D1,SVR模型也具有最佳性能,其LOO交叉验证Q2和测试集R2分别为0.891和0.948,说明两种模型均具有高性能和较强预测能力。表4 三种机器学习方法对mAb 2G3和mAb 3D1的建模结果RMSEcv和RMSEt是“LOO”验证和测试集的RMSE。Q2cv和R2t是“LOO”验证和测试集的R2。图4 mAb 2G3数据集的MLR、SVR和PLS模型的预测值与实验值的关系图图5 mAb 3D1数据集的MLR、SVR和PLS模型的预测值与实验值的关系图表5总结了优化mAb 2G3和mAb 3D1两个数据集的最佳描述符组合时,分子描述符出现的频率。描述符在所选子集中出现的频率越高,其重要性就越高。本研究进一步探索化合物结构与mAb亲和力之间的关系。基于这些关系,可以实现对SAs半抗原结构的精确调整。表5 mAb 2G3和mAb 3D1模型中出现频率最高的描述符对于mAb 2G3模型,最重要的描述符是出现六次的Glob、VAdjMa、密度和BCUT-SMR-2。深入分析这四种描述符,VAdjMa的调整是最容易实现的。化合物结构中的不饱和键越多,mAb对该化合物的亲和力就越高,这一结论从理论上证实了半抗原的R取代基从含两个不饱和键的五元环(mAb 2G3的半抗原结构)变为含有三个不饱和键的六元环(mAb 3D1的半抗原的结构)。对于mAb 3D1模型,三个描述符(b_ar、a_heavy和kier 2)在优化的描述符子集中出现了五次。重原子的数量与mAb 3D1的亲和力呈负相关,而芳香键的数量与mAb 3D1的亲和力呈正相关,这一结论与CoMFA对mAb 3D1的分析结果一致,mAb倾向于与含有大体积R取代基的SAs结合。基于对mAb 2G3和mAb 3D1模型的描述符分析,在新的半抗原结构设计中,可以考虑加入大体积的R取代基,如SQX可以作为增加芳香键的参考,mAb 3D1半抗原的嘧啶环可以被喹喔啉环取代。本研究分别基于药效团和骨架叠合构建了针对SAs的广谱特异性mAb 2G3和mAb 3D1的CoMFA模型,并分别基于mAb 2G3和mAb 3D1建立了机器学习的模型。本研究结合CoMFA分析和机器学习方法,提出了一种互补的分析策略,以明确化合物结构与mAb亲和力之间的关系,指导新半抗原结构的精确设计。然而,本研究构建的模型也存在一定的局限性,数据集中的样本数量较少,在某些情况下,样本划分很容易影响模型的稳定性。在未来的研究中,将提高数据量和质量,以建立更稳定和准确的模型。原文出处:Chen Y, Qian J, Liang R, et al. Precise hapten design of sulfonamides by combining machine learning and 3D-QSAR approaches[J]. Food Analytical Methods, 2022, 15(4): 1085-1097.原文链接:https://link.springer.com/article/10.1007/s12161-021-02179-x指导教师:王战辉
抗体故事分享基于抗体的分析方法研究进展,欢迎投稿!