DRUGAI
今天为大家介绍的是来自清华大学自动化系刘民团队的一篇论文。纳米抗体能够特异性地结合不同的抗原,这一特性使其在近年来展现出许多有前景的治疗和检测应用。传统的纳米抗体发现技术主要基于羊驼免疫(alpaca immunization)和噬菌体展示(phage display),这些方法既耗时又需要大量人力。尽管纳米抗体研究已取得进展,但开发快速且准确的计算工具来预测纳米抗体-抗原相互作用(NAI)仍然十分迫切。作者提出了一个基于集成深度学习的框架DeepNano-seq,该框架能够仅通过序列信息来预测包含NAI在内的蛋白质-蛋白质相互作用(PPI)。定量比较结果表明,在现有的PPI算法中,DeepNano-seq具有最佳的跨物种泛化能力。然而,由于NAI和PPI在模式和数据层面都存在差异,包括DeepNano-seq在内的几种最有效的PPI方法在NAI预测方面表现不够理想。因此,作者从公共数据库中整理NAI数据用于专门的NAI建模。此外,作者通过基于prompt的方法引导模型关注抗原结合位点,增强了DeepNano-seq的预测流程,最终提出了DeepNano模型。全面评估表明,DeepNano在NAI预测和纳米抗体虚拟筛选方面表现出色。总的来说,DeepNano-seq和DeepNano可以为纳米抗体的发现提供强大的工具。
纳米抗体是源自(仅含重链的)抗体可变区的蛋白质片段,最早在骆驼科动物中被发现。与传统的单克隆抗体相比,纳米抗体不仅保留了特异性结合抗原的能力,而且分子量更小,免疫原性更低,组织渗透能力更强。纳米抗体可以与抗原形成多种非共价结合,这种结合被称为纳米抗体-抗原相互作用(NAI)。作为蛋白质-蛋白质相互作用(PPI)的一个子集,NAI对于阐明免疫机制和纳米抗体的从头设计非常重要。近年来,纳米抗体的发展势头良好,并在检测和治疗等领域得到应用。与纳米抗体相关的公共数据库不断发布,推动了相关算法研究的进展。然而,现有的算法研究主要集中在纳米抗体结构预测、天然性评估或抗原结合位点预测(paratope prediction)方面。很少有研究将深度学习方法应用于NAI预测。
NAI的计算预测可以减少纳米抗体开发过程中生物实验的需求,这有利于节省投资并加快开发进程。一些研究已经将分子动力学或机器学习方法应用于NAI预测。然而,这些方法需要准确了解纳米抗体和抗原的精确结构,这限制了它们在高通量虚拟筛选中的应用。由于现在可以通过下一代测序技术快速、廉价地获得序列信息,因此迫切需要准确的基于序列的NAI预测方法。最近,一种基于机器学习的方法已经开始尝试从序列数据预测NAI。多种基于序列的深度学习方法在通用PPI预测方面取得了令人印象深刻的跨物种性能。然而,专门用于预测NAI的基于序列的深度学习方法仍然存在空白。从技术上讲,由于纳米抗体和抗原都是蛋白质,已经比较成功的基于序列的PPI方法应该是可以用来做NAI预测的。不过这里面最大的问题是免疫和非免疫PPI之间存在模式差异,这可能导致PPI方法在NAI预测方面的泛化性能较差。尽管如此,现有的PPI方法也不容忽视,应该将其纳入算法比较中。
序列-结构-功能模型表明,蛋白质的氨基酸序列决定了其空间结构,而空间结构又决定了其功能。因此,在基于序列的PPI预测方法中,对蛋白质序列的特征表征自然变得至关重要。过去的研究表明,通过大语言模型获得的蛋白质表示在多项任务中实现了最佳性能,包括蛋白质-蛋白质结合亲和力的估计。最先进的基于序列的PPI预测方法D-SCRIPT和Topsy-Turvy都在其模型设计中使用了语言模型。然而,大多数研究直接将语言模型预训练的蛋白质嵌入作为输入特征,除了简单的微调外,很少有研究探索如何更好地利用这些无监督训练的蛋白质表示。此外,当前基于序列的PPI算法在输入阶段总是将蛋白质序列上的所有位点视为同等重要。但实际上,只有结合界面上的位点才在相互作用中发挥直接作用。在基于序列的方法中,引入关于结合位点的知识可能有助于提高预测性能。
模型架构
图 1
DeepNano-seq的架构如图1a所示。它既可以应用于通用PPI预测,也可以用于NAI预测。DeepNano-seq使用蛋白质语言模型ESM-2从氨基酸序列中提取特征。通过三种不同的池化策略(最小池化、平均池化和最大池化)来获得抗原和纳米抗体维度相同的表示。基于这三种池化策略获得的特征,DeepNano-seq使用三个独立的分支来预测相互作用得分。最终得分是这三个分支预测结果的平均值。
由于纳米抗体的分子量较小(约15 kDa),其抗原结合区域相比于整个序列长度自然要小得多,这一点在那些大分子抗原中尤为明显。作者推测,如果模型能够了解抗原全长序列中直接影响相互作用的特定位点,就可能获得更稳健的预测性能。受此启发,作者设计了一个流程,如图1b所示。作者实现了一个DeepNano-site模型,用于从纯抗原和纳米抗体序列中预测抗原结合位点。预测的抗原结合位点经过特征化后被整合到DeepNano-seq中,从而加强DeepNano-seq对抗原结合界面的关注。
在图1c中,DeepNano通过构建基于transformer编码器的prompt编码器来实现上述流程。使用prompt编码器提取能够描述抗原结合位点的注意力嵌入,并将其添加到DeepNano-seq中以增强NAI的预测。
与现有方法的比较
纳米抗体是一种特殊类型的抗体,从骆驼科动物获得。它们是小型蛋白质,通常由不超过149个氨基酸组成。纳米抗体能够特异性地与抗原结合,而两者都是蛋白质,因此纳米抗体和抗原的相互作用可能与蛋白质之间的一般相互作用存在一些尚未发现的联系。因此,作者首先研究了四种基于序列的PPI方法:基于Siamese残差RCNN的PIPR方法、基于深度学习的DeepPPI方法、结构感知方法D-SCRIPT和多视图集成方法Topsy-Turvy。
图 2
为了进行公平评估,作者使用来自最新方法D-SCRIPT和Topsy-Turvy的人类PPI数据训练了DeepNano-seq模型。评估在五个不同物种的PPI数据集上进行(小鼠、果蝇、秀丽隐杆线虫、酿酒酵母和大肠杆菌)。如图2a所示,DeepNano-seq在所有五个测试物种上全面优于最先进的方法Topsy-Turvy,接收者操作特征曲线下面积(AUROC)指标的改进范围从0.04到0.052。此外,在精确率-召回率曲线下面积(AUPRC)指标方面,DeepNano-seq直观地击败了其他四种方法(图2b)。这些结果表明,DeepNano-seq比现有PPI算法具有更强的跨物种泛化性能。作者还进行了进一步的消融实验来验证DeepNano-seq中集成学习结构的有效性。
尽管近年来许多应用已经采用基于学习的方法来预测一般的PPI,但关注NAI的相关研究仍然很少。唯一一项将机器学习应用于预测NAI的研究报告了0.908的AUROC指标。在他们的实验设置下,作者重新训练了DeepNano-seq模型,在五次独立测试中获得了平均0.954的AUROC,优于他们报告的四个传统机器学习模型。然而,该研究使用传统的随机方法来划分训练集和测试集,作者认为这种方法不适用于NAI预测场景。随机划分可能导致训练数据和测试数据包含许多相似的纳米抗体-抗原对,从而导致对模型性能的评估过于乐观。尽管如此,他们的数据组织工作很有价值,他们的所有NAI数据后来被用作独立测试数据集。
为了评估PPI方法对NAI的泛化性能,作者使用在人类PPI数据上训练的模型(D-SCRIPT、Topsy-Turvy和DeepNano-seq)来测试之前研究中使用的NAI对。如图2c所示,所有三种方法在NAI数据上的预测性能都很差。用人类PPI训练的模型几乎将所有真实的NAI对预测为阴性,导致它们的召回率接近零(D-SCRIPT为0.02,Topsy-Turvy为0.02,DeepNano-seq为0)。
这一结果的一个可能解释是骆驼科动物的纳米抗体与人类蛋白质存在显著差异。具体来说,如图2d所示(使用WebLogo绘制),由于纳米抗体在框架区域高度保守,大多数纳米抗体具有超过70%的全长序列相似性。序列差异主要体现在互补决定区(CDR)中,特别是在CDR3区域。然而,之前的研究在整理人类PPI训练数据时采用了更低的序列相似性阈值(40%)来去除冗余。这导致用低分辨率的人类PPI数据训练的模型对纳米抗体的区分能力差。因此,目前最迫切的任务是收集更多数据用于NAI建模。
为预测NAI构建一个专用模型
图 3
作者继续使用2018年发表的sdAd-DB中的所有纳米抗体-抗原结合数据作为独立测试数据集。为了获取更多NAI数据,作者从SAbDab-nano(这是2021年结构抗体数据库的一个子集)下载了2,422对结合对(图3a)。经过一系列确保数据正确性的样本过滤操作,最终获得了1,184对真实的NAI对。分析发现,这些新的NAI对与独立测试集没有相同的序列。
作者随机将这些结合对分为训练集和验证集。验证集用于早停策略以防止模型过拟合。使用新的NAI数据重新训练DeepNano-seq,并再次在独立NAI测试集上进行测试。如图3b所示,与之前在人类PPI数据上训练的版本相比,DeepNano-seq表现出明显的性能改进。DeepNano-seq的AUROC从0.5542提升到0.6596,AUPRC也显示出显著提升,从0.3571上升到0.6343。此外,召回率从0提高到0.3810。
作者还用NAI数据重新训练了D-SCRIPT和Topsy-Turvy。如补充图2所示,两个模型在重新训练后都表现出预期的性能提升。因此,这些重新训练的版本被用于后续的比较。
将预测的抗原结合位点作为prompt来增强反应预测能力
图 4
SAbDab-nano数据库不仅提供了纳米抗体和抗原的序列,还提供了纳米抗体-抗原复合物的结构信息。因此,作者进行了额外的分析来发现NAI特有的隐藏特征。如图4a、b和补充图3所示,作者对纳米抗体和抗原在结合界面及全序列中出现的氨基酸数量和类型进行了量化分析。
纳米抗体和抗原之间的结合界面表现出不同的氨基酸类型偏好。酪氨酸(Tyr)和丝氨酸(Ser)在纳米抗体的结合界面非常常见,但在抗原的结合界面出现频率较低(图4b)。考虑到任何蛋白质都可能作为抗原,这种差异也突显了PPI和NAI之间的区别。
在图4a中,可以观察到大多数抗原结合界面占其整个抗原序列的比例不超过30%。对于纳米抗体来说,结合界面的比例也相对较小。然而,现有分析表明,大多数纳米抗体结合位点分布在三个CDR区域中,这一点在示例5F9D中可以直接观察到。考虑到纳米抗体序列的保守性,数据驱动的模型更容易被引导关注CDR和纳米抗体结合界面。因此,在建模中优先考虑抗原结合界面更为重要,因为这个区域对相互作用贡献最大,但在输入中只占相对较小的比例。然而,DeepNano-seq和其他四种PPI方法都没有考虑这个问题。
通过X射线晶体学或冷冻电镜显微术获得的纳米抗体-抗原复合物结构中可以精确确定抗原结合位点。然而,高通量获取精确的抗原结合位点需要大量人力。因此,作者设计了DeepNano-site模型(图4c)来从纯序列信息预测抗原结合位点。在分布内验证集上,DeepNano-site在抗原结合位点预测方面达到了0.9587的平均准确率(图4d)。补充图4展示了抗原结合位点预测的其他指标。
DeepNano-site预测的抗原结合位点被视为关键的prompt,作者设计了一个prompt编码器来提取它们的特征。最终的模型DeepNano整合了序列特征和抗原结合界面特征,在独立NAI测试集上展现出显著的性能提升。结果表明,如图4e所示,DeepNano在AUROC(0.7941)和AUPRC(0.7689)方面的表现优于仅使用序列的DeepNano-seq(AUROC 0.6596,AUPRC 0.6343)。作者使用0.5作为阈值来区分阳性和阴性NAI,DeepNano达到了0.9831的最高精确率。
从100万个天然纳米抗体库中虚拟筛选抗HSA或抗GST纳米抗体
为了进一步验证算法从大规模天然纳米抗体库中筛选目标纳米抗体的能力,作者按照方法部分所述构建了两个测试数据集。第一个案例研究是从100万个纳米抗体库中找出33个经实验验证能够结合人血清白蛋白(HSA)的纳米抗体;第二个案例研究是从100万个纳米抗体库中找出59个能够结合谷胱甘肽S-转移酶(GST)的纳米抗体。作者在此比较了三个模型:用NAI训练的DeepNano和DeepNano-seq,以及用人类PPI训练的DeepNano-seq。由于D-SCRIPT和Topsy-Turvy对100万个纳米抗体-抗原对的嵌入文件太大,在硬盘上存储不切实际,因此未对其进行测试。
图 5
为了可视化结果,作者绘制了模型对阳性纳米抗体(33个抗HSA或59个抗GST)和100万个背景纳米抗体的预测得分分布(图5)。可以观察到,用人类PPI训练的DeepNano-seq模型对几乎所有阳性纳米抗体的预测得分都趋于零,这与先前的结果一致。用人类PPI训练的DeepNano-seq的AUROC为0.3,FRANK为33.63%(图5a)。FRANK值表明,如果使用该模型来虚拟筛选抗HSA纳米抗体,至少需要在得分排名最高的336,400个纳米抗体中进行生物学实验才能识别出一个阳性抗HSA纳米抗体。在没有高通量技术的情况下,这样的实验是不可接受的。如图5b所示,用NAI数据训练的DeepNano-seq与用人类PPI数据训练的版本相比,FRANK指标得到了显著改善。在筛选抗HSA时,其FRANK值降至0.62%,这意味着只需要在得分排名最高的6,184个纳米抗体中进行选择就能找到一个真实的抗HSA纳米抗体。对于DeepNano,所需的纳米抗体数量进一步降至1,032个(图5c)。
所有三个模型的FRANK-all指标都不太理想,这表明从100万个背景序列中识别所有已知的阳性纳米抗体仍然具有挑战性。尽管如此,在虚拟筛选抗HSA和抗GST时,作者仍然观察到DeepNano在FRANK-all和AUROC指标上相比于其他两个DeepNano-seq模型有所改进,这证明了DeepNano的进步。
对于59个已经通过酶联免疫吸附测定(ELISA)实验测量过的抗GST纳米抗体,作者在补充图5中绘制了预测得分与其ELISA值的分布关系。作者发现DeepNano预测得分与ELISA(对数)值之间的皮尔逊相关系数为0.2491,P值为0.0571。值得注意的是,DeepNano在训练过程中只学习区分阳性和阴性NAI。虽然0.2491的皮尔逊相关系数不高,但它仍然表明DeepNano学到了一些超出给定知识范围的能力。
编译|黄海涛
审稿|王梓旭
参考资料
Deng, J., Gu, M., Zhang, P., Dong, M., Liu, T., Zhang, Y., & Liu, M. (2024). Nanobody–antigen interaction prediction with ensemble deep learning and prompt-based protein language models. Nature Machine Intelligence, 1-11.