前段时间,来自美国华盛顿大学的计算蛋白设计领域先驱 David Baker 教授(2024 年诺贝尔化学奖)在 bioRxiv 预印平台上发表文章“Atomically accurate de novo design of single-domain antibodies”。研究团队对去年推出的 AI 工具 RFdiffusion 进行了改进,首次利用生成式 AI 从头设计出了全新的抗体,这是一个里程碑时刻,标志着 AI 引导的蛋白从头设计正式进入价值数千亿美元的抗体药市场。
其实,早在两个月前我就已经分享过要读文献 | bioRxiv | David Baker 团队利用生成式 AI 开创从头设计具有原子级精确度单域抗体新篇章,对这篇文章进行了简单介绍,但是不够细!不够细!不够细!这次,咱们就给它精读一波好不好!
或者点击文末「阅读原文」,即可直达原文页面!
本文目录索引如下:
如果小伙伴们有需求的话,可以加入我们的交流群:一定要知道 | 永久免费的环境友好型生信学习交流群又双叒叕来啦!| 伴随不定期群友好物分享!在这里,你可以稍有克制地畅所欲言! 超级建议大家在入群前或入群后可以看一下这个:干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!让你不虚此看! 如果有需要个性化定制分析服务的小伙伴,可以看看这里:你要的个性化生信分析服务今天正式开启啦!定制你的专属解决方案!全程1v1答疑!!绝对包你满意!
推荐阅读
尽管抗体在现代医学中扮演着核心角色,但目前尚无法通过理性设计的方法开发出针对特定抗原表位的新型抗体。现有的抗体发现主要依赖于耗时的动物免疫或文库筛选方法,而非从头设计。在这项研究中,我们展示了一种经过精调的 RFdiffusion 网络,能够从头设计抗体的重链可变区(VHH),并精准结合用户指定的特定表位。通过实验验证,我们成功设计出了能够结合四种疾病相关表位的抗体,且冷冻电镜(cryo-EM)解析结果显示,设计的 VHH 与流感血凝素结合后的结构与模型设计几乎完全一致,无论是在 CDR 环的构型上,还是在整体结合姿态上,都达到了高度吻合。
0 太长不看版
研究背景
传统的抗体开发主要依赖于动物免疫或文库筛选,这些方法耗时且无法精准靶向特定的抗原表位。尽管已有一些计算设计方法如 Rosetta 和深度学习网络用于抗体设计,但从头(完全无同源性)的精确抗体设计仍存在挑战。
方法与模型
RFdiffusion 模型:该研究改进并微调了 RFdiffusion,使其专用于设计能结合特定表位的抗体。RFdiffusion 模型基于 AlphaFold2/RF2 的框架表示法,利用去噪过程预测蛋白质结构。 模型微调:研究团队针对抗体结构(尤其是 VHH)进行了微调,以提高模型设计 CDR 环(互补决定区)结构的能力,并能在设计过程中保持抗体框架的稳定性。 结合 ProteinMPNN 优化序列:在结构设计后,使用 ProteinMPNN 进一步优化 CDR 环的氨基酸序列。
主要发现
实验验证:研究通过实验筛选,验证了针对 4 种疾病相关表位的设计。包括对流感 H1 血凝素、RSV(呼吸道合胞病毒)等表位的 VHH 抗体。 Cryo-EM 验证:冷冻电镜分析结果显示,设计的 VHH 与靶标抗原的结合结构高度一致,尤其是在结合位点(如 CDR H3 环)的精确度上达到原子级别。 特异性和多样性:所设计的 VHH 展示了较高的靶向特异性和结构多样性,且与训练集中的天然抗体结构显著不同,展示了模型在设计新型结合结构上的泛化能力。
结果与讨论
设计成功率:尽管设计的 VHH 展示了较好的结合能力和特异性,但整体的成功率较低,表明需要进一步优化模型。 未来改进方向:研究建议可通过引入最新的生成模型(如流匹配模型)、优化设计过滤策略以及结合 RoseTTAFold2 模型的预测能力来提升设计效果。同时,进一步优化 CDR 序列的“人源化”,以降低免疫原性。
研究意义
这项工作展示了通过计算设计方法进行抗体从头开发的潜力,为抗体药物发现带来了新的可能性,特别是在时间和成本上的显著优势。未来的进一步优化和技术融合可能会推动结构基础上的抗体设计进入新阶段。
1 背景
抗体是目前最主要的一类蛋白质治疗药物,全球已有超过 160 种抗体药物获得批准,市场预计将在未来五年达到 4450亿 美元。尽管在制药领域备受关注,治疗性抗体的开发仍然依赖于动物免疫或抗体文库筛选,以识别能够结合特定靶标的候选分子。这些方法不仅费时费力,还可能无法产生与治疗相关表位有效结合的抗体。为改进这一过程,已有计算设计方面的尝试,如在现有抗体结构中移植关键残基、采样不同的天然 CDR 环(互补决定区)以提升结合亲和力,或利用 Rosetta 进行序列优化以增强相互作用区域的结合能力。最近,基于结构和序列的深度学习网络也被用于设计新型抗体序列,但要从头(无任何同源性)设计结构精确的抗体仍然具有挑战性。近年来,使用 RFdiffusion 设计结合蛋白(非抗体)取得了一些进展,这种方法不同于以往,不需要预先设定蛋白结合物的骨架结构,能够设计出多样化且与用户指定表位具有形状互补性的结合蛋白。然而,类似于其他从头设计界面的方法,这些设计几乎完全依赖于规则的二级结构(如螺旋或链)与靶表位的相互作用,因此,RFdiffusion 在从头设计抗体时存在一定局限性,无法有效地应用于抗体的设计(补充图1)。
为什么说“依赖于规则的二级结构(如螺旋或链)与靶表位的相互作用”不适合抗体设计呢?
抗体的结构和结合特性使其在从头设计时与常规蛋白质设计方法有明显的不同,下面咱们就来唠唠,依赖于规则的二级结构(如 α-螺旋或 β-链)与靶表位的相互作用通常并不适合抗体设计到底是为啥子嘞!
抗体的结合位点结构高度多样
抗体与抗原的结合主要依赖于抗体的互补决定区(Complementarity Determining Regions, CDR),尤其是 CDR3 区域。CDR 在抗体结构中呈现为高度可变的环状结构,其构象复杂且不规则,与典型的二级结构(α-螺旋或 β-链)截然不同。这种不规则的结构是形成特异性识别抗原表位的关键。相比之下,常规的从头蛋白设计方法(例如利用规则的二级结构如螺旋或链)更适用于设计那些具有规则、重复结构的蛋白质。
抗体与抗原的结合机制
抗体识别和结合抗原主要通过表面互补性,即 CDR 环的空间构象与抗原表位精确匹配。这种相互作用通常包含多种非共价键,如氢键、范德华力和疏水相互作用。依赖规则二级结构的设计方法(例如基于 α-螺旋和 β-链的设计)通常假设二级结构可以形成较为规则的结合界面,但这种方法在抗体中很难有效实现,因为抗体的结合界面通常并不具有规则性,而是由高度多样的 CDR 环形成。
抗体的亲和力成熟过程
抗体在自然免疫系统中的生成过程通常包括一个体细胞超突变和亲和力成熟的阶段。这个过程会导致 CDR 环区域的高度变异,并形成独特的、非规则的结合构象。传统的从头设计方法无法有效模拟这种亲和力成熟的过程,因此难以设计出具有高特异性和高亲和力的抗体。
……阿巴阿巴
总的来说,抗体设计的核心挑战在于如何精确建模和预测 CDR 环的复杂构象及其与抗原的相互作用。由于 CDR 环的构象多样性和不规则性,传统基于规则二级结构的蛋白设计方法在抗体设计中表现不佳,所以我们需要更加专门化的策略和模型来捕捉这种复杂的结构特性。例如,近年来兴起的针对抗体设计的特化模型(如 AbDiffusion、IgLM、AntiBERTy 等,如果有可能,后面我会挨个把它们介绍一波!)更适合于抗体的设计,因为这些模型更关注于 CDR 环的序列变异性和空间构象,能够更好地预测并生成特异性结合的抗体。
一种理想的从头抗体设计方法应具备以下几点能力:
可以针对任意感兴趣的靶标表位进行设计; 能够在采样时聚焦于抗体的 CDR 环,同时保持抗体框架序列和结构接近用户指定的高度优化的治疗性抗体框架; 还需采样设计抗体与表位的不同刚体位置,以探索更多结合可能性。
我们推测,鉴于 RFdiffusion 在设计多样且高质量结合界面方面的优势,完全有可能开发出专门版本,用于从头设计抗体,因为界面形成的基本热力学原理是一致的。RoseTTAFold2 和 RFdiffusion(基于 RF2 的早期版本训练)在整个蛋白质数据库(PDB)上进行训练,以克服 PDB 中抗体结构数据相对较少(~8,100 个抗体结构 versus >200,000 个总结构)的限制,这种情况往往会给大型机器学习模型的训练带来困难。为了专门用于抗体结构设计和预测,我们对 RFdiffusion 和 RoseTTAFold2 进行了基于天然抗体结构的微调。为简化表述,在本文中,我们将原始版本称为“vanilla RFdiffusion”(原始 RFdiffusion 模型),而将这种针对抗体的特定版本简称为“RFdiffusion”。
为什么说“蛋白质与蛋白质(包括抗原抗体)界面形成的基本热力学原理一致”?
蛋白质与蛋白质(或蛋白质与其他分子,如抗原)的结合界面在设计过程中,遵循的基本热力学原理是相同的,主要包括自由能最小化、疏水效应、氢键形成、静电相互作用等。这些热力学原则是推动分子间相互作用和稳定结合的核心驱动力,无论是在抗体设计还是其他蛋白质界面的设计中,都是适用的!
2 结果
微调后的 RFdiffusion 用于抗体设计
RFdiffusion 采用 AlphaFold2/RF2 的框架表示方法,对蛋白质骨架进行建模,包括每个残基的 Cɑ 坐标以及 N-Cɑ-C 的刚性取向。在训练过程中,使用了一种噪声添加策略,在设定的若干时间步()内逐步向蛋白质框架添加噪声,使其分布逐渐变得与随机分布难以区分;其中,Cɑ 坐标加入三维高斯噪声,而残基的取向则通过 上的布朗运动进行扰动。在训练过程中,首先从 PDB 数据库中随机选择一个结构以及一个时间步(),并对该结构施加 t 次噪声处理。随后,RFdiffusion 在每个时间步上预测去噪后的结构(),并通过最小化预测结构()与真实结构()之间的均方误差(MSE)损失进行优化。在推理阶段,从三维高斯分布和均匀旋转分布中采样翻译和旋转(),RFdiffusion 通过逐步去噪的方式,迭代生成新的蛋白质结构。
为了探索抗体的设计,我们主要在抗体复合物结构上对 RFdiffusion 进行了微调(图1)。在每一步训练中,随机选择一个抗体复合物结构和一个时间步(),并对抗体结构施加 t 次噪声处理,而靶标结构则不添加噪声。为了在推理阶段能够指定抗体框架的序列和结构,我们在训练过程中向 RFdiffusion 提供了框架序列和结构信息(图1B)。由于希望 RFdiffusion 在设计 CDR 环构象的同时,也能优化抗体与靶标之间的刚体位置(对接),因此在训练时,我们以全局框架不变的方式提供框架结构(图1C)。这一过程使用了 RF/RFdiffusion 中的“模板轨道(template track)”,将框架结构表示为二维矩阵,包含每对残基之间的成对距离和二面角(这种表示方式可以准确地再现三维结构)(补充图1A)。框架和靶标模板仅指定每条蛋白链的内部结构,而不涉及它们在三维空间中的相对位置。在这项工作中,我们保持框架区域的序列和结构固定,主要专注于设计 CDR 环及优化抗体相对于靶标的整体刚体位置。
在原始 RFdiffusion 中,可以通过额外的 one-hot 编码“热点”特征,在推理阶段将从头设计的结合物靶向特定表位,这一特征指示了设计的结合物应与哪些残基发生相互作用。针对抗体设计中 CDR 环的介导相互作用,我们对这一功能进行了调整,以指定靶蛋白上 CDR 环应结合的靶标残基,使其更加适应抗体设计任务(图1D)。
通过这种训练方式,RFdiffusion 能够设计出与输入框架结构高度匹配的抗体结构,并通过全新的 CDR 环靶向指定的表位(补充图1)。在 RFdiffusion 步骤之后,使用 ProteinMPNN 设计 CDR 环的序列,所设计的抗体与靶标表位进行多样化的相互作用,并且与训练数据集中的抗体相比,显示出显著的差异(图2E)。
对 RoseTTAFold2 进行微调以验证抗体设计
设计流程通常会产生一系列的解决方案,因此,选择哪些设计进行实验表征的可计算指标在其中扮演着重要角色。通过基于设计模型结构与 AlphaFold2 预测结构之间的相似性来筛选设计方案是一种有效的过滤方式,这种方法被称为“自一致性(self-consistency)”,并且已被证明与实验成功之间有较好的相关性。然而,对于抗体设计,AlphaFold2 并不能准确地预测抗体-抗原的结构,这使得它无法在抗体设计流程中作为有效的筛选方法。
因此,我们尝试通过在抗体结构上对 RoseTTAFold2(RF2)结构预测网络进行微调,以改进这一筛选方法。为了使问题更易于处理,我们在训练过程中提供了关于靶标结构和抗体结合的靶标表位位置信息;微调后的 RF2 仍然需要正确建模对 CDR 进行建模,并找到抗体与靶标区域的正确定位。通过这种训练方式,RF2 能够稳健地区分真实的抗体-抗原配对与伪配对(decoy pairs),并且通常能准确预测抗体-抗原复合物的结构。当提供靶标结构的结合态(holo)时,模型的准确性更高(补充图2);这一状态在设计模型评估时是可用的,但在一般的抗体-抗原结构预测中并不一定可用。
小小知识要知道 —— Holo 和 Apo 是什么意思嘞?
Holo 和 Apo 是用于描述蛋白质结构状态的两个术语,主要用于讨论蛋白质是否与其配体或辅因子结合,研究蛋白质在不同结合状态下的构象变化及其功能。
Apo:蛋白质未结合配体或辅因子的状态,通常是“空”的。 Holo:蛋白质结合配体或辅因子的状态,通常是“完整”的。
pAE 和 pBind 是什么呢?它们是怎么得到的呢?
这里俺先简单介绍一波,具体详情请大家期待一下咱们即将推出的 RoseTTAFold2(RF2)详解(https://www.biorxiv.org/content/10.1101/2023.05.24.542179v1)!虽然它已经老了,但还是有很多值得我们学习的地方!对不啦!
pAE 和 pBind 是通过 RoseTTAFold2(RF2) 网络的输出结果计算得到的两种指标,它们分别用于预测蛋白质结构中的残基对误差(error per residue pair)以及两个蛋白质链是否结合(binding probability),我们可以把它们用于评估结构预测的准确性和模型对抗原-抗体复合物的识别能力。
pAE (predicted Aligned Error, 预测比对误差)
pAE 是一种用于评估预测的蛋白质结构中,每对残基之间相对位置误差的估计。它反映了模型对特定残基对之间距离的预测误差,是一种用于衡量模型结构预测不确定性的指标。这一概念源自于 AlphaFold2,用于判断模型对特定结构区域预测的置信度,也就是评估模型在不同结构区域的预测可靠性。较低的 pAE 值表示模型对该残基对的预测位置更加精确和可信,较高的 pAE 值则表明模型预测的误差较大。一般情况下,pAE < 10 表示预测结果具有较高的可信度。
pAE 是通过 2D(pair track) 的特征来计算的:
首先,从 2D track 中提取的 pair 特征()被用作输入。 模型将 投射到 64 个 pAE bins(区间),每个 bin 的宽度为 0.5。这样,模型可以输出一个概率分布,预测每对残基的相对误差落在这些 bins 中的概率。 最终,预测结果可以用于分析模型在残基对上的预测不确定性。 pBind (binding probability, 结合概率)
pBind 是用于预测两个蛋白质链是否结合的概率,是在蛋白质复合物预测中常用的评估指标。它表示模型认为这两个链形成结合界面的可能性大小。该指标特别有用于预测多链蛋白复合物的结合情况。较高的 pBind 值表明模型认为这两个链有更高的概率结合在一起,而较低的值则表示结合概率较低。
pBind 是通过 pAE logits 得到的,即基于 pAE 的预测误差。pAE logits 是模型输出的 pAE 值的原始 logits,表示模型对每对残基之间误差的预测。
pBind 的计算方法是:
首先,对所有跨链的残基对计算 pAE 的平均值,即对跨链的所有单元计算平均误差。 接着,将 pAE 的平均值从 64 个 pAE bins 投射到一个单一值。 最后,应用 sigmoid 激活函数,得到 pBind 值,这个值在 0 到 1 之间,表示结合概率。 下面小小总结一下:
pAE:用于估计模型在预测的结构中,每对残基的相对位置误差,是评估结构预测不确定性的重要指标。
pBind:基于 pAE 值计算,用于预测两个蛋白质链是否结合,表示模型认为它们形成结合界面的可能性。
这两个指标都是为了帮助更好地评估预测结构的准确性和模型可信度。其中 pAE 主要用于评估结构的可靠性,而 pBind 则关注于两个蛋白质链之间是否会形成稳定的结合。
在单体预测时,经过微调的 RF2 表现优于先前发布的 IgFold 网络(IgFold 仅能建模抗体单体结构),尤其是在 CDR H3 结构预测方面(补充图3)。
当这个经过微调的 RF2 网络用于重新预测 RFdiffusion 设计的 VHH 结构时,发现其中一大部分能够被可靠地预测为以几乎完全相同的方式结合到设计结构上(补充图4A)。进一步的计算交叉反应性分析表明,RFdiffusion 设计的 VHH 很少被预测与无关的蛋白质结合(补充图4B)。那些被可靠预测能与设计靶标结合的 VHH,其预测的界面质量较高,这一结果通过 Rosetta ddG 评分得到了验证(补充图4C)。事实上,许多通过 RFdiffusion 抗体设计流程生成的设计序列被 RF2 预测为能够采纳设计的结构和结合模式,这表明 RF2 筛选可能有助于富集实验上成功的结合分子。
设计的 VHH 的生化特征和设计过程
我们最初聚焦于基于骆驼和鲨鱼产生的重链抗体可变区的 VHH 设计。VHH 由于尺寸较小,使得其编码基因的组装更加简便且成本较低,相比于单链可变片段(scFv,linker 选择是关键因素)或抗原结合片段(Fab,需要跨链二硫键以确保正确折叠)。此外,VHH 具有很强的“人源化”潜力,目前已有两种基于 VHH 的治疗药物获得 FDA 批准,并且许多临床试验正在进行中。尽管 VHH 的 CDR 环数量(仅三个)比传统 Fv(六个)少,但 VHH 的平均相互作用表面积与 Fv 非常相似,这表明能够设计 VHH 的技术同样适用于 Fv 的设计。实际上,根据 Rosetta 和微调后的 RoseTTAFold2(RF2)评估的体外计算指标显示,scFv 和 VHH 的界面质量也是非常相似的(补充图6)。
我们选择了一个广泛应用的人源化 VHH 框架(h-NbBcII10FGLA [参考文献:https://www.jbc.org/article/S0021-9258(19)81891-4/fulltext])作为 VHH 设计的基础,并针对多种与疾病相关的靶标进行 VHH 设计,包括艰难梭菌毒素 B(TcdB)、甲型流感 H1 血凝素(HA)、呼吸道合胞病毒(RSV)I 和 III 位点、SARS-CoV-2 受体结合域(Covid RBD)以及白细胞介素-7 受体 α(IL-7Rα)。在设计过程中,使用 ProteinMPNN 工具对靶标特定的 CDR 环序列进行了优化设计(但不包括框架部分)。随后,我们利用之前介绍的经过微调的 RoseTTAFold2(RF2)网络对这些设计进行筛选过滤。在筛选实验中,我们采用了不同的策略:针对 RSV I 和 III 位点、SARS-CoV-2 RBD 和流感 HA,我们通过酵母表面展示进行高通量筛选(每个靶标设计 9000 种 VHH);而针对 TcdB、IL-7Rα 和流感 HA,我们则使用了大肠杆菌表达系统并结合单浓度表面等离子共振(SPR)进行低通量筛选(每个靶标筛选 95 种设计,其中流感 HA 同时采用了两种筛选方法)。
在流感 HA 的实验中,位于 HA 干部分子表位的糖基 N296 与我们设计的多个 VHH 的结合角度发生重叠。为了使实验设计条件与计算设计时所使用的参数(即不考虑糖盾(glycan shield,或者叫糖基化屏障?)的影响)尽可能保持一致,我们选择使用在昆虫细胞中表达的 HA 单体进行亲和力测定(补充图9)。昆虫细胞表达的 HA 单体上携带的是截短的寡聚甘露糖糖基化屏障,与天然表达的 HA 三聚体相比,其结构更接近于 VHH 设计时所参考的完全去糖基化的 HA 单体 PDB 模型。在对这些 VHH 与昆虫细胞表达的 HA 单体进行测试后,发现最高亲和力的 VHH 结合常数(Kd)为 78 nM(图2),而其他 VHH 的亲和力分别为 546 nM、698 nM 和 790 nM。
针对 RSV III 位点、流感 HA、Covid RBD 和 TcdB 的最高亲和力结合物分别如图2A、B、C、E所示(所有确认的 VHH binders 的 SPR 曲线见补充图8)。设计的 CDR 环与自然界中观察到的 VHH 存在显著差异,这表明设计的 VHH 在一定程度上超越了训练数据集的范畴,具有较强的泛化能力(图2E,补充图5)。对于 TcdB,PDB 中并未发现针对该位点的抗体或 VHH。在 Covid RBD(Kd = 5.5μM;图2C)和TcdB(Kd = 262nM;图2D)中,设计的最佳 VHH 均确认结合了预期的表位:当加入先前设计的、结构已确认的从头合成结合物(AHB2,PDB:7UHB用于 Covid RBD,Fzd48 用于 TcdB)后,结合完全被抑制(图2C、D,补充图7)。对于 TcdB,所设计的 VHH 与表位的相互作用具有特异性,且未观察到与高度相关的 Clostridium sordellii 毒素 L(TcsL)发生结合(补充图7B)。这些数据展示了 RFdiffusion 在设计 VHH 时能够实现与靶表位的特异性相互作用。令人惊讶的是,在我们使用的 RF2 设置下,经过筛选的设计与未筛选设计相比,设计成功率并没有显著提高(提供 100% 的界面热点,尽管在我们为预测提供 0% 或 10% 热点时,仍能观察到一些信号)。然而,由于数据集较小,未来需要更大规模的数据集才能更为确切地评估如何最好地使用和微调 RF2 进行设计筛选。
冷冻电镜揭示了针对天然糖基化病毒糖蛋白的原子级精度 VHH 设计
鉴于 RFdiffusion 成功生成了对多种表位具有中等亲和力的 VHH,我们进一步通过冷冻电镜(Cryo-EM)结构解析来评估其设计的精确性,重点研究了设计的抗流感 HA VHH 与天然糖基化的三聚体流感 HA 糖蛋白(A/USA:Iowa/1943 H1N1 株)的复合物。该 HA 保留了计算设计和上游生化筛选中使用的保守杆状表位。实验中,我们以 3:1 的摩尔比(VHH:HA 单体),在 15μM 浓度下将 VHH 与Iowa43 HA 结合,并迅速准备冷冻电镜样品。通过 Cryo-EM 数据处理,发现测试的四种 VHH 设计中,有一种(命名为 VHH_flu_01)成功与完全糖基化的 HA 三聚体结合(图3)。数据集中所有粒子的 2D 分类(图3A)和解析的复合物的 3.0Å 结构(图3B)确定了大约 66% 的 HA 颗粒与每个三聚体最多两个 VHH 结合(图3A-H)。这种部分结合现象可能是由于 N296 糖基的存在,未结合的亚基部分遮挡了靶标表位,但当与 VHH_flu_01 结合时,糖基发生重新定向,从而允许表位暴露(图3H)。
在流感 HA 结合两个 VHH_flu_01 的结构中(图3B、C,补充图10),可以看到 VHH 的结合角度与预测模型高度一致(图3D),VHH 骨架结构与 RFdiffusion 设计的模型也非常接近,计算的 RMSD 为 1.45Å(图3E)。CDR3 的结构在冷冻电镜解析结构和计算模型之间也十分相似,RMSD 为 0.8Å(图3F)。在从头设计的 CDR3 中,残基 V100、V101、S103 和 F108 在冷冻电镜结构中与流感 HA 的杆状表位发生相互作用,这一结果与 RFdiffusion 的设计和 RF2 重新预测的一致(图3G)。值得注意的是,该设计与 PDB 中结合该表位的最相似抗体或 VHH 结构显著不同(补充图5G、H)。综上所述,这些结果表明,从头设计的 VHH 能够通过新型的 CDR3 结构,以原子级精度准确结合天然糖基化的表位。
3 讨论
我们的研究结果表明,利用计算方法进行从头抗体设计已成为可能。设计的抗流感 HA VHH 的高分辨率冷冻电镜结构显示,该 VHH 复合物(包括高度可变的 H3 环和整体结合取向)实现了原子级精度的设计。
随着进一步的改进,基于 RFdiffusion 和相关方法的从头抗体设计有望彻底变革抗体的发现与开发。我们的 RFdiffusion 方法能够针对靶标抗原上特定的表位进行设计,随着成功率的提高,这一方法在速度和成本上将远远超过动物免疫或随机文库筛选的传统方式。通过基于结构的设计方法,还可以在结构上优化关键的药物特性,如聚集性、溶解度和表达水平,避免破坏抗体-靶标界面的突变或导致抗体结构不稳定。此外,RFdiffusion 方法可以从头探索 CDR 环序列和结构的完整空间,特别是对于 CDR1 和 CDR2,这些区域通常受到 V 基因编码序列的限制,尚未经过体细胞高频突变,这将有助于简化抗体可开发性特性的优化,并靶向非免疫优势表位。最后,利用 RFdiffusion 设计的每种抗体都具有强大的结构假设,这一点已通过 RoseTTAFold2 进一步验证,这将使得靶向特定抗原构象状态的抗体功能设计变得更加合理和高效。
尽管我们成功实现了从头设计 VHH ,但仍有很大的改进空间,因为当前的结合亲和力相对较低(虽然与首次解决这一挑战时的从头设计小蛋白结合物亲和力相当),且成功率仍然较低。在骨架设计环节中,结合最新的架构改进或引入新的生成框架(如流匹配方法)有望提升设计模型的可设计性和多样性。最近,RoseTTAFold2 和原始 RFdiffusion 已扩展至建模所有生物分子(而不仅限于蛋白质),将这一功能引入到抗体设计的 RFdiffusion 中,将允许设计针对包含非蛋白质原子的表位(如糖基)的抗体。实际上,在 VHH_flu_01 的结合中观察到的亚化学计量结合现象可能是由邻近的糖基 N296 所导致,这在最初的 VHH 设计中未被考虑。本研究没有对 ProteinMPNN 进行修改,但设计出与人类 CDR 序列更为接近的序列预计可以减少设计抗体的潜在免疫原性,未来还可进一步在 ProteinMPNN 中直接优化可开发性特性。最后,改进 RoseTTAFold2 在抗体预测方面的性能将提高实验成功率,并使上游设计方法的计算机模拟基准测试更为精准。
总而言之,我们期待这项工作能够成为基于结构的抗体设计新时代的奠基石!
文末碎碎念
那今天的分享就到这里啦!我们下期再见哟!
最后顺便给自己推荐一下嘿嘿嘿!
如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!
参考资料
Bennett, N. R., Watson, J. L., Ragotte, R. J., … Baker, D. (2024). Atomically accurate de novo design of single-domain antibodies. bioRxiv : the preprint server for biology, 2024.03.14.585103.