要读文献 | bioRxiv | 诺奖得主 David Baker 团队利用 RFdiffusion 进行抗体原子级精度从头设计

文摘 2024-11-18 09:19 上海

前段时间，来自美国华盛顿大学的计算蛋白设计领域先驱 David Baker 教授（2024 年诺贝尔化学奖）在 bioRxiv 预印平台上发表文章“Atomically accurate de novo design of single-domain antibodies”。研究团队对去年推出的 AI 工具 RFdiffusion 进行了改进，首次利用生成式 AI 从头设计出了全新的抗体，这是一个里程碑时刻，标志着 AI 引导的蛋白从头设计正式进入价值数千亿美元的抗体药市场。
其实，早在两个月前我就已经分享过要读文献 | bioRxiv | David Baker 团队利用生成式 AI 开创从头设计具有原子级精确度单域抗体新篇章，对这篇文章进行了简单介绍，但是不够细！不够细！不够细！这次，咱们就给它精读一波好不好！

原文链接：https://www.biorxiv.org/content/10.1101/2024.03.14.585103v1

或者点击文末「阅读原文」，即可直达原文页面！

本文目录索引如下：

如果小伙伴们有需求的话，可以加入我们的交流群：一定要知道 | 永久免费的环境友好型生信学习交流群又双叒叕来啦！| 伴随不定期群友好物分享！在这里，你可以稍有克制地畅所欲言！
超级建议大家在入群前或入群后可以看一下这个：干货满满 | 给生信小白的入门小建议 | 掏心掏肺版！绝对干货满满！让你不虚此看！
如果有需要个性化定制分析服务的小伙伴，可以看看这里：你要的个性化生信分析服务今天正式开启啦！定制你的专属解决方案！全程1v1答疑！！绝对包你满意！

0 太长不看版

研究背景

传统的抗体开发主要依赖于动物免疫或文库筛选，这些方法耗时且无法精准靶向特定的抗原表位。尽管已有一些计算设计方法如 Rosetta 和深度学习网络用于抗体设计，但从头（完全无同源性）的精确抗体设计仍存在挑战。

方法与模型

RFdiffusion 模型：该研究改进并微调了 RFdiffusion，使其专用于设计能结合特定表位的抗体。RFdiffusion 模型基于 AlphaFold2/RF2 的框架表示法，利用去噪过程预测蛋白质结构。
模型微调：研究团队针对抗体结构（尤其是 VHH）进行了微调，以提高模型设计 CDR 环（互补决定区）结构的能力，并能在设计过程中保持抗体框架的稳定性。
结合 ProteinMPNN 优化序列：在结构设计后，使用 ProteinMPNN 进一步优化 CDR 环的氨基酸序列。

主要发现

实验验证：研究通过实验筛选，验证了针对 4 种疾病相关表位的设计。包括对流感 H1 血凝素、RSV（呼吸道合胞病毒）等表位的 VHH 抗体。
Cryo-EM 验证：冷冻电镜分析结果显示，设计的 VHH 与靶标抗原的结合结构高度一致，尤其是在结合位点（如 CDR H3 环）的精确度上达到原子级别。
特异性和多样性：所设计的 VHH 展示了较高的靶向特异性和结构多样性，且与训练集中的天然抗体结构显著不同，展示了模型在设计新型结合结构上的泛化能力。

结果与讨论

设计成功率：尽管设计的 VHH 展示了较好的结合能力和特异性，但整体的成功率较低，表明需要进一步优化模型。
未来改进方向：研究建议可通过引入最新的生成模型（如流匹配模型）、优化设计过滤策略以及结合 RoseTTAFold2 模型的预测能力来提升设计效果。同时，进一步优化 CDR 序列的“人源化”，以降低免疫原性。

研究意义

这项工作展示了通过计算设计方法进行抗体从头开发的潜力，为抗体药物发现带来了新的可能性，特别是在时间和成本上的显著优势。未来的进一步优化和技术融合可能会推动结构基础上的抗体设计进入新阶段。

1 背景

抗体是目前最主要的一类蛋白质治疗药物，全球已有超过 160 种抗体药物获得批准，市场预计将在未来五年达到 4450亿美元。尽管在制药领域备受关注，治疗性抗体的开发仍然依赖于动物免疫或抗体文库筛选，以识别能够结合特定靶标的候选分子。这些方法不仅费时费力，还可能无法产生与治疗相关表位有效结合的抗体。为改进这一过程，已有计算设计方面的尝试，如在现有抗体结构中移植关键残基、采样不同的天然 CDR 环（互补决定区）以提升结合亲和力，或利用 Rosetta 进行序列优化以增强相互作用区域的结合能力。最近，基于结构和序列的深度学习网络也被用于设计新型抗体序列，但要从头（无任何同源性）设计结构精确的抗体仍然具有挑战性。近年来，使用 RFdiffusion 设计结合蛋白（非抗体）取得了一些进展，这种方法不同于以往，不需要预先设定蛋白结合物的骨架结构，能够设计出多样化且与用户指定表位具有形状互补性的结合蛋白。然而，类似于其他从头设计界面的方法，这些设计几乎完全依赖于规则的二级结构（如螺旋或链）与靶表位的相互作用，因此，RFdiffusion 在从头设计抗体时存在一定局限性，无法有效地应用于抗体的设计（补充图1）。

补充图1：微调是RFdiffusion进行抗体设计的必要步骤。A) 为了测试现有的原始RFdiffusion模型是否能够设计VHH（单域抗体）或scFv（单链可变片段），我们尝试提供不同的抗体模板进行评估。在VHH的设计中（左侧），我们使用了一个仅基于序列信息训练的RFdiffusion模型，并输入了VHH框架序列（灰色）。与本文描述的微调版本（粉色）相比，这种原始版本在复现VHH的天然框架结构方面效果明显较差。对于scFv（右侧），我们进一步尝试在原始RFdiffusion模型中加入结构层级的信息（深灰色），但发现即便如此，仍无法准确再现scFv的框架结构。经过微调后（粉色），模型几乎完美地复现了scFv的框架结构。B) 尽管原始的RFdiffusion模型在训练时会考虑**结合“热点（hotspots）”（指关键结合位点）**，但对于VHH（左侧）和scFv（右侧）的设计效果并不稳定（灰色）。经过微调后（粉色），在抗体设计中模型对“热点”的处理明显更加鲁棒（稳定和准确）。C) 以下是对(A)和(B)结果的示例说明。在所有案例中，展示的是框架复现“中等精度”的典型示例。从左到右依次为：i) 在没有微调的情况下，原始RFdiffusion无法有效识别“热点”残基（橙色），且无法准确复现VHH框架结构（灰色 vs. 黄色）；ii) 经过抗体设计的微调后，RFdiffusion能够精确瞄准“热点”，并准确复现VHH的框架结构（粉色 vs. 黄色）；iii) 仅提供scFv的序列时，原始RFdiffusion既无法准确识别“热点”（橙色），也无法准确复现VHH的框架结构（灰色 vs. 黄色）；iv) 即使加入额外的结构层级信息，也不足以完美复现框架结构（深灰色 vs. 黄色）；v) 经过微调后的RFdiffusion模型能够设计出具有准确框架结构的scFv（蓝色/粉色 vs. 灰色<感觉这里应该是写错了，应该是**蓝色/粉色 vs. 黄色**才对>），并精确瞄准输入的“热点”残基（橙色）。

为什么说“依赖于规则的二级结构（如螺旋或链）与靶表位的相互作用”不适合抗体设计呢？
抗体的结构和结合特性使其在从头设计时与常规蛋白质设计方法有明显的不同，下面咱们就来唠唠，依赖于规则的二级结构（如 α-螺旋或 β-链）与靶表位的相互作用通常并不适合抗体设计到底是为啥子嘞！
抗体的结合位点结构高度多样
抗体与抗原的结合主要依赖于抗体的互补决定区（Complementarity Determining Regions, CDR），尤其是 CDR3 区域。CDR 在抗体结构中呈现为高度可变的环状结构，其构象复杂且不规则，与典型的二级结构（α-螺旋或 β-链）截然不同。这种不规则的结构是形成特异性识别抗原表位的关键。相比之下，常规的从头蛋白设计方法（例如利用规则的二级结构如螺旋或链）更适用于设计那些具有规则、重复结构的蛋白质。
抗体与抗原的结合机制
抗体识别和结合抗原主要通过表面互补性，即 CDR 环的空间构象与抗原表位精确匹配。这种相互作用通常包含多种非共价键，如氢键、范德华力和疏水相互作用。依赖规则二级结构的设计方法（例如基于 α-螺旋和 β-链的设计）通常假设二级结构可以形成较为规则的结合界面，但这种方法在抗体中很难有效实现，因为抗体的结合界面通常并不具有规则性，而是由高度多样的 CDR 环形成。
抗体的亲和力成熟过程
抗体在自然免疫系统中的生成过程通常包括一个体细胞超突变和亲和力成熟的阶段。这个过程会导致 CDR 环区域的高度变异，并形成独特的、非规则的结合构象。传统的从头设计方法无法有效模拟这种亲和力成熟的过程，因此难以设计出具有高特异性和高亲和力的抗体。
……阿巴阿巴
总的来说，抗体设计的核心挑战在于如何精确建模和预测 CDR 环的复杂构象及其与抗原的相互作用。由于 CDR 环的构象多样性和不规则性，传统基于规则二级结构的蛋白设计方法在抗体设计中表现不佳，所以我们需要更加专门化的策略和模型来捕捉这种复杂的结构特性。例如，近年来兴起的针对抗体设计的特化模型（如 AbDiffusion、IgLM、AntiBERTy 等，如果有可能，后面我会挨个把它们介绍一波！）更适合于抗体的设计，因为这些模型更关注于 CDR 环的序列变异性和空间构象，能够更好地预测并生成特异性结合的抗体。

一种理想的从头抗体设计方法应具备以下几点能力：

可以针对任意感兴趣的靶标表位进行设计；
能够在采样时聚焦于抗体的 CDR 环，同时保持抗体框架序列和结构接近用户指定的高度优化的治疗性抗体框架；
还需采样设计抗体与表位的不同刚体位置，以探索更多结合可能性。

我们推测，鉴于 RFdiffusion 在设计多样且高质量结合界面方面的优势，完全有可能开发出专门版本，用于从头设计抗体，因为界面形成的基本热力学原理是一致的。RoseTTAFold2 和 RFdiffusion（基于 RF2 的早期版本训练）在整个蛋白质数据库（PDB）上进行训练，以克服 PDB 中抗体结构数据相对较少（~8,100 个抗体结构 versus >200,000 个总结构）的限制，这种情况往往会给大型机器学习模型的训练带来困难。为了专门用于抗体结构设计和预测，我们对 RFdiffusion 和 RoseTTAFold2 进行了基于天然抗体结构的微调。为简化表述，在本文中，我们将原始版本称为“vanilla RFdiffusion”（原始 RFdiffusion 模型），而将这种针对抗体的特定版本简称为“RFdiffusion”。

为什么说“蛋白质与蛋白质（包括抗原抗体）界面形成的基本热力学原理一致”？
蛋白质与蛋白质（或蛋白质与其他分子，如抗原）的结合界面在设计过程中，遵循的基本热力学原理是相同的，主要包括自由能最小化、疏水效应、氢键形成、静电相互作用等。这些热力学原则是推动分子间相互作用和稳定结合的核心驱动力，无论是在抗体设计还是其他蛋白质界面的设计中，都是适用的！

2 结果

微调后的 RFdiffusion 用于抗体设计

RFdiffusion 采用 AlphaFold2/RF2 的框架表示方法，对蛋白质骨架进行建模，包括每个残基的 Cɑ 坐标以及 N-Cɑ-C 的刚性取向。在训练过程中，使用了一种噪声添加策略，在设定的若干时间步（）内逐步向蛋白质框架添加噪声，使其分布逐渐变得与随机分布难以区分；其中，Cɑ 坐标加入三维高斯噪声，而残基的取向则通过上的布朗运动进行扰动。在训练过程中，首先从 PDB 数据库中随机选择一个结构以及一个时间步（），并对该结构施加 t 次噪声处理。随后，RFdiffusion 在每个时间步上预测去噪后的结构（），并通过最小化预测结构（）与真实结构（）之间的均方误差（MSE）损失进行优化。在推理阶段，从三维高斯分布和均匀旋转分布中采样翻译和旋转（），RFdiffusion 通过逐步去噪的方式，迭代生成新的蛋白质结构。

为了探索抗体的设计，我们主要在抗体复合物结构上对 RFdiffusion 进行了微调（图1）。在每一步训练中，随机选择一个抗体复合物结构和一个时间步（），并对抗体结构施加 t 次噪声处理，而靶标结构则不添加噪声。为了在推理阶段能够指定抗体框架的序列和结构，我们在训练过程中向 RFdiffusion 提供了框架序列和结构信息（图1B）。由于希望 RFdiffusion 在设计 CDR 环构象的同时，也能优化抗体与靶标之间的刚体位置（对接），因此在训练时，我们以全局框架不变的方式提供框架结构（图1C）。这一过程使用了 RF/RFdiffusion 中的“模板轨道（template track）”，将框架结构表示为二维矩阵，包含每对残基之间的成对距离和二面角（这种表示方式可以准确地再现三维结构）（补充图1A）。框架和靶标模板仅指定每条蛋白链的内部结构，而不涉及它们在三维空间中的相对位置。在这项工作中，我们保持框架区域的序列和结构固定，主要专注于设计 CDR 环及优化抗体相对于靶标的整体刚体位置。

在原始 RFdiffusion 中，可以通过额外的 one-hot 编码“热点”特征，在推理阶段将从头设计的结合物靶向特定表位，这一特征指示了设计的结合物应与哪些残基发生相互作用。针对抗体设计中 CDR 环的介导相互作用，我们对这一功能进行了调整，以指定靶蛋白上 CDR 环应结合的靶标残基，使其更加适应抗体设计任务（图1D）。

图1：RFdiffusion 在抗体设计中的概述。A) RFdiffusion 的训练方式是，在时间T时从噪声分布中采样（平移使用 3D 高斯分布，旋转使用均匀 SO3 分布），然后在 T 到 0 的时间间隔内对采样的噪声进行“去噪”，以生成通过 CDR 环与靶标结构结合的 scFv 抗体。B) 通过输入框架“模板”来控制使用哪种框架，该模板指定框架中氨基酸残基之间的成对距离和二面角，同时也包括框架区域的序列。例如，提供 VHH 框架会生成 VHH（上排），而提供 scFv 框架则会生成 scFv（下排）。C) 通过框架的成对表示实现抗体-靶标对接的多样性，因为框架结构是在与靶标不同的模板中提供的，因此不提供关于刚体框架与靶标的相对关系信息，从而 RFdiffusion 可以采样到多种不同的对接模式。D) 通过提供输入的“热点”残基，可以指定抗体与靶标的结合表位，从而引导所设计的抗体（左侧的橙色 vs. 右侧的粉色）。

通过这种训练方式，RFdiffusion 能够设计出与输入框架结构高度匹配的抗体结构，并通过全新的 CDR 环靶向指定的表位（补充图1）。在 RFdiffusion 步骤之后，使用 ProteinMPNN 设计 CDR 环的序列，所设计的抗体与靶标表位进行多样化的相互作用，并且与训练数据集中的抗体相比，显示出显著的差异（图2E）。

图2：E) 设计的 VHH 与训练数据集显著不同。使用 Blastp 对 SAbDab 数据库进行比对，报告了所有在本研究中实验测试的 VHH 中 CDR 环的 BLAST 比对结果。值得注意的是，28 个通过 SPR 确认与其靶标结合的 VHH（红线）并未显示出与训练数据集的相似性增强。

对 RoseTTAFold2 进行微调以验证抗体设计

设计流程通常会产生一系列的解决方案，因此，选择哪些设计进行实验表征的可计算指标在其中扮演着重要角色。通过基于设计模型结构与 AlphaFold2 预测结构之间的相似性来筛选设计方案是一种有效的过滤方式，这种方法被称为“自一致性（self-consistency）”，并且已被证明与实验成功之间有较好的相关性。然而，对于抗体设计，AlphaFold2 并不能准确地预测抗体-抗原的结构，这使得它无法在抗体设计流程中作为有效的筛选方法。

因此，我们尝试通过在抗体结构上对 RoseTTAFold2（RF2）结构预测网络进行微调，以改进这一筛选方法。为了使问题更易于处理，我们在训练过程中提供了关于靶标结构和抗体结合的靶标表位位置信息；微调后的 RF2 仍然需要正确建模对 CDR 进行建模，并找到抗体与靶标区域的正确定位。通过这种训练方式，RF2 能够稳健地区分真实的抗体-抗原配对与伪配对（decoy pairs），并且通常能准确预测抗体-抗原复合物的结构。当提供靶标结构的结合态（holo）时，模型的准确性更高（补充图2）；这一状态在设计模型评估时是可用的，但在一般的抗体-抗原结构预测中并不一定可用。

小小知识要知道 —— Holo 和 Apo 是什么意思嘞？
Holo 和 Apo 是用于描述蛋白质结构状态的两个术语，主要用于讨论蛋白质是否与其配体或辅因子结合，研究蛋白质在不同结合状态下的构象变化及其功能。
Apo：蛋白质未结合配体或辅因子的状态，通常是“空”的。
Holo：蛋白质结合配体或辅因子的状态，通常是“完整”的。

补充图2：经过微调的 RoseTTAFold2 能够区分真实复合物与伪复合物（decoy complexes）。A) 验证集中一个抗体结构的示例，其靶标序列（青色部分）与 RoseTTAFold2 微调训练数据集中的任何序列的相似性均低于30%。B) 微调后的 RoseTTAFold2 可以可靠地预测其自身的准确性。图中展示了 RF2 的预测误差（pAE）与其对比天然结构的均方根偏差（RMSD）之间的相关性。当提供 100%（左图）或 10%（右图）的“热点”残基时，pAE 小于 10 的情况下，80.3% 的结构在 2Å 以内的误差范围内；当仅提供 10% 热点时，这一比例降至 52.6%。C-D) 精选的示例展示了 RoseTTAFold2 正确区分“真实”复合物与“伪（decoy）”复合物的能力。实验中使用抗体 7Y1B 的序列，并分别提供了正确的靶标（PDB: 7Y1B）和伪靶标（PDB: 8CAF）。无论是提供 100%（C）还是 10%（D）的“热点”信息，RF2 几乎完美地预测了结合（上排）或不结合（下排）的情况。E) 定量分析了微调后的 RF2 在区分真实靶标与伪靶标时的能力，分别使用 pAE（上排）和 pBind（下排）进行评估。需要注意的是，这种**预测能力依赖于提供的“热点”残基的比例**。在不提供任何“热点”信息的情况下，RF2 的预测几乎不具备可信度，因为缺乏特权信息（privileged information，个人理解就是隐藏信息、先验信息这种意思）的 RF2 通常无法可靠或准确地进行预测。

pAE 和 pBind 是什么呢？它们是怎么得到的呢？
这里俺先简单介绍一波，具体详情请大家期待一下咱们即将推出的 RoseTTAFold2（RF2）详解（https://www.biorxiv.org/content/10.1101/2023.05.24.542179v1）！虽然它已经老了，但还是有很多值得我们学习的地方！对不啦！
pAE 和 pBind 是通过 RoseTTAFold2（RF2） 网络的输出结果计算得到的两种指标，它们分别用于预测蛋白质结构中的残基对误差（error per residue pair）以及两个蛋白质链是否结合（binding probability），我们可以把它们用于评估结构预测的准确性和模型对抗原-抗体复合物的识别能力。
pAE (predicted Aligned Error, 预测比对误差)
pAE 是一种用于评估预测的蛋白质结构中，每对残基之间相对位置误差的估计。它反映了模型对特定残基对之间距离的预测误差，是一种用于衡量模型结构预测不确定性的指标。这一概念源自于 AlphaFold2，用于判断模型对特定结构区域预测的置信度，也就是评估模型在不同结构区域的预测可靠性。较低的 pAE 值表示模型对该残基对的预测位置更加精确和可信，较高的 pAE 值则表明模型预测的误差较大。一般情况下，pAE < 10 表示预测结果具有较高的可信度。
pAE 是通过 2D（pair track） 的特征来计算的：
首先，从 2D track 中提取的 pair 特征（）被用作输入。
模型将投射到 64 个 pAE bins（区间），每个 bin 的宽度为 0.5。这样，模型可以输出一个概率分布，预测每对残基的相对误差落在这些 bins 中的概率。
最终，预测结果可以用于分析模型在残基对上的预测不确定性。
pBind (binding probability, 结合概率)
pBind 是用于预测两个蛋白质链是否结合的概率，是在蛋白质复合物预测中常用的评估指标。它表示模型认为这两个链形成结合界面的可能性大小。该指标特别有用于预测多链蛋白复合物的结合情况。较高的 pBind 值表明模型认为这两个链有更高的概率结合在一起，而较低的值则表示结合概率较低。
pBind 是通过 pAE logits 得到的，即基于 pAE 的预测误差。pAE logits 是模型输出的 pAE 值的原始 logits，表示模型对每对残基之间误差的预测。
pBind 的计算方法是：
首先，对所有跨链的残基对计算 pAE 的平均值，即对跨链的所有单元计算平均误差。
接着，将 pAE 的平均值从 64 个 pAE bins 投射到一个单一值。
最后，应用 sigmoid 激活函数，得到 pBind 值，这个值在 0 到 1 之间，表示结合概率。
下面小小总结一下：
pAE：用于估计模型在预测的结构中，每对残基的相对位置误差，是评估结构预测不确定性的重要指标。
pBind：基于 pAE 值计算，用于预测两个蛋白质链是否结合，表示模型认为它们形成结合界面的可能性。
这两个指标都是为了帮助更好地评估预测结构的准确性和模型可信度。其中 pAE 主要用于评估结构的可靠性，而 pBind 则关注于两个蛋白质链之间是否会形成稳定的结合。

在单体预测时，经过微调的 RF2 表现优于先前发布的 IgFold 网络（IgFold 仅能建模抗体单体结构），尤其是在 CDR H3 结构预测方面（补充图3）。

补充图3：微调后的 RoseTTAFold2 与 IgFold 在抗体单体预测中的对比。A) 使用微调后的 RoseTTAFold2 或 IgFold 对 2023 年 1 月 13 日后发布的 104 个抗体进行了单体预测。这些抗体与该日期之前发布的任何抗体复合物的靶标序列相似性都低于 30%（**IgFold 无法预测抗体-靶标复合物**）。图中展示了微调后的 RoseTTAFold2 对 PDB 8GPG 的 Fv 质量预测中位数（通过整体 RMSD 进行衡量），分别显示了包含（右）和不包含（左）侧链的情况。尽管骨架 RMSD 与真实结构较为接近，但某些侧链的位置预测不准确。B) 微调后的 RoseTTAFold2 在预测准确性上略优于 IgFold。与 IgFold 相比，微调后的 RoseTTAFold2 的整体预测准确性有所提升（p = 0.015，采用 Wilcoxon 配对检验），尤其是在 CDR H3 的预测准确性上有更大改善（p = 0.00007，采用 Wilcoxon 配对检验）。

当这个经过微调的 RF2 网络用于重新预测 RFdiffusion 设计的 VHH 结构时，发现其中一大部分能够被可靠地预测为以几乎完全相同的方式结合到设计结构上（补充图4A）。进一步的计算交叉反应性分析表明，RFdiffusion 设计的 VHH 很少被预测与无关的蛋白质结合（补充图4B）。那些被可靠预测能与设计靶标结合的 VHH，其预测的界面质量较高，这一结果通过 Rosetta ddG 评分得到了验证（补充图4C）。事实上，许多通过 RFdiffusion 抗体设计流程生成的设计序列被 RF2 预测为能够采纳设计的结构和结合模式，这表明 RF2 筛选可能有助于富集实验上成功的结合分子。

补充图4：微调后的 RoseTTAFold2 能够重现设计的结构，并在计算上验证 VHH 对其靶标的特异性。A) 对比了 RF2 的 pAE（预测误差）与预测结构和设计模型的 RMSD 值。大量设计模型在使用 RF2 重新预测时（提供 100% 的“热点”残基信息），pAE 值与模型准确性表现出良好的相关性。B) RF2 可用于评估设计的 VHH 质量。当输入 VHH 序列和其设计时使用的真实靶标结构时，与使用无关的“干扰”靶标结构（设计时未使用）相比，获得高置信度预测的比例更高。该评估通过预测中 pAE < 10 的比例来衡量，并进行了归一化（相对于该靶标与其“正确”设计 VHH partners 的 pAE < 10 的预测比例）。在这些实验中，输入了真实或干扰靶标结构，以及 100% 的热点残基，这些热点残基来自于该靶标与其“真实”设计 VHH 结合时的结构。C) 使用 Rosetta 对设计的 VHH 进行独立评估，结果表明，通过 RF2 筛选（RMSD < 2Å 且 pAE < 10）的 VHH 设计，其界面具有较低的 ddG 值（仅略低于天然 VHH），并且 SAP 评分略高于天然 VHH。

设计的 VHH 的生化特征和设计过程

我们最初聚焦于基于骆驼和鲨鱼产生的重链抗体可变区的 VHH 设计。VHH 由于尺寸较小，使得其编码基因的组装更加简便且成本较低，相比于单链可变片段（scFv，linker 选择是关键因素）或抗原结合片段（Fab，需要跨链二硫键以确保正确折叠）。此外，VHH 具有很强的“人源化”潜力，目前已有两种基于 VHH 的治疗药物获得 FDA 批准，并且许多临床试验正在进行中。尽管 VHH 的 CDR 环数量（仅三个）比传统 Fv（六个）少，但 VHH 的平均相互作用表面积与 Fv 非常相似，这表明能够设计 VHH 的技术同样适用于 Fv 的设计。实际上，根据 Rosetta 和微调后的 RoseTTAFold2（RF2）评估的体外计算指标显示，scFv 和 VHH 的界面质量也是非常相似的（补充图6）。

补充图6：RFdiffusion 生成的 scFv 的计算评估。A) RFdiffusion 使用 Herceptin（hu4D5-8）框架生成 scFv 设计，该框架此前已被用于构建 scFv。选择了五个靶标（IL10 受体-α、TLR4、β-内酰胺酶、TcdB 和 SARS-CoV-2 RBD，对应的 PDB 编号为 6X93、4G8A、4ZAM、7ML7、7WPC）。图中展示了设计模型与经过微调的 RF2 预测结果之间高度一致的五个示例，计算的均方根偏差（RMSD，单位 Å）分别为：0.60、0.56、0.46、0.43、0.61；预测误差（pAE）分别为：4.73、4.10、4.49、3.52、3.65。灰色表示设计模型，粉色表示 RF2 的预测结果。B) 对于成功设计出 VHH 的四个靶标，经过微调的 RF2 能够很好地预测设计靶标与伪靶标之间的特异性。C) 对于(A)中展示的五个靶标，经过微调的 RF2 同样能准确预测设计靶标与伪靶标之间的高度特异性。D) 通过 Rosetta 对设计的 scFv 进行正交评估，结果表明，RF2 筛选通过的 scFv 设计（RMSD < 2Å，pAE < 10）的界面自由能变化（ddG，顶部）较低，仅略微高于天然 Fab 片段，且其界面 SAP 评分（底部）低于天然 Fab 片段。

我们选择了一个广泛应用的人源化 VHH 框架（h-NbBcII10FGLA [参考文献：https://www.jbc.org/article/S0021-9258(19)81891-4/fulltext]）作为 VHH 设计的基础，并针对多种与疾病相关的靶标进行 VHH 设计，包括艰难梭菌毒素 B（TcdB）、甲型流感 H1 血凝素（HA）、呼吸道合胞病毒（RSV）I 和 III 位点、SARS-CoV-2 受体结合域（Covid RBD）以及白细胞介素-7 受体 α（IL-7Rα）。在设计过程中，使用 ProteinMPNN 工具对靶标特定的 CDR 环序列进行了优化设计（但不包括框架部分）。随后，我们利用之前介绍的经过微调的 RoseTTAFold2（RF2）网络对这些设计进行筛选过滤。在筛选实验中，我们采用了不同的策略：针对 RSV I 和 III 位点、SARS-CoV-2 RBD 和流感 HA，我们通过酵母表面展示进行高通量筛选（每个靶标设计 9000 种 VHH）；而针对 TcdB、IL-7Rα 和流感 HA，我们则使用了大肠杆菌表达系统并结合单浓度表面等离子共振（SPR）进行低通量筛选（每个靶标筛选 95 种设计，其中流感 HA 同时采用了两种筛选方法）。

在流感 HA 的实验中，位于 HA 干部分子表位的糖基 N296 与我们设计的多个 VHH 的结合角度发生重叠。为了使实验设计条件与计算设计时所使用的参数（即不考虑糖盾（glycan shield，或者叫糖基化屏障？）的影响）尽可能保持一致，我们选择使用在昆虫细胞中表达的 HA 单体进行亲和力测定（补充图9）。昆虫细胞表达的 HA 单体上携带的是截短的寡聚甘露糖糖基化屏障，与天然表达的 HA 三聚体相比，其结构更接近于 VHH 设计时所参考的完全去糖基化的 HA 单体 PDB 模型。在对这些 VHH 与昆虫细胞表达的 HA 单体进行测试后，发现最高亲和力的 VHH 结合常数（Kd）为 78 nM（图2），而其他 VHH 的亲和力分别为 546 nM、698 nM 和 790 nM。

补充图9：流感 HA 抗原的负染电镜分析。A) 原始负染电镜（nsEM）显微图；B) 2D 分类平均图像，显示样品中主要为 HA 单体；C) 在昆虫细胞中表达的已商业化生产的 HA 单体抗原的代表性预测 3D 模型（基于 PDB: 8SK7）。该构建体用于通过酵母表面展示和 SPR 筛选 VHH 结合物。与哺乳动物细胞生产的糖蛋白相比，昆虫细胞生产的糖蛋白表现出截短的糖盾。D) 原始负染电镜显微图；E) 2D 分类平均图像，清晰显示 HA 三聚体的存在数量丰富；F) 在哺乳动物细胞中表达的自制 Iowa43 HA 三聚体抗原的代表性 3D 模型（基于 PDB: 8SK7）。这种抗原是完整的天然糖基化形式，为 HA 的三聚体结构。这些特征使得 Iowa43 适用于 Cryo-EM 结构研究，特别是针对新设计的 VHH 及其与天然糖基化的、具有治疗潜力的糖蛋白的结合能力的研究。

图2：设计的 VHH 的生化特征。A-B) 9000 种设计的 VHH 通过酵母表面展示技术筛选，针对 RSV Site III 和流感血凝素进行筛选，随后在大肠杆菌中进行可溶性表达。表面等离子体共振（SPR）结果表明，针对 RSV III 位点和流感血凝素的高亲和力 VHH 分别以 1.4μM 和 78nM 的亲和力与各自的靶标结合。C) 9000 种 VHH 设计针对 SARS-CoV-2-RBD 进行了测试，经过可溶性表达后，SPR 确认其与靶标的亲和力为 5.5μM。值得注意的是，结合发生在预期的表位上，这一结论通过与结构确定的 de novo binder（AHB2，PDB: 7UHB）的竞争实验得到了验证。D) 95 种 VHH 设计针对 *C. difficile* 毒素 TcdB 进行了测试，VHH 的最高亲和力为 262nM，并且与一个未发表的、结构确定的 de novo binder 对相同表位的竞争结果相符（见右侧）。C 和 D 中的竞争实验定量分析可参见**补充图7**。E) 设计的 VHH 与训练数据集显著不同。使用 Blastp 对 SAbDab 数据库进行比对，报告了所有在本研究中实验测试的 VHH 中 CDR 环的 BLAST 比对结果。值得注意的是，28 个通过 SPR 确认与其靶标结合的 VHH（红线）并未显示出与训练数据集的相似性增强。

针对 RSV III 位点、流感 HA、Covid RBD 和 TcdB 的最高亲和力结合物分别如图2A、B、C、E所示（所有确认的 VHH binders 的 SPR 曲线见补充图8）。设计的 CDR 环与自然界中观察到的 VHH 存在显著差异，这表明设计的 VHH 在一定程度上超越了训练数据集的范畴，具有较强的泛化能力（图2E，补充图5）。对于 TcdB，PDB 中并未发现针对该位点的抗体或 VHH。在 Covid RBD（Kd = 5.5μM；图2C）和TcdB（Kd = 262nM；图2D）中，设计的最佳 VHH 均确认结合了预期的表位：当加入先前设计的、结构已确认的从头合成结合物（AHB2，PDB：7UHB用于 Covid RBD，Fzd48 用于 TcdB）后，结合完全被抑制（图2C、D，补充图7）。对于 TcdB，所设计的 VHH 与表位的相互作用具有特异性，且未观察到与高度相关的 Clostridium sordellii 毒素 L（TcsL）发生结合（补充图7B）。这些数据展示了 RFdiffusion 在设计 VHH 时能够实现与靶表位的特异性相互作用。令人惊讶的是，在我们使用的 RF2 设置下，经过筛选的设计与未筛选设计相比，设计成功率并没有显著提高（提供 100% 的界面热点，尽管在我们为预测提供 0% 或 10% 热点时，仍能观察到一些信号）。然而，由于数据集较小，未来需要更大规模的数据集才能更为确切地评估如何最好地使用和微调 RF2 进行设计筛选。

补充图8：经实验验证的 VHH 的 SPR 图谱。图中展示了本文研究中实验验证的 VHH 结合物的 SPR（表面等离子共振）图谱。对于能够进行可靠 Kd 估算的图谱，我们在图中显示了这些估算值。TcdB H2 和 Flu F9 的设计结果来自图2中的数据。

补充图5：VHH 设计模型与 PDB 中复合物的比对。针对每个靶标确认的最高亲和力 VHH，以及结构表征的流感 HA VHH，展示了其在 PDB 中最相似的复合物。设计的 VHH（粉色）与其对应的设计靶标（青色和棕色）形成复合物。最相似的复合物通过视觉方式确定。A) 设计的 TcdB VHH 与来自 6OQ5 的3个 VHH（不同的蓝色）进行比对。设计的 TcdB VHH 结合于 PDB 中尚无抗体或 VHH 结构存在的位点。B) 设计的 RSV III 位点 VHH 与来自 5TOJ 的 VHH（蓝色）进行比对。C) 设计的 SARS-CoV-2 VHH 与来自 8Q94 的 VHH（蓝色）进行比对。D) 设计的 SARS-CoV-2 VHH 与来自 7FCP 的 Fab 片段（不同的蓝色）进行比对。E) 最高亲和力的流感 HA VHH 设计与来自 8DIU 的 Fv 片段（不同的蓝色）进行比对。F) 最高亲和力的流感 HA VHH 设计与来自 6YFT 的 VHH（蓝色）进行比对。G) 结构特征的流感 HA VHH 设计与来自 8DIU 的 Fv 片段（不同的蓝色）进行比对。H) 结构特征的流感 HA VHH 设计与来自 6YFT 的 VHH（蓝色）进行比对。

补充图7：SPR 竞争实验分析。在 VHH 注射过程中，平均响应值被标准化为 VHH 注射前的响应值。A) TcdB VHH 与 Fzd48 的竞争实验结果。B) TcdB VHH 未与高度相关的 Clostridium sordellii TcsL 毒素发生结合，表明其通过特异性相互作用进行结合。C) SARS-CoV-2 RBD VHH 与 AHB2 的竞争实验结果。在竞争实验中，只有小蛋白结合物的轨迹中没有注射 VHH，其对应时间段的平均响应值作为基线绘制。(A) 和 (C) 分别是**图2C-D**最右侧的量化结果。

冷冻电镜揭示了针对天然糖基化病毒糖蛋白的原子级精度 VHH 设计

鉴于 RFdiffusion 成功生成了对多种表位具有中等亲和力的 VHH，我们进一步通过冷冻电镜（Cryo-EM）结构解析来评估其设计的精确性，重点研究了设计的抗流感 HA VHH 与天然糖基化的三聚体流感 HA 糖蛋白（A/USA:Iowa/1943 H1N1 株）的复合物。该 HA 保留了计算设计和上游生化筛选中使用的保守杆状表位。实验中，我们以 3:1 的摩尔比（VHH:HA 单体），在 15μM 浓度下将 VHH 与Iowa43 HA 结合，并迅速准备冷冻电镜样品。通过 Cryo-EM 数据处理，发现测试的四种 VHH 设计中，有一种（命名为 VHH_flu_01）成功与完全糖基化的 HA 三聚体结合（图3）。数据集中所有粒子的 2D 分类（图3A）和解析的复合物的 3.0Å 结构（图3B）确定了大约 66% 的 HA 颗粒与每个三聚体最多两个 VHH 结合（图3A-H）。这种部分结合现象可能是由于 N296 糖基的存在，未结合的亚基部分遮挡了靶标表位，但当与 VHH_flu_01 结合时，糖基发生重新定向，从而允许表位暴露（图3H）。

图3：结合到流感血凝素（HA）的从头设计 VHH 的冷冻电镜结构。A) 标注的冷冻电镜 2D 分类平均图，展示了设计的 VHH（VHH_flu_01）与流感 HA（A/USA:Iowa/1943 H1N1 株）结合的情况。B) 沿两个正交轴观察的复合物的 3.0Å 冷冻电镜 3D 重建显示，VHH_flu_01 在三个原体中的两个中沿茎与 H1 结合。C) VHH_flu_01 与流感 HA 结合的冷冻电镜结构。D) VHH_flu_01 与 HA 结合的冷冻电镜结构与设计模型高度一致。E) 冷冻电镜揭示了使用 RFdiffusion 设计的 VHH_flu_01 的准确结构（VHH 的 RFdiffusion 设计与实验结构的 RMSD 为 1.45Å）。F) 将设计的 VHH CDR3 预测结构与构建的冷冻电镜结构进行叠加（RMSD = 0.84Å）。G) 将预测的 CDR3 旋转构型与构建的 3.0Å 冷冻电镜结构进行比较。H) 对比了未结合 VHH 的 HA 原体与设计 VHH 结合的 HA 原体，揭示了糖基 N296 的显著重定位和调节，使设计的 VHH 能够结合到 HA 的茎部。在每个结构描绘中，设计的 VHH 预测结构以灰色显示，而冷冻电镜解析的设计 VHH 结构以紫色显示。此外，HA 糖蛋白用浅褐色表示，HA 糖盾用绿色表示。

在流感 HA 结合两个 VHH_flu_01 的结构中（图3B、C，补充图10），可以看到 VHH 的结合角度与预测模型高度一致（图3D），VHH 骨架结构与 RFdiffusion 设计的模型也非常接近，计算的 RMSD 为 1.45Å（图3E）。CDR3 的结构在冷冻电镜解析结构和计算模型之间也十分相似，RMSD 为 0.8Å（图3F）。在从头设计的 CDR3 中，残基 V100、V101、S103 和 F108 在冷冻电镜结构中与流感 HA 的杆状表位发生相互作用，这一结果与 RFdiffusion 的设计和 RF2 重新预测的一致（图3G）。值得注意的是，该设计与 PDB 中结合该表位的最相似抗体或 VHH 结构显著不同（补充图5G、H）。综上所述，这些结果表明，从头设计的 VHH 能够通过新型的 CDR3 结构，以原子级精度准确结合天然糖基化的表位。

补充图10：结合到流感 HA 三聚体上的从头设计 VHH 的冷冻电镜结构测定统计。A) 代表性的原始显微图像，显示理想的颗粒分布和对比度。B) 流感 H1 与设计的 VHH 的 2D 分类平均图，清晰展示了二级结构元素，并涵盖了颗粒视角的完全采样。C) 使用 FSC 值为 0.14 计算的冷冻电镜局部分辨率图，从两个不同角度进行观察。局部分辨率估计范围从 H1 核心的 ~2.3Å 到设计的 VHH 外围的 ~3.7Å。D) 全局分辨率估计图。E) 显示完整角度采样的方向分布图。F) 定向诊断数据。

3 讨论

我们的研究结果表明，利用计算方法进行从头抗体设计已成为可能。设计的抗流感 HA VHH 的高分辨率冷冻电镜结构显示，该 VHH 复合物（包括高度可变的 H3 环和整体结合取向）实现了原子级精度的设计。

随着进一步的改进，基于 RFdiffusion 和相关方法的从头抗体设计有望彻底变革抗体的发现与开发。我们的 RFdiffusion 方法能够针对靶标抗原上特定的表位进行设计，随着成功率的提高，这一方法在速度和成本上将远远超过动物免疫或随机文库筛选的传统方式。通过基于结构的设计方法，还可以在结构上优化关键的药物特性，如聚集性、溶解度和表达水平，避免破坏抗体-靶标界面的突变或导致抗体结构不稳定。此外，RFdiffusion 方法可以从头探索 CDR 环序列和结构的完整空间，特别是对于 CDR1 和 CDR2，这些区域通常受到 V 基因编码序列的限制，尚未经过体细胞高频突变，这将有助于简化抗体可开发性特性的优化，并靶向非免疫优势表位。最后，利用 RFdiffusion 设计的每种抗体都具有强大的结构假设，这一点已通过 RoseTTAFold2 进一步验证，这将使得靶向特定抗原构象状态的抗体功能设计变得更加合理和高效。

尽管我们成功实现了从头设计 VHH ，但仍有很大的改进空间，因为当前的结合亲和力相对较低（虽然与首次解决这一挑战时的从头设计小蛋白结合物亲和力相当），且成功率仍然较低。在骨架设计环节中，结合最新的架构改进或引入新的生成框架（如流匹配方法）有望提升设计模型的可设计性和多样性。最近，RoseTTAFold2 和原始 RFdiffusion 已扩展至建模所有生物分子（而不仅限于蛋白质），将这一功能引入到抗体设计的 RFdiffusion 中，将允许设计针对包含非蛋白质原子的表位（如糖基）的抗体。实际上，在 VHH_flu_01 的结合中观察到的亚化学计量结合现象可能是由邻近的糖基 N296 所导致，这在最初的 VHH 设计中未被考虑。本研究没有对 ProteinMPNN 进行修改，但设计出与人类 CDR 序列更为接近的序列预计可以减少设计抗体的潜在免疫原性，未来还可进一步在 ProteinMPNN 中直接优化可开发性特性。最后，改进 RoseTTAFold2 在抗体预测方面的性能将提高实验成功率，并使上游设计方法的计算机模拟基准测试更为精准。

总而言之，我们期待这项工作能够成为基于结构的抗体设计新时代的奠基石！

文末碎碎念

那今天的分享就到这里啦！我们下期再见哟！

最后顺便给自己推荐一下嘿嘿嘿！

如果我的分享对你有用的话，欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴！这可是我的第一原动力！

蟹蟹你们的喜欢和支持！！！

参考资料

Bennett, N. R., Watson, J. L., Ragotte, R. J., … Baker, D. (2024). Atomically accurate de novo design of single-domain antibodies. bioRxiv : the preprint server for biology, 2024.03.14.585103.

生信小白要知道

主打小白保姆级教程，因为自己淋过雨，所以想给大家撑把伞！记录从小白到现在小灰的过程，希望以后可以成为小黑！