Nat. Commun. |预训练大语言生成模型实现从头设计新冠人工抗体

学术   2024-08-14 00:01   韩国  

DRUGAI

今天为大家介绍的是来自北京大学信息工程学院、化学生物学与生物技术学院省部共建肿瘤化学基因组学国家重点实验室、鹏城国家实验室合聘研究员和AI4S平台中心主任陈语谦教授团队与腾讯姚建华、何冰及西京医院李婷合作发表在Nature Communications的论文,研究生何昊淮为第一作者。研究人员在抗体设计领域取得重大突破。该团队开发了一种新型的预训练大语言人工智能模型,能够从零开始生成针对特定抗原的抗体,这一成果有望彻底改变抗体药物的研发流程。此成果基于2021年的国家自然科学基金面上项目”建构基于深度学习及嵌入式互相学习机制算法结合AlphaFold2框架和Rosetta模组的高效疫苗设计平台”的想法和基金支持。

1.背景介绍

尽管人工智能技术在辅助抗体设计方面取得了巨大进展,但目前的抗体设计仍然高度依赖从血清中分离特异性抗体的传统方法。这一过程不仅耗时长,而且资源需求大,严重制约了抗体药物的开发效率。


在此,作者设计了PALM-H3,这是一种基于Transformer架构的预训练抗体生成大语言模型。PALM-H3采用编码器-解码器结构,其中编码器利用ESM2模型处理抗原序列信息,解码器则采用经过预训练的Antibody Roformer模型生成抗体CDRH3序列。


这一模型能够从零开始生成具有所需抗原结合特异性的人工抗体重链互补决定区3(CDRH3),大大减少了对天然抗体的依赖。通过这种创新的设计,PALM-H3能够有效地从抗原信息生成特异性抗体序列,为抗体设计提供了全新的AI驱动方法。除了PALM-H3模型,作者还开发了一个高精度的抗原-抗体结合预测模型A2binder。该模型能够将抗原表位序列与抗体序列配对,预测它们的结合特异性和亲和力。这两个模型的结合,为抗体设计提供了一个完整的AI解决方案。


研究团队将PALM-H3模型应用于SARS-CoV-2抗体的设计。通过详细的实验分析,他们证实了PALM-H3生成的抗体能够结合SARS-CoV-2抗原。体外实验进一步验证了这些抗体对SARS-CoV-2野生型、Alpha、Delta和XBB变体的刺突蛋白具有高结合亲和力和强效中和能力。同时,A2binder模型在公开数据集,如Cov-AbDab等,预测各种表位和变体的结合特异性方面表现出色,为抗体设计提供了可靠的评估工具。


这项突破性研究不仅展示了人工智能在抗体设计领域的巨大潜力,还为加速抗体药物开发提供了新的思路和工具。随着这些技术的不断完善和应用,我们有望见证抗体药物研发效率的显著提升,为更多疾病的治疗带来希望。


2.模型架构

PALM-H3和A2binder的模型架构设计充分利用了大规模预训练语言模型的优势,为抗体设计提供了创新的AI驱动解决方案。


PALM-H3采用了基于Transformer的编码器-解码器结构,如图1b-e所示。编码器部分使用了预训练的ESM2模型来处理抗原序列信息,而解码器则基于Roformer模型,专门用于生成抗体重链互补决定区3(CDRH3)序列。Roformer模型是对标准BERT结构的改进,它采用了旋转位置嵌入(RoPE)来更有效地编码序列元素之间的相对位置信息。这种设计使得模型能够更好地捕捉蛋白质序列中的长程依赖关系,这对于理解抗原-抗体相互作用至关重要。


PALM-H3的训练过程分为两个主要阶段。首先,作者在超过10亿个未配对的抗体轻链和重链序列上预训练了Roformer模型。这一阶段采用了自监督学习策略,通过学习抗体序列的"生物语言"表示模式来捕捉抗体序列的深层特征。在第二阶段,作者使用了来自COVID-19患者的大量抗体序列进行进一步的预训练,这使得模型对SARS-CoV-2相关抗体有了更深入的理解。

PALM-H3模型的核心在于其注意力机制,如图1d所示。模型包含12个抗原层和12个抗体层,每层都包含编码器和解码器的自注意力子层。通过这种设计,PALM-H3能够有效地实现从抗原序列到CDRH3序列的转换任务。值得注意的是,解码器的交叉注意力层是从头训练的,这使得模型能够更好地适应抗原-抗体配对数据的特点。


与PALM-H3相辅相成的是A2binder模型,其架构如图1f所示。A2binder整合了预训练的抗体轻链和重链Roformer模型,以及ESM2模型,用于提取抗体和抗原序列的特征。模型的一个关键组件是多融合卷积神经网络(MF-CNN),它用于进一步融合Roformer提取的序列特征。MF-CNN采用了精心设计的多尺度特征融合CNN架构,包括卷积、池化和ReLU激活函数,用于多尺度特征提取。这种设计使得A2binder能够处理不同长度的氨基酸序列,并在最大长度限制内进行填充或截断。


通过这种精心设计的架构,PALM-H3能够有效地利用大规模未标记抗体数据,同时克服了配对数据不足的限制。模型通过结合预训练和针对性的微调,实现了从抗原序列直接生成高特异性CDRH3序列的能力。同时,A2binder的设计确保了它能够准确预测新生成抗体的结合亲和力,为抗体设计提供了可靠的评估工具。


这两个模型的结合为抗体设计提供了一个完整的AI驱动解决方案,从抗体生成到亲和力预测,全面覆盖了抗体设计的关键环节。通过利用相对位置编码和多尺度特征融合等创新技术,PALM-H3和A2binder展现了在抗体设计领域的巨大潜力,为加速抗体药物开发提供了强有力的工具。

图 1. 模型架构和工作流程


PALM-H3在生成高结合概率抗体方面表现优异

为了评估PALM-H3生成抗体序列的质量,作者将其与两个基准方法进行了比较:SeqDesign和IgLM。作者从CoV-AbDab数据库中选择了针对SARS-CoV-2 RBD区域的天然抗体CDRH3序列,然后使用PALM-H3和基准方法各生成针对相同表位的CDRH3序列。


结果显示,PALM-H3生成序列的困惑度为4.96,显著低于IgLM和SeqDesign。较低的困惑度分数表明生成序列的质量更高,这意味着PALM-H3生成的序列质量优于基准方法。


为了进一步评估生成序列的质量,作者引入了序列恢复率(SRR)作为衡量生成序列多样性及其与天然序列相似性的指标。此外,他们还使用了最先进的抗体-抗原复合物结构预测方法tFold来生成模拟抗体与目标抗原的复合物,并评估预测的模板建模得分(pTM)、界面pTM(ipTM)和预测的局部距离差异测试(pLDDT)。

如图2a所示,PALM-H3在SRR方面优于基准方法。通过tFold评估,PALM-H3还在pTM、ipTM和pLDDT得分上取得了更高的成绩。作者对这些指标进行了t检验,结果表明PALM-H3的表现显著优于其他方法(p<0.01)。这些结果表明,PALM-H3生成的序列更有可能靶向正确的表位并形成稳定的结合复合物。


作者还为人工和天然抗体创建了序列概率图。如图2b所示,生成的抗体的前三个氨基酸与天然抗体相似,其中“ARD”出现概率最高。人工抗体在尾部序列上展现出更大的多样性,最可能的尾部序列是“DY”。此外,生成抗体的中间区域也显示出相当大的多样性。


为了研究序列差异是否会导致结合概率降低,研究团队计算了生成的抗体序列与天然抗体之间的编辑距离。他们根据编辑距离将数据集分组,并使用A2binder预测结合概率,如图2c所示。结果表明,生成的抗体表现出更高的结合概率,且随着编辑距离的增加,概率并未呈现下降趋势。相比之下,随机突变的结果显示,随着编辑距离的增加,亲和力概率呈下降趋势。此外,研究人员还通过BLAST获得了人工抗体的BitScore。较大的BitScore值表示与天然抗体的相似性更高。如图2d所示,人工抗体的结合概率并未因低相似性而降低,这与之前的分析结果一致。为了研究结构对结合概率的影响,研究团队使用AlphaFold2(AF2)生成了人工抗体的结构,并计算了人工抗体与天然抗体之间的均方根偏差(RMSD)。如图2e所示,RMSD的增加(从0.625到0.829 Å)导致抗体结合的平均概率下降。这可能表明结构相似性的降低可能导致抗原-抗体结合概率的降低。然而,即使在RMSD最高的区间,结合概率仍然保持在0.5以上。


综上所述,PALM-H3能够生成一组序列相似性较低但仍具有高结合概率的多样化抗体序列。这一结果凸显了PALM-H3在抗体设计领域的潜力,为开发针对SARS-CoV-2及其变种的高效抗体提供了有力工具。

图 2. 与基线模型的性能比较以及天然与人工抗体的相似性分析


模型具有高度可解释性

作者为了验证PALM-H3的可解释性及其在学习过程中聚焦关键互作位点的能力,对BioMap数据库中的结构进行了统计分析。具体而言,他们使用PyMOL识别抗原-抗体链之间的潜在氢键位置,然后比较PALM-H3在这些氢键位点与其他残基位置的平均注意力权重,以评估模型是否关注结构上相互作用的残基位置。他们将注意力权重分为两组:氢键位点的权重和其他位置的权重。t检验结果显示,PALM-H3在识别的氢键位置的注意力权重显著高于其他位点(p < 0.01)。这一统计显著差异为模型的注意力机制能有效捕捉抗原和抗体之间的关键互作残基位置提供了有力证据。


为提供具体实例,作者将PALM-H3生成的人工抗体序列及其目标抗原序列输入模型。图3a展示了PALM-H3输出的注意力权重,红色表示高注意力权重,蓝色表示低注意力权重,颜色强度代表注意力强度。分析发现,PALM-H3输出中正确对接位点的注意力权重普遍较高,在CDRH3区域的R残基(与HR2肽段中的D残基形成氢键)处观察到最高的注意力值。这表明PALM-H3能正确捕捉关键接触位点,为进一步研究和优化抗原-抗体结合提供了洞见。


此外,作者分析了模型生成针对新变体XBB的高亲和力抗体的能力。图3b展示了PALM-H3生成的注意力权重。他们观察到模型在抗原的167-177区域表现出更高的注意力权重,这恰好对应XBB和抗体的结合口袋。图3c展示了该区域的放大视图,表明注意力权重普遍高于平均水平。此外,抗原与抗体形成氢键的关键位置S168-C170和Q175-S176被发现具有高注意力值。在这些关键位置中,只有C170的注意力权重低于平均水平,而其他所有关键位置的注意力权重均高于平均水平。他们观察到抗原的167-177区域包含XBB特异性突变位点:S168、N169和Q175。先前的研究表明,S168可能赋予对RBD 1类和2类单克隆抗体的抗性,而N169则有助于对RBD 3类单克隆抗体的抗性。此外,先前的研究还表明,XBB中的Q175突变恢复了其受体亲和力,从而恢复了其适应性。这些发现进一步表明,该模型可能能够正确识别和捕捉抗原-抗体相互作用的关键位置,为进一步研究XBB变体指明了方向。


尽管注意力机制的解释仍是一个活跃的研究领域,但作者的统计和可视化分析提供了令人信服的证据,表明PALM-H3的注意力模式有潜力有意义地突出抗原和抗体之间的关键结构接触。

图 3. PALM-H3模型的可解释性分析


生成和天然抗体的体外实验

为了进一步验证PALM-H3生成的抗体对SARS-CoV-2野生型刺突蛋白的有效性,作者选择了根据A2binder预测结合概率排名最高的人工抗体1和人工抗体2,以及两种天然抗体(天然1和2),并通过体外实验评估了它们的结合能力。Western blot分析表明,人工抗体1和2能够以与天然抗体相似甚至更高的水平结合刺突蛋白(图4a)。为进一步确定它们的结合亲和力和中和能力,作者进行了表面等离子体共振分析和假病毒中和实验。与所有测试的天然抗体相比,人工抗体1表现出高结合亲和力,平衡解离常数(KD)为0.05 nm,并具有优越的中和效力,半最大抑制浓度(IC50)为0.023 μg/ml(图4e)。


接下来,作者评估了PALM-H3对Alpha和Delta两个变体的表现。对于Alpha变体,他们选择了A2binder预测的排名最高的人工抗体1,以及另外三个随机选择的具有中等和较低预测结合概率的人工抗体(人工2-4)和一个天然Alpha抗体。Western blot分析验证了它们与Alpha刺突蛋白的结合(图4b)。为进一步量化其功能活性,进行了表面等离子体共振分析和假病毒中和实验。如图4e所示,人工抗体1具有高结合亲和力,KD为0.29 nM,优于天然抗体(0.32 nM)。假病毒中和实验进一步证明人工抗体1对Alpha具有强大的中和能力,IC50为0.006 μg/mL,优于天然抗体(0.02 μg/mL)(图4e)。其他人工抗体表现出较低的中和效力,与其预测的结合概率一致。


对Delta变体进行了类似的实验。Western blot分析验证了它们与Delta刺突蛋白的结合(图4c)。此外,排名最高的人工抗体1对Delta表现出强结合亲和力(KD 0.89 nM)和中和效力(IC50 0.26 μg/mL),与天然Delta抗体相当。此外,人工抗体3也表现出中等中和效力,IC50为0.57 μg/mL(图4e)。这些结果验证了PALM-H3生成高效抗体对抗已知病毒变体的能力。上述实验证明,PALM-H3能够生成超越天然抗体的抗体,用于训练中已知的抗原。


随后,作者评估了PALM-H3生成针对新型SARS-CoV-2 Omicron变体XBB人工抗体的能力,这代表了一个更具挑战性的测试案例,因为模型在训练过程中没有接触过这种抗原。Western blot分析验证了这些抗体与XBB刺突蛋白的结合(图4d)。此外,如图4e所示,人工抗体1表现出更高的结合亲和力,KD为0.13 nm,与天然抗体相比,对XBB具有更强的中和效力,IC50为0.00301 μg/ml。尽管没有接触过XBB,人工抗体1的性能改善证明了PALM-H3能够生成针对新型变体的高效抗体。与A2Binder预测的较低结合概率一致,人工抗体2-4显示出比人工抗体1和天然XBB抗体低得多的亲和力和中和能力。这证明了A2binder能够有效指导抗体选择,为进一步的湿实验研究提供依据。

图 4. 人工和天然抗体的体外实验结果


结论

在这项研究中,作者介绍了PALM-H3,一种产生针对特定抗原的高亲和力抗体CDRH3序列的神经网络模型,以及A2binder,一种将抗原表位序列与抗体序列配对以预测它们之间结合特异性和亲和力的方法。为了明智地分配实验资源,本研究采用了一种合理的筛选方法,使用A2binder模型来优先考虑PALM-H3生成的抗体序列进行验证研究。选择对靶抗原表现出最高预测结合亲和力的顶级候选者进行结构建模、对接和湿实验室分析。总的来说,本论文所提出的PALM-H3整合了大规模抗体预训练的能力和全局特征融合的有效性,从而具有优异的亲和力预测性能和设计高亲和力抗体的能力。此外,直接序列生成和可解释的权重可视化使其成为设计高亲和力抗体的有效且可解释的工具。

参考资料

He, H., He, B., Guan, L. et al. De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model. Nat Commun 15, 6867 (2024).


代码

https://github.com/TencentAILabHealthcare/PALM

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章