机器学习免疫肽谱学:SARS-CoV-2 T细胞表位解析及下一代疫苗开发的新型框架

文摘   2024-11-28 19:07   美国  

医学科研新动向

Machine learning-enhanced immunopeptidomics applied to T-cell epitope discovery for COVID-19 vaccines

Nature Communications

<2024年11月28日>

1. 问题:

  • 新冠疫情当前疫苗以刺突蛋白(Spike Protein, S蛋白)为核心,激发中和抗体和T细胞免疫。然而,S蛋白的高突变率导致部分变异株具备免疫逃逸能力,严重削弱疫苗的保护效力。

2. 研究需求:

  • T细胞靶向疫苗的重要性: 相比抗体,T细胞可识别保守性抗原表位,为突破性变异株提供长期保护。

  • 表位筛选技术的瓶颈: 现有基于质谱(MS)的免疫肽谱学方法存在识别灵敏度和准确性不足的问题,且难以覆盖非规范表位(例如移码肽段)。

3. 研究目标:

  • 本研究通过开发机器学习增强的免疫肽谱学工具“MHCvalidator”,提升表位鉴定的灵敏度与准确性,并结合基因组数据和疫苗免疫学分析,优化SARS-CoV-2的T细胞疫苗设计。

研究设计

研究构建了一个六模块的分析框架,具体方法如下:

1. 免疫肽谱数据采集:

  • 使用质谱技术(LC-MS/MS)分析HLA I类肽段。

  • 数据来自SARS-CoV-2感染细胞和100,512名感染者的体内RNA测序。

2. MHCvalidator工具开发:

  • 集成多层感知机(MLP)、NetMHCpan和MHCflurry算法,用于预测抗原加工和HLA结合亲和力。

  • 设置1%假发现率(FDR)评估PSM置信度。

3. 低输入样本灵敏度测试:

  • 用两倍稀释样本序列数据(从未稀释到16倍稀释),验证MHCvalidator的灵敏度和特异性。

4. 非规范表位鉴定:

  • 对免疫肽谱数据中的移码肽段进行深入分析。

  • 使用100,512例体内RNA数据检测表位发生频率,分析其生成机制。

5. 表位免疫原性评估:

  • 使用ELISpot实验,测试HLA匹配个体中表位诱导CD8+ T细胞的能力,分析免疫反应频率。

6. 疫苗相关表位的突变动态追踪:

  • 使用EpiTrack工具分析14.6百万条SARS-CoV-2基因组序列中表位的地理和时间动态。

核心结果

1. MHCvalidator框架与验证流程
  • MHCvalidator由多层感知机(NN-validator)、抗原加工预测算法(NetMHCpan和MHCflurry)以及肽段序列编码模块(PE)组成。
  • 在目标肽段验证中,MHCvalidator集成了预测得分(结合亲和力和抗原加工)和肽段序列特征,大幅提高了PSM的置信度。
  • 图中数据显示目标肽段显著多于伪肽段。例如,在HLA A*02:01等位基因的测试中,目标肽段占比超过85%,伪肽段被显著压缩至不足15%。
  • 采用“NN-validator + PE + APP”配置,进一步提升了肽段验证效率,尤其在高变异样本中表现优异。

2. MHCvalidator与传统工具对比分析

  • 在1%假发现率(FDR)下,MHCvalidator识别了6,050个HLA I类特异性肽段,而Percolator仅识别了4,000个肽段,识别能力提高了约1.5倍。

  • Venn图显示,MHCvalidator独特发现1,537个肽段,而Percolator仅有64个未被MHCvalidator发现,表明MHCvalidator在灵敏度和特异性上均有明显优势。

  • 在低输入样本(如16倍稀释)中,MHCvalidator的肽段识别数量从稀释条件下的3,250提高至稀释样本的6,500,而Percolator的识别数仅为2,500,灵敏度提升约2.6倍。

  • 数据进一步显示,MHCvalidator在低质量谱图的处理上表现更佳,尤其在HLA-C*07:01等位基因中,识别效率提高了5.3倍。

3. SARS-CoV-2表位的分类与免疫原性分析

  • MHCvalidator重新分析SARS-CoV-2感染细胞的免疫肽谱数据,发现24个高可信度的HLA I类特异性肽段,比原始方法多出13个。
  • 新发现的表位包括:
    移码表位: LPYPQILLL(由S蛋白31核苷酸缺失生成),绑定HLA-B07:02和B51:01,结合亲和力为144 nM和66 nM。
    非规范翻译表位: RANNTKGSL,频繁出现在变异株中,突变率为7.5%。
  • 新的表位分布于S蛋白、nsp3和nucleocapsid等区域,进一步验证其免疫反应潜力

4. 移码表位在感染者中的分布及生成机制

  • RNA测序分析发现,在100,512名COVID-19感染者中,约1,100人(1.1%)存在S蛋白区域的缺失事件。
  • 其中,850例患者(~0.85%)携带31核苷酸的+1移码突变,生成表位LPYPQILLL,平均缺失长度为1.3个核苷酸。
  • LPYPQILLL绑定于B7超型HLA分子(如B*07:02),约35%的全球人群可能呈递该表位。
  • 进一步分析显示,两个关键缺失事件(5’-23649和5’-23657处的单核苷酸缺失)占所有+1移码突变的25%。

5. 表位的免疫原性测试

  • 在85%的HLA匹配个体中,MHCvalidator鉴定的表位成功诱导CD8+ T细胞反应,平均反应频率为25%。
  • LPYPQILLL表位在B07:02和B51:01匹配个体中引发T细胞反应,分别为14名和12名个体中的1名和5名(反应频率约为7%和42%)。
  • RTIKVFTTV表位(A*02:01匹配)在25名患者中诱导了11例免疫反应,反应频率为44%。
  • 数据显示,表位结合亲和力(IC50,nM)与反应频率存在中度正相关(r = 0.568)。

6. 疫苗相关表位的突变动态追踪

  • 在16个疫苗相关表位中,11个在全球范围内保持高度保守(突变率<1%),如KLPDDFTGC和TLNDLNETL。
  • 5个表位表现出显著的突变频率,例如:
TTDPSFLGRYM表位在Delta变异株中突变(P1640L,突变率为~10%),在Omicron变异株中突变(P1640S,突变率为4.4%)。
NAPRITFGGP表位的突变率高达53.7%。
  • TTDPSFLGRYM的突变未影响其HLA呈递能力,但预测其免疫原性可能受到轻微负面影响,需进一步实验验证。
  • 研究强调了对疫苗相关表位的长期突变动态监测的重要性,以应对未来变异毒株带来的免疫逃逸风险。


本研究开发并验证了一个基于机器学习的增强免疫肽谱学平台,显著提升了SARS-CoV-2 T细胞表位的识别能力,并为下一代疫苗设计提供了全面支持。研究的主要贡献与发现如下:
1. 技术创新:
  • 开发了MHCvalidator工具,通过整合多层感知机(NN-validator)、抗原加工预测算法(NetMHCpan和MHCflurry)以及肽段序列编码模块(PE),显著提升了HLA I类肽段的识别灵敏度和准确性。
  • 与传统方法(如Percolator)相比,MHCvalidator在1%假发现率下肽段识别效率提高了约1.5倍,尤其在低输入样本和高变异数据中表现出色。
2. 科学发现:
  • 通过MHCvalidator鉴定出24个高可信度的SARS-CoV-2表位,包括多个非规范移码表位(如LPYPQILLL)和新发现的病毒蛋白抗原肽段(如RANNTKGSL)。
  • RNA测序分析显示,约0.85%的感染者存在导致LPYPQILLL生成的+1移码突变,主要呈递于B7超型HLA分子。
3. 免疫学验证:
  • ELISpot实验表明,85%的新发现表位能够诱导HLA匹配个体的CD8+ T细胞反应,平均反应频率为25%。
  • 特定表位(如RTIKVFTTV和LPYPQILLL)在多个患者中展现了强免疫原性,为疫苗设计提供了优先候选靶点。
4. 疫苗表位动态追踪:
  • 使用EpiTrack工具分析了16个疫苗相关表位的全球和时间动态。11个表位在全球范围内高度保守,突变率<1%,如KLPDDFTGC和TLNDLNETL。
  • 部分表位在Delta和Omicron变异株中突变(如TTDPSFLGRYM),但仍保留HLA呈递能力,显示疫苗适应性设计的必要性。

-END-

文字丨本人点滴积累,如有补充,下方留言即可

(点击左下角阅读原文”即可获取全文

医学科研新动向
每日分享-相关领域包括:MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。
 最新文章