✦
医学科研新动向
✦
Machine learning-enhanced immunopeptidomics applied to T-cell epitope discovery for COVID-19 vaccines
Nature Communications
<2024年11月28日>
研
究
背
景
1. 问题:
新冠疫情当前疫苗以刺突蛋白(Spike Protein, S蛋白)为核心,激发中和抗体和T细胞免疫。然而,S蛋白的高突变率导致部分变异株具备免疫逃逸能力,严重削弱疫苗的保护效力。
2. 研究需求:
T细胞靶向疫苗的重要性: 相比抗体,T细胞可识别保守性抗原表位,为突破性变异株提供长期保护。
表位筛选技术的瓶颈: 现有基于质谱(MS)的免疫肽谱学方法存在识别灵敏度和准确性不足的问题,且难以覆盖非规范表位(例如移码肽段)。
3. 研究目标:
本研究通过开发机器学习增强的免疫肽谱学工具“MHCvalidator”,提升表位鉴定的灵敏度与准确性,并结合基因组数据和疫苗免疫学分析,优化SARS-CoV-2的T细胞疫苗设计。
研究设计
研究构建了一个六模块的分析框架,具体方法如下:
1. 免疫肽谱数据采集:
使用质谱技术(LC-MS/MS)分析HLA I类肽段。
数据来自SARS-CoV-2感染细胞和100,512名感染者的体内RNA测序。
2. MHCvalidator工具开发:
集成多层感知机(MLP)、NetMHCpan和MHCflurry算法,用于预测抗原加工和HLA结合亲和力。
设置1%假发现率(FDR)评估PSM置信度。
3. 低输入样本灵敏度测试:
用两倍稀释样本序列数据(从未稀释到16倍稀释),验证MHCvalidator的灵敏度和特异性。
4. 非规范表位鉴定:
对免疫肽谱数据中的移码肽段进行深入分析。
使用100,512例体内RNA数据检测表位发生频率,分析其生成机制。
5. 表位免疫原性评估:
使用ELISpot实验,测试HLA匹配个体中表位诱导CD8+ T细胞的能力,分析免疫反应频率。
6. 疫苗相关表位的突变动态追踪:
使用EpiTrack工具分析14.6百万条SARS-CoV-2基因组序列中表位的地理和时间动态。
核心结果
MHCvalidator由多层感知机(NN-validator)、抗原加工预测算法(NetMHCpan和MHCflurry)以及肽段序列编码模块(PE)组成。 在目标肽段验证中,MHCvalidator集成了预测得分(结合亲和力和抗原加工)和肽段序列特征,大幅提高了PSM的置信度。 图中数据显示目标肽段显著多于伪肽段。例如,在HLA A*02:01等位基因的测试中,目标肽段占比超过85%,伪肽段被显著压缩至不足15%。 采用“NN-validator + PE + APP”配置,进一步提升了肽段验证效率,尤其在高变异样本中表现优异。
2. MHCvalidator与传统工具对比分析
在1%假发现率(FDR)下,MHCvalidator识别了6,050个HLA I类特异性肽段,而Percolator仅识别了4,000个肽段,识别能力提高了约1.5倍。
Venn图显示,MHCvalidator独特发现1,537个肽段,而Percolator仅有64个未被MHCvalidator发现,表明MHCvalidator在灵敏度和特异性上均有明显优势。
在低输入样本(如16倍稀释)中,MHCvalidator的肽段识别数量从稀释条件下的3,250提高至稀释样本的6,500,而Percolator的识别数仅为2,500,灵敏度提升约2.6倍。
数据进一步显示,MHCvalidator在低质量谱图的处理上表现更佳,尤其在HLA-C*07:01等位基因中,识别效率提高了5.3倍。
3. SARS-CoV-2表位的分类与免疫原性分析
MHCvalidator重新分析SARS-CoV-2感染细胞的免疫肽谱数据,发现24个高可信度的HLA I类特异性肽段,比原始方法多出13个。 新发现的表位包括:
新的表位分布于S蛋白、nsp3和nucleocapsid等区域,进一步验证其免疫反应潜力。
4. 移码表位在感染者中的分布及生成机制
RNA测序分析发现,在100,512名COVID-19感染者中,约1,100人(1.1%)存在S蛋白区域的缺失事件。 其中,850例患者(~0.85%)携带31核苷酸的+1移码突变,生成表位LPYPQILLL,平均缺失长度为1.3个核苷酸。 LPYPQILLL绑定于B7超型HLA分子(如B*07:02),约35%的全球人群可能呈递该表位。 进一步分析显示,两个关键缺失事件(5’-23649和5’-23657处的单核苷酸缺失)占所有+1移码突变的25%。
5. 表位的免疫原性测试
在85%的HLA匹配个体中,MHCvalidator鉴定的表位成功诱导CD8+ T细胞反应,平均反应频率为25%。 LPYPQILLL表位在B07:02和B51:01匹配个体中引发T细胞反应,分别为14名和12名个体中的1名和5名(反应频率约为7%和42%)。 RTIKVFTTV表位(A*02:01匹配)在25名患者中诱导了11例免疫反应,反应频率为44%。 数据显示,表位结合亲和力(IC50,nM)与反应频率存在中度正相关(r = 0.568)。
6. 疫苗相关表位的突变动态追踪
在16个疫苗相关表位中,11个在全球范围内保持高度保守(突变率<1%),如KLPDDFTGC和TLNDLNETL。 5个表位表现出显著的突变频率,例如:
TTDPSFLGRYM的突变未影响其HLA呈递能力,但预测其免疫原性可能受到轻微负面影响,需进一步实验验证。 研究强调了对疫苗相关表位的长期突变动态监测的重要性,以应对未来变异毒株带来的免疫逃逸风险。
小
结
开发了MHCvalidator工具,通过整合多层感知机(NN-validator)、抗原加工预测算法(NetMHCpan和MHCflurry)以及肽段序列编码模块(PE),显著提升了HLA I类肽段的识别灵敏度和准确性。 与传统方法(如Percolator)相比,MHCvalidator在1%假发现率下肽段识别效率提高了约1.5倍,尤其在低输入样本和高变异数据中表现出色。
通过MHCvalidator鉴定出24个高可信度的SARS-CoV-2表位,包括多个非规范移码表位(如LPYPQILLL)和新发现的病毒蛋白抗原肽段(如RANNTKGSL)。 RNA测序分析显示,约0.85%的感染者存在导致LPYPQILLL生成的+1移码突变,主要呈递于B7超型HLA分子。
ELISpot实验表明,85%的新发现表位能够诱导HLA匹配个体的CD8+ T细胞反应,平均反应频率为25%。 特定表位(如RTIKVFTTV和LPYPQILLL)在多个患者中展现了强免疫原性,为疫苗设计提供了优先候选靶点。
使用EpiTrack工具分析了16个疫苗相关表位的全球和时间动态。11个表位在全球范围内高度保守,突变率<1%,如KLPDDFTGC和TLNDLNETL。 部分表位在Delta和Omicron变异株中突变(如TTDPSFLGRYM),但仍保留HLA呈递能力,显示疫苗适应性设计的必要性。
-END-
文字丨本人点滴积累,如有补充,下方留言即可
(点击左下角“阅读原文”即可获取全文)