新工具:新抗原分析一步到位

文摘   2024-11-22 17:43   广东  


TitleA comprehensive proteogenomic pipeline for neoantigen discovery to advance personalized cancer immunotherapy
Onlinehttps://www.nature.com/articles/s41587-024-02420-y

研究背景

个性化癌症免疫治疗的发展需要准确识别和优先级排序抗原肽。现有的分析流程方法无法直接整合质谱免疫肽组学数据,而这些数据能够揭示来自多种规范和非规范来源的抗原肽。因此,研究团队开发了一个端到端的临床蛋白质基因组学管道——NeoDisc,它集成了多种公共软件,用于从免疫肽组学、基因组学和转录组学,识别、预测肿瘤特异性和免疫原性新抗原的计算工具。

研究方法

NeoDisc管道: 整合了基因组、转录组和免疫肽组(质谱)数据,用于预测和直接识别在癌细胞上呈现的临床相关抗原肽。详细的分析流程如下(图中数字排序为笔者加上,原图没有标识):

主要步骤有:

1.基因组数据(WES/WGS)分析部分:NeoDisc 使用匹配的肿瘤和种系基因组(WES 或 WGS)数据进行样本特异性变异表征、肿瘤含量估计以及 CNV 和体细胞突变 (SM) 的鉴定。

2.转录组数据(RNAseq)分析部分:RNAseq 数据用于人类基因和 SM 表达的定量以及 T 细胞炎症的估计。

3.基于种系和肿瘤 WES 和 RNAseq 数据进行HLA-I 和 HLA-II 分型。识别并突出显示肿瘤 APPM 和 HLA 杂合性缺失 (LOH) 中的缺陷。

4.质谱 (Mass spectrometry,MS) 免疫肽组学: 用于识别HLA结合肽。

5.基于机器学习 ML 算法和 rule-based 方法分别筛选或排序 HLA-I 新抗原和HLA-II 新抗原、TAA 、癌病毒

6.NeoDisc 支持来自同一人的多个样本的数据集成,提供对肿瘤异质性和进化的见解

最后,NeoDisc 生成处理后的基因组、转录组学和免疫肽组学数据、APPM 的详细表征、TSA 的优先列表和样本特异性报告,确保数据可追溯性

对于第一部分基因组(WES、WGS)数据分析,采用的是四种突变调用算法( Mutect/VarScan等)应用于 WES 和 WGS 数据。仅由一个算法检测到的突变为低置信度,而由两个或多个算法检测到的突变则为高置信度。在默认设置中,用于免疫肽组学搜索的个性化蛋白质组中包括低置信度和高置信度变异,而新抗原预测仅考虑高置信度变异。突变数量较多的肿瘤往往对免疫疗法反应更好,这可能是因为它们呈递更多的新抗原。

研究结果

NeoDisc的性能: NeoDisc 的rule-based 算法、ML 算法、pTuneos 、 pVACseq 、以及 Gartner 等人报告的方法相比,NeoDisc 在准确优先级排序免疫原性新抗原方面优于现有的工具。

免疫原性肿瘤特异性抗原(TSA)的检测:在 CESC-1数据集中,NeoDisc 检测新抗原的结果要优于其他算法(图2abc),在NPC-1数据集中, NeoDisc 在所有五个肿瘤样本中都检测到了 Epstein-Barr 病毒 (EBV) 感染的证据(图2de),在MEL-1数据集中,NeoDisc 鉴定了 19 个表达的高置信度的TSA 基因(图2fgh)

个性化疫苗设计: NeoDisc提供了两种额外模式,以应对低肿瘤含量和低突变负担的活检样本,从而优化疫苗设计。(1) “sensitive”模式,该模式使用四种突变调用工具的并集, (2) “panel”模式,主要是使用临床 Gene panel 中列出的突变, 这可以为缺乏专门活检的人设计疫苗,因为Gene panel 提供的突变数量不足,导致新抗原列表不理想或可能根本没有。与默认模式相比,“sensitive”模式变异等位基因频率 (VAF) 和支持突变的 RNAseq 读数分数均有所下降,表明已鉴定变异的特异性降低(图3abc)。在NSCLC-1数据集中比较三种模式,发现 NeoDisc 中的三种模式允许分析各种样本来源,确保有效识别表达的突变(图3def)。

HLA LOH分析:HLA LOH 会导致所呈抗原的多样性降低,NeoDisc 将样本特异性 HLA 分型与 HLA CN 信息相结合。使用 Sequenza 来估计肿瘤含量和 CNV,并使用 HLA-HD 来估计种系和肿瘤 WES 和 RNAseq 的 HLA 分型。在NCI数据集中,NeoDisc 的 HLA CN 估计与 LOHHLA 和Sequenza的结果非常相似 (图4)

肿瘤新抗原异质性:对于多病灶样本 MEL-4 数据集,NeoDisc 发现不同样本来源的抗原异质性,如多样本突变不同而存在进化关系(图6a),此外,NeoDisc鉴定出具有支持表达证据的 TAA 和 HC-TSA,包括 MAGEA1、MLANA 和 TYR(图 6e),以及来自表达非经典来源的多种肽,例如长链非编码 RNA (lncRNA),包括 MAGEA4-AS1、ATF6-DT 和 DSCR8,以及一个加工的假基因 (GAPDHP40)(图 6f)。

总结

NeoDisc作为一个先进的计算框架,通过整合多组学数据,除了提高HLA-I限制性新抗原的检测外,NeoDisc还能够识别和优先级排序来自多种来源的免疫原性抗原肽。对于多样本数据还可以进行克隆性分析,这使得研究人员对肿瘤异质性和进化的深入理解。因此,NeoDisc 提高了在癌症细胞上呈现的临床相关抗原肽的识别和预测准确性,为个性化癌症免疫治疗的发展提供了重要工具。

写在最后

值得注意的是,研究团队在 Linux 服务器上进行的 NeoDisc 数据处理,服务器要求至少 100G 内存和 24 CPU,如果读者感兴趣,可以考虑使用生信技能树的共享服务器:

2024的共享服务器交个朋友福利价仍然是800

玩转服务器—共享服务器登录指北

玩转服务器—数据上传与下载

玩转服务器—共享服务器R包调用与安装

玩转服务器—服务器间数据传输

生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
 最新文章