Bioinformatics|复旦大学黄胜林团队开发更快、更强的多价新抗原组合计算工具NeoDesign

学术   2024-11-02 15:48   天津  


越来越多的证据表明,在肿瘤细胞中特异性表达的新抗原可作为免疫治疗有效而安全的靶点,可引发强烈和特异性的抗肿瘤免疫反应。传统的肿瘤相关抗原治疗效果有限,并有自身免疫反应的风险,而肿瘤特异性新抗原在设计癌症疫苗方面具有显著优势。各种疫苗形式都利用了这些新抗原,例如肽、核酸(DNA/mRNA)和树突状细胞疫苗。

mRNA疫苗凭借开发周期短、可扩展性好、高成本效益和高效性等优势获得了越来越多的关注,这也使其成为癌症疫苗研究的主要候选疫苗类型。业界的最新进展引入了一种新型的新抗原疫苗,称为多价新抗原疫苗,这是一种增强亚单位疫苗新抗原免疫原性的有效策略。疫苗开发中的序列设计对于提高疫苗的免疫原性和安全性至关重要,但从多种肽组合和同义密码子集合中选择最佳序列是一大挑战。

复旦大学黄胜林团队Bioinformatics发表了题为“NeoDesign: A Computational Tool for Optimal Selection of Polyvalent Neoantigen Combinations”的文章。研究人员开发了NeoDesign工具,旨在应对序列设计的挑战。NeoDesign包括四个模块:库构建、最优路径过滤、连接子添加,以及λ评估,目的是通过最小化连接子、避免预期之外的新抗原和功能结构域,以及简化结构来得到肿瘤多价新抗原疫苗的最佳蛋白质序列。NeoDesign还提供了一种为最佳蛋白质序列设计mRNA序列时平衡mRNA稳定性和蛋白质表达的优选方案。该工具有可能改进肿瘤多价新抗原mRNA疫苗的序列设计,从而显著推进免疫治疗策略的发展。
文章发表在Bioinformatics


一、NeoDesign的架构

图1. NeoDesign工具的架构。

1

库构建

NeoDesign的输入数据是高质量的新抗原肽。在“库构建”模块中,研究人员独特地定义了可选库的新概念(图2)。该模块的目的是计算输入数据中每个肽序列的前端和后端可选库。每个肽的前端(后端)可选库包括来自输入数据的其他肽序列,这些序列可以在特定条件下与特定肽在前端(后端)成对连接。将肽纳入这些库的关键条件是,它们与特定肽的成对连接不会产生预期之外的新抗原。

符合此标准的肽会被包含在特定肽的可选库中,表明它们适合与特定肽连接。这个模块输出的是每个肽前端和后端可选库,后续用于最优路径过滤模块。库构建模块可以确保任意的肽是从其相应的可选库中选择其他肽进行连接,不会产生预期之外的新抗原,并能将连接子最小化,从而有利于NeoDesign后续步骤的进行,包括最佳路径过滤和连接子添加。

图2. 库构建的流程。

2

最优路径过滤

在“最优路径过滤“模块(图3)中,输入的是初始输入数据中所有肽前端可选库和后端可选库。经过统计分析后,该模块根据每个库中包含的可选肽数量对其进行评估和排名。最优路径选择的初始步骤包括确定序列的起点,方法是选择可选库包含最少数量可选肽(至少一个)的肽作为起点。此步骤确保了后续路径选择的灵活性,并最大限度地减少了连接子的出现。

确定好序列起点后,根据输入数据中新抗原肽数量的奇偶性,生成不同长度的初始短序列。这种方法有助于同时将肽顺序添加到序列的两端,从而降低时间复杂性。根据定义的决策函数,在每一步都采用贪婪算法来选择肽。肽被迭代地添加到序列的两端,在每一步中选择产生决策函数最低值的肽。每添加一个肽都会将输入数据中的肽总数减少一个。重复这一过程,直到输入数据中没有肽残留,便可最终确定最佳路径和最终最佳序列。

图3. 最优路径过滤的流程。

3

连接子添加

虽然最佳路径选择过程力求减少预期外新抗原的产生,并保持没有连接子的松散结构,但序列中仍存在某些区域在不引入的情况下很难避免预期外新抗原。因此,“连接子添加“模块能够分析序列并识别需要连接子的区域,筛选连接子库并选择合适的连接子。选择这些连接子是为了保证序列不会产生预期外的新抗原。这个模块最终可以产生一个最佳的蛋白质序列,最大限度地减少连接子的使用。最终确定的最佳蛋白质序列随后被用于”λ评估“模块。

4

λ评估

这一模块利用训练好的卷积神经网络来预测最佳蛋白质序列的λ值范围。该范围为LinearDesign提供了一个推荐的λ参数,有助于优化mRNA序列设计中mRNA稳定性和蛋白质表达之间的平衡。这种功能对于设计肿瘤新抗原mRNA疫苗至关重要,因为有助于实现mRNA稳定性和蛋白质表达之间的最佳平衡。

图4. λ差异分析和λ评估中的预测模型框架。


二、NeoDesign的应用结果评估

NeoDesign结果的评估包括四个方面:评估生成的最佳蛋白质序列的性质;分析推荐的λ参数对RNA稳定性和蛋白质表达的影响;评估NeoDesign在不同计算平台上的泛化能力;与现有工具进行比较。

最佳蛋白质序列的性质评估纳入了100种靶蛋白的几个参数,包括连接子和肽的数量、功能结构域的分布和松散度参数(图5A-C)。结果表明,大多数蛋白质序列不含接头,肽的数量和连接子的数量之间相关性较弱(p=0.245)。功能结构域的分析揭示了鲜明的对比:靶蛋白序列通常缺乏功能结构域,参考序列则具有多个结构域。此外,与参考序列相比,靶蛋白序列中的松散函数值通常较低。

图5. NeoDesign的应用和性能。

研究人员对NeoDesign推荐的λ参数与LinearDesign的默认参数进行了比较,结果显示93%的序列增益值大于零,表明NeoDesign的参数具有优越的性能(5D-E)。输入20个新抗原肽时,服务器1仅利用了0.1%的CPU和内存资源,处理时间为90分钟;服务器2消耗了0.2%的CPU和忽略不计的内存资源,处理时间为60分钟,这表明NeoDesign适用于不同的性能场景,具有极小的资源消耗和较高的处理速度。


综上所述,这项研究提出了独特的算法和概念,例如构建肽的可选库和定义的决策函数,并系统地尝试了解决疫苗序列设计面临的挑战。NeoDesign中的所有内置工具都是根据文献证据和经验比较精心选择的,通过最大限度地减少连接子的使用、简化蛋白质结构和避免功能结构域,解决了现有工具存在的重大缺陷。

此外,该工具为最佳蛋白质序列提供了一个推荐的λ参数。推荐的λ参数可以应用于LinearDesign,并在最佳蛋白质序列的mRNA序列设计中实现mRNA稳定性和蛋白质表达之间的平衡。NeoDesign为多种新抗原疫苗的设计和优化提供了基础序列框架,包括mRNA、DNA、树突状细胞和肽疫苗。该研究为mRNA疫苗设计的进一步发展提供了有价值的见解和建议,从而为癌症免疫疗法做出了重大贡献。

论文原文:

https://doi.org/10.1093/bioinformatics/btae585

·END·

热文推荐

快速、稳定、高性价比,揭秘博奥晶典国产自研单细胞转录组平台

人类和非人灵长类大脑多组学时空细胞图谱

真迈SURFSeq Q超高通量基因测序仪单机日产数据量全球最高

测序仪的便捷快速这件事,还得放桌面上说

快点亮"在看”吧

测序中国
聚焦基因科技/精准医学领域的科技前沿与产业动态
 最新文章