在这项研究中,研究团队利用他们的机器学习方法为一种常用的AAV血清型——AAV9设计了衣壳,使其能够更有效地靶向肝脏,并且可以很容易地进行制造。
他们发现,由机器学习模型预测出的约90%的AAV衣壳确实成功地货物运送到了人类肝细胞中,并且满足了其他五个关键条件。他们还发现,该机器学习模型即使只基于小鼠和人类细胞数据进行训练,也能正确预测猕猴蛋白质的行为。该发现表明,这一新方法有助于科学家更快地设计出可在不同物种间发挥作用的AAV,这对将基因疗法应用于人类至关重要。
设计AAV的传统方法包括生成包含数百万衣壳蛋白变异体的大型文库,然后在几轮筛选中在细胞和动物中对它们进行测试。这一过程既昂贵又耗时,而且研究人员通常只能从中识别出少数具有特定特征的AAV衣壳,这使得寻找符合多种标准的衣壳具有挑战性。
目前已有一些研究团队使用机器学习来加速大规模的AAV衣壳筛选和分析,但大多数方法都是以牺牲一种功能为代价来优化另一种功能。
而该团队意识到,基于现有的大型AAV文库的数据集不太适合训练机器学习模型。还需要什么来更好地训练机器学习模型,搞清楚这一点很重要。
研究团队首先使用机器学习模型进行了一轮初步建模,生成了一个名为“Fit4Function”的新的中等规模文库,其中包含预测能很好地封装基因货物的AAV衣壳。然后,研究团队在人类细胞和小鼠体内筛选了具有特定功能的AAV衣壳,这些功能对于每种物种的基因治疗至关重要。他们随后利用这些数据构建了多个机器学习模型,每个模型都能从AAV衣壳蛋白的氨基酸序列中预测出某种功能。最后,他们将这些机器学习模型结合起来,创建了“多功能”AAV文库,以同时优化多种特性。
作为概念验证,研究团队结合了6种模型,设计了一个具有多种预期功能的AAV衣文库,包括可制造性和靶向人类细胞和小鼠肝脏的能力,几乎90%的AAV衣壳同时显示出所有需要的功能。
研究团队还发现,该模型仅根据小鼠和人类细胞的数据进行训练,就能正确预测AAV如何分布到猕猴的不同器官,这表明这些AAV通过一种跨物种转换的机制做到这一点。这可能意味着在未来,基因治疗研究人员可以更快地识别出具有多种人类所需特性的AAV衣壳。
研究团队表示,该研究开发的机器学习模型有望帮助其他研究团队创造靶向肝脏或是专门避免靶向肝脏的基因疗法。希望其他研究团队能够使用这一方法来生成他们自己的机器学习模型和AAV衣壳文库,这些模型和文库一起可以形成一个机器学习图谱,以预测AAV衣壳在数十种性状上的表现,从而加速基因疗法的开发。
END