单细胞研究必看!如何在自己的课题中使用单细胞大模型?

文摘   2024-10-29 12:12   中国香港  
在之前的文章从数据处理到模型训练,一文速览单细胞大语言模型进展中,我们详细介绍了单细胞大模型的构建和预训练任务设计,那么在这篇文章,我们将会从应用的角度来告诉大家,到底单细胞大模型有哪些功能,我们能用这些训练好的大模型做些什么?如果我自己没有足够的资源训练,如何才能将已经开源或开放使用的大模型用在我自己的问题中?如果你也想要在自己的课题中用上‘大模型’,就往下看吧

一、单细胞大模型能用在哪里?
细胞层面—数据整合和补充
众所周知,大模型最重要的特点之一就是其训练数据与模型参数的数量与规模之大,一个单细胞多组学大模型,可能包括了转录组、ATAC数据、以及蛋白质组等数据,这些数据来自于多个批次和测序平台,多种不同的细胞类型、组织,甚至不同的物种
如此繁杂和多样的数据一起进行训练得到的模型,天然就具有很好的降低批次效应和整合多组学多模态的功能。我们以一种包含多组学训练的单细胞大模型scGPT为例,作者给出了他们使用scGPT进行微调后的多组学整合结果,并与其他进行多组学与批次整合的工具进行比较(如下图所示)。结果表示,在预训练的大模型上使用目标数据进行微调,在一定程度上提高了整合多种数据的能力,并有效的减轻批次效应,这也是其泛化能力的一种体现这样的特征整合能力,在细胞类型注释方面也提供了很大的帮助,在很多单细胞大模型文章中,都给出了在新数据上细胞类型注释的表现。


除了多数据整合以外,对于缺失数据的补充也是单细胞大模型的一种潜在应用方向在之前文章中所介绍的scTranslator大模型可以用于进行从scRNA数据到scATAC数据的转换。此外,CellPLM的作者给出了一种以scRNA数据作为参考进行基因空间信息补充的方法,并与其他方法(如SpaGE、Tangram等)进行了比较(如下表所示)。

 
基因层面—基因调节网络推断和基因扰动预测
在生物过程中,基因调节网络十分重要。在特定条件下,一个基因是否表达、表达量多少,很大程度上取决于转录因子、调控元件与目标基因之间形成的相互作用调节网络。经过预训练的单细胞大模型会产生每种基因所特有的Embedding,人们则希望这些基因Embedding能够表征基因功能和调控中的相互作用信息,从而可以利用这些基因Embedding来推断不同条件下的调节网络。
在scGPT文章中,作者给出了一种使用大模型进行推断基因调节网络的方式。不同基因Embedding之间的Similarity高低可以作为推断相互作用强弱的方法,例如下图中scGPT基因Embedding Similarity网络,一定程度上反应出各基因之间的相互作用。此外,大模型的Attention Map可以在单细胞水平,分析单个细胞内部各基因之间的依赖关系,分辨率更高,也更能区分不同条件和细胞类型下的基因调节网络变化。而这样高分辨率的基因网络推断可以用于另一个预测任务——单细胞水平的基因扰动预测例如,人们可以将正常状态和敲除某基因后的样本所得到的基因Embedding和Attention Map进行比较,经过一些标准化处理或微调,则可以对敲除基因后各基因的变化的情况进行预测。


对药物处理的预测
上面两种应用场景从细胞和基因Embedding两个方面分别讲述了其可能的使用场景,下面我们将从药物研发的角度来看单细胞模型是否有帮助。
药物作为小分子化学物质,在以往的研究工作中,化学分子模型多被用于对其进行表征和后续的任务训练。加入单细胞大模型之后,则可以实现在细胞水平上进行药物性质预测在大模型scFoundation的文章中,作者介绍了其在两种药物反应预测任务上的表现,下图介绍了在Bulk数据中对药物的指标IC50的预测过程(a)和与baseline模型进行比较的结果(b),此外,作者还进行了在单细胞数据中对药物敏感度的分类(是否对该药物耐受)。


二、怎么使用——Zero-shot还是Fine-Tuning?
在得到了开源的单细胞预训练大模型后,除了熟悉使用场景,还需要知道该如何使用,是否需要对模型参数进行微调(Fine-Tuning),还是只需要在新数据上直接使用(Zero-shot),这大多取决于下游任务是什么。
目前大多数的大模型都是基于无监督的训练,也就是说,得到的Embedding能够反映的是训练输入本身的特征,如果我们的下游任务是预测基因之间的依赖关系,那么或许Zero-shot的方式就可以,例如上文中scGPT给出的例子,以及大模型scMulan的作者给出了使用Zero-shot的方式进行多批次数据整合的例子。在很多情况下,我们想要应用其在另一特定任务中的话,需要针对这一新数据和特定任务进行微调,例如对细胞类型的注释等
在微调过程中,可以对模型的部分参数进行重新更新,也可以在模型中加入新的模块,直接用原模块得到的细胞与基因的Embedding作为新模块输入的一部分,对新的下游任务进行训练。在scFoundation的药物IC50预测任务中,将得到的细胞Embedding与药物Embedding共同作为新模块的输入,经训练后得到针对于这一特定任务的预测模型。从训练时间和方便性上看,使用模型的输出作为新模型输入的一部分,直接训练新的Adaptor模型会更加节省时间与空间,而不需要对整体大模型的参数进行更新

三、总结与讨论
总的来说,大模型的泛化能力与信息表征能力在多数据集的情况下能有效提高模型的预测能力。笔者在文中只是给出了部分已发表的大模型应用场景和使用方式,未来还有更多的应用领域等待开发。不同模态和数据训练得到的大模型所包含的特征也不同,DNA大模型包含序列特征,单细胞模型包含基因表达和相关性特征,还有一些大模型引入了空间信息、细胞间相互作用信息,因此包含空间及相互作用特征。如何整合使用多种大模型的特征也是值得思考的问题。
研究者在使用时,或许更应从问题出发,思考具体需要哪些信息,从而去寻找适合自己的模型和适应性训练方式。

【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!
AIMShare课代表咨询

童鞋,看这里

目前已有1500+人关注加入我们

       

       



推荐阅读
high-quality content 



结构生物学“去污名化”:AI虽好,也不能贪杯喔

AIMShare

DNA语言模型:理解基因组的强大新工具

AIMShare

学术先锋|源自OpenAI老对手, 揭秘AlphaFold背后“神秘组织”的前世今生

AIMShare


AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章