文献综述 | 植物生物学中的大语言模型

2024-12-27 11:55   湖北  
作者单位:新加坡·南洋理工大学

出版期刊:Trends in plant science

影响因子IF2022=20.5

出版日期:2024.05.26

DOI:10.1016/j.tplants.2024.04.013

摘要
大型语言模型(LLM),例如ChatGPT,已风靡全球。然而,LLM并不局限于人类语言,还可用于分析序列数据,例如DNA、蛋白质和基因表达。由此产生的基础模型可以重新用于识别数据中的复杂模式,从而产生能够预测细胞系统状态的强大、多用途预测工具。本综述概述了不同类型的 LLM,并展示了它们在生物学中的最新用途。由于LLM尚未被植物界所接受,我们还介绍了如何将这些模型部署到植物界
文章结构

生物学中深度学习的应用

深度学习的最新进展为人工智能带来了非凡成就,例如提供准确的医疗诊断、通过律师资格考试以及完成某些版本的图灵测试。最著名的人工智能 ChatGPT是一种LLM,它是一种能够生成模拟人类语言的文本的神经网络。通过对数十亿篇这样的文本进行训练,LLM通过自我监督的方式学习对所训练语言的上下文理解。ChatGPT基于生成式预训练转换器(GPT)基础模型,该模型已在大量文本数据上进行了预训练。LLM通常通过解决完形填空段落(例如,“法国的 ____ 是巴黎”)进行预训练,从而获得对语言和单词之间相关性的理解。虽然基础模型是为解决完形填空段落而预先训练的,但它们可以针对各种目的进行微调,从而使它们能够利用以前学到的知识来解决新问题。例如,ChatGPT是通过监督学习对基础GPT-3模型进行微调的版本,该模型在对话交流数据集上进行训练,专门用于执行指令遵循任务。值得注意的是,ChatGPT能够补充由广泛科学家网络生成的“植物科学面临的100个重要问题”列表,表明LLM可以模仿知识和拥有创造力。

通过将DNA或氨基酸序列视为文本,LLM可以用于分析生物序列数据。这导致了DNA和蛋白质语言模型(LM)以及其他专门用于生物序列数据的LLM的普及。与应用于自然语言的LLM非常相似,生物序LLM的任务是预测掩蔽氨基酸或核苷酸的身份,从而获得对“蛋白质/DNA语言”的理解,从而使模型能够找到新的依赖模式。与GPT-3模型类似,这些生物基础模型可以针对新任务进行微调,并表现出非凡的能力,可以与以前用于蛋白质结构预测、基因功能预测、调控元件和剪接位点识别、蛋白质设计等方面的方法相媲美甚至超越它们(Figure 1)。这种强大的能力归功于该模型将通过无监督学习获得的知识应用到特定领域
然而,LLM方法尚未广泛应用于植物研究。在本文中,我们将讨论在生物学领域的最新进展,并提出如何利用这些方法和可用数据为植物研究带来新见解

Figure 1. DNABERT模型的预训练与微调

初始化模型架构(例如层数和每层的注意力头),并针对序列数据(例如基因组 DNA)对模型进行预训练。通过微调,可以将生成的预训练模型重新用于预测各种DNA属性。 

Box 1. 神经网络

神经网络实际上是数学函数,具有可以调整的内部参数,称为权重。它们最初是仿照生物神经元建模的,权重类似于神经元如何调节其输入。神经元的输出实际上是其输入的加权和(即,每个输入乘以相应的权重,然后将它们全部相加以创建输出)。最简单的神经网络之一是感知器,仅由一个神经元组成,尽管非常大的神经网络可以包含多达数万亿个参数。

从根本上讲,神经网络的训练涉及两个阶段:前向传播和后向传播(反向传播)步骤。在前向传播中,输入通过神经网络,权重以数学方式操纵这些输入。输出来自前向传播,并与基本事实进行比较。通过这样做,可以得出损失,可以最好地将其解释为预测和基本事实之间的误差。在反向传播中,损失用于对神经网络中的权重进行微调,使其预测更接近基本事实。通过由前向传播和后向传播组成的大量迭代,神经网络可以学习一组最佳权重,以最小化损失

Figure 2. 一个DNABERT模型的预训练、剖析、分类和探测

预训练步骤接受可分解为k-mers(token)的 DNA 序列,模型的任务是通过掩码语言建模预测掩码标记的身份。预训练中使用的不同标记是CLS标记(分类标记 - 描述特定序列的类型,例如编码序列)、SEP 标记(分离不同序列) MASK标记(在预训练中掩码 k-mers)。输入通过嵌入层并由转换器块处理。最后的隐藏状态可用于分类层,以预测所分析序列的属性。使用BertViz可视化的DNABERT-2注意力图可以更好地解释模型,说明某些标记如何有助于理解其他标记的上下文。

Box 2. LLMs的不同架构

LLM可分为编码器-解码器、仅编码器和仅解码器架构。编码器-解码器架构由两个主要部分组成:编码器和解码器。编码器处理输入序列并将其嵌入到一组高维潜在空间向量中,从而捕获序列的含义和上下文。解码器使用潜在空间向量生成输出序列,例如从一种语言到另一种语言的翻译。在 Transformer LLM中,编码器和解码器具有包含自注意力机制的层,使它们能够考虑序列中不同单词之间的关系。因此,编码器专注于理解输入,而解码器专注于生成输出。不同的架构在不同的任务上表现出色。

在基因组学中,Orca是一种编码器-解码器,能够根据DNA序列预测染色体接触图。Orca编码器接受一维DNA序列并将其嵌入为数值向量,然后将其解码为表示基因组接近度的二维接触图。当上游和下游上下文很重要时,仅编码器的LLM(例如BERT)擅长生成丰富的生物序列嵌入。这些嵌入可用作各种分类器的数据。例如,DNABERT嵌入可直接用于构建转录因子结合位点、编码序列和mRNA 剪接位点的最新预测因子。仅解码器的架构(例如 GPT)擅长生成新序列和各种零样本预测任务。然而,它们也可以用于经过微调的预测任务,例如scGPT模型,该模型经过了3300万个人类细胞的训练,在细胞类型注释、遗传扰动预测、批次校正和多组学整合方面表现出色。

学术词条

(1)AI在生物学中,人工智能是指利用人工智能技术来理解和解决生物学问题。人工智能算法,特别是机器学习模型,用于分析生物学中常见的大型数据集,发现模式,做出预测,并比传统生物学研究方法更快、更准确地产生见解。

(2)Attention map是经过训练的模型关注输入数据的位置的视觉表示。它们可用于确定输入的哪些部分在确定其最终输出时更“重要”。

(3)Autoregressive模型会迭代生成输出,然后将其作为输入反馈到模型中。在因果语言建模中,它允许连续生成序列。

(4)BERT谷歌为自然语言处理任务开发的模型。它从句子的两个方向(左和右)查看单词的上下文,以更好地理解其含义。

(5)Cloze passages用于评估读者或语言模型对文本中上下文和词汇的理解的练习。在这些练习中,会从文本中删除单词,并要求读者/模型填写空白。

(6)Complexity:描述训练或运行模型所需的计算资源量,该量与模型的输入大小有关。由于采用多头注意力机制,Transformer 具有二次复杂度。

(7)Convolutions在CNN和基因组学的背景下,内核或过滤器可以被训练来识别特定的DNA序列。

(8)Cross-attention与自注意力类似,不同之处在于输入序列“关注”另一个序列的部分内容。它通常只出现在解码器中,允许模型在给定序列 A 的查询的情况下理解序列B的上下文。

(9)EmbeddingsAI模型生成的数值,用于表示输入,例如序列。它们可用于在探测中进行下游预测。

(10)Fine-tuning在更具体的数据子集上进一步训练预训练模型的过程,例如构建序列分类器。

(11)Foundation model基于广泛而多样的数据进行训练的通用 AI 模型。它们可以针对特定任务进行微调。

(12)GPTOpenAI 开发的用于生成文本的模型。与 BERT 不同,GPT 模型使用前面的单词来预测句子中的下一个单词。

(13)Interpretability指的是解释机器学习模型所做出的决策的能力。

(14)Multiheaded attention在自注意力的概念基础上引入并行注意力层或“头部”,每个头部关注序列的不同部分,让模型全面理解整个序列的上下文并并行执行。

(15)NER一种信息提取,旨在将单词分类为人名、组织名、地点、时间表达、数量等。在生物学中,这些实体可以是基因、蛋白质、亚细胞区室、器官和物种。

(16)Parameters通常是AI模型内部可训练的数值变量,决定模型如何响应输入数据。

(17)Pretraining用于通过自监督学习创建基础模型。

(18)Probing尝试通过分析模型的内部嵌入来理解LLM的预测过程。

(19)Self-attentionTransformer的编码器和解码器层中使用的一种过程。它允许序列中的每个元素(例如一个单词)“关注”同一序列的其他部分(句子中的其他单词)。这使模型能够理解其输入序列的上下文。

(20)Self-supervised使用没有明确标签的数据的学习方法,例如通过预测 DNA 序列中的掩蔽标记。

(21)Supervised learning使用标记数据来训练可以预测输入所需属性的模型。

(22)Tokens可以用作 LLM 输入的单词、子单词或 k-mer 的数值表示。

(23)Training data用于训练模型的数据,通常包括 DNA 和蛋白质序列或基因表达。

(24)Vanishing gradient and exploding gradients指由于梯度传播的不稳定性,RNN 在训练过程中遇到困难的现象,要么权重更新过小,要么权重更新过大。

(25)Zero-shot, few-shot当对模型进行训练时,每个类别分别使用零个、单个(一次性)、几个或多个(多次)示例。


结语与展望

尽管使用深度学习方法研究生物现象并不是什么新鲜事,但近年来出现了越来越强大的AI模型,它们可以筛选和识别高噪音基因组数据中的模式。虽然其他架构(如 CNN 和 RNN)通过开创转录组预测和预测蛋白质的RNA 和DNA结合位点为生物信息学领域做出了重大贡献,但具有高度适应性注意力机制的LLM为这一领域提供了全新的视角。当然,这不会覆盖使用旧架构完成的大量工作。LLM有可能成为范式转变的驱动因素,通常由假设驱动的科学可以越来越多地由数据驱动。在这个新范式中,研究人员可以从无假设的大规模数据生成开始,这些数据可用于训练LLM。
LLM 在多项预测任务中表现出了最佳性能,例如基因组注释、转录因子结合位点识别和蛋白质结构预测。然而,LLM可以通过整合多模态数据提供更深入的见解,提供更全面的细胞系统视图和更强大的预测性能。例如,通过整合染色质可及性和蛋白质丰度测量,scGPT在识别细胞类型方面表现更好。同时,基于来自多个物种的数据构建模型可以提供强大的进化见解,正如Nucleotide Transformer模型的基准测试实验所示。研究表明,使用多个人类基因组进行训练的效果不如使用多物种基因组进行训练,这表明多物种模型更好地捕捉了在进化过程中保留的功能重要性。最后,更多的数据和更高的多样性通常会带来更高的性能,因为GeneFormer的预测能力会随着训练语料库中细胞数量的增加而不断增加。

通过构建具有更多参数的模型,也可以提高LLM的性能,因为较大的模型通常表现更好。但是,由于较大的LLM需要更多的计算资源,因此需要更高效的模型。幸运的是,对LLM的研究带来了多项创新,从而产生了更小、更高效的模型。例如,FlashAttention使用优化的读/写算法,可加快预训练速度并允许分析更长的序列,而稀疏注意力可以显著减少训练所需的内存占用和计算资源。对于微调,低秩自适应将少量可训练参数插入到原本经过预训练的大型模型中,将内存占用减少多达三倍。更资源高效的模型,如 HyenaDNA,放弃了昂贵的注意力机制,使用长依赖卷积系统,将训练计算减少了20%,并将可查询的token数量增加到100万个。只要有足够的数据和资源,LLM就有可能对细胞系统进行建模,并从中获取有关潜在生物学原理的见解。由于细胞系统极其复杂,LLM可以更准确地对生物分子系统进行建模,其精细度远远超出了人类的能力。我们预计,更丰富的数据、更高效的模型和LLM的广泛采用将推动植物生物学数据驱动的范式转变。

通过使用LLM,植物研究的未来将得到极大的增强和促进。虽然以前的工作已经将深度学习应用于研究生物系统,但LLM提供了新的视角,并且在某些情况下,与以前的方法相比,性能有所提高。用例范围从根据 DNA 序列预测基因表达模式(可用于预测植物在不利条件下的表现)到预测突变对基因表达的影响。生成模型可以通过从头开始提出新的启动子来帮助创造合成生物学中重要的新启动子,为更好的作物工程铺平道路。以前的机器学习方法也可以通过LLM得到增强,创建新的混合CNN-RNN深度学习模型,这些模型可以提高可解释性,并更好地适应数据稀缺的方案,例如Mamba架构。反过来,这将引导该领域以更少的数据更好地理解底层生物学。

参考文献

Lam, H.Y.I., Ong, X.E. and Mutwil, M., 2024. Large language models in plant biology. Trends in Plant Science.


AIBioPioneer
分享人工智能,生物信息与植物生理的点点滴滴
 最新文章