出版期刊:Trends in plant science
影响因子:IF2022=20.5
出版日期:2024.05.26
DOI:10.1016/j.tplants.2024.04.013
生物学中深度学习的应用
深度学习的最新进展为人工智能带来了非凡成就,例如提供准确的医疗诊断、通过律师资格考试以及完成某些版本的图灵测试。最著名的人工智能 ChatGPT是一种LLM,它是一种能够生成模拟人类语言的文本的神经网络。通过对数十亿篇这样的文本进行训练,LLM通过自我监督的方式学习对所训练语言的上下文理解。ChatGPT基于生成式预训练转换器(GPT)基础模型,该模型已在大量文本数据上进行了预训练。LLM通常通过解决完形填空段落(例如,“法国的 ____ 是巴黎”)进行预训练,从而获得对语言和单词之间相关性的理解。虽然基础模型是为解决完形填空段落而预先训练的,但它们可以针对各种目的进行微调,从而使它们能够利用以前学到的知识来解决新问题。例如,ChatGPT是通过监督学习对基础GPT-3模型进行微调的版本,该模型在对话交流数据集上进行训练,专门用于执行指令遵循任务。值得注意的是,ChatGPT能够补充由广泛科学家网络生成的“植物科学面临的100个重要问题”列表,表明LLM可以模仿知识和拥有创造力。
Figure 1. DNABERT模型的预训练与微调
初始化模型架构(例如层数和每层的注意力头),并针对序列数据(例如基因组 DNA)对模型进行预训练。通过微调,可以将生成的预训练模型重新用于预测各种DNA属性。
Box 1. 神经网络
从根本上讲,神经网络的训练涉及两个阶段:前向传播和后向传播(反向传播)步骤。在前向传播中,输入通过神经网络,权重以数学方式操纵这些输入。输出来自前向传播,并与基本事实进行比较。通过这样做,可以得出损失,可以最好地将其解释为预测和基本事实之间的误差。在反向传播中,损失用于对神经网络中的权重进行微调,使其预测更接近基本事实。通过由前向传播和后向传播组成的大量迭代,神经网络可以学习一组最佳权重,以最小化损失。
Figure 2. 一个DNABERT模型的预训练、剖析、分类和探测
Box 2. LLMs的不同架构
LLM可分为编码器-解码器、仅编码器和仅解码器架构。编码器-解码器架构由两个主要部分组成:编码器和解码器。编码器处理输入序列并将其嵌入到一组高维潜在空间向量中,从而捕获序列的含义和上下文。解码器使用潜在空间向量生成输出序列,例如从一种语言到另一种语言的翻译。在 Transformer LLM中,编码器和解码器具有包含自注意力机制的层,使它们能够考虑序列中不同单词之间的关系。因此,编码器专注于理解输入,而解码器专注于生成输出。不同的架构在不同的任务上表现出色。
在基因组学中,Orca是一种编码器-解码器,能够根据DNA序列预测染色体接触图。Orca编码器接受一维DNA序列并将其嵌入为数值向量,然后将其解码为表示基因组接近度的二维接触图。当上游和下游上下文很重要时,仅编码器的LLM(例如BERT)擅长生成丰富的生物序列嵌入。这些嵌入可用作各种分类器的数据。例如,DNABERT嵌入可直接用于构建转录因子结合位点、编码序列和mRNA 剪接位点的最新预测因子。仅解码器的架构(例如 GPT)擅长生成新序列和各种零样本预测任务。然而,它们也可以用于经过微调的预测任务,例如scGPT模型,该模型经过了3300万个人类细胞的训练,在细胞类型注释、遗传扰动预测、批次校正和多组学整合方面表现出色。
(1)AI:在生物学中,人工智能是指利用人工智能技术来理解和解决生物学问题。人工智能算法,特别是机器学习模型,用于分析生物学中常见的大型数据集,发现模式,做出预测,并比传统生物学研究方法更快、更准确地产生见解。
(2)Attention map:是经过训练的模型关注输入数据的位置的视觉表示。它们可用于确定输入的哪些部分在确定其最终输出时更“重要”。
(3)Autoregressive:模型会迭代生成输出,然后将其作为输入反馈到模型中。在因果语言建模中,它允许连续生成序列。
(4)BERT:谷歌为自然语言处理任务开发的模型。它从句子的两个方向(左和右)查看单词的上下文,以更好地理解其含义。
(5)Cloze passages:用于评估读者或语言模型对文本中上下文和词汇的理解的练习。在这些练习中,会从文本中删除单词,并要求读者/模型填写空白。
(6)Complexity:描述训练或运行模型所需的计算资源量,该量与模型的输入大小有关。由于采用多头注意力机制,Transformer 具有二次复杂度。
(7)Convolutions:在CNN和基因组学的背景下,内核或过滤器可以被训练来识别特定的DNA序列。
(8)Cross-attention:与自注意力类似,不同之处在于输入序列“关注”另一个序列的部分内容。它通常只出现在解码器中,允许模型在给定序列 A 的查询的情况下理解序列B的上下文。
(9)Embeddings:AI模型生成的数值,用于表示输入,例如序列。它们可用于在探测中进行下游预测。
(10)Fine-tuning:在更具体的数据子集上进一步训练预训练模型的过程,例如构建序列分类器。
(11)Foundation model:基于广泛而多样的数据进行训练的通用 AI 模型。它们可以针对特定任务进行微调。
(12)GPT:OpenAI 开发的用于生成文本的模型。与 BERT 不同,GPT 模型使用前面的单词来预测句子中的下一个单词。
(13)Interpretability:指的是解释机器学习模型所做出的决策的能力。
(14)Multiheaded attention:在自注意力的概念基础上引入并行注意力层或“头部”,每个头部关注序列的不同部分,让模型全面理解整个序列的上下文并并行执行。
(15)NER:一种信息提取,旨在将单词分类为人名、组织名、地点、时间表达、数量等。在生物学中,这些实体可以是基因、蛋白质、亚细胞区室、器官和物种。
(16)Parameters:通常是AI模型内部可训练的数值变量,决定模型如何响应输入数据。
(17)Pretraining:用于通过自监督学习创建基础模型。
(18)Probing:尝试通过分析模型的内部嵌入来理解LLM的预测过程。
(19)Self-attention:Transformer的编码器和解码器层中使用的一种过程。它允许序列中的每个元素(例如一个单词)“关注”同一序列的其他部分(句子中的其他单词)。这使模型能够理解其输入序列的上下文。
(20)Self-supervised:使用没有明确标签的数据的学习方法,例如通过预测 DNA 序列中的掩蔽标记。
(21)Supervised learning:使用标记数据来训练可以预测输入所需属性的模型。
(22)Tokens:可以用作 LLM 输入的单词、子单词或 k-mer 的数值表示。
(23)Training data:用于训练模型的数据,通常包括 DNA 和蛋白质序列或基因表达。
(24)Vanishing gradient and exploding gradients:指由于梯度传播的不稳定性,RNN 在训练过程中遇到困难的现象,要么权重更新过小,要么权重更新过大。
(25)Zero-shot, few-shot:当对模型进行训练时,每个类别分别使用零个、单个(一次性)、几个或多个(多次)示例。
结语与展望
通过构建具有更多参数的模型,也可以提高LLM的性能,因为较大的模型通常表现更好。但是,由于较大的LLM需要更多的计算资源,因此需要更高效的模型。幸运的是,对LLM的研究带来了多项创新,从而产生了更小、更高效的模型。例如,FlashAttention使用优化的读/写算法,可加快预训练速度并允许分析更长的序列,而稀疏注意力可以显著减少训练所需的内存占用和计算资源。对于微调,低秩自适应将少量可训练参数插入到原本经过预训练的大型模型中,将内存占用减少多达三倍。更资源高效的模型,如 HyenaDNA,放弃了昂贵的注意力机制,使用长依赖卷积系统,将训练计算减少了20%,并将可查询的token数量增加到100万个。只要有足够的数据和资源,LLM就有可能对细胞系统进行建模,并从中获取有关潜在生物学原理的见解。由于细胞系统极其复杂,LLM可以更准确地对生物分子系统进行建模,其精细度远远超出了人类的能力。我们预计,更丰富的数据、更高效的模型和LLM的广泛采用将推动植物生物学数据驱动的范式转变。
通过使用LLM,植物研究的未来将得到极大的增强和促进。虽然以前的工作已经将深度学习应用于研究生物系统,但LLM提供了新的视角,并且在某些情况下,与以前的方法相比,性能有所提高。用例范围从根据 DNA 序列预测基因表达模式(可用于预测植物在不利条件下的表现)到预测突变对基因表达的影响。生成模型可以通过从头开始提出新的启动子来帮助创造合成生物学中重要的新启动子,为更好的作物工程铺平道路。以前的机器学习方法也可以通过LLM得到增强,创建新的混合CNN-RNN深度学习模型,这些模型可以提高可解释性,并更好地适应数据稀缺的方案,例如Mamba架构。反过来,这将引导该领域以更少的数据更好地理解底层生物学。
Lam, H.Y.I., Ong, X.E. and Mutwil, M., 2024. Large language models in plant biology. Trends in Plant Science.