生物信息大模型卷起来了:应用与前景浅谈

文摘   2024-08-09 10:42   广东  

近年来大模型在各个领域都大放异彩,它们可以写出酷似人类文章的新闻报道,生成以假乱真的高质量图片,甚至创作出令人震撼的音乐作品。而在生物医药领域,大模型正成为一个新的研究热点,看起来无所不能的大模型如何在生物医药领域大展身手呢?让我们一起探索一下吧!


本篇推送主要概述生物信息学领域大模型的演进历程、现有研究状况、核心技术以及机遇与挑战。希望大家在读完这篇推送后对生物信息学领域大模型有初步的总体性了解,后续我们将开启更为深入的系列专题介绍, 关注各个子领域的大模型(DNA,RNA,蛋白质,单细胞...)


参考论文标题:Progress and Opportunities of Foundation Models in Bioinformatics

论文链接: https://arxiv.org/pdf/2402.04286



大模型的概念




大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。人工智能领域通用的大模型主要是在各种数据上进行预训练,并通过微调适用于广泛的计算机应用,例如问答系统和图像设计。


相比小模型,大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景。下表给出大模型常用名词定义的简介:


命名定义
大模型Large Model,也称基础模型,即Foundation Model。是指具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。
大语言模型Large Language Model,通常是具有大规模参数和计算能力的自然语言处理模型,例如 OpenAl 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。
GPTGenerative Pretrained Transformer,GPT是基于Transformer架构的语言模型,GPT模型旨在生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译、摘要等。它通常在单向生成的情况下使用,即根据给定的文本生成连贯的输出。
ChatGPTChatGPT同样是基于Transformer架构的语言模型,但更专注于对话和交互式对话。它经过特定的训练,以更好地处理多轮对话和上下文理解。ChatGPT设计用于提供流畅、连贯和有趣的对话体验,以响应用户的输入并生成合适的回复。


生物信息学致力于通过研究氨基酸序列、蛋白质结构、单细胞转录组学、生物医学文本和图像等多样的生物数据,学习有意义的信息,以促进例如疾病检测、药物设计、新型疗法发现等应用的发展。但这一领域仍面临诸多挑战


  • 数据难获得:生物数据的获取和人工标记需要耗费大量的时间和成本。通俗的来说,想训练一个文本大模型,只需要挖掘互联网上的文本(例如 Common Crawl)就可以得到大量的高质量数据,然而,如果想训练一个单细胞大模型,可用的高质量数据就少的多,同时单细胞测序的成本也比较高,为了训练大模型而专门进行生物实验收集会耗费巨大的资源。生物数据的标注也是一个难题,例如,对于蛋白质或者 RNA结构而言,测量出精细的结构需要结构生物专家的参与,因此,想要大规模地获得蛋白质或者RNA 的结构数据用于预训练几乎是不可能的。

  • 数据更复杂:生物数据的多样性和复杂性高,生物数据包含多种类型,数据的表示方式也更加复杂。相比于文本和图像而言,处理生物数据需要更多的领域知识,在模型设计上也更加困难。例如,对于单细胞转录组而言,设计大模型的预训练需要考虑到基因之间没有顺序关系,还需要考虑到不同平台测量得到的单细胞数据存在的系统性偏差(Batch Effect)。

  • 预测准确性要求高:生物学研究需要模型能给出高精度的预测。举个例子,如果我们想利用大语言模型设计新的蛋白质序列,设计得到的蛋白质往往需要湿实验进行验证,在这种情况下,如果模型的精度较低,就会在湿实验过程中消耗可能比人工设计更高的资源。

  • 跨学科整合:生物信息学涉及生物学、计算机科学、数学、化学等多个学科的知识。在设计大模型时,需要生物学家根据领域知识指导模型的输入输出设计和下游任务,也需要计算机科学家对模型训练进行调参和优化。因此生物信息领域成功的大模型往往都是大团队协作完成的(例如蛋白质大模型ESM3)。


下图结合生物数据、预训练模式和核心生物问题的视角,对生物信息学领域的大型模型进行了概括:



在生物信息学领域,在大规模生物数据上,通过监督(supervised)、无监督(unsupervised)或半监督(semi-supervised)的机器学习策略进行预训练,进而在有限的与特定任务相关的数据上进行Finetuning的大模型,展现了前所未有的强大预测能力。基于预训练策略,生物信息学中的大模型可分为两大类:


  1. 有监督大模型:通过大规模数据集上的监督学习训练而来的复杂机器学习模型,用于准确预测或分类未知数据。例如,Enformer通过卷积神经网络(CNN)在DNA序列中直接预测基因表达。

  1. 无监督大模型:通过大规模数据集上的无监督学习训练而来的复杂机器学习模型,用于从数据中发现模式、结构或关系而无需标签。例如,ProtGPT2生成的蛋白质序列展现出与天然蛋白质中发现的氨基酸和无序特性相媲美的特征,同时保持与现有蛋白质空间有所不同。


值得注意的是,一些由监督和无监督预训练机制组成的半监督大模型被包括在监督预训练大模型中。例如,CoCa就是一个图像文本半监督大模型,它使用双编码器预训练模型对带有噪声的图像文本对数据进行零样本图像分类和视觉-语言对比目标的训练。



在构建深度学习方法的基石——深度学习模块(Deep Learning Modules)中,包括了多层感知器(MLP)、卷积神经网络(CNN)、自编码器(AutoEncoder)、图卷积网络(GCN)和Transformer。由于各种生物序列和自然语言之间存在内在的相似性,基于Transformer的深度学习网络成为生物领域大模型主流的建模方式



生物大模型发展的标志性事件



生物信息学中的大模型与深度学习的兴起相辅相成,下图展示了大模型在生物信息领域发现的时间线及其与深度学习的背景。


在深度学习领域,Alpha Go的诞生是一个开创性的里程碑。AlphaGo在围棋领域取得的惊人成就离不开深度学习和强化学习等先进技术的结合。AlphaGo的技术和方法也被应用到其他领域,如药物设计、对话系统等等,推动了人工智能在各个领域的应用和发展


随后的 AlphaFoldAlphaFold2 的提出,彻底改变了从生物序列预测蛋白质结构的方法。它们在不直接使用PDB数据集中的结构数据的情况下,联合应用多序列比对(MSAs)和结构特征来获得最终的结构预测结果。他们的核心思想不但为蛋白质结构预测领域提供新的解决思路,而且对其他生物结构的预测也带来启发。


GPT-4是一个大型多模态模型,针对文本和图像的交互任务,虽然在许多复杂场景下能力仍然不如人类,但在各种专业和学术基准上有着人类水平的表现。作为多模态模型,GPT-4的成功也启发着生物信息学领域对于多模态数据的应用。例如,scGPT中就有对与单细胞多组学数据整合任务的探究。




能够解决的生物学问题



在生物信息学中,大模型主要关注核心生物问题,包括生物序列分析、结构预测以及对有标签和无标签生物数据集进行功能预测等。大模型具体能够解决的生物学问题可以分为以下五类:


  1. 域内搜索(Domain exploration)

    • 研究内容:基于大模型在自然语言处理和计算机视觉领域的探索,域内知识建模一直受到关注。在这一思路指导下,研究者们开发了许多专门针对生物医学图像和文本的大模型,用来加速对生物医药领域内知识的探索

    • 现有方法:BioBERT、Med-PaLM、BioBLECTRA、BLURB、BioBART


  2. 序列分析(Sequence analysis)

    • 研究内容:生物序列分析是生物学中最重要的研究方向之一。从机器学习的角度来说,序列分析可以看成类似于序列分类任务,包括对整个序列的分类和序列中每个元素的分类。常见的序列分析任务包括处理与基因、突变和各种生物现象相关的呈指数增长的序列数据,预测启动子区域、增强子区域、顺式调控元件、剪接位点以及转录因子结合位点等与生物序列相关的其他下游任务。

    • 现有方法:DNABERT、DNABERT-2、CLAPE-DB、HyenaDNA、xTrimoPGLM


  3. 结构预测(Sturctue prediction)

    • 研究内容:理解和预测生物大分子的二级结构和三维结构有许多潜在的应用,例如精准预测RNA和蛋白质的结构来进行疫苗开发。

    • 现有方法:AlphaFold、AlphaFold2、ESMFold、RhoFold


  4. 功能预测(Function prediction)

    • 研究内容:主要关注对于分子或者细胞功能的预测,常见的例子包括细胞注释、基因功能预测、蛋白质功能预测等。

    • 现有方法:scBERT、L2P-GNN、Performer、Geneformer


  5. 多模态整合(multimodal integration)

    • 研究内容:研究主要关注于跨模态数据融合(如单细胞多组学数据的整合)、表征的学习、以及特征的提取

    • 现有方法:CoCa、scGPT、ProtST


下表给出了上述生物问题与其涉及的数据来源的关系:



这些问题涉及一类或多类生物数据,包括 DNA、RNA、蛋白质、单细胞基因组学(scGenomics)、知识图谱/网络以及生物文本/图像。域内搜索问题主要侧重于生物文本/图像/视频。核心生物问题(序列分析、结构构建、功能预测)涉及基因和突变、生物现象数据及其关系和相互作用。多模态整合生物问题可使用多种数据类型,如生物医学文本/图像和蛋白质。模型获取的生物序列、结构、功能和其他复杂信息,在生物学中也得到了实际应用。



机遇与挑战




尽管生物信息学取得了令人瞩目的进展,但大模型在解决生物问题时仍面临一些严峻的挑战,如数据噪声和稀疏性、日渐增加的数据多样性、序列数据长度过长、多模态问题、训练效率的提升、模型可解释性、评估指标的设计、社会影响的考量等挑战。但同时,随之而来的是更多的机遇。


  1. 在数据方面:生物数据的不断增长为大模型的训练提供了更多且更有意义的信息。这些数据涵盖了各种生物学领域的信息,包括基因组数据、蛋白质数据、生物医学文本等。这些数据的多样性丰富性为大型模型提供了更广泛的学习素材,有助于提高模型在生物信息学领域的表现和应用效果


  2. 在模型方面:在生物信息学中,模型的结构设计、训练策略的优化以及与生物实际相对应的可解释性分析是至关重要的发展方向。针对不同生物问题的模型结构需要经过精心设计,训练策略的优化能够提高模型的性能和泛化能力。此外,对模型结果的解释和可解释性分析对于生物学家理解模型预测结果的依据和逻辑至关重要。

  3. 在应用方面:大型模型在生物信息学习还有许多潜在的应用领域,例如在疾病研究中,这些模型可以用于分析疾病相关基因的变异、预测疾病风险等;在药物研发方面,大型模型可以加速药物筛选和设计过程;在在线医疗方面,这些模型可以用于辅助医学诊断、个性化治疗等。这些应用将大模型的能力与生物信息学的需求结合,推动了生物领域的研究和创新。



最后的话



总之,生信大模型在解决生物问题(包括但不限于三个核心生物问题:生物序列分析、生物结构构建和各种下游任务的生物功能预测)方面都有广泛的应用。当然,生信大模型还方兴未艾,在各个子领域的研究都有这不同的挑战和机遇。本篇推文作为生物医学大模型的专题介绍的开篇,希望能够为读者提供一个初步了解生信大模型的重要性和应用领域的机会。后续我们将逐步深入介绍小分子大模型、DNA 大模型、RNA 大模型、蛋白质大模型、单细胞大模型、生物文本大模型等等。我们可以期待生信大模型为我们揭示生物世界中的更多奥秘,为人类的健康和生活质量做出更大的贡献。


参考文献:

https://arxiv.org/pdf/2402.04286

https://arxiv.org/pdf/2401.04155

http://www.cn-witmed.com/list/34/9555.html


如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!课代表微信:AimNina。转载请联系本公众号获得授权。


AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章