DeepSeek刷屏,其实只是开始

学术   2025-01-29 16:22   湖北  

今天是春节,首先祝大家春节快乐。这几天国产大模型DeepSeek刷屏,除了让英伟达股价暴跌,也开始撼动美国大模型的垄断地位,当然了这也再次引爆了AI。今天就来跟大家介绍下AI在医学科研中的应用。


一、引言

2024年诺贝尔化学奖颁发给了在计算蛋白质设计和蛋白质结构预测领域做出突出贡献的三位科学家,凸显了人工智能和计算方法在解析生物语言中的关键作用,也预示着 AI 技术在生物医药领域更为广阔的应用前景。

图1 近五年LLM及其变体在生物医学应用中的发展历程(来源:arXiv:2409.00133)

LLM通过大量自然语言数据的训练,理解语言的微妙之处,生成新的内容,并与数据进行互动。如果你曾与ChatGPT这样的聊天机器人互动过,你就已经体验到了其魅力所在。这些模型不仅能以聊天机器人的形式出现,还能深入挖掘复杂生物数据集的内在含义。今天小编就借此机会来系统盘点一下截至目前大语言模型在生物医药领域的应用。

扫码添加  ⬪  交流Ai制药


二、背景知识

1、适用数据

语言模型可以应用于任何序列数据,无论序列的基本单位(即Token)是句子中的单词还是蛋白质中的氨基酸。尽管句子和蛋白质是自然序列的,但其他类型的生物数据也可以表示为序列。


2、如何进行预训练

LLM通过解决填空题(如“中国的___是北京”)进行预训练,从而学习语言和单词之间的关联。尽管最初是为填空任务训练的,但它们可以通过微调用于其他任务。生物序列LLM通过将DNA或氨基酸序列视为文本,来分析生物数据,任务是预测掩蔽的氨基酸或核苷酸,从而理解“蛋白质/DNA语言”,并发现新的依赖模式。这些模型在蛋白质结构预测、基因功能、调控元件识别等任务中显示出强大的能力,甚至超越传统方法。

图2 预训练语言模型的三种方法(来源:https://doi.org/10.1038/s41592-024-02354-y)

3、Transformer的三种架构类型

LLMs的设计通常基于Transformer架构,可分为三种主要类型:编码器模型(Encoder-only)、解码器模型(Decoder-only)和编码器-解码器模型(Encoder-Decoder)。编码器模型专注于输入数据的表示,解码器模型专注于生成输出数据,而编码器-解码器模型则结合了编码和解码的功能。

图3 Sci-LLM常见架构(来源:arXiv:2401.14656)

三、研究型成果

近年来,随着大规模语言模型(如ChatGPT、Claude)的兴起,这些模型在处理大规模文本数据方面表现出色,并被越来越多地应用于生物研究。一批使用大数据、强算力训练的基础模型相继涌现,它们在评测中表现优异,并能泛化到各种下游任务,例如单细胞基础模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等。


1、AI + 基因组:EVO

2024年11月15日,斯坦福大学Brian L. Hie团队以封面文章的形式在Science上发表了一项开创性研究成果,题为“Sequence modeling and design from molecular to genome scale with Evo”。研究团队介绍了多模态基因组基础模型Evo,可大规模注释和生成基因组序列。

图4 Evo是一个涵盖70亿参数的基因组基础模型

团队提出了一种针对原核生物基因组的通用大语言模型Evo,编制了大型基因组数据集OpenGenome,其中包含8万多个细菌和古细菌基因组等数百万个预测的原核生物和噬菌体序列,涵盖3000亿个核苷酸Token。预训练包括两个阶段:第一阶段使用8千Token的上下文长度,第二阶段的上下文扩展阶段则使用13.1万Token。EVO采用Hyena结构而非Transformer建模,因此适合长序列建模。

图5 在原核生物中预训练模型

除了判别式任务之外,模型也应有生成能力,例如ChatGPT 能够生成文章,Evo 模型也能够生成基因序列。团队展示了开展两类下游任务的能力,分别是①分类任务:蛋白功能预测、非编码RNA功能预测。②生成任务:CRISPR系统生成、转座子生成、基因组生成。Evo模型展示了跨 DNA、RNA 和蛋白质模态的零样本函数预测,其性能可与特定领域的语言模型相媲美,甚至优于特定领域的语言模型。


总体而言,Evo首次实现了单核苷酸分辨率下的长序列 DNA 建模,实现了从分子到基因组尺度的序列设计能力,为解码复杂生命系统提供了利器。


2、AI + 病毒学:LucaProt

2024年10月8日诺贝尔物理、化学奖陆续青睐AI,人工智能横扫诺奖,一时间AI for Science研究范式风头无两。10月9日,国际权威期刊Cell发表了中山大学与阿里云合作的重大科研成果,恰逢浪潮兴起之际,该文章引发了广泛关注,不仅激起学界热烈讨论,更被多家国内权威杂志竞相报道,可谓时势造英雄。

图6 使用AI对全球病毒圈的深度挖掘

研究团队开发的LucaProt深度学习模型,不仅整合了序列和结构信息,更以前所未有的精度和效率,从全球10,487个宏转录组样本中,发现了180个病毒超群和16万余种全新RNA病毒,将已知病毒种类扩充了近30倍。其中包括传统研究方法未能发现的病毒“暗物质”,极大扩展了全球RNA病毒的多样性。

图7 RNA病毒超群的真实性评价

LucaProt模型整合了序列和结构信息,准确高效地识别了高度分化的RNA病毒,包括许多之前研究不足的群体。研究结果揭示了RNA病毒在不同生态系统中的广泛分布和丰度,以及它们在极端环境中的存在。此外,通过结构预测和比较分析,研究者们证实了新发现的RNA病毒超群的RNA病毒属性。这一突破标志着深度学习算法在病毒发现领域取得了里程碑式的进展,为病毒学研究开创了一种全新的范式。


3、AI + 分子生物学:AlphaFold3

2024 年 5 月 8 日,谷歌DeepMind 与 Isomorphic Labs 联合在Nature期刊上发布蛋白质领域最新人工智能模型AlphaFold 3,这一模型能够准确预测蛋白质、DNA、RNA 以及配体等生命分子的结构及其相互作用方式。这是继AlphaFold 2 之后的又一重大突破,号称“所有生命分子皆可预测”,将解决百年历史性难题,打破传统!

图8 Aphlafold3论文标题

当提供一系列分子数据时,AlphaFold 3 能生成它们的三维结合结构,展现这些分子如何相互组合,它能模拟蛋白质、DNA、RNA 在内的大型生物分子,以及小分子如配体。此外,AlphaFold 3 还能模拟这些分子的化学修饰,这些修饰控制着细胞的正常功能,一旦出现问题便可能引发疾病。

图9 AF3准确预测生物分子复合物的结构

在预测类药物相互作用方面,AlphaFold 3 实现了前所未有的准确度,包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。在 PoseBusters 的基准测试中,AlphaFold 3 的准确率比现有最佳传统方法高出 50%,而且无需任何结构信息输入,成为首个超越传统物理预测工具的人工智能系统。这种预测抗体与蛋白质结合的能力,对于理解人类免疫反应的各个方面以及新抗体的设计至关重要,新药物研发再次加速。


4、AI + 蛋白质语言:ESM系列

2023年3月16日,脸书人工智能研究所团队在Science上发表了题为“Evolutionary-scale prediction of atomic-level protein structure with a language model”的论文。

图10 ESM2论文标题

团队使用大型语言模型演示了如何从一级序列直接推断全原子水平的蛋白质结构。随着蛋白质序列的语言模型被放大到150亿个参数,蛋白质结构的原子分辨率信息出现在学习的表征中。这推动了高分辨率结构预测的数量级加速,从而实现宏基因组蛋白质的大规模结构表征成为可能

图11 语言模型扩展到150亿个参数时出现结构

团队通过训练ESM-2折叠头开发了端到端的单序列结构预测器ESMFold,可直接以一级序列(原子级水平)蛋白质结构。它在CAMEO测试集上表现出高预测精度,并能够准确预测蛋白质复合体的组成,比AlphaFold2在单GPU情况下6倍。ESMFold内在化了与结构相关的进化模式,无需外部数据库、MSA或模板,且其预测置信度与准确性高度相关。

图12 ESMFold预测单序列蛋白性能

团队利用这一能力构建了ESM宏基因组图谱,通过预测超过 6.17亿个宏基因组蛋白质序列的结构,其中2.25亿个序列的预测具有很高的置信度,这使我们能够了解天然蛋白质的广泛性和多样性。

图13 映射宏基因组结构空间

相比于其他模型,由于没有使用MSA,该模型可以扩展到宏基因组数据集,揭示并描述远离现有知识的宏基因组空间区域,发现新的蛋白质结构。ESM系列蛋白语言模型(PLM)对蛋白设计起到了极大的推动作用, 开辟了PLM这个方向,并开枝散叶,催生了一大波下游应用,例如用于预测蛋白蛋白PPI的ESMppi模型、在计算上快速实现DMS的ESMscan模型等。


Meta AI解散了这个团队后,ESM原团队成立了Evolutionary Scale AI公司,并获得多家企业的融资。2024年6月25日,继AlphaFold 3更新后,EvolutionaryScale团队发布了他们最新的98B参数蛋白质语言模型ESM3

图14 ESM3模型论文标题

该模型不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化,这是一个能够生成新型蛋白质的里程碑式人工智能模型。

图15 ESM3设计的一种新的绿色荧光蛋白

这是一个多模态的生成型语言模型(即除了语言模型外,还包括蛋白质的序列结构和功能信息),该模型采用了类似BERT的encoder-only架构,并加入了geometric attention等技术。该模型的输入包括序列、结构和功能等七种不同的部分,使用了大约10^24的计算资源进行训练,总共包含了98亿个参数。


5、AI + 单细胞组学:scGPT

生成式预训练模型在语言和计算机视觉等各个领域取得了显著的成功,多伦多大学和微软研究院学者通过类比语言与细胞生物学(句子—细胞,单词—基因),构建了一个基于生成式预训练Transformer、涵盖超过3300万个细胞的单细胞RNA-seq基础大模型——scGPT。

图16 scGPT模型论文标题

2024年2月26日,多伦多大学和微软研究院联合在Nature methods 上发表一篇题为“scGPT: toward building a foundation model for single-cell multi-omics using generative AI”论文,作者开发了一个单细胞生物学基础模型scGPT,该模型是在基于超过3300万个细胞存储库的生成式预训练transformer的基础上构建的。

图17 scGPT模型预训练模型架构

scGPT模型的预训练使用了CELLxGENE数据库中的3300万个单细胞RNA数据,涵盖不同器官和组织。微调阶段,模型使用了人类胰腺和多发性硬化症等疾病数据集,并结合CITE-Seq和scATAC-seq等组学数据。CITE-Seq同时分析基因表达和细胞表面蛋白质,scATAC-seq则通过检测染色质可及性提供基因调控信息。通过这些步骤,scGPT能够有效处理单细胞多组学数据,提升细胞类型识别和疾病预测的能力。

图18 使用scGPT进行细胞类型注释

该模型能够有效地提取有关基因和细胞的关键生物学见解,并且在细胞类型注释、多批次整合、多组学整合、扰动响应预测和基因网络推断等下游应用中取得了更好的性能。作者通过在零样本和微调设置下的综合实验证明了预训练的好处,微调后的scGPT模型始终优于从头开始训练的模型。这证明了预训练模型对下游任务的价值,能够实现更准确和更有生物学意义的分析。


6、AI + 医学

相比其他学科,医学+AI,是人们最关注的、发表学术成果也是最多的领域。多模态大语言模型可以综合分析不同类型的数据,建立跨模态关联,提供从文本到影像的深度理解。


药物开发:

浙江大学人工智能医学创新研究院开发的LEDAP模型,可以利用基于LLM的生物文本特征编码来预测药物-疾病关联、药物-药物相互作用和药物-副作用关联。

哈佛医学院开发的一种名为TxGNN的图神经网络模型,专门用于零样本药物再利用的预测,尤其针对没有现有治疗方案或治疗选项有限的疾病。该几何深度学习模型结合了一个庞大而全面的生物知识图谱,以准确预测任何给定疾病-药物对的适应症或禁忌症的可能性,适用于老药新用途的开发。

佛罗里达大学和德克萨斯大学团队提出的DrugFormer 模型,整合了序列化基因标记和基于基因的知识图谱,以高精度预测单细胞水平的药物耐药性。模型基于图增强大型语言模型的方法,专门用于预测单细胞水平的药物敏感性。


医学辅助诊断:

哈佛医学院Kun-Hsing Yu团队开发了一款临床组织病理学成像评估基础模型CHIEF。CHIEF能在19种癌症类型中执行多种任务,检测准确率接近94%,就像 ChatGPT 一样“聚合”、“灵活”。能够精准诊断、预测癌症结果,甚至推荐治疗方案,为医生提供全面的支持。

哈佛医学院、麻省理工学院、俄亥俄州立大学等联合推出了面向医学领域的多模态AI助手PathChat,模型不仅能理解、分析复杂的医学图像,还能基于多轮文本对话,为临床医生、医护人员提供精准和个性化的病理学指导。


四、写在最后

本文综述了当前大语言模型在生物医学领域的潜力与应用,大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目。同时,它们在化学、生物学和医药等专业领域展现出的深度理解能力,进一步凸显了其广泛的应用价值。


近年来,各类大语言模型层出不穷,各方AI新势力频频涌现,推动技术持续迭代与突破。目前还有很多高质量的文章与权威综述发表,预印本平台也有大量相关成果正在上新,此处小编不再赘述,感兴趣的朋友可以自行前往查看。如果觉得有用,欢迎在看、转发和点赞!


参考文献:

[1] arXiv:2409.00133.

[2] Simon, E., Swanson, K. & Zou, J. Language models for biological research: a primer. Nat Methods 21, 1422–1429 (2024). https://doi.org/10.1038/s41592-024-02354-y.

[3] arXiv:2401.14656.

[4] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336. doi:10.1126/science.ado9336

[5] Hou X, He Y, Fang P, et al. Using artificial intelligence to document the hidden RNA virosphere. Cell. 2024;187(24):6929-6942.e16. doi:10.1016/j.cell.2024.09.027

[6] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature. 2024;630(8016):493-500. doi:10.1038/s41586-024-07487-w

[7] Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023;379(6637):1123-1130. doi:10.1126/science.ade2574

[8] https://doi.org/10.1101/2024.07.01.600583

[9] Cui H, Wang C, Maan H, et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nat Methods. 2024;21(8):1470-1480. doi:10.1038/s41592-024-02201-0

[10] Zhang, H., Zhou, Y., Zhang, Z., Sun, H., Pan, Z., Mou, M., Zhang, W., Ye, Q., Hou, T., Li, H., Hsieh, C. Y., & Zhu, F. (2024). Large Language Model-Based Natural Language Encoding Could Be All You Need for Drug Biomedical Association Prediction. Analytical chemistry, 10.1021/acs.analchem.4c01793. Advance online publication. https://doi.org/10.1021/acs.analchem.4c01793 

[11] Huang, K., Chandak, P., Wang, Q. et al. A foundation model for clinician-centered drug repurposing. Nat Med (2024). https://doi.org/10.1038/s41591-024-03233-x

[12] Liu, X., Wang, Q., Zhou, M., Wang, Y., Wang, X., Zhou, X., & Song, Q. (2024). DrugFormer: Graph-Enhanced Language Model to Predict Drug Sensitivity. Advanced science (Weinheim, Baden-Wurttemberg, Germany), 11(40), e2405861. https://doi.org/10.1002/advs.202405861

[13] Wang, X., Zhao, J., Marostica, E. et al. A pathology foundation model for cancer diagnosis and prognosis prediction. Nature (2024). https://doi.org/10.1038/s41586-024-07894-z

[14] Lu, M. Y., Chen, B., Williamson, D. F. K., Chen, R. J., Zhao, M., Chow, A. K., Ikemura, K., Kim, A., Pouli, D., Patel, A., Soliman, A., Chen, C., Ding, T., Wang, J. J., Gerber, G., Liang, I., Le, L. P., Parwani, A. V., Weishaupt, L. L., & Mahmood, F. (2024). A multimodal generative AI copilot for human pathology. Nature, 634(8033), 466–473. https://doi.org/10.1038/s41586-024-07618-3

识别微信二维码,添加抗体圈小编,符合条件者即可加入抗体圈微信群!

请注明:姓名+研究方向!


本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(cbplib@163.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。

抗体圈
关注生物药行业动态,对热点进行深入解析。
 最新文章