Nature Methods | GPT-4领衔:大语言模型(LLMs)推动基因功能探索新高度

文摘   2024-12-21 10:33   湖南  


引言

近年来,随着组学技术(omics technologies)的迅猛发展,研究人员能够以前所未有的深度和广度揭示基因、蛋白质以及代谢物在不同生物学过程中的作用。然而,这些高通量技术所产生的大量数据也带来了前所未有的分析挑战。如何从这些复杂数据中识别出具有生物学意义的基因集功能,成为现代基因组学研究的重要课题之一。
传统的基因功能富集分析(functional enrichment analysis)是解读基因集的主流方法,依赖于如Gene Ontology (GO)、KEGG和Reactome等人工整理的数据库。这些数据库为基因的生物学功能分类提供了重要依据,但其局限性也日益显现。首先,这些数据库往往不完整,对新发现的基因或功能的覆盖不足;其次,对于尚未深入研究的基因簇,即使统计显著性结果明显,实际生物学关联仍可能不强。在这种背景下,研究人员需要借助文献和其他数据集,通过费时费力的方式推断基因集的潜在功能。
最近,生成式人工智能(Generative AI)的兴起为基因功能分析带来了全新的解决方案。大语言模型(Large Language Models, LLMs)作为生成式人工智能的核心技术,具备从庞大文献数据中学习复杂模式的能力,能够生成具有逻辑性的文本。研究者们已经开始探索利用LLMs提取基因组学数据中隐藏的信息,生成可能的功能假设,并验证其合理性。
11月28日Nature Methods的研究报道“Evaluation of large language models for discovery of gene set function”,首次系统性评估了五种前沿LLMs(包括GPT-4、Gemini Pro和Mixtral等)在基因功能发现中的表现。通过两项任务:文献整理基因功能的能力及组学数据中基因簇功能的探索,研究验证了LLMs在生物学功能分析中的潜力,并指出了其局限性。研究发现,LLMs不仅能够提供与现有数据库一致的基因功能描述,还在某些情况下提出了更广泛且合理的生物学解释。这一发现为LLMs在基因组学中的应用开辟了新的可能性,也为未来的智能化科学研究奠定了基础。

为了探讨大语言模型(Large Language Models, LLMs)在基因集功能发现中的潜力,该研究设计了一套系统化的评估流程。研究选取了五种代表性LLMs,包括GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct和Llama2 70b,旨在比较它们在基因功能命名与分析中的表现。研究设计了两项核心任务:


任务一:文献整理基因功能的复现能力

研究从GO数据库中随机抽取了1000个基因集,覆盖广泛的生物学过程(Biological Process, GO-BP)。通过语义相似性(semantic similarity)指标,研究测试了五种LLMs(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b)能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示(prompts)生成分析报告,包括基因功能描述、支持性文本和自信度评分(confidence score)。这些评分提供了模型对自身答案可信度的量化,帮助研究人员判断结果的可靠性。


任务二:组学数据中基因簇功能的探索能力

在第二项任务中,研究聚焦于实际生物学数据中的基因簇,包括药物处理(126个基因簇)、病毒感染(48个基因簇)和癌症蛋白互作(126个基因簇)等,覆盖从转录组到蛋白质组的广泛领域。每个基因簇都被输入LLMs以生成功能描述,同时与传统的功能富集分析工具(如g:Profiler)进行比较。研究还引入了基因集特异性(specificity)指标,用于评估功能描述与基因簇之间的覆盖程度。


为了确保结果的可靠性,研究采用了多层验证机制。首先,模型生成的分析报告经过人工科学家逐句验证,以筛查潜在的“幻觉”(hallucination)问题,即生成看似合理但无法验证的陈述。其次,研究开发了一种自动化引文系统,要求模型为关键结论附上参考文献,进一步增强输出的可信度。通过这些方法,研究不仅全面展示了LLMs在基因功能分析中的能力,还探索了其在生成具有科学依据的新假设方面的潜力。

大语言模型(LLMs)在基因集功能分析中的方法流程、任务评估和模型性能比较(Credit: Nature Methods

(a) 提示设计与功能生成流程
图中左侧的框架说明了研究所用的 LLM 提示(prompt)设计,强调提示内容对生成结果的重要性。提示包括系统内容、详细的推理链条指令,以及一个示例基因集查询。研究通过在提示的“用户输入字段”中插入具体的基因列表,让模型生成三个核心输出:
功能名称:对基因集功能的简洁描述;
支持性分析:模型生成的功能注释的详细解析;
自信度评分(confidence score):模型对自身输出的信心评估。
右侧的流程图清晰展示了这一数据处理和分析生成的过程。
(b) LLMs 与 Gene Ontology (GO) 命名的对比
展示了任务 1 的评估结果。研究比较了五种 LLM(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct 和 Llama2 70b)生成的基因功能名称与 GO 数据库中人工注释名称的匹配程度。GPT-4 的表现最为突出,显示其在功能恢复任务中优于其他模型。
(c) 组学数据基因集功能的探索
任务 2 的结果展示了 GPT-4 在处理真实组学数据中的表现:模型根据不同来源(如药物处理、病毒感染、癌症蛋白互作)的基因集生成功能描述。GPT-4 在功能分析的创新性和准确性评分上表现优异。

基因功能的复现能力
在复现 GO 基因功能任务中,GPT-4 展现了显著优势。其生成的功能描述在 73% 的情况下与 GO 标准命名高度相似,并在 60% 的情况下达到语义相似性得分的 95 百分位以上。这表明 GPT-4 不仅能够有效学习已有数据,还可以生成高度贴合的功能描述。例如,对于 GO 术语“DNA 损伤反应和修复”,GPT-4 的输出“DNA 损伤反应和修复”得到了 0.54 的高语义相似性评分,超过了 99% 的 GO 数据库其他条目。


GPT-4的功能描述更具特异性
在任务二的基因簇分析中,GPT-4生成的功能描述比传统工具更具特异性。例如,在一个涉及癌症蛋白互作的基因簇中,GPT-4提出了“Cullin-RING泛素连接酶(CRL)复合物的调控”作为功能描述。这一描述覆盖了16个基因簇成员中的多数,并结合文献支持了其对蛋白质降解和细胞稳态的作用。相比之下,传统工具虽然能够生成更通用的描述,但缺乏对基因簇中特定基因的细化解释。

LLMs能够有效评估功能描述的可信度
GPT-4引入了自信度评分机制,能够通过分析基因间的功能一致性评估命名的可靠性。在面对“随机基因集”或“掺杂基因集”时,GPT-4在87%的情况下拒绝生成功能描述,表明其在区分无关基因方面具有显著优势。这种保守的策略使得GPT-4的输出更加可信。

分析文本支持性强,幻觉问题可控
GPT-4生成的分析文本在大多数情况下是可验证的。在研究中,403条分析语句中有88%被验证为完全准确。尽管仍有部分“幻觉”(如错误分类或推测性陈述),但通过结合文献引用,这些问题得到了较大程度的缓解。此外,研究开发的自动化引文系统为每一条核心结论提供了文献支持,进一步增强了输出的可信度。

基因组学研究的辅助工具
大语言模型(Large Language Models, LLMs)在该研究中的表现表明,这类生成式人工智能工具在基因功能分析中具有巨大的潜力。通过两项核心任务的评估,研究验证了 LLMs 不仅能够从文献和已有数据中提取功能信息,还可以生成具有科学依据的新功能假设。特别是 GPT-4,它在功能描述的准确性、特异性和上下文关联性上表现出色,为传统功能富集分析工具提供了一种有力的补充。
然而,LLMs 作为基因功能分析的工具,当前仍处于辅助地位。尽管其在基因簇功能命名和分析方面表现优异,但其能力也有显著的局限性。例如,在处理无意义的随机基因集时,GPT-4 的“自信度拒绝”机制虽显示了较高的保守性,但仍有部分输出存在“幻觉”(hallucination)问题,生成了看似合理但无法验证的内容。这表明,在实际应用中,研究人员需要对其生成的结果进行仔细审查,确保研究的科学严谨性。

LLMs 的优势:从被动工具到主动发现
该研究的一项重要发现是,LLMs 不仅能够匹配已有的基因功能注释,还能在一定程度上提出新的生物学假设。例如,GPT-4 对基因簇功能的描述经常结合文献,揭示了特定基因在复杂生物学网络中的作用。例如,在分析涉及 Cullin-RING 泛素连接酶复合物(CRL)的基因簇时,GPT-4 不仅捕捉了这一经典功能,还结合更多基因信息,提出了更广泛的潜在调控机制。这样的功能扩展为研究人员提供了额外的研究方向。
相比之下,传统功能富集分析工具(如 g:Profiler)更多地依赖统计显著性,这种方法虽然可以快速筛选潜在功能,但容易生成过于宽泛的注释,缺乏对具体基因簇特性的细致分析。在这一点上,LLMs 的文本生成能力能够为研究人员提供更丰富的上下文信息,使分析更加全面和有深度。

LLMs 的局限性:从“幻觉”到实际应用的挑战
尽管 LLMs 展现了巨大的潜力,其输出的可靠性仍然是科学研究中的重要挑战。该研究发现,在生成的分析文本中,有 12% 的陈述无法被验证。这些问题主要表现为两种类型:一是功能分类错误,例如将某些基因归入了不相关的生物过程;二是未经验证的推测性陈述,如将某些基因与尚未明确的分子机制联系起来
此外,LLMs 的输出仍然受到提示(prompt)的影响。研究表明,优化提示内容可以显著提升模型的输出质量。因此,未来的研究需要系统化地设计和优化提示策略,结合具体的实验背景,确保生成结果的准确性和可解释性。
另一个限制是 LLMs 对动态和最新数据的整合能力不足。目前,LLMs 的训练数据主要来自于历史文献和已有知识,这使得它在面对新的实验结果或尚未广泛研究的领域时表现有限。为了克服这一问题,可以结合动态更新的数据库和实时文献检索机制,使 LLMs 能够更好地适应快速变化的科学环境。

综上,该研究通过系统评估五种大语言模型(LLMs),首次明确展示了它们在基因功能分析中的潜力和局限性。不仅验证了 LLMs 在处理生物学数据时的精准性,还揭示了它们的创新能力,尤其是在尚未被传统数据库注释的基因簇功能发现中,体现出更高的特异性和上下文相关性。该研究也突破了现有基因功能分析工具的局限。LLMs 的引入为这一领域提供了一种创新性解决方案,能够结合文献和逻辑推理生成更细致、可靠的功能假设。这不仅帮助研究人员更高效地挖掘数据价值,还为智能化科学研究开辟了新途径。


参考文献


Hu, M., Alkhairy, S., Lee, I. et al. Evaluation of large language models for discovery of gene set function. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02525-x

来源:生物探索










生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章