Nature Methods | GPT-4领衔：大语言模型（LLMs）推动基因功能探索新高度

文摘 2024-12-21 10:33 湖南

引言

近年来，随着组学技术（omics technologies）的迅猛发展，研究人员能够以前所未有的深度和广度揭示基因、蛋白质以及代谢物在不同生物学过程中的作用。然而，这些高通量技术所产生的大量数据也带来了前所未有的分析挑战。如何从这些复杂数据中识别出具有生物学意义的基因集功能，成为现代基因组学研究的重要课题之一。

传统的基因功能富集分析（functional enrichment analysis）是解读基因集的主流方法，依赖于如Gene Ontology (GO)、KEGG和Reactome等人工整理的数据库。这些数据库为基因的生物学功能分类提供了重要依据，但其局限性也日益显现。首先，这些数据库往往不完整，对新发现的基因或功能的覆盖不足；其次，对于尚未深入研究的基因簇，即使统计显著性结果明显，实际生物学关联仍可能不强。在这种背景下，研究人员需要借助文献和其他数据集，通过费时费力的方式推断基因集的潜在功能。

最近，生成式人工智能（Generative AI）的兴起为基因功能分析带来了全新的解决方案。大语言模型（Large Language Models, LLMs）作为生成式人工智能的核心技术，具备从庞大文献数据中学习复杂模式的能力，能够生成具有逻辑性的文本。研究者们已经开始探索利用LLMs提取基因组学数据中隐藏的信息，生成可能的功能假设，并验证其合理性。

11月28日Nature Methods的研究报道“Evaluation of large language models for discovery of gene set function”，首次系统性评估了五种前沿LLMs（包括GPT-4、Gemini Pro和Mixtral等）在基因功能发现中的表现。通过两项任务：文献整理基因功能的能力及组学数据中基因簇功能的探索，研究验证了LLMs在生物学功能分析中的潜力，并指出了其局限性。研究发现，LLMs不仅能够提供与现有数据库一致的基因功能描述，还在某些情况下提出了更广泛且合理的生物学解释。这一发现为LLMs在基因组学中的应用开辟了新的可能性，也为未来的智能化科学研究奠定了基础。

为了探讨大语言模型（Large Language Models, LLMs）在基因集功能发现中的潜力，该研究设计了一套系统化的评估流程。研究选取了五种代表性LLMs，包括GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct和Llama2 70b，旨在比较它们在基因功能命名与分析中的表现。该研究设计了两项核心任务：

任务一：文献整理基因功能的复现能力

研究从GO数据库中随机抽取了1000个基因集，覆盖广泛的生物学过程（Biological Process, GO-BP）。通过语义相似性（semantic similarity）指标，研究测试了五种LLMs（GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b）能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示（prompts）生成分析报告，包括基因功能描述、支持性文本和自信度评分（confidence score）。这些评分提供了模型对自身答案可信度的量化，帮助研究人员判断结果的可靠性。

任务二：组学数据中基因簇功能的探索能力

在第二项任务中，研究聚焦于实际生物学数据中的基因簇，包括药物处理（126个基因簇）、病毒感染（48个基因簇）和癌症蛋白互作（126个基因簇）等，覆盖从转录组到蛋白质组的广泛领域。每个基因簇都被输入LLMs以生成功能描述，同时与传统的功能富集分析工具（如g:Profiler）进行比较。研究还引入了基因集特异性（specificity）指标，用于评估功能描述与基因簇之间的覆盖程度。

为了确保结果的可靠性，研究采用了多层验证机制。首先，模型生成的分析报告经过人工科学家逐句验证，以筛查潜在的“幻觉”（hallucination）问题，即生成看似合理但无法验证的陈述。其次，研究开发了一种自动化引文系统，要求模型为关键结论附上参考文献，进一步增强输出的可信度。通过这些方法，研究不仅全面展示了LLMs在基因功能分析中的能力，还探索了其在生成具有科学依据的新假设方面的潜力。

大语言模型（LLMs）在基因集功能分析中的方法流程、任务评估和模型性能比较（Credit: Nature Methods）

(a) 提示设计与功能生成流程

图中左侧的框架说明了研究所用的 LLM 提示（prompt）设计，强调提示内容对生成结果的重要性。提示包括系统内容、详细的推理链条指令，以及一个示例基因集查询。研究通过在提示的“用户输入字段”中插入具体的基因列表，让模型生成三个核心输出：

功能名称：对基因集功能的简洁描述；

支持性分析：模型生成的功能注释的详细解析；

自信度评分（confidence score）：模型对自身输出的信心评估。

右侧的流程图清晰展示了这一数据处理和分析生成的过程。

(b) LLMs 与 Gene Ontology (GO) 命名的对比

展示了任务 1 的评估结果。研究比较了五种 LLM（GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct 和 Llama2 70b）生成的基因功能名称与 GO 数据库中人工注释名称的匹配程度。GPT-4 的表现最为突出，显示其在功能恢复任务中优于其他模型。

(c) 组学数据基因集功能的探索

任务 2 的结果展示了 GPT-4 在处理真实组学数据中的表现：模型根据不同来源（如药物处理、病毒感染、癌症蛋白互作）的基因集生成功能描述。GPT-4 在功能分析的创新性和准确性评分上表现优异。

基因功能的复现能力

在复现 GO 基因功能任务中，GPT-4 展现了显著优势。其生成的功能描述在 73% 的情况下与 GO 标准命名高度相似，并在 60% 的情况下达到语义相似性得分的 95 百分位以上。这表明 GPT-4 不仅能够有效学习已有数据，还可以生成高度贴合的功能描述。例如，对于 GO 术语“DNA 损伤反应和修复”，GPT-4 的输出“DNA 损伤反应和修复”得到了 0.54 的高语义相似性评分，超过了 99% 的 GO 数据库其他条目。

GPT-4的功能描述更具特异性

在任务二的基因簇分析中，GPT-4生成的功能描述比传统工具更具特异性。例如，在一个涉及癌症蛋白互作的基因簇中，GPT-4提出了“Cullin-RING泛素连接酶（CRL）复合物的调控”作为功能描述。这一描述覆盖了16个基因簇成员中的多数，并结合文献支持了其对蛋白质降解和细胞稳态的作用。相比之下，传统工具虽然能够生成更通用的描述，但缺乏对基因簇中特定基因的细化解释。

LLMs能够有效评估功能描述的可信度

GPT-4引入了自信度评分机制，能够通过分析基因间的功能一致性评估命名的可靠性。在面对“随机基因集”或“掺杂基因集”时，GPT-4在87%的情况下拒绝生成功能描述，表明其在区分无关基因方面具有显著优势。这种保守的策略使得GPT-4的输出更加可信。

分析文本支持性强，幻觉问题可控

GPT-4生成的分析文本在大多数情况下是可验证的。在研究中，403条分析语句中有88%被验证为完全准确。尽管仍有部分“幻觉”（如错误分类或推测性陈述），但通过结合文献引用，这些问题得到了较大程度的缓解。此外，研究开发的自动化引文系统为每一条核心结论提供了文献支持，进一步增强了输出的可信度。

基因组学研究的辅助工具

大语言模型（Large Language Models, LLMs）在该研究中的表现表明，这类生成式人工智能工具在基因功能分析中具有巨大的潜力。通过两项核心任务的评估，研究验证了 LLMs 不仅能够从文献和已有数据中提取功能信息，还可以生成具有科学依据的新功能假设。特别是 GPT-4，它在功能描述的准确性、特异性和上下文关联性上表现出色，为传统功能富集分析工具提供了一种有力的补充。

然而，LLMs 作为基因功能分析的工具，当前仍处于辅助地位。尽管其在基因簇功能命名和分析方面表现优异，但其能力也有显著的局限性。例如，在处理无意义的随机基因集时，GPT-4 的“自信度拒绝”机制虽显示了较高的保守性，但仍有部分输出存在“幻觉”（hallucination）问题，生成了看似合理但无法验证的内容。这表明，在实际应用中，研究人员需要对其生成的结果进行仔细审查，确保研究的科学严谨性。

LLMs 的优势：从被动工具到主动发现

该研究的一项重要发现是，LLMs 不仅能够匹配已有的基因功能注释，还能在一定程度上提出新的生物学假设。例如，GPT-4 对基因簇功能的描述经常结合文献，揭示了特定基因在复杂生物学网络中的作用。例如，在分析涉及 Cullin-RING 泛素连接酶复合物（CRL）的基因簇时，GPT-4 不仅捕捉了这一经典功能，还结合更多基因信息，提出了更广泛的潜在调控机制。这样的功能扩展为研究人员提供了额外的研究方向。

相比之下，传统功能富集分析工具（如 g:Profiler）更多地依赖统计显著性，这种方法虽然可以快速筛选潜在功能，但容易生成过于宽泛的注释，缺乏对具体基因簇特性的细致分析。在这一点上，LLMs 的文本生成能力能够为研究人员提供更丰富的上下文信息，使分析更加全面和有深度。

LLMs 的局限性：从“幻觉”到实际应用的挑战

尽管 LLMs 展现了巨大的潜力，其输出的可靠性仍然是科学研究中的重要挑战。该研究发现，在生成的分析文本中，有 12% 的陈述无法被验证。这些问题主要表现为两种类型：一是功能分类错误，例如将某些基因归入了不相关的生物过程；二是未经验证的推测性陈述，如将某些基因与尚未明确的分子机制联系起来。

此外，LLMs 的输出仍然受到提示（prompt）的影响。研究表明，优化提示内容可以显著提升模型的输出质量。因此，未来的研究需要系统化地设计和优化提示策略，结合具体的实验背景，确保生成结果的准确性和可解释性。

另一个限制是 LLMs 对动态和最新数据的整合能力不足。目前，LLMs 的训练数据主要来自于历史文献和已有知识，这使得它在面对新的实验结果或尚未广泛研究的领域时表现有限。为了克服这一问题，可以结合动态更新的数据库和实时文献检索机制，使 LLMs 能够更好地适应快速变化的科学环境。

综上，该研究通过系统评估五种大语言模型（LLMs），首次明确展示了它们在基因功能分析中的潜力和局限性。不仅验证了 LLMs 在处理生物学数据时的精准性，还揭示了它们的创新能力，尤其是在尚未被传统数据库注释的基因簇功能发现中，体现出更高的特异性和上下文相关性。该研究也突破了现有基因功能分析工具的局限。LLMs 的引入为这一领域提供了一种创新性解决方案，能够结合文献和逻辑推理生成更细致、可靠的功能假设。这不仅帮助研究人员更高效地挖掘数据价值，还为智能化科学研究开辟了新途径。

参考文献

Hu, M., Alkhairy, S., Lee, I. et al. Evaluation of large language models for discovery of gene set function. Nat Methods (2024). https://doi.org/10.1038/s41592-024-02525-x

来源：生物探索

生物信息与育种

致力将生信、AI、大数据、云计算等技术应用于现代生物育种

最新文章

线上直播 | 基于AI的蛋白质结构解析与智能设计

国际智能育种新动态

再生稻适宜品种筛选及其类型划分

Nature Methods | GPT-4领衔：大语言模型（LLMs）推动基因功能探索新高度

水稻研究者必备！RGAP 2.0来了，全面解析基因组奥秘！

国自然中标真不难！十年评审专家1v1本子精修，中标率可达58.6%！免费直播答疑！

科研经费尽其用，一次预存，随时取用！附赠3800购物卡！年末钜惠！

农林专业顶刊AFM：双重集成方法预测水稻抽穗期

【今日报名截止】智能育种高级研修班即将开讲！

JIA综述：全球转基因作物商业化趋势

Plant Communications：合成生物学和人工智能在作物改良中的应用

【开班倒计时】TFSeeds智能育种研修班开班在即！

MHOrT | 易干军、杨乔松团队：香蕉分子生物学与育种的最新进展及未来发展方向

东北农业大学韩德果教授团队：探秘野生草莓AP2/ERF基因家族

2024中国农业企业500强

最新日程 | 2025年1月8号-10号三亚国际种业科学家大会

顶级大佬VanRaden教你如何实施基因组选择（GS）

种康院士 | 作物育种进化史：从野生驯化到智能设计

专业培训 | 数字育种-智能设计育种

5460 个三系杂交稻品种的不育系细胞质来源分析

农业农村部发布第三次全国农作物种质资源普查，共13.9万份！

JGG | 多视图数据的植物基因组预测新方法MVBLUP

请查收！第四届三亚国际种业科学家大会最新日程安排！

种业最新书籍推荐：《作物种业前沿科技战略研究》和《畜禽种业科技创新战略研究》

Science发布“全世界最前沿的125个科学问题”

专业培训 | 数字育种-智能设计育种

Nature：如何用ChatGPT辅助学术写作？

WeWorkshop 24001 活动回顾｜一个生信工作者与大模型的一天

Nat. Commun. | 西北农林发布世界首个T2T级别富士单倍体基因组

拜耳和科迪华两大农业巨头推出生成式AI工具

Plant Com | 代谢标志物辅助基因组预测的新策略

赵春江：国外智慧农业布局、发展现状与趋势

线上直播 | 基于AI的蛋白质结构解析与智能设计

Nature Plants封面 | 现代月季的起源与育种

小麦田主要杂草图谱、分布及防治方法

年度重磅！2024年农业科学/植物学热点前沿和新兴前沿公布

收藏 | 论文文献整理Endnote的使用方法（史上最详细）

水稻一生不同划分标准（永久收藏）

华中农大欧阳亦聃综述：利用雄性不育发展杂交水稻的理论基础与研究进展

全球农业转基因产业最新发展动态

将孟德尔随机化（MR）应用于植物育种是一种新的尝试

线上直播｜融合“BT+IT+DT”的智能设计育种

线上直播 | 基于AI的蛋白质结构解析与智能设计

分享几则招聘信息，学术和种业界都有！但未免脱节了

表型组选择（PS）与基因组选择（GS）之间的较量！

智能设计育种，免费课程，等你来战！

半年改良一个性状？植物第二代定向进化育种技术

首届国际作物创新与商业化大会（亚洲）2025

SCLS | 现代玉米自交系基因组分析揭示其遗传多样性和育种选择效应

综述：泛基因组学入门

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉