科学界接下来应该会有很多基于 AI Agent 开发出来的科研工具

文摘 2024-11-07 06:48 中国香港

Basic Information

英文标题： Empowering biomedical discovery with AI agents
中文标题：用人工智能代理增强生物医学发现
发表日期：31 October 2024
文章类型：Perspective
所属期刊：Cell
文章作者：Shanghua Gao | Marinka Zitnik
文章链接：https://www.sciencedirect.com/science/article/pii/S0092867424010705

Summary

Para_01

我们设想"人工智能科学家"作为能够进行怀疑性学习和推理的系统，通过将人工智能模型和生物医学工具与实验平台相结合的协作代理来促进生物医学研究。
与其将人类排除在发现过程之外，生物医学人工智能代理将人类的创造力和专业知识与人工智能分析大数据、探索假设空间和执行重复任务的能力结合起来。
人工智能代理有望在各种任务中表现出色，规划发现工作流程，并进行自我评估以识别和减轻知识空白。
这些代理使用大型语言模型和生成模型来实现结构化记忆，支持持续学习，并利用机器学习工具整合科学知识、生物学原理和理论。
人工智能代理可以影响从虚拟细胞模拟、表型可编程控制到细胞电路设计以及开发新疗法等多个领域。

Keywords

artificial intelligence; AI agent; biomedical discovery; large language models; foundation models; agent systems

Introduction

Para_01

人工智能（AI）的一个长期目标是开发能够做出重大科学发现、自主学习和自主获取知识的AI系统。
尽管"AI科学家"这一概念是抱负性的，但基于代理的AI的进步为开发能够进行反思学习和推理的对话系统铺平了道路，这些系统可以协调大型语言模型（LLMs）、机器学习（ML）工具、实验平台，甚至是它们的组合（图1）。
生物学的复杂性要求采用能够灵活分解复杂问题的方法，将其转化为可操作的任务。
AI代理可以将问题分解为可管理的子任务，然后由具有特定功能的代理解决这些问题，并整合科学知识。
在不久的将来，AI代理可以通过加快研究流程，使其更快、更高效地加速发现工作流程。
AI代理提高了常规任务的效率，自动化重复过程，并分析大型数据集，以在规模和精度上超越当前人类驱动的努力来导航假设空间。
这种自动化使得连续、高通量的研究成为可能，而这种研究单靠人类研究人员无法在同一规模或速度下完成。
展望未来，AI代理可以通过在实验测量可用之前跨时间和空间尺度进行预测，提供超出传统机器学习所能达到的见解。
最终，它们可能有助于揭示生物系统中的新行为模式。

图1. 用AI代理赋能生物医学研究 AI代理正在为能够进行怀疑学习和推理的复合AI系统奠定基础。
这些多代理系统由基于可对话的大语言模型（LLMs）的代理组成，可以协调机器学习（ML）工具、实验平台、人类，甚至是它们的组合。
机器人代理，操作机器人硬件进行物理实验的AI代理；数据库代理，可以通过函数调用和应用程序编程接口（APIs）访问数据库信息的AI代理；推理代理，能够直接推理并在反馈中推理的AI代理；假设代理，开发假设时具有创造性和反思性的AI代理，能够描述自身的不确定性，并将其作为驱动来完善其科学知识库；头脑风暴代理，能够生成广泛研究想法的AI代理；搜索引擎代理，使用搜索引擎作为工具快速收集信息的AI代理；分析代理，能够分析实验结果以总结发现并综合概念的AI代理；实验规划代理，优化实验协议以执行的AI代理。

Para_01

这一愿景得益于大型语言模型（LLM）、多模态学习和生成模型的进步。
像 GPT-4 这样的对话优化的 LLM 可以融入反馈，使 AI 代理能够通过与彼此和人类的对话进行合作。
这些对话可以涉及代理寻求人类的反馈和批评，并识别其知识中的空白。
由于单个 LLM 可以展示广泛的能力——尤其是在配置了适当的提示和推理设置时——不同配置的代理之间的对话可以以模块化的方式结合这些能力。
LLM 还展示了通过将复杂任务分解为子任务来解决问题的能力。
然而，如果我们遵循传统的基础模型方法，如 LLM 和其他大型预训练模型，我们可能不会开发出能够生成新假设的 AI 代理，因为这种新颖性不会出现在用于训练模型的数据中，这表明当前的基础模型本身对于 AI 科学家来说是不够的。
以 LLM 为例，生成新假设需要创造力和科学知识的基础，而生成新颖文本则需要遵循语义和句法规则，因此后者的方法与 LLM 内部的下一个标记预测技术非常吻合，而前者则不然。

Para_02

在这里，我们提出了一种观点，即人工智能科学家可以被实现为由人类、大型语言模型、机器学习模型和其他工具（如实验平台）共同组成的复合人工智能系统支持的人工智能代理。
人工智能代理应该能够提出生物医学假设，对其进行批判性评估，表征其不确定性，并利用这一点作为驱动来获取和改进其科学知识库，使其能够获得人类科学家的信任。
人工智能代理应设计为能够适应新的生物学见解，整合最新的科学研究成果，并根据实验结果改进假设。
这种适应性确保了代理在面对快速变化的生物数据时仍能保持相关性，平衡新发现的编码和旧知识的保留。

Para_03

实现这一视角转变后，生物医学人工智能代理可以影响从虚拟细胞模拟、表型的可编程控制和细胞电路设计到开发新疗法等多个领域。
虚拟细胞模拟涉及创建细胞过程的详细模型，其中人工智能可以预测基因修改或药物治疗对细胞行为的影响。
这可以促进对细胞机制的理解并生成可测试的假设，减少传统方法的时间和成本。
表型的可编程控制利用人工智能代理设计精确的基因修改以研究基因功能。
例如，由人工智能代理指导的基于CRISPR的基因编辑可以在多轮编辑活动中激活或抑制大量细胞群体中的特定基因。
每一轮包括根据用户指定的目标表型和前一轮的实验读数来确定下一次编辑。
设计细胞电路涉及使用人工智能代理预测遗传组件的行为并优化其排列，以创建能够执行诸如感应环境变化或生产治疗性蛋白质等任务的电路。

Para_04

伦理问题源于生物医学人工智能代理。
允许它们通过机器学习工具或对实验平台的调用对环境进行更改可能是危险的。
需要设置防护措施以防止伤害。
相反，发现工作流程可能包括人工智能代理之间的对话（但不允许与环境互动）。
在这种情况下，我们需要考虑这些互动对人类科学家及其对人工智能代理的依赖的影响。
此外，生物医学人工智能代理面临的特定关键挑战是缺乏大量、多样化的实验数据集，而不仅仅是当前结构和细胞生物学领域的重点。
人工智能代理必须高效地表示生物医学知识，很好地泛化到新任务，并在最少或无需额外培训的情况下获得新技能。
虽然人工智能代理可以在人类监督下赋能研究和支持运营，但它们的潜在影响和相关挑战突显了负责任实施的重要性。

Evolving use of data-driven models in biomedical research

Para_01

在过去的几十年里，数据驱动模型通过开发数据库（DBs）、搜索引擎、机器学习和交互式及基础学习模型重塑了生物医学研究（图2）。
这些模型通过挖掘生物医学数据，推进了蛋白质、基因、表型、临床结果和化学化合物的建模。

图2. 数据驱动模型的发展历程数据驱动的方法，从数据库和搜索引擎、机器学习（ML）以及交互式学习模型到先进的代理系统，在过去的几十年里重塑了生物医学研究。
圆圈代表主要集中在算法机器学习创新的研究；菱形用于表示使用人工智能进行生物医学发现的代表性研究。

DBs and search engines

数据库和搜索引擎

Para_01

在生物研究中，数据库汇集了实验和研究的知识，提供了包含标准化生物数据词汇的可搜索存储库。
一个这样的数据库是 AlphaFold 蛋白质结构数据库，其中包含了超过 2 亿个由 AlphaFold 预测的蛋白质结构。
分子搜索引擎从这些数据库中检索信息。
FoldSeek 通过将查询结构转换为 3D 交互字母序列并使用预训练的替换矩阵，从 AlphaFold 数据库中检索蛋白质结构。
搜索引擎设计用于根据特定查询检索信息，缺乏通过推理来优化这些查询的能力。
它们无法迭代处理获取的信息以优化结果或定制后续操作。
此外，虽然数据库通过策划的数据减少了错误信息的风险，但它们缺乏识别和移除无关信息的机制。

Para_02

不同于搜索引擎，AI 代理能够进行推理以制定搜索查询，并随后获取信息。
策划的数据库提供了结构化和事实性的信息，有助于减少由代理幻觉可能产生的错误信息的风险。
例如，检索增强生成（RAG）使 AI 代理能够基于科学文献回答问题。
这些代理的一个显著特点是它们能够在需要时检索信息，并创建和迭代处理获得的段落。
这一反思过程使得代理在推理过程中可控，允许根据任务需求定制其行为，超越了使用搜索引擎和数据库查询的可能性。

ML models

机器学习模型

Para_01

除了信息检索之外，机器学习模型在识别模式和同化潜在知识方面表现出色，能够对新数据进行泛化预测。
现有的机器学习模型通常需要为每个任务设计专门的模型，并且不具备区分人工智能代理的推理和交互能力。
一个例子是 AlphaFold，它使用深度学习模型和多序列比对技术以高精度预测蛋白质的三维结构，但该模型是专门为蛋白质折叠设计的。
人工智能代理代表了机器学习模型的进化，建立在诸如变压器架构和生成预训练等成功基础之上。
这些代理的推理和交互能力使它们与通常需要为每个任务设计专门模型的机器学习模型区分开来。
与传统机器学习模型不同，代理评估不断变化的环境，这对于建模动态生物系统非常有价值。

Interactive learning models

交互式学习模型

Para_01

交互学习通常被称为主动学习和强化学习，代表了通过结合探索机制和人类反馈对机器学习模型的进一步发展。
主动学习策略可以帮助构建小样本数据集的模型，当传统机器学习模型由于统计能力有限而可能不足时。
它选择性地查询最具信息量的数据点进行标注和优化学习过程，从而改进模型如何利用数据进行学习。
强化学习涉及代理通过观察过去行为在环境中的结果来学习如何行动，这反映了试错方法。
在生物研究中，交互学习已被用于小分子设计、蛋白质设计、药物发现、扰动实验设计和癌症筛查。
例如，GENTRL 使用强化学习来导航化学空间并识别可以作用于生物靶标的化学化合物。
然而，交互模型主要设计用于狭窄的用例，在没有从头开始重新训练模型的情况下难以推广到新目标。
利用交互学习，人工智能代理在信息检索任务中实现了更大的自主性。
主动学习通过选择性标注数据来提高训练效率，以最大化模型性能。
然而，人工智能代理超越了这种以数据为中心的方法；例如，带有人类反馈的强化学习使用"奖励模型"直接通过人类反馈训练基于大型语言模型的代理，以自然理解人类指令。

AI agents

AI代理

Para_01

生物医学人工智能代理具有先进的功能，包括通过感知模块主动获取信息、与工具互动、推理以及与环境互动和学习。
代理使用外部工具，如实验室设备，并且拥有感知模块，例如集成的视觉机器学习工具，以从环境中接收信息。
代理可以结合搜索引擎和机器学习工具，并通过感知模块处理跨数据模态的信息，以生成假设并根据科学证据对其进行完善。

Types of biomedical AI agents

Para_01

目前构建代理的方法是使用大语言模型（LLM），其中单个大语言模型被编程执行各种角色。
然而，除了基于 LLM 的代理之外，我们设想了一种用于发现工作流程的多代理系统，该系统结合了异构代理（图1），包括机器学习工具、领域特定的专业工具和人类专家。
鉴于许多生物医学研究不是基于文本的，这种代理在生物医学中的应用范围比仅基于 LLM 的代理更广泛。

LLM-based AI agents

基于大型语言模型的AI代理

Para_02

通过为单个大语言模型编程赋予多种角色，使基于大语言模型的代理具备模仿人类专业知识的对话界面，并能够访问工具（图3A）。
这种方法的原理是首先对大语言模型进行预训练，以编码一般知识，然后对大语言模型进行领域内微调，以编码特定领域的专业知识，并通过角色扮演和对话使大语言模型与人类用户对齐。
指令调优可以通过训练大语言模型通过提示示例来遵循人类指令来实现前者，包括包含生物学推理的对话。
此外，通过强化学习优化大语言模型性能，从特定提示的一系列响应中选择最符合人类偏好的输出，进一步使大语言模型与人类角色对齐。
因此，一个被编程以履行多种角色的单一的大语言模型，可以提供比开发专门化模型更实用和有效的解决方案。
通过分配特定角色，代理可以复制各领域的专家的专门知识，如结构生物学、遗传学和化学，超越查询非专业大语言模型的能力，并执行以前不可能完成的任务。
早期在临床医学问答中的结果显示，将特定角色（如临床医生）分配给GPT-4，可以在多项选择基准测试的准确性方面优于使用领域专业的大语言模型，如BioGPT、NYUTron和Med-PaLM。

图3. 生物医学中人工智能代理的多样化配置——从基于大型语言模型的代理到集成了人工智能模型、工具和物理设备的多代理系统。
通过为大型语言模型编程角色，一个基于大型语言模型的代理，具备记忆和推理能力，执行多模态感知并利用各种工具（例如，网络实验室工具）来完成指定任务。
利用具有不同角色、感知模块、工具和领域知识的人工智能代理，可以实现代理与科学家之间的协作。
这种协作可以采取多种形式，如专家咨询、辩论、头脑风暴和圆桌讨论。
多代理系统可以建立一个自动驾驶实验室，在这个实验室中，众多代理在人类的帮助下协作进行多次生物研究迭代。
每个研究周期包括假设的生成、实验设计、计算机模拟和体外实验的执行以及结果分析。
计算代理，使用计算模型作为工具的人工智能代理；决策代理，根据给定条件做出决策的人工智能代理；数据库代理，从数据库中检索相关信息的人工智能代理；推理代理，能够直接推理和反馈推理的人工智能代理；专家代理，基于可靠来源（如领域专业知识、人类专家的反馈和特定工具的结果）提供专业咨询的人工智能代理；假设代理，能够进行反思学习和推理以生成假设的人工智能代理；规划代理，制定未来行动计划的人工智能代理；以及计算机模拟/体外代理，使用计算机模拟或体外环境中工具的人工智能代理。

Para_02

我们设想了三种方法来为生物AI代理分配角色：领域特定微调、上下文学习和代理角色的自动生成。
第一种方法涉及跨多个生物任务对大语言模型（LLM）进行指令微调，以使LLM扎根于生物领域，随后通过人类反馈的强化学习（RLHF）确保微调后的LLM执行与科学家目标和需求一致的任务。
第二种方法利用LLM的上下文学习来处理输入中提供的较长背景信息，例如生物学家生成的指令，使代理能够理解每个任务的领域背景。
这种方法通过使用文本提示来定义代理角色来支持。
这两种策略都需要生物学家收集特定任务的数据或精心设计提示。
然而，由于人类定义的角色可能无法总是如预期地指导代理，因此越来越多的趋势是赋予基于LLM的代理更大的自主权来定义它们的角色。
这种角色定义的转变使代理能够自主生成和优化角色提示，并进行自我导向的学习和角色识别。
例如，Fernando等人展示了代理根据用户输入进化和定制其提示的能力。
此外，可以采用自参照学习框架来优化为代理分配角色时的提示设计，使它们从任务执行者转变为能够自主设置的角色实体。

Para_03

该代理系统由一个被提示承担各种角色的大型语言模型（LLM）组成，已被证明是科学研究中的重要支持工具。
研究表明，设置为执行特定角色的代理相比依次查询单个LLM或重复使用单一工具表现出更强的能力。
一个典型的例子是Coscientist，它展示了基于GPT-4的代理在化学研究任务中的潜力，包括优化钯催化交叉偶联反应。
在Coscientist中，GPT-4担任规划者的角色，作为研究助理。
代理通过上下文提示使用工具，如网络和文档搜索以及通过Python应用程序编程接口（API）和符号实验室语言（SLL）执行代码。
为了完成需要访问物理设备的任务，规划代理从科学家提供的提示开始，使用搜索工具编制实验文档。
之后，代理生成SLL代码并执行它，这包括将代码传输到设备上并控制设备。

Multi-agent AI systems

多智能体人工智能系统

Para_02

基于 LLM 的代理通过自回归 LLM 方法实现，通过模仿训练数据集中的观察行为来获得规划和推理等技能。
然而，这种基于模仿的学习导致了代理能力的局限性，因为它们未能深入理解这些行为。
因此，单一代理通常缺乏完成复杂任务所需的全面技能集。
一个实用的替代方案是部署多代理 AI 系统，其中任务被分割成更易管理的子任务。
这种方法允许各个代理高效地处理特定的子任务，即使它们的能力不完全。
与基于单个 LLM 的代理不同，多代理系统结合了多个具有专门能力、工具和领域特定知识的代理。
为了成功执行任务，这些代理必须遵守工作协议。
这种合作努力使 LLM 具有独特的角色、专业化的知识库和多样化的工具集，模拟了一个跨学科的生物学家团队。
这种方法类似于大学或研究所内各部门之间的多样化专业知识。

Para_03

接下来，我们介绍五种多智能体系统的协同设计。

Brainstorming agents

头脑风暴代理

Para_04

与多个代理进行头脑风暴研究想法（图3B）构成了一个协作会议，通过科学家和代理的共同专业知识生成广泛的研究概念。
在这样的会议中，代理被鼓励贡献想法，优先考虑贡献的数量而不是初始质量，以促进创造力和创新。
这种方法鼓励提出非常规和新颖的想法，使参与者能够在不进行评判或批评的情况下，基于他人的建议发现新的研究途径。
该过程使代理能够应用他们的领域知识和资源，形成集体想法池。
每个代理将根据其专门知识提供见解并生成假设，小组可以随后整合和改进这些假设。
例如，在为阿尔茨海默病研究设计的多代理系统中，代理可以专门研究小胶质细胞生物学、神经元退化和神经炎症。
为了探索阿尔茨海默病的新治疗靶点，专门研究小胶质细胞生物学的代理可能会提出研究小胶质细胞在突触修剪中的作用，而专注于神经元退化的代理则可能建议检查某些神经营养因子的保护作用。
这些多样化的想法汇集在一起，使研究人员能够探索潜在研究方向的全面范围。

Expert consultation agents

专家咨询代理

Para_04

专家咨询（图3C）涉及从具有专门知识的个人或实体那里获取专业知识。
这一过程包括专家代理从各种来源收集信息，并提供见解、解决方案、决策或评估作为回应。
其他代理或人类然后根据这些反馈改进他们的方法。
大型语言模型（LLMs）有可能协助对研究手稿进行科学批评，这一点在最近的研究中已经得到证明。
然而，LLMs缺乏人类审稿人的细致理解，应被视为是对人类专业知识的补充，而不是替代。
同样，一个AI代理可能会咨询另一个在特定领域专业的代理，以在AI系统中完善想法，这类似于学术环境中导师与学生之间的动态。
在另一个例子中，在处理阿尔茨海默病及相关痴呆症时，基于认知标准诊断阿尔茨海默病可能会遇到边缘病例。
咨询AI代理可以提供额外的视角，确定这些病例是否基于脑病理学或替代生物标志物符合阿尔茨海默病的标准。

Research debate agents

研究辩论代理

Para_04

在研究辩论（图3D）中，两组代理呈现关于研究主题的不同观点，目的是说服对方团队的代理。
代理被分成两组，每组在辩论中承担不同的角色。
一组收集证据来巩固其立场，使用各种知识来源和工具，而对方组则批评这些证据，努力揭露或中和其弱点，用更有力的证据进行反驳。
每个派别的目标是比对手更有效地阐述他们的论点，通过系统的讨论来捍卫自己的观点并挑战对手主张的真实性。
这种方法促进了批判性思维，并加强了有效沟通，因为每个团队都在努力构建最有力的论据来支持他们的立场。

Roundtable discussion agents

圆桌讨论代表

Para_04

圆桌讨论（图 3E）涉及多个代理参与一个促进表达不同观点的过程，以便对讨论的主题进行协作决策。
在这样的会议中，代理们表达他们的想法和见解，提出问题，并对他人的贡献提供反馈。
然后他们回应这些问题，根据反馈调整他们最初的提议，或试图说服他们的同伴。
这种方法促进了所有代理之间的平等参与，鼓励他们贡献自己的专业知识和观点，提供建设性的批评，质疑基本假设，并提出修改建议以改进提出的解决方案。
Reconcile 实现了一个多代理协作框架，其中多个基于 LLM 的代理通过几轮对话来就研究问题达成共识。
代理们试图说服彼此调整他们的回答，并使用基于置信度加权的投票机制来实现比单个基于 LLM 的代理更准确的共识。
在每轮讨论中，Reconcile 使用一个"讨论提示"来协调代理之间的互动，该提示包括每个代理在前一轮产生的分组答案和解释、他们的置信水平以及人类解释的示例，用于纠正答案。

Self-driving lab agents

自动驾驶实验室代理

Para_04

自动驾驶实验室（图3F）是一个多智能体系统，在这个系统中，端到端的发现工作流程在科学家的广泛指导下进行迭代优化，但不需要逐步的人类监督。
一旦智能体系统经过训练，它可以描述必要的实验来测试生成的假设，分析这些实验的结果，并利用这些结果改进其内部科学知识模型。
自动驾驶系统中的智能体需要解决以下三个要素：确定归纳偏差以减少假设的搜索空间，实施方法对假设进行排序，考虑其实验成本和潜在的生物医学价值，通过不确定性量化和实验分析来表征怀疑态度，并使用实验数据和反例来细化假设。
理想情况下，假设智能体在开发从现有知识间接推断的生物学假设时具有创造性和反思性。
有新兴证据表明，生成模型具有生成新假设的潜力。
Tshitoyan等人证明，利用已发表的材料科学文献中的潜在知识可以推荐新型材料。
GPTChem利用了通过自回归预训练目标训练的语言模型来预测分子。
实验智能体指导操作智能体，后者使用结合了计算机模拟方法和物理平台的方法来执行实验。
推理智能体整合最新结果以指导未来的实验设计。
可以在给定假设和实验生成的时间预算下，比较不同版本的智能体系统的实验结果的效用，例如针对生物靶标的化学库高通量筛选的产率。

Levels of autonomy in AI agents

Para_01

当与实验平台集成时，人工智能代理可以根据生物医学领域的不同需求，在不同程度的自主性下运行。
我们根据假设生成、实验设计和执行以及推理的能力，将这些人工智能代理分为四个级别（表1）。
每个领域内的特定能力定义了这些级别，要求代理在所有领域内都具备给定级别的能力（例如，实验领域具备3级能力但在推理和假设领域仅具备2级能力的代理将被归类为2级）。

Para_01

第0级，表示为"没有AI代理"，使用机器学习模型作为由交互式和基础学习模型协调的工具。在这个级别，机器学习模型不会独立地形成可测试和可证伪的假设。
相反，模型的输出帮助科学家形成精确的假设。例如，一项研究使用AlphaFold-Multimer来预测"DONSON"蛋白的相互作用，这是一种了解有限的蛋白质，从而导致对其功能的假设。
第1级，称为"AI代理作为研究助手"，特点是科学家设定假设，规定实现目标所需的任务，并将特定功能分配给代理。这些代理使用有限范围的工具和多模态数据来执行这些任务。
例如，ChemCrow2结合了链式思维（CoT）推理与机器学习工具，支持有机化学中的任务，识别和总结文献以指导实验。另一个例子是AutoBa，它自动化多组学分析。这两个代理设计用于狭窄的科学领域；ChemCrow和AutoBa优化并执行由科学家设计和预定义的任务。
第1级代理根据现有知识推导出简单的假设，并利用有限的一组工具，缺乏达到第2级自主性的能力。

Para_02

在第二级，"AI代理作为合作者"，AI的角色扩展，科学家和代理共同完善假设。
代理承担了对假设测试至关重要的任务，使用更广泛的机器学习和实验工具进行科学发现。
然而，它们理解科学现象和生成创新假设的能力仍然受到限制，这突显了从现有研究中的线性进展。
向第三级过渡，或"AI代理作为科学家"，标志着一个重大演变，代理能够开发和外推超出先前研究范围的假设，综合概念而不仅仅是总结发现，并建立无法从文献中推断出来的简洁、信息丰富且清晰的概念联系，最终产生新的科学理解。
虽然在各个科学领域中存在多个第一级代理，但第二级和第三级代理尚未实现。
现有的自主性分类法侧重于AI代理和人类之间的责任划分，没有考虑生物医学发现。
这些分类法的制定目标是推进通用人工智能，使其在不同技能水平上超越人类表现，而不是专门针对科学研究。

Para_03

随着自主性的提高，滥用的可能性和科学家过度依赖人工智能代理的风险也随之增加。
虽然代理有可能增强科学诚信，但对其在识别危险物质或受控物质方面的使用存在担忧。
负责任地开发代理需要制定预防措施。
负责任地部署代理必须考虑过度依赖的风险，特别是在有证据表明大型语言模型可以产生令人信服但具有误导性的说法并传播错误信息的情况下。
随着代理进行更多自主研究活动，风险可能会增加。
代理必须像科学家一样受到审查，包括对代理研究的可重复性和严格的同行评审。
我们通过在遗传学、细胞生物学和化学生物学中举例来说明这些自主性水平的定义（表2）。
我们选择这些领域是因为最近可用的大数据集推动了机器学习模型的开发和应用。
关键的机器学习和生物学术语在表3和表4中描述。

Illustration of AI agents in genetics

遗传学中人工智能代理的插图

Para_03

人类遗传学研究旨在了解DNA序列变异对人类特征的影响。
第1级基于LLM的代理将执行与遗传研究相关的特定任务。
例如，在全基因组关联研究（GWAS）中，第1级代理可以编写生物信息学代码来处理基因型数据，以（1）执行质量控制措施，如删除许多个体中缺失的单核苷酸多态性（SNPs）或控制群体分层，（2）通过推算估计未基因分型的SNPs，以及（3）进行适当的统计分析以识别相关SNPs，同时考虑错误发现率。
分析完成后，第1级代理审查并报告结果，包括任何过滤掉的SNPs及其排除理由。

Para_04

与其遵循人类指令执行狭隘的任务，二级代理能够独立识别和执行任务，以完善科学家最初给出的假设。
例如，它可能会探索药物对复杂疾病中的某个患者亚群的有效性，其中遗传基础可以影响药物反应。
假设某种特定药物对具有特发性或遗传性全面性癫痫（GGE）的患者亚群有效——这是一种具有强大遗传因果关系的疾病——二级代理将综合来自GWAS荟萃分析的数据，如英国生物样本库、靶向测序研究和像Genes4Epilepsy这样的知识库。
通过分析患者遗传数据，代理识别出GGE亚型和致病基因，预测哪些亚群可能基于遗传标记受益于该药物。
然后，它将进行体外功能研究以确认这些预测，最终通过综合概念而非仅仅总结发现来呈现药物如何使GGE患者亚群受益的证据。

Para_05

第3级代理协调一个代理系统（图3），以发现和评估特定表型的基因标志物。
这些代理帮助启动新的研究小组，并优化非侵入性DNA收集方法，以提高成本效益和招募过程。
一旦数据被收集，代理创新统计方法，从基因型数据中识别因果变异，同时处理连锁不平衡等干扰因素，并开发体外技术，以在疾病模型中验证候选基因标志物。
第3级代理与科学家合作，生成和测试假设，以获得全面的遗传见解。

Illustration of AI agents in cell biology

细胞生物学中人工智能代理的插图

Para_03

细胞是细胞生物学的基本研究单位。
单细胞组学、超分辨率显微镜和基因编辑技术的进步已经生成了关于正常和受扰动细胞的数据集，涵盖多组学、细胞活力、形态学、冷冻电子显微镜和断层扫描以及多重空间蛋白质组学等领域。
数据的激增激发了对计算细胞建模的兴趣。

Para_04

机器学习工具在分析这些细胞模式的数据方面发挥了重要作用，但作为第 0 级代理，它们缺乏自主研究能力。
在第 1 级，代理集成了专门的第 0 级模型以协助假设检验。
这些代理通过综合文献和使用集成模型预测细胞反应，积极帮助科学家开发假设。
例如，为了帮助研究化合物的抗性机制，第 1 级代理会在不同的细胞环境中预测其效果。
这些预测还指导实验设计，如空间转录组学和蛋白质组学筛选。
然后，代理检索和优化实验方案，以便在平台上执行，并根据科学家的指示应用预定义的生物信息学管道。

Para_05

二级代理执行预定义的任务，并生成关于细胞功能和反应的假设。
它们自主地定义和优化任务，以支持科学推理，使复杂的表型（如药物抗性）的实际探索成为可能。
通过管理实验周期并不断更新其计算机模拟工具，二级代理积极优化实验，重点关注基于预测内容、不确定性和新获取数据的关键抗性变量，并从科学家那里获得迭代反馈。
因此，二级代理构成了一个虚拟细胞模型的原型，该模型能够生成假设，实现数字和实验平台的闭环集成。

Para_06

第3级代理应对现有挑战并预测细胞生物学研究的未来方向。
它们通过将人工智能工具（数字代理）与高通量平台（实验代理）相结合，形成混合虚拟细胞模型。
数字代理，如基于大语言模型的代理，通过文献综合自主识别关键知识空白，标准包括数据量、生物学相关性和临床需求，并在任何背景下模拟任何扰动因子（外部事件如基因敲除和过表达、化合物、细胞-细胞相互作用；内部事件如细胞周期）。
实验代理不仅优化实验协议以实现高通量多模态测量，还开发变革性技术，以在体外、离体和体内模型中实现前所未有的时空分辨率探测，揭示开创性的见解。
第3级代理推动生物机制和治疗策略的发现，使科学家的角色从执行操作任务转向专注于创意和管理混合细胞模型。

Illustration of AI agents in chemical biology

化学生物学中人工智能代理的插图

Para_03

化学生物学的一个主要关注点是理解细胞内的分子相互作用，以便在分子和细胞水平上操纵生物系统。
人工智能代理可以分析任何分子相互作用，帮助设计新药，并为生物系统提供更有价值的化学探针。

Para_04

尽管在将机器学习应用于化学生物学方面取得了显著进展，但目前的方法仍处于第 0 级。科学家通过整合用于结构预测、对接、化学合成和分子生成的机器学习工具来监督所有活动。
在第 1 级，智能体具有基本的化学生物学推理能力，可以自主执行简单任务，例如运行机器学习工具或为给定目标设计实验。
然而，由于推理能力有限，智能体可能无法解释更复杂的概念，例如分子动力学如何影响药物对结合剂的效果，或探索新的分子骨架。
对于第 2 级，长期目标是其作为科学家的合作者，通过在现有科学研究的明确延续任务中表现出色，例如提高化学探针的效率、自主设计和测试全新酶，或通过利用相关靶点的趋势设计新的结合剂。
第 2 级人工智能代理在更多领域拥有更深厚的专业知识，如逆合成、晶体学、生物测定和指导机械臂进行研究。

Para_05

化学生物学中三级代理的目标是能够研究细胞内所有类型的分子相互作用。
这种代理将与人类科学家合作，探讨对领域具有挑战性的研究问题，例如难以药物靶标的结合剂设计，显著提高体内正交反应的特异性和效率，或开发新的化学探针，使其能够进入新的空间和时间尺度。
与二级代理使用已建立的协议不同，三级代理旨在解锁当前无法访问的实验能力。
例如，人工智能代理可以被赋予探索比目前可及的时间尺度更长的分子动力学的任务。
在这个层次上，代理对现有文献有深入的理解，并与科学家合作，开拓化学生物学的新领域。

Roadmap for building AI agents

Para_01

一个AI代理被构建为一个复合系统，该系统由实现不同功能的模块组成。
在这里，我们描述了这些模块（图4），重点关注感知、交互、记忆和推理模块，这些模块对于AI代理与人类互动并参与实验环境是必要的。
代理与其环境之间的交互由两个要素表征：代理对其周围环境的感知以及随后的互动。
感知模块使代理能够解释和同化来自各种数据模式的信息。
然后，学习和记忆使代理能够通过获取新知识和检索先前学到的知识来与环境互动并完成任务。
最后，推理模块处理信息并执行行动计划。
以一项已发表的研究为例，图5E展示了一个假设的AI代理，该代理通过感知、交互、记忆和推理模块设置实验，研究果蝇线粒体DNA的选择性去除。

图4. 人工智能代理的关键模块：感知、交互、推理和记忆模块。感知解释多模态环境数据。
交互促进与环境的互动，包括人机交互、多代理交互和工具使用。
记忆负责知识的存储和检索，而学习则侧重于知识的获取和更新。
推理（无论是否有环境反馈）在规划和决策过程中起着关键作用。
跨模态对齐是基于大语言模型的代理感知的关键技术，其中来自不同模态的输入在以文本为中心的表示空间中对齐。
这种对齐使大语言模型能够感知和处理各种输入模态。
人工智能代理的推理模式表明了推理思维之间的转换。
例如，具有链式思维模式的代理以逐步的方式生成推理。

图5. 生物医学AI代理组件的说明 (A) 使用短期记忆模块回忆先前相关的实验，用于小分子抑制剂设计。
(B) 使用长期记忆模块检索相关的信息，用于疾病的靶标优先级排序。
(C) 使用直接推理而无需科学家反馈来优先考虑下游表型分析的基因。
(D) 使用带有科学家反馈的推理来选择和优化替代实验方法。
(E) 结合感知、互动、记忆和推理模块来研究生殖细胞中对致病性线粒体DNA的选择作用。

Para_01

将研究划分为由人工智能代理处理的小任务，呈现出一种引人入胜的方法，建立在像 Snakemake 和 Docker 这样的模块化和顺序生物信息学工作流的成功基础上。
与这些通常静态且需要手动更新和重新配置以处理新任务或集成新工具的工作流不同，人工智能代理是动态的，并以个性化、用户特定和上下文适当的方式运行。
它们可以学习使用新工具，并根据科学家的具体指示和需求调整其工作流。
此外，人工智能代理的任务自适应分配有助于自动整合新工具和重构现有管道，就像人类研究人员一样。
例如，人工智能代理可以尝试并创建超出当前已建立方法的多模态组学数据整合新协议。
例如，虽然已经存在整合多模态的方法，如单细胞 RNA 测序（scRNA-seq）与 scATAC-seq 或空间数据的方法，但人工智能代理可以开发出超越这三种模态的新管道，或者多尺度整合，如图谱规模的单细胞和批量 RNA 测序数据，或来自细胞系、类器官和患者样本的正常和疾病状态数据，基于它们的初步尝试。

Perception modules

感知模块

Para_02

感知模块使基于大型语言模型的代理具备理解并与它们所处环境中的元素互动的能力，例如生物工作流程和人类用户。
为了感知，代理需要整合从多个来源接收反馈的能力：科学家、环境和其他人工智能代理。
这要求适应各种模态。
这些模态包括文本描述；来自光学显微镜和冷冻电子显微镜的图像，用于同时评估多种条件下的细胞过程；来自活体成像的视频，用于评估发育过程或动物行为随时间的变化；纵向生物传感器读数和细胞基因组学谱型；基于质谱的蛋白质组学，用于解析蛋白质稳态；以及用于进行生化测定和模拟器官系统生理环境的微型平台和3D培养系统。

Para_03

AI代理可以采用不同的方法与环境互动。
最直接的方法是使用自然语言，这代表了基于LLM的代理的常见感知方式。
其他技术包括多模态感知模块，其中代理处理来自环境的多模态数据流或将多模态输入与基于文本的LLM对齐。

Conversational modules

对话模块

Para_04

随着 ChatGPT 的兴起，AI 代理解释自然语言的能力已经达到了如此高的水平，以至于现在可以构建完全基于自然语言的代理系统接口，并且误解有限。
主要关注的是保留对话历史的滚动窗口中的聊天界面，用户可以像标准的人与人书面互动方式一样与代理进行对话。
这种方法使科学家能够使用自己的语言表达查询，促进主动性，并使他们能够精确描述他们想要的内容。
我们设想代理将使用自然语言维护与科学家的互动历史，这反过来将使我们能够跟踪与代理的科学互动。
将这些互动的痕迹与 RAG 结合起来，我们可以开发出针对个别科学家的个性化发现工作流程。

Multimodal perception modules

多模态感知模块

Para_04

代理将大语言模型与其他数据类型对齐，以融合超出自然语言文本的数据模式。
这种方法有助于代理更好地建模代理行为所在的不断变化的环境，并动态调整其输出以适应新情况，例如虚拟细胞模型中的进化生物状态。
对齐过程涉及两种主要策略：文本翻译和表示对齐。
文本翻译将输入转换为文本格式，例如将来自机器人的数据转换为描述环境状态的文本描述。
例如，在处理实验设备的读数时，可以将读数与它们的含义的文本描述结合，使大语言模型能够理解读数作为一种新的模态。
或者，通过表示对齐，不同模态的数据由特定模态的模型分析以生成表示，例如使用 CLIP 的视觉编码器进行视觉信息处理。
然后，通过指令调优将这些表示与大语言模型的文本表示对齐，使由大语言模型驱动的代理能够感知和解释多模态数据。
例如，为了使基于大语言模型的代理处理蛋白质结构数据，需要一个额外的编码器将蛋白质结构数据编码为与大语言模型的表示空间对齐的表示。
这个编码器使用特定模态的训练方案进行预训练，并在该编码器和大语言模型之间放置一个适配器以对齐两者的表示。
然后，使用包含两种模态的数据进行指令调优，训练适配器进行对齐。
对齐的另一种方法是允许代理接收以不同模态表达的输入。
例如，Fuyu 使用仅解码器的变压器架构来联合处理图像块和文本标记。
同样，Gemini 被设计为在一个模型内处理视觉、音频和文本输入。
一旦实现了感知模块，使代理能够从环境中接收输入，接下来就是实现交互和推理模块来处理输入并与外部交互。
在生物医学数据上训练具有强大感知能力的代理需要大量的高质量数据对，这些数据对对齐多种模态。
然而，收集这样的数据仍然具有挑战性。
例如，多模态实验平台不存在或产量低，某些组织和细胞类型无法进行实验，且许多疾病表型的小样本量使得数据收集不可行。

Interaction modules

交互模块

Para_02

除了对话模块，科学家们在生物研究中使用基于机器学习（ML）和其他工具，通过图形用户界面（GUI）探索数据集以分析和可视化数据，并与物理设备和湿实验室实验平台互动。
因此，针对聊天优化的基于大型语言模型（LLM）的代理需要具备交互能力，以便与科学家、其他人工智能代理和工具进行沟通和协作，而不仅仅是一个简单的聊天机器人。
代理必须整合关键的交互模块，以与环境中的元素进行互动。
这些模块包括代理与人类的交互，以支持与科学家的沟通和遵循人类指令，多代理交互以实现代理之间的协作，以及工具使用操作以访问机器学习工具和实验平台。

Para_03

当大语言模型（LLMs）的交互能力与功能调用结合时，可以作为科学家与代理接口之间的中介，以及科学家与其他功能项目（如工具和其他代理）之间的中介。
这种方法使科学家能够用自然语言表达他们的意图，而无需寻找如何和在哪里完成任务的方法。
同时，功能项目的优点得以保留，因为代理可以与工具互动并使用它们来提供反馈。
然而，经过通用、非生物领域训练的交互模块可能不适合专门的生物医学术语，需要在生物医学工具上进行领域内训练。

Agent-human interaction modules

代理-人类交互模块

Para_04

科学家与人工智能代理之间的互动通过合作交流和生物知识建模将科学目标与人工智能代理同步。
自然语言处理和人类评估方法主要用于开发这种互动能力。
InstructGPT 通过使用人类对话的例子进行监督微调来增强 GPT 模型，以提高模型的对话技能。
通过基于人类对模型响应的评估训练的奖励模型来调整模型，代理与人类的一致性可以通过 RLHF 进一步优化。
或者，RLHF 可以被直接偏好优化所替代，这是一种参数化方法，能更一致和高效地与人类偏好对齐。
通过代理与人类的互动，代理能够适应人类的需求和偏好，利用人类的见解来指导执行复杂任务。
例如，Inner Monologue 利用人类反馈来识别用户偏好或在具身环境中解释模糊请求。
在 AutoGPT 中，人类制定任务并对代理返回的解决方案进行评分，而 AutoGen 可以利用人类专业知识比单独的代理更好地解决问题。

Multi-agent interaction

多智能体交互

Para_04

多代理交互支持解决单个代理独立操作无法完成的复杂目标。
在这样的跨学科系统中，能够专长于不同生物领域的代理，每个代理具有不同的能力，通过各种通信手段进行互动。
由于代理能够以语言方式与人类交流，语言已成为多代理交互的主要媒介。
一个例子是生成代理，它们创建互动环境，其中代理模仿人类行为并使用自然语言进行互动。
多代理交互采用不同的策略，包括合作和谈判。
例如，MetaGPT 应用人类团队工作中的标准化操作程序来定义任务和代理职责。

Para_05

通过这些方法，代理交互使得处理单个代理无法应对的复杂任务成为可能。
MedAgent 利用多个医疗 AI 代理的专业知识进行医疗推理。
同样，RoCo 雇佣具有不同角色的机器人代理来完成物理世界中的复杂任务。
多代理交互还可以通过让经验较少的代理向更有经验的代理学习来提高其熟练度。
这些交互还能够创建从公共卫生场景到人类社会行为的各种环境模拟，增强系统的适应性和在不同情境中的应用。

Tool use

工具使用

Para_04

为了管理来自不同环境的任务，代理需要工具来增强其能力。
常用的工具有应用程序 API、搜索引擎、机器学习模型、知识数据库和用于物理任务的机器人设备。
已经开发了能够与一种或多种类型工具交互的第 1 级代理系统。
ChemCrow2 利用化学工具和搜索引擎来解决化学挑战。
WebGPT 可以进行搜索并在网络浏览环境中导航。
SayCan 控制物理世界中的机器人，使用大型语言模型完成任务。
为了调用这些工具，AI 代理生成特定格式的命令或查询预训练控制模型以执行操作。
为了发展这些能力，代理可以使用上下文学习或通过工具使用演示进行微调，后者代表了一种更高级的方法。

Para_05

对于上下文学习，有必要在提示中包含系统能力，以便代理可以使用函数调用来查询工具。
例如，HuggingGPT 使用 ChatGPT 作为控制器，通过上下文学习整合 Hugging Face 上的所有机器学习模型。
另一种方法是使用带有函数调用的模型微调，创建一个具有集成功能/工具能力的基于大型语言模型的代理。
例如，Toolformer 引入了一种自监督学习方法，以最少的演示来掌握工具 API 的使用。

Para_06

通过分析自然语言文本输入来建模科学家的需求，AI代理可以选择最有可能可用的工具，识别所需的用户界面组件，并执行科学家期望的操作。
交互模块设计为可以集成和适应不断变化的环境。
对于第2级和第3级代理，代理自主学习新的交互类型以及如何/何时开始使用新工具。

Memory and learning modules

记忆和学习模块

Para_02

在使用工具和机器学习模型进行生物研究时，科学家们记录实验日志，并根据这些日志规划下一步行动。
在人工智能代理中，记忆模块通过记住必要的实验输出来减轻手动记录日志的需求。
与执行一次性推理以生成预测的机器学习模型不同，基于大型语言模型的代理中的记忆模块存储和回忆信息。
这对于执行复杂任务和适应新或变化的环境是必要的。
记忆模块设计用于存储长期和短期学习的知识。
当代理遇到新情况并获取数据时，记忆模块会更新新的信息。

Long-term memory modules

长期记忆模块

Para_03

长期记忆存储了支持代理行为和理解世界的本质和事实知识，确保这些信息在任务完成后仍然存在。
这种记忆可以是内部的，通过学习过程编码在模型的权重中，也可以是外部的，保存在辅助知识库中。
内部记忆直接用于完成零样本任务，而访问外部记忆则需要代理采取行动，将数据提取并整合到短期记忆中以供即时使用。
例如，ChatDB 使用外部数据库进行记忆存储，而 MemoryBank 将记忆片段编码为嵌入，以便日后检索。
代理可以查询知识库，如 GWAS 数据库以查找候选蛋白质靶点的遗传证据，治疗机制的知识库，以及包含最新信息的科学文献，以便代理整合并决定该蛋白质是否可以通过治疗干预进行调节（图 5B）。
学习过程通过添加新知识或替换过时的信息来更新长期记忆。
代理的内部记忆可以通过参数高效的微调、交互式学习和模型编辑进行更新。
这些策略必须对大型模型有效，并避免丢失先前学习的信息。
另一方面，更新外部记忆更为简单，涉及对知识库的修改。
例如，在药物发现中，通过将新的开发化合物添加到药物库中来更新长期记忆是一种保持代理最新的便捷方式。

Short-term memory modules

短期记忆模块

Para_03

AI 代理使用短期记忆在互动过程中临时存储信息。
这种短期记忆是通过情境学习实现的，其中相关的信息被整合为上下文提示或通过潜在嵌入在大语言模型中。
对于聊天机器人，之前的对话被保存为文本提示，支持多轮对话。
基于文本的方法为多代理和代理-人类场景中的通信奠定了基础。
在具身化 AI 代理中，环境反馈以文本形式被捕获，作为短期记忆辅助推理。
在感知之后，多模态输入被转换为潜在嵌入，这些嵌入充当短期记忆。
LLaVA 使用由视觉编码器生成的潜在嵌入来保留视觉信息。
短期记忆使代理能够暂时获得技能，如工具使用，存储生物系统最近状态的信息，并跟踪早期推理工作的结果。
这种学习机制对代理在新条件下学习和应用新知识至关重要。
此外，短期记忆可以暂时覆盖长期记忆，使代理能够在模型权重中优先考虑最近的信息而非旧知识。
代理可以通过存储在短期记忆中的过去经验来决定未来要进行哪些实验。
在图 5A 中，我们详细描述了一个例子，其中代理回忆起类似蛋白质的实验，以告知给定蛋白质的初始抑制剂设计。

Reasoning modules

推理模块

Para_02

生物研究涉及一个多学科和多阶段的过程，整合了来自不同领域的科学家的专业知识。
科学家们提出假设，根据这些假设设计实验，解释结果，并规划下一步行动。
将推理能力集成到人工智能代理中可以在整个过程中协助生物研究。
推理提高了代理在实验设计、对生物假设做出决策以及解决竞争性候选生物机制方面的能力。
使用大语言模型（LLM）的人工智能代理可以实现交互对话系统，通过自然语言对话解释机器学习模型。
推理模块可以通过提示和少量样本的上下文学习来实现。
此外，代理可以使用规划模型和行动模型。
我们将推理模块分为两类：直接推理和带反馈的推理，这取决于代理是否根据实验或人类反馈调整其计划。

Direct reasoning modules

直接推理模块

Para_03

在直接推理中，代理根据环境的当前状态进行规划和推理，可以遵循不同的推理模式，如单路径推理和多路径推理。
单路径推理涉及代理将任务分解为多个递归步骤。
例如，链式思维推理允许代理通过使用上下文中的示例或应用零样本提示（如"让我们逐步思考"）来进行逐步推理。
跳跃思维鼓励模型使用创造性的而非逻辑性的推理。
尽管单路径推理在某些情况下非常适用，但其适应不同条件的能力有限。

Para_04

相反，多路径推理在将多个路径整合为最终计划之前，会检查多个路径，从而允许更彻底的规划过程，考虑不同的场景。
例如，从少到多的提示方法将任务分解为依次解决的子问题。
自洽的链式思维从一组链式思维答案中选择最一致的答案。
思维树将推理路径扩展为树状结构，从每个思维节点生成多条路径，并使用搜索算法选择最终路径。
思维图进一步将推理路径发展为图结构，用于复杂的推理。
为了识别最优路径，使用了诸如投票策略、蒙特卡洛树搜索和广度/深度优先搜索算法等方法。
通过直接推理，代理可以生成考虑路径中的蛋白质靶点和测试候选蛋白质靶点作用的实验（图 5C）。

Reasoning with feedback

基于反馈进行推理

Para_03

实验和人类反馈可以帮助 AI 代理改进推理和规划过程。
这种反馈可能包括人机交互和代理的响应，这些可以是补充生物测定，用于量化目标分子的下游效应。
在每个推理周期中，React 结合以前行动的见解来优化其思维过程并指导未来的行动。
LLM-Planner 根据在具身环境中观察到的新情况动态调整计划。
Inner Monologue 使用被动和主动场景描述以及最近行动的反馈来指导未来的行动。
Voyager 通过考虑环境反馈、执行错误和自我验证来改进后续步骤的规划。

Para_04

除了外部反馈之外，代理的反馈机制能够自我评估初始计划。
诸如自我优化的技术根据LLM评估修订行动输出，自我检查机制允许代理审查和调整其推理，而反思机制则通过提示代理来更新其决策。
这些技术结合了生物学家的反馈，例如探索实验方法和环境限制，如实验室库存（图5D）。
推理能力对于生成假设和进行实验是必要的。
生成新的假设需要建模通用的生物医学知识、当前生物系统状态的具体信息以及考虑潜在的下一步行动。
基于LLM的代理可以通过情境推理生成假设，但需要谨慎选择以确保高质量的假设。

Challenges

Para_01

这一观点概述了在生物医学研究中实施人工智能代理的关键步骤，并确定了可以从代理型人工智能中受益的领域。
然而，仍然存在挑战，并且随着多代理系统的引入，这些挑战可能会加剧。

图6. 生物医学发现中的人工智能代理面临的挑战。展示的关键挑战包括稳健性和可靠性、评估协议、数据集生成、治理和风险，以及解决这些问题的战略方法。

Robustness and reliability

鲁棒性和可靠性

Para_01

部署代理系统面临的一个障碍——特别是那些被归类为表1中2级和3级的系统——是它们倾向于生成不可靠的预测，包括虚构非事实信息、推理错误、系统性偏差以及与工具和实验平台连接时的规划失败。
这些问题可能因对这些有缺陷的预测过于自信（代理缺乏对其知识空白的意识）以及对查询的精确表述的高度敏感性而加剧，尤其是在基于LLM的代理中。
这种行为可以追溯到这些模型的训练方式。
具体来说，自回归损失将预测的词序列与训练数据中的实际序列进行比较。
使用这种损失训练的模型的性能由三个因素决定：输入的概率分布、生成的输出序列以及训练过程中遇到的不同任务的频率。
因此，当任务变体偏离训练时所做的假设时，模型性能会下降。

Para_02

对输入和任务概率的敏感性也为各种提示技术的成功提供了潜在解释（用于同义改写同一查询的方法）。
通过提供信息丰富的上下文、指导性的推理步骤或代表性示例，这些技术可以作为一种实证手段，提高任务和输入的概率（从而提高模型性能）。
然而，创建高质量的提示通常高度依赖于实证方法，并且需要大量的努力和领域知识。

Para_03

超越语言领域，即使是最先进的模型在涉及现实世界实体的任务中也失败了，这些任务需要物理上有意义的行为，这对具身代理构成了障碍。
虽然将连续传感器数据嵌入语言模型可以带来改进，但理解物理交互和长期规划的局限性仍然存在。
训练这种多模态系统的复杂性、需要大量数据集来覆盖具身任务和环境的范围，以及处理多模态输入的计算需求都是悬而未决的问题。
部署面临来自假阴性导致的重复尝试和最终具身代理停滞的挑战。
因此，在执行之前验证代理的动作计划是必要的。

Para_04

不确定性量化可以触发诸如早期终止、预定义的安全操作或人工干预等安全措施。
然而，基础模型无法对其输出相关的不确定性进行推理，而且对于日益普遍的架构，还没有建立完善的统计协议。
例如，王等人、田等人和库恩等人使用各种形式的提示来估计基于模型预测分布 p(输出|输入) 的不确定性，该分布本身可能受到偏差的影响；此外，它没有考虑与观察到的训练数据一致的模型参数分布，并对其预测进行边缘化。
尽管符合性预测已作为模型预测不确定性估计的框架出现，但其对基本统计假设选择和置信水平校准的敏感性受到了批评。
缺乏默认技术部分是由于难以建立对不确定性估计的全面质量评估。
这使得在代理设计中做出选择以及向用户保证其校准变得困难。

Para_05

一个担忧是，高级功能的实现是以牺牲透明度和增加错位风险为代价的。
例如，整合人类反馈可以促进代理行为的改善，但也会加剧说服能力，从而强化错误的信念。
使用新数据微调现有模型可能会破坏其原始对齐，挑战人工智能代理预期目的的完整性。
越狱攻击同样可能影响部署后的表现，突显了严格评估的必要性。

Para_06

在复杂的多代理系统中，错误是不可避免的，因此管理这些错误对于保持系统的健壮性和可靠性至关重要。
由于这些系统的交互性质，它们对累积错误非常敏感，小问题如果不及时处理可能会演变成大问题。
有效的错误管理策略对于诊断、定位和减轻此类错误至关重要。

Evaluation protocols

评估协议

Para_01

随着越来越多的人工智能代理被开发，生物学家和普通用户的评估框架需要超越准确性来评估代理性能的多个方面。
评估人工智能代理需要分析其理论能力，并评估其实用影响，包括伦理考虑、法规遵从性和集成到发现工作流程中的能力。
挑战在于开发能够考虑这些多样化因素的评估方法。
集成了机器学习工具的代理，特别是由公司开发的代理，可能在未通知用户的情况下进行更新。
这给可重复性带来了挑战，因为更新可能会在研究人员不知情的情况下改变模型的行为或性能。
科学界需要透明的变更日志和版本控制，类似于软件开发中的做法。

Para_02

现有的评估框架要么进行整体评估，要么对模型的弱点进行基准测试，例如任务框架、长时间依赖性、无效格式或拒绝遵循指令。
这种框架的一个问题是，评估的重点可能在于代理如何使用特定的API，而不是基于真实世界互动的一般结果。
评估代理的另一个挑战是生物系统本质上是动态的，其分布特征因基因突变、环境变化和进化压力而不断演变。
在静态数据集上训练的代理可能难以准确建模或预测这些变化系统中的结果。
挑战在于开发能够适应或从新数据中持续学习的代理，确保其预测在基础生物系统变化时仍然准确。
在线学习、迁移学习和强化学习等技术可以用于解决这一问题，但它们也带来了与数据可用性和模型复杂性相关的一系列挑战。
另一个挑战是生物医学发现工作流程缺乏标准化，包括因疾病细胞系、剂量水平和时间点等因素而异的数据生成协议。
这种变异性使评估代理在实验计划中的表现变得复杂。
使用计算工具和数据库的代理评估将受益于标准化API的日益可用。

Dataset generation

数据集生成

Para_01

正如所述，生物医学人工智能代理的愿景要求具备从不同模态、使用不同规范创建且质量与数量存在固有差异的数据中寻求、聚合、感知和推理的能力。
为了支持这一愿景，迫切需要大型、开放的数据集，这些数据集既要全面又要易于访问，从而支持跨生物应用的模型开发。
在构建生物医学研究系统的人类努力中，有很大一部分致力于收集和准备此类数据以供机器学习模型使用（例如，特定于某种模态，如图、时间序列或离散序列）。
这需要审查流程和明确的标准来评估数据集的可靠性和适用性。

Para_02

噪声数据，以其错误、不一致和异常值为特征，对试图在最少人工监督或数据准备努力下提取有意义模式和见解的模型构成了重大挑战。
此外，多模态数据要求模型处理不同的数据表示和格式，并弥合它们之间的语义差距。
应对这些挑战需要先进的特征提取、融合和降噪技术，同时保持鲁棒性。
由于没有任何预训练阶段（无论多么广泛）能够提供来自所有数据源的充分示例，模型还必须泛化到以前未见过的感官输入。

Governance of AI agents

人工智能代理的治理

Para_01

AI代理的治理带来了技术、科学、伦理和监管领域的交叉挑战。
其中一个挑战是建立全面的治理框架，平衡创新与问责制。
随着AI代理获得自主性，确保负责任地开发、部署和商业化的稳健指南变得越来越必要。
讨论越来越多地倡导将代理保护置于进一步自主性发展的优先位置。
然而，在导航监管环境并就AI治理达成国际共识的同时，代理能力的提升仍在继续，这使得这一过程变得更加复杂。
在创新和防范潜在风险之间找到平衡，需要行业领导者、科学家和政策制定者之间的合作。

Para_02

安全采用人工智能代理需要解决安全部署的问题。
将机器学习工具（如大语言模型）与伦理标准对齐仍然是一个开放性的挑战，确保作为数字实体的代理与这些标准对齐增加了复杂性。
尽管存在潜在的意外有害后果和恶意意图，关于人机交互的指南仍不完善。
已开发出包括培训、许可和强制性安全及伦理合规检查在内的保护框架。

Para_03

随着人工智能代理在生物领域的工作流程中变得越来越重要，监控它们的行为变得日益复杂。
目前，验证代理输出的准确性和可信度并不简单，只有少数系统能够将生成的内容与相关参考链接起来。
有必要开发强大的验证系统，能够为生成的内容提供可追溯的参考。
随着代理的进一步发展，评估合成知识可能变得不切实际且无法实现。
当代理的能力与人类专家相当时，过度依赖人工智能的风险增加，这可能导致人类专业知识的下降。
在最坏的情况下，这种依赖可能会由于监管不足而引入广泛的安全隐患。
为了解决这些挑战，人机协作方法可以帮助保持责任。
与人工智能一起进行持续的人类培训和专业发展可以减轻过度依赖人工智能的风险。

Risks and safeguards

风险与防范措施

Para_01

没有包括周密计划、广泛咨询、能力执行和持续适应的自主实验可能会产生长期危害，超过其带来的好处。
虽然不可能预见所有潜在的复杂情况，但早期和频繁地探索可能的问题可以减少这些问题的预期成本。
与人工智能代理相关的伦理和技术考虑是广泛且深刻互连的，特别是在生物医学领域。
本节将突出一些关键类别。

Para_02

忽视可能导致与恶意意图相似的风险。
在多智能体系统中，某些智能体代表大语言模型，可能由于设备故障和维护不足，无意中产生有害物质，例如通过污染本来安全的程序。
这个问题不仅限于多智能体系统；它是一个普遍的实验室安全问题。
然而，缺乏密切的人类监督移除了一个关键的审计层。
代理系统中自动化角色的增加引发了安全问题：一个强大的、不一致的系统容易误解用户请求或不熟悉实验室安全实践，如果获得一个设备齐全的科学设施的访问权限，可能会通过混合易燃物质或开发和传播毒素或病原体造成损害。
这些是人工智能安全研究人员最关心的情景之一。

Para_03

代理利用大型语言模型在预训练期间获得的世界知识和通用推理能力进行机器人技术和规划。
然而，尽管已经努力教会机器人‘应该做什么’，但‘不应该做什么’却受到了较少的关注。
教授机器人代理‘不应该做什么’对于传达禁止行为的指令、评估代理对这些限制的理解以及确保合规至关重要。
对于大型语言模型代理，插件安全芯片包含安全约束模块，将自然语言约束转换为机器人必须遵守的形式化安全约束。
与机器人的实验突显了将形式化方法与大型语言模型结合以实现更好机器人控制的潜力。

Para_04

训练用于代码补全的大型语言模型（LLM）可以通过训练模型根据自然语言命令编写代码来从文档字符串中生成 Python 程序。
给定自然语言命令，这些代码编写 LLM 可以被重新用于编写机器人策略代码。
然而，如果翻译不准确地反映了预期的安全约束，可能会导致过于严格的行径，阻止机器人有效执行任务，或约束不够严格，导致安全违规。
然而，与满足国际标准化组织（ISO）61508 等标准的可验证安全操作相比，机器人策略代码在实施安全约束方面不太可靠。
该方法假设所有给定的指令都是可行的，并且缺乏在执行前预测响应正确性的机制。
然而，由于依赖于训练数据中的模式，LLM 可能会生成语法正确但语义不当的代码。
此外，使用当前的 LLM 在不同机器人实体之间泛化计划是脆弱的。

Para_05

鉴于对人类和动物健康和生命产生的直接影响，解决人工智能代理的伦理影响至关重要。
处理敏感的生物和医疗数据需要强大的技术和监管措施，以确保安全性和保密性。
一种有前景的方法是使用隐私保护计算来训练代理，以保护高度敏感的医疗数据的隐私。
同态加密可以通过允许在加密数据上进行计算来保护敏感数据，而联邦学习技术则允许以分布式方式训练代理，而无需将来自各个站点的数据集中到单个数据存储库中。

Para_06

算法公平性同样至关重要，因为带有偏见的人工智能代理可能会加剧患者之间的健康差异，并增加生成的数据集数量和生物医学知识质量的不平等，特别是对于生物系统中长尾分布的疾病。
诸如对抗去偏和公平表示学习等技术的发展为缓解这些风险提供了有希望的途径。
此外，这些复合人工智能系统的黑箱性质构成了另一个挑战，特别是在医疗保健领域，可解释性对于临床采用和患者信任至关重要。
为了更清晰地解释代理的决策并使其更受用户欢迎，将变得至关重要的是纳入交互对话系统，通过自然语言对话来解释代理的输出。
随着人工智能代理向三级代理发展，生物安全相关的伦理问题也随之浮现。
这些问题与合成生物学和人工生物体方面的生物伦理学持续辩论相交，需要生物伦理学家和安全专家的监管指导和参与，以确保与社会价值观和安全标准的一致性。

Challenges uniquely relevant for biomedical AI agents

生物医学人工智能代理面临的独特挑战

Para_01

生物医学人工智能代理面临几个独特的挑战，使它们与其他人工智能应用区分开来。
虽然强大的人工智能代理有可能缓解其中一些挑战，但它们在生物医学研究中的实施需要仔细考虑。
其中一个主要挑战是需要强大的、可靠的系统，能够在虚拟和混合虚拟-物理环境中进行推理、规划和执行操作。
例如，自然语言推理链可以增强代理行为和情境结果的可解释性，帮助研究人员理解人工智能生成的见解。
然而，某些挑战仍然存在，可能会延迟人工智能代理的可靠实施，甚至如果这些系统过早部署，可能会造成伤害。
一个关键问题是区分相关性和因果关系的困难。
当前的人工智能代理在生成强假设、推理和进行实验验证方面存在困难，这些任务通常需要高级人工智能系统（第3级代理）或人类干预。
此外，人工智能代理需要改进接口，以便与实验平台安全有效地互动。
这些平台本身在生成无偏见、适合人工智能的数据集方面也存在限制，这些数据集需要准确捕捉生物系统的内部和外部变异。
这些限制阻碍了人工智能代理的泛化能力，这些代理依赖于全面和高质量的数据才能最佳运行。
缺乏高通量技术的数据可能导致人工智能代理形成错误的假设或造成伤害。
当人工智能代理处理小的、有偏见的生物数据集时，这种风险会加剧，这些数据集可能受到批次效应等问题的影响。

Outlook

Para_01

生物医学研究正在经历一个变革时代，计算智能取得了进展。
目前，人工智能的作用仅限于在低风险和狭窄任务中的辅助工具，科学家可以审查结果。
我们概述了基于代理的人工智能，以铺平道路，实现能够进行反思学习和推理的系统，这些系统包括基于大语言模型的系统和其他机器学习工具、实验平台、人类，甚至是它们的组合。
人机交互的持续性和建立可信赖的沙箱，是实现这一目标的一种方式，其中人工智能代理可以在失败中学习。
这涉及开发擅长各种任务的人工智能代理，例如使用机器学习反馈循环规划发现工作流程，以及进行自我评估以识别和寻求知识中的空白。

Ensuring context-appropriate and user-specific agent behavior

确保上下文合适且用户特定的代理行为

Para_02

为了确保代理按预期行事，必须通过实施评估协议来关注它们的稳健性和可靠性，这些协议在各种场景中测试代理以识别潜在的漏洞。
此外，将代理基于伦理准则和文档（如实验室协议和安全指南）进行接地，对于使代理的行为与人类价值观和安全标准保持一致至关重要。
通过解决这些问题，我们可以确保生物医学代理的行为既可靠又符合伦理。

Para_03

具体来说，我们认为在技术适应的早期阶段，通过限制行动空间来限制代理的能力，使其只能发挥其全部潜力的一小部分是有利的，从而消除灾难性风险（例如，导致生命损失的决策）的可能性。
类似的先例已经存在于其他具有类似风险特征的自主系统中，例如自动驾驶，其中分阶段的技术适应是由伦理考虑所推动的。

Governance and responsible human-AI partnership

治理与负责任的人工智能伙伴关系

Para_02

管理错误需要设计策略来诊断、定位和缓解这些错误。
为了内部诊断错误，代理应使用其推理能力构建自我评估方案，使其能够评估当前状态和行动。
外部而言，使用特定生物医学用例的领域知识训练独立的异常检测和分布偏移模型可以提供额外的监督来诊断错误。
迭代代理交互可能导致级联错误。
为了缓解这种情况，评估代理可以应用逆向推理链追溯到初始错误。
增强代理的自适应推理能力对于动态调整以应对变化条件并在错误发生时进行纠正至关重要。

Para_03

为了应对治理的挑战，我们认为通过多学科、跨党派、非营利和致力于公共利益的公共机构最能达成广泛的共识。
我们欢迎最近成立的几个公共人工智能安全机构，以促进这些讨论。
具有人工智能代理专业知识的焦点小组可以制定伦理和技术评估标准，这些标准可以成为监管的基础，包括所需的人类监督程度和问责框架。
此外，我们倡导通过国际倡议制定政策，以最小化监管空白的风险，否则这些风险可能会被外包给缺乏可执行法规的司法管辖区。

Para_04

通过促进负责任的人工智能伙伴关系和建立强大的治理框架，我们可以释放人工智能代理在生物医学研究中的变革潜力。
协作性的代理方法可以带来突破性的进展，最终改善人类健康和福祉。

Acknowledgments

Para_01

我们衷心感谢 NIH R01-HD108794、NSF CAREER 2339524、美国国防部 FA8702-15-D-0001 和 ARPA-H BDF 工具箱计划，以及哈佛数据科学倡议、亚马逊教员研究奖、谷歌研究学者计划、阿斯利康研究奖、罗氏与杰出科学家联盟、赛诺菲 iDEA-iTECH 奖、辉瑞研究奖、陈扎克伯格倡议、哈佛医学院约翰和弗吉尼亚·凯恩布奖学金、与米尔肯研究所合作的比斯瓦斯计算生物学倡议、哈佛医学院院长创新奖用于研究中的 AI 应用，以及哈佛大学自然和人工智能研究所的支持。
A.F. 获得了哈佛大学自然和人工智能研究所研究生奖学金的支持。
A.N. 获得了赫切尔·史密斯-哈佛本科生科学奖学金、云家族革命性思维研究学者基金以及哈佛医学院生物医学信息学暑期研究所的支持。
V.G. 获得了医学研究委员会（MR/W00710X/1）的支持。
Y.E. 获得了国家人类基因组研究所资助 T32 HG002295 和 NSDEG 奖学金的支持。
作者们感谢 Owen Queen、Alejandro Velez-Arce 和 Ruth Johnson 对草稿手稿提出的建设性意见。
本文材料中表达的任何观点、发现、结论或建议均属于作者，并不一定反映资助者的意见。

Author contributions

Para_01

所有作者都参与了手稿的设计和撰写，帮助塑造研究，提供了关键反馈，并对论文及其修订提出了评论。
M.Z. 构思了这项研究，并负责总体方向和规划。

Declaration of interests

Para_01

作者声明没有竞争利益。

http://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247528721&idx=4&sn=ede4b35d415b55b740d2a2ae9d1f1a68

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！