综述：大语言模型与自主智能体在化学中的应用

学术 2024-08-19 00:01 韩国

DRUGAI

今天为大家介绍的是来自Andrew D.White团队的一篇论文。大语言模型（LLMs）正在化学多个领域中崭露头角，成为强大的工具。在化学中，LLMs能够准确预测性质、设计新分子、优化合成路径，并加速药物和材料的发现。一个核心的新兴理念是将LLMs与化学专用工具（如合成规划器和数据库）结合，形成所谓的“智能体”。这篇综述涵盖了LLMs的近期历史、当前能力、设计、化学领域特有的挑战和未来方向。特别关注智能体及其作为跨化学范式的出现。智能体在化学的各个领域中都证明了其有效性，但仍存在挑战。目前尚不清楚是创建领域特定的智能体还是通用智能体，以及开发自主管道（autonomous pipelines）还是“副驾驶”（co-pilot）系统将更能加速化学研究。一种新兴方向是使用人类在环（human-in-the-loop）的方法开发多智能体系统。由于该领域发展极其迅速，已经建立了一个库来跟踪最新研究：https://github.com/ur-whitelab/LLMs-in-science。

深度学习在2010年代彻底改变了机器学习在化学和材料科学中的应用。循环神经网络（RNNs）、卷积神经网络（CNNs）以及后来出现的图神经网络（GNNs）在分子性质预测、药物发现和合成预测中取得了巨大进展。这些方法能够捕捉数据中的复杂模式，从而识别出满足高影响需求（如能源存储和转换）的新材料。

图 1

在这篇综述中，作者探讨了化学中AI的下一个阶段，即大语言模型（LLMs）和自主智能体的使用。综述的结构如下：第1.1节讨论了需要解决的当前挑战，以增加AI在化学中的影响。第2节介绍了transformer，涵盖了仅编码器、仅解码器和编码器-解码器架构。第3节回顾了LLMs的工作，将每种transformer架构与适合的化学领域联系起来。第4节描述了自主智能体及其在化学研究中的应用。第5节回顾了基于LLM的智能体在化学中的应用。第6节讨论了未来的挑战和机遇，第7节是结论。作者区分了“基于文本”和“基于分子”的输入和输出，“文本”指自然语言，“分子”指材料结构的化学语法。受篇幅限制，此处仅节选前4节的内容。

当前需要解决的挑战

第一个挑战是预测给定化合物的性质，以决定是否应为特定应用（如指示剂、光捕集器或催化剂）合成该化合物。为了获得更好的性质预测模型，高质量的数据至关重要。

第二个挑战是生成符合所需化学特征或特定性质的新化学结构。如果成功，将加速各种化学应用的进展，但在广阔的化学空间中实现可靠的逆向设计（逆向工程）尚不可行。例如，逆向设计结合新结构的自动选择（从头分子设计）可以开发针对特定蛋白质的药物，同时保持溶解性、毒性和血脑屏障渗透性等特性。将从头设计与性质预测结合起来的复杂性很高，并提出了需要解决的伦理问题，以指导此类模型的发展。

第三个主要挑战是使用廉价、易得且无毒的起始材料预测其最佳合成路径。在庞大的化学空间中，可能总会有一种替代分子具有类似的性质且更易于合成。探索这个空间以找到具有正确性质且具有高产率合成路线的新分子，将这些挑战统一起来。估计可能的稳定化学物质数量高达。探索这个广阔空间需要比当前方法更显著的加速。Restrepo强调需要记录失败的合成数据，以建立全面的化学特征数据集。自主化学资源可以加速数据库的增长并解决这一挑战。因此，自动化被认为是化学中的第四个主要挑战。以下讨论探讨了LLMs和自主智能体如何提供最大的价值。

分子表征，数据集，测试基准

图 2

关于数据集，用于训练大语言模型（LLMs）的数据有两种：训练数据和评估数据。训练数据应该基于真实分子，以便在LLM训练过程中建立正确的分子定义“先验信念”。类似的注意事项也适用于自然语言训练数据，比如GPT-4，其训练数据来自真实的句子或代码，而不是语法正确但随机组合的词语。图2显示了常见化学数据集与LLaMA2训练数据相比的词元数量。根据这些数据，最大的化学训练语料库由假设的化学结构组成，包含数十亿个词元（token），而LLaMA2训练数据则有几万亿个词元。有趣的是，Segler等人证明，即使用Reaxys数据集——一个非常小的人为整理的化学反应集——也足以实现最先进的逆向合成结果。因此，数据不足并不是唯一的问题，缺乏高质量数据才是阻碍更好科学LLM发展的关键因素。图2展示了ZINC数据集中假设化学结构的词元数量。

另一方面，基准数据用于评估这些模型的成功。科学界整理了许多数据集供此用途。其中，2017年首次发布的MoleculeNet是化学中最常用的标注数据集。然而，MoleculeNet存在几个问题：数据量小，包含错误和不一致，且与现实化学问题缺乏相关性。药物发现领域的机器学习专家Pat Walters表示：“我认为推进机器学习在药物发现中的应用的最佳方式是资助一个大型公共项目，生成高质量数据并将其提供给社区。”

Walters提出了几项建设性批评，例如，QM7、QM8和QM9数据集旨在从3D结构预测量子性质，但经常被错误地用于基于1D SMILES字符串的预测，这不足以代表3D分子构象。Walters还建议了更相关的基准数据集和更有效的数据集条目。他推荐了由Fang等人整理的吸收、分布、代谢和排泄（ADME）数据，以及Therapeutic Data Commons（TDC）和TDC-2。这些数据集包含真实化合物的测量值，基于现实。此外，ADME对确定药物候选人的成功至关重要，而不同模式下的治疗结果则与药物开发中使用的指标一致。

作者认为，缺乏易于获取的高质量、适合训练基础化学语言模型的数据是开发高度理想的“超人”AI驱动数字化学家的主要瓶颈。此外，作者认为，从科学化学论文中提取数据可能是生成高质量、真实且大规模数据的有趣途径。

图3描述了当前所能接触到的不同LLM的应用场景与能力。图4则对应用于化学、生物中的LLM进行了系统的分类。

图 3

图 4

属性预测和Encoder-only的分子LLM

Encoder-only模型的典型例子是BERT架构，通常用于自然语言情感分析，以从文本中提取更深层次的模式。化学家学会了观察分子结构的二维图像，并识别其化学性质或对化合物进行分类。因此，encoder-only模型理想情况下将SMILES字符串转换为反映这些化学性质的向量表示或潜在空间。这种向量表示可以直接用于各种下游任务。

Schwaller等人使用BERT模型通过从原始SMILES字符串生成反应指纹，更准确地分类复杂的合成反应，而无需在输入数据中区分反应物和试剂，从而简化了数据准备。BERT模型在反应分类中的准确率达到98.2%，相比之下，encoder-decoder模型的准确率为95.2%。准确的分类有助于理解反应机制，这对于反应设计、优化和逆向合成至关重要。Toniato等人也使用BERT架构来分类反应类型，用于下游逆向合成任务，从而实现任何分子目标的制造。BERT的其他应用实例包括无监督反应的原子对原子映射。这些化学分类将加速有机合成的研究和开发。

由于分子性质预测的标注数据有限，Wang等人提出了一种半监督的SMILES-BERT模型，通过掩码SMILES恢复任务在大型未标注数据集上进行预训练。然后，该模型针对各种分子性质预测任务进行了微调，在2019年在三个不同大小和性质的数据集上表现优于最先进的方法。这标志着从使用BERT进行反应分类向性质预测和药物发现的转变。

2021年，Li和Jiang引入了Mol-BERT，该模型在ZINC15和ChEMBL27数据库中四百万个未标注药物SMILES上进行预训练，以捕捉分子子结构信息用于性质预测。他们的工作利用了像ZINC这样的未标注大数据集的潜力。Mol-BERT由三个组件组成：预训练提取器、预训练Mol-BERT和微调Mol-BERT。它将Morgan指纹片段视为“词语”，将化合物视为“句子”，使用RDKit和Morgan算法进行标准化和子结构识别。这种方法从SMILES字符串生成综合的分子指纹，并在掩码语言模型（MLM）任务中进行预训练。Mol-BERT在标注样本上进行微调，为分类或回归任务提供二进制值或连续分数的输出，在Tox21、SIDER和ClinTox数据集上的ROC-AUC得分至少比现有的序列和图形方法高出2%。

Chithrananda等人在ChemBERTa中研究了预训练数据集大小、分词策略以及使用SMILES或SELFIES对模型性能的影响，使他们的工作区别于其他BERT研究。他们使用了HuggingFace的RoBERTa transformer，并参考了一个DeepChem教程以提高可访问性。结果显示，随着预训练数据集从10万增至1000万，在下游任务（如MoleculeNet的BBBP、ClinTox、HIV、Tox21）上的表现有所提升。虽然ChemBERTa没有超过基于GNN的最先进基准如Chemprop（使用2048位的Morgan指纹），但作者建议，随着数据集的扩展，他们最终会超越这些基准。在探索分词策略时，作者比较了字节对编码（BPE）和Schwaller等人开发的自定义SmilesTokenizer及其正则表达式，发现SmilesTokenizer略优于BPE，这表明更相关的子词分词有益。尽管SMILES和SELFIES之间没有区别，但论文强调了如何使用BertViz可视化transformer中的注意力头，显示某些神经元对官能团有选择性。这项研究强调了适当基准测试的重要性，并解决了AI在分子性质预测中的碳足迹问题。

2023年6月，Yuksel等人推出了SELFormer，基于ChemBERTa2的理念，并使用SELFIES进行大数据输入。Yuksel等人认为，SMILES字符串在有效化学解释数据方面存在有效性和鲁棒性问题。SELFormer使用SELFIES，预训练于两百万个类药化合物，并针对各种分子性质预测任务（MoleculeNet的BBBP、SIDER、Tox21、HIV、BACE、FreeSolv、ESOL、PDBbind）进行了微调。SELFormer在某些任务上表现优于所有竞争方法，且在其余任务上表现相当。它还能够区分具有不同结构性质的分子。该论文建议未来方向包括结合结构数据与其他类型分子信息（包括基于文本的注释）的多模态模型。作者将在下文讨论这些多模态模型。

同样在2023年，Yu等人发布了SolvBERT，这是一种基于多任务BERT的回归模型，可以从溶质-溶剂复合物的SMILES符号预测溶解自由能和溶解度。它在CombiSolv-QM数据集上训练，该数据集包含实验溶剂自由能数据（称为CombiSolv-Exp-8780）和Boobier等人的溶解度数据集。SolvBERT的表现与先进的基于图形的模型进行了基准测试。这项工作很有意义，因为溶解自由能预期依赖于分子的三维构象性质，或至少是图形表示的分子可以很好表征的二维性质。SolvBERT在预测溶解自由能方面表现与DMPNN相当，这主要归功于其预训练阶段的有效聚类特性，如TMAP可视化所示。此外，SolvBERT在预测新溶质-溶剂组合的实验评估溶解度数据方面优于GROVER。这突显了SolvBERT在文本模型中捕捉溶解相互作用动态和空间复杂性的能力的重要性。

性质导向的逆向设计与Decoder-only的分子LLM

2021年，Adilov提出了“从分子生成预训练”，这是将decoder-only模型应用于SMILES字符串的早期尝试之一。它预训练了一个类似GPT-2的因果transformer进行自监督学习，并在注意力块之间引入了adapter进行任务特定的微调。这种方法只需要最少的结构变化，提供了在分子生成和性质预测方面的多功能性，旨在通过一种更具扩展性和资源效率的方法超越ChemBERTa的encoder-only性能。另一个早期的基于SMILES的decoder-only模型是Bagal等人的MolGPT模型。MolGPT仅有600万参数，推进了GPT类型的LLM在分子生成中的应用。其decoder-only结构通过掩蔽自注意力机制促进了长程依赖的学习，使其能够生成符合复杂结构规则（如价键和环闭合）的化学有效SMILES表示。该论文还使用显著性度量来解释预测SMILES标记。MolGPT在预测具有特定性质的新分子方面，超越了许多现有的基于变分自编码器（VAE）的方法。它在MOSES和GuacaMol等数据集上训练，显示出在有效性、唯一性、Frechet ChemNet距离（FCD）和KL散度等指标上的良好表现。尽管MolGPT的计算需求可能高于传统的VAE，但其生成高质量新分子的能力证明了这种权衡是合理的，但未来的研究可能会优化模型效率或探索更轻量的版本。以下是2023年和2024年基于transformer的去新分子生成模型的进展简要总结。

Haroon等人进一步开发了一个基于GPT的模型，利用相对注意力机制进行新药设计，显示出在有效性、唯一性和新颖性方面的提升。Wang等人和Mao等人都提出了超越MolGPT的研究，其中Mao等人的T5类型模型直接使用IUPAC名称生成新化合物。尽管基于T5模型，但由于其与新药设计的相关性，作者将其纳入讨论。类似地，Zhang等人提出在分子生成模型中包含目标的3D结构信息，尽管他们的方法不是基于LLM。然而，作者仍然指出这种方法在未来基于结构的LLM药物设计中的价值。他们展示了整合额外的生物数据显著提高了生成分子在目标药物发现中的相关性和特异性。Wang等人讨论了PETrans，这是一种使用蛋白质特定编码和迁移学习生成目标特异性配体的深度学习方法。这项研究强调了transformer模型在生成具有高特异蛋白结合亲和力的分子中的应用。

2024年，Yoshikai等人讨论了transformer架构在识别SMILES表示中的手性局限性，强调了手性对分子性质预测准确性的影响。他们将transformer与VAE结合以解决这一问题。Qian等人受NLP中对比学习的启发，介绍了CONSMI，通过使用多种SMILES表示生成新分子，提高了分子的创新性和有效性。Kyro等人提出了ChemSpaceAL，一种用于蛋白质特异性分子生成的主动学习方法，在没有现有抑制剂知识的情况下有效发现具有所需特征的分子。Yan等人提出了GMIA框架，采用图互作用注意力decoder进行药物相互作用预测，提升了预测准确性和可解释性。最后，Shen等人报告了AutoMolDesigner，一种用于小分子抗生素自动设计的基于AI的开源软件。

为了更深入地了解化学领域中的decoder-only transformer架构，作者特别介绍了Mazuz等人在2023年5月推出的“Taiga”模型和Wang等人的cMolGPT。Taiga首先学习将SMILES字符串映射到向量空间，然后使用一小部分标记分子数据集来优化该空间，以生成具有目标属性的分子。它采用自回归机制，逐步预测每个SMILES字符，基于前一个字符进行预测。为了优化分子属性，Taiga使用了REINFORCE算法，通过制定策略来增强所需的分子特征。尽管这种强化学习微调略微降低了分子有效性，但显著提高了其实际应用性。Taiga最初使用药物相似性的定量估计（QED）指标进行评估，并在靶向IC50值、BACE蛋白和从各种来源收集的抗癌活性方面展示了良好结果。这项工作强调了使用新模型解决需要更高化学复杂度的应用的重要性，展示了这些模型最终如何应用于现有基准数据集之外的场景。

在使用SMILES字符串进行训练之外，Mao等人还介绍了iupacGPT，这也是一个基于GPT-2的decoder-only架构。它通过使用IUPAC名称来克服SMILES字符串的局限性，整合了人类可读的化学语义。该模型专注于使用庞大的IUPAC数据集进行预训练，并通过轻量级网络进行微调，在分子生成、分类和回归任务中表现出色。

合成预测与Encoder-decoder分子LLM

Encoder-decoder架构适用于将一个序列翻译成另一个序列的任务，因此非常适合预测化学反应的结果或从给定反应物生成合成路径。一旦通过性质导向的逆向设计识别出一个分子，接下来的挑战是预测其最佳合成路径，包括产量。Shenvi描述了天然产物的复杂且优雅的合成对有机化学的重大贡献。然而，在过去20年中，焦点从复杂的天然产物合成转向了更广泛适用的反应开发，尤其是反应催化。然而，复杂合成再次变得相关，因为它可以被数字编码，被LLMs挖掘，并应用于新挑战。

从RNN和GRU发展而来的领域引入了基于模板的模型。然而，基于模板的模型依赖于已知反应的显式反应模板，这限制了它们预测新反应的能力，并且需要手动更新以学习新数据。半模板模型在严格的模板方法和灵活的无模板方法之间提供了一种平衡。它们在模板定义的空间内进行插值或外推，以预测更广泛的反应范围，并根据新数据进行调整。然而，无模板方法与transformer学习方法非常契合，因为它们从原始训练数据中学习逆向合成规则，这在各种化学类型中提供了显著的灵活性和普遍性。无模板模型不受模板库的限制，因此可以发现现有反应模板中未记录或不明显的新合成路径。为了铺平transformer在合成中的应用道路，Cadeddu等人将化合物中的片段与句子中的单词进行了类比，因为它们具有相似的排名分布。Schwaller等人进一步使用结合注意力机制的encoder-decoder架构增强的LSTM网络，在USPTO数据集上进行训练。他们引入了一种常用的“正则表达式”（或“regex”）来标记分子，将合成（或逆向合成）预测框架化为数据驱动的、无模板的序列到序列模型。他们追踪哪些起始材料是实际反应物，将它们与其他试剂（如溶剂或催化剂）区分开来，并使用regex唯一地标记重复出现的试剂，因为它们的原子在核心反应中没有映射到产物上。

2019年，Schwaller等人首次将transformer应用于合成预测，将任务框架化为将反应物和试剂转化为最终产物。他们的模型在数据集（USPTO-MIT、USPTO-LEF、USPTO-STEREO）中推断出反应物、试剂和产物之间的化学基序相关性，不需要手工制作的规则，准确预测了细微的化学转化，在一个常见基准数据集上表现优于所有先前的算法。该模型处理输入时不需要反应物-试剂分割，继承了他们之前的工作，并考虑了立体化学，使其在通用应用中非常有价值。然后，在2020年，Schwaller等人开发了一个具有超图探索策略的先进Molecular Transformer模型，用于自动化逆向合成。该模型在预测反应物和其他实体方面设定了标准，使用四个新指标进行评估：覆盖率、类别多样性、往返准确率和Jensen-Shannon散度。动态构建的超图允许基于类贝叶斯概率评分的高效扩展，尽管训练数据有限，仍显示出高性能。特别是，在模型中包含从新生成的分子前体重新合成目标产物后，准确性得到了提高。这种往返准确率的概念也被Chen和Jung以及Westerlund等人使用。同样在2020年，Zheng等人使用transformer网络和基于神经网络的语法校正器开发了一个“无模板自校正逆向合成预测器”（SCROP），在一个基准数据集上达到了59.0%的准确率。这种方法比其他深度学习方法高出2%以上，比基于模板的方法高出6%以上。

作者重点介绍使用BART Encoder-Decoder架构进行合成预测的进展，包括Irwin等人的Chemformer。这篇论文强调了在SMILES上训练transformer的计算开销和预训练对于效率的重要性。结果表明，仅在任务特定数据集上预训练或仅使用encoder堆栈的模型在序列到序列任务中是有限的。在迁移学习后，Chemformer在序列到序列合成任务和判别任务中均达到了当前最好的结果，例如优化特定属性的分子结构。

2023年，Toniato等人也将LLM应用于单步逆向合成，将其视为一个翻译问题，但通过在目标分子的语言表示中添加分类标记或“提示标记”来增加逆向合成预测的多样性，从而引导模型采用不同的断键策略。增加预测多样性对提供创新的合成策略有很高的价值，能补充人类化学家的工作。为了衡量逆向合成的准确性，Li等人引入了Retro-BLEU，这一指标改编自用于机器翻译的BLEU评分。尽管在计算机辅助合成规划（CASP）方面取得了进展，但由于生成产物需要保护和去保护等步骤，不是所有生成的路线在化学上都是可行的。广泛接受的NLP指标如BLEU和ROUGE通过计算生成文本与参考文本之间的n-gram重叠来关注精度和召回率。同样，在逆向合成中，可以将反应物-产物对视为重叠的双字母组。Retro-BLEU使用修改后的BLEU评分，强调精度而非召回率，因为逆向合成没有绝对最佳路线。尽管这一方法尚未应用于基于LLM的预测，但通过使用单一标准进行未来性能比较，这一方法具有价值。

通过将Encoder-decoder架构的应用从合成预测扩展到分子生成，Fang等人在2023年的预印本（2024年更新）中介绍了MOLGEN，这是一种基于BART的预训练分子语言模型。MOLGEN解决了三个关键挑战：生成有效的SMILES字符串，避免对类天然产物分子的偏见，以及防止生成不保留预期性质的分子幻觉。MOLGEN使用SELFIES和掩蔽语言模型方法在1亿个分子上进行了预训练，通过预测缺失的标记来内化化学语法。这项工作的另一个亮点是MOLGEN如何使用“领域无关的分子前缀调优”。这种技术通过在模型的注意力机制中添加分子特定的前缀，将领域知识直接整合到模型中，并在各种分子领域中与主模型同时训练。这样，模型的参数会调整得更好，以捕捉分子结构的复杂性和多样性，并无缝地整合领域特定的见解。为了防止分子幻觉，MOLGEN采用了一种化学反馈机制，自主评估生成的分子是否具有适当的性质，以指导学习和优化。这种反馈预示了智能体的核心特性，即它们具备反思的能力。

基于LLM的自主智能体

智能体（agent）一词源自哲学，指能够做出决策的实体。因此，在人工智能中，“智能体”是指能够感知环境、做出决策并对外部刺激做出反应的系统。语言使人类能够根据环境及其刺激做出决定和行动，因此LLM（大型语言模型）自然是作为自主智能体核心的理想选择。因此，与Gao等人的观点一致，作者将“语言智能体”定义为一个模型或程序（通常基于LLM），它从环境中接收观察并在该环境中执行动作。这里的环境是指一组工具和一个任务。因此，“基于LLM的自主智能体”指的是核心基于LLM模型的语言智能体。尽管文献中提供了这些智能体的全面分析，但本节突出了关键方面，为后续讨论做好准备。

图 5

在本综述中，作者将自主智能体系统定义为模型（通常是LLM），这些模型在环境中持续接收观察并执行动作。为了清晰起见，与CoALA不同，作者将“内部工具”（internal tool）重命名为“智能体模块”（agent module），将“外部工具”（external tool）简单称为“工具”（tool）。智能体由可训练的决策组件组成，如LLM本身、策略（policy）、记忆（memory）和推理（reasoning）方案。相对而言，环境包括不可训练的元素，如待完成的任务、应用程序接口（API）访问、自驾实验室接口、数据集访问和外部代码执行。将决策组件称为智能体模块，强调它们是智能体的一部分。而将不可训练的元素称为工具，则突出它们作为环境一部分的角色。作者讨论了五种主要类型的动作。如图5所示，这五种动作中的三种，记忆、计划和推理以及描述，属于智能体模块。剩下的两种动作，工具和感知，属于环境的一部分。由于感知是智能体与环境互动的方式，不是可训练的决策，因此将其包含在环境中。

智能体的记忆模块

记忆模块的作用是存储和回忆过去的互动和经验，以指导未来的决策和行动。智能体中有多种类型的记忆，即感官记忆、短期记忆和长期记忆。使用智能体的一个主要挑战是有限的上下文窗口，这限制了上下文信息的量并可能导致信息丢失，从而影响短期和长期记忆的有效性。解决方案包括总结记忆内容、将记忆压缩成向量，以及使用向量数据库或它们的组合，常用的数据库有ChromaDB、FAISS、Pinecone、Weaviate、Annoy和ScaNN。解决这些挑战以增强智能体记忆仍然是一个重要的研究领域。

感官或程序性记忆是预训练期间嵌入到模型参数中的知识，或者是实现到智能体代码中的启发式知识。短期或工作记忆包括智能体在任务期间的有限知识，结合互动历史和上下文学习技术，利用有限输入的上下文长度来保留信息。长期记忆则涉及外部存储信息，通常通过嵌入向量表示存储在外部数据库中。在原始CoALA论文中，长期记忆进一步分为两种不同类型：情景记忆，记录以前的经验；语义记忆，存储关于世界的一般信息。

智能体的规划和推理模块

规划和推理模块由两个组件组成。规划涉及确定实现特定目标所需的一系列动作。在语言智能体的上下文中，这意味着生成模型可以遵循的步骤或策略来解决问题或回答问题，可以通过从以往经验中检索信息以及执行后的反馈来增强。推理指的是基于现有信息和逻辑步骤得出结论或做出决策的过程。例如，有研究表明，LLM推理对问题回答的好处，通过逐步集成新的上下文标记来引导模型得出更准确的答案。

一种流行的推理策略是Chain-of-Thought (CoT)，这种策略通过生成中间推理步骤大幅提升了QA性能。CoT减少了幻觉并增强了解释性，在PaLM和GPT-3等模型上取得了更好的结果，使用的基准如GSM8K、SVAMP和MAWPS。

在高级推理中，通常使用级联方法将最终任务分解为中间任务，类似于Zero-shot-CoT和RePrompt。然而，虽然CoT被认为是单路径推理，但CoT的扩展如Tree-of-Thoughts、Graph-of-Thoughts、Self-consistent CoT和Algorithm-of-Thoughts提供了多路径推理。此外，其他模型通过让多个智能体相互对抗或讨论不同的推理路径，或者使用外部规划器来创建计划。计划执行中的反馈步骤是CoT理念的进一步扩展；这使智能体能够根据环境响应自适应地优化其行动，这对于复杂任务至关重要。

另一种有趣的推理方案是Chain-of-Verification (CoVe)。在生成一个答案后，另一个LLM会被提示生成一组验证问题，以检查原始答案和验证问题答案之间的一致性，从而对最终答案进行优化。ReAct（Reason+Act）模型建议在执行动作后增加一个观察步骤。这意味着LLM首先对任务进行推理，确定执行所需的步骤，然后执行动作并观察结果。根据该结果进行推理，然后执行后续步骤。同样，Reflexion也在执行动作后实现了推理步骤。然而，Reflexion引入了评估器和自反思LLM，不仅对每一步进行推理，还使用长期记忆模块评估智能体当前的轨迹。随着上下文的增加，智能体处理长提示可能会变得具有挑战性。为了解决这个问题，Chain-of-Agents (CoA)扩展了利用多智能体协作在长上下文中进行推理的方案。这个框架雇用工人智能体和管理者智能体来处理和综合信息，以生成最终的响应。与RAG基线相比，CoA展示了高达10%的改进。

ReAct和Reflexion是封闭式方法，智能体一开始就具备所有工具，并必须确定使用哪些工具。为了应对更开放的世界挑战，Wang等人引入了描述、解释、计划和选择（DEPS）方法，扩展了这种方法。最后，人类输入也可以用于向智能体提供反馈。在安全性是主要关注点的领域中，使用人类参与反馈的方法尤其有趣。

智能体的画像模块

可以通过一种称为“画像”（profiling）的过程，将LLM配置为执行特定角色，如程序员、教授、学生和领域专家。因此，语言智能体可以通过LLM或智能体代码来整合画像。画像方法涉及向智能体输入心理特征，这对其决策过程有显著影响。画像可以创建模拟社会互动的多智能体系统，每个智能体在群体中体现独特的角色。

最普遍的画像技术称为“手工制作”，需要通过提示或系统消息手动定义智能体的画像。虽然也可以用LLM自动化画像，但这种自动化方法可能只适用于生成大量智能体，因为它对智能体的整体行为控制较少。画像的一个有趣应用是开发反映人口分布的智能体集。

智能体的感知模块

感知类似于人类的感官系统，它解释多模态信息，如文本、图像或听觉数据，并将其转化为LLM可以理解的格式，正如SAM、GPT4-V、LLaVa、Fuyu8B和BuboGPT所展示的那样。在作者提出的架构中，感知负责将任务和观察转化为智能体能够理解的数据表示。此外，LLM的进步催生了更为多功能的模型，如any-to-any的Next-GPT和any-to-text的Macaw-LLM。使用上述多模态LLM进行决策，可以简化智能体的感知任务，已有多项研究探索了它们在自主系统中的应用。

智能体的工具模块

在作者提出的定义中（见图5b），工具或动作是环境的一部分。智能体通过决策过程决定执行哪些动作来与环境互动。所有可能被选择的动作集合也被称为“动作空间”。

决策过程由三个主要步骤组成：提案（proposal）、评估（evaluation）和选择（selection）。在提案阶段，使用推理、代码结构或简单地选择所有可用工具来选定一个或多个动作候选。在评估过程中，根据某些指标评估每个选定的动作，以预测哪个动作会为智能体带来更多价值。最后，选择并执行动作。

由于预训练参数（感官记忆）是有限的，模型必须使用工具来处理复杂任务，以提供可靠的答案。然而，LLM需要学习如何与动作空间互动，以及如何和何时最准确地使用这些工具。LLM可以通过使用工具的示例进行预训练或微调，使其能够在零样本生成期间操作工具并直接从感官记忆中调用工具。

随着基础AI模型变得更加先进，其能力也在扩展。研究表明，通用基础模型即使没有微调，也能进行推理和选择工具。例如，MRKL（发音为“miracle”）实现了一组可扩展的专用工具，称为神经符号模块，并通过智能“路由器”系统根据文本输入检索最佳模块。这些神经符号模块设计用于处理特定任务或信息类型，具备内置能力和任务相关知识。这种预专门化允许模型执行特定领域任务，而无需单独的领域特定数据集。这种设计解决了LLM缺乏领域特定知识的问题，消除了使用专门数据注释进行昂贵且耗时的LLM微调步骤的需求。路由器可以从推理策略中获得支持，帮助选择工具，或者遵循先前创建的计划。

最近的进展表明，LLM能够开发自己的新工具，使智能体能够在动态和不可预测的“开放世界”中处理未知问题，如Voyager所展示的那样。这种能力使智能体能够不断进化和改进。

编译|黄海涛

审稿|曾全晨

参考资料

Ramos, M. C., Collison, C. J., & White, A. D. (2024). A Review of Large Language Models and Autonomous Agents in Chemistry. arXiv preprint arXiv:2407.01603.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506351&idx=1&sn=c2dd91494f4e7ad9f33a95b8b039668e

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。