AI自动操作电脑：AutoWebGLM-大语言模型的Web导航智能体技术详细翻译解读

文摘 2024-10-26 12:27 浙江

在互联网上自动完成复杂的浏览任务一直是一个挑战，因为网页结构复杂多变，用户的操作需求也各不相同。AutoWebGLM智能体的出现，通过模仿人类的浏览习惯，能够自动执行一系列网页操作，如点击、滚动、输入等，极大地提高了在真实网络环境中完成特定任务的效率和准确性。这对于提高用户体验、自动化网络数据收集和分析等领域具有重要意义。

AutoWebGLM是一个基于大型语言模型（LLMs）的Web导航智能体，旨在解决现有Web智能体在处理复杂、多样化的网页数据和执行任务时面临的挑战。该智能体通过设计HTML简化算法、采用混合人机AI方法构建数据集，并结合课程学习、强化学习和拒绝采样微调等训练策略，显著提升了在真实Web环境中的导航性能。此外，研究者还建立了一个双语的Web浏览基准测试AutoWebBench，以评估智能体在不同语言环境下的表现。

我们翻译解读最新论文：AutoWebGLM，文末有论文链接。

作者：张长旺，图源：旺知识

大型语言模型（LLMs）为许多智能Web智能体提供了动力，但大多数现有的智能体在现实世界的Web导航任务中表现远未达到令人满意的程度，这主要是由于三个因素：（1）HTML文本数据的复杂性（2）网页上动作的多样性，以及（3）由于网络的开放领域特性而导致的任务难度。针对这些挑战，我们开发了基于ChatGLM3-6B的开放AutoWebGLM。AutoWebGLM可以作为一个强大的自动化Web导航智能体，其性能超越了GPT-4。受人类浏览模式的启发，我们首先设计了一个HTML简化算法，以简洁的方式保留关键信息来表示网页。然后，我们采用混合的人机AI方法来构建Web浏览数据，用于课程训练。最后，我们通过强化学习和拒绝采样进一步引导模型，以促进网页理解、浏览器操作和智能体自身的高效任务分解。为了全面评估，我们建立了一个双语（中英文）基准测试—AutoWebBench—用于现实世界的Web导航任务。我们在不同的Web导航基准测试中评估了AutoWebGLM，展示了它在真实环境中解决具有挑战性任务的潜力。

1 引言

自主数字智能体作为有用助手的概念是一个非常吸引人的前景。借助LLMs的强大理解能力和响应能力[1、29-31、42、43]，我们可以设想以前难以想象的场景。例如，基于LLM的智能体可以支持我们的日常例程，为我们总结来自开放网络的在线新闻。这种LLMs的集成到日常任务中预示着我们与机器互动方式的重大转变，优化了我们的效率，并重新定义了机器辅助生产力的界限[32、37]。为了构建自动化Web智能体，已经进行了大量的努力。其中一个是AutoGPT，这是一个流行的开源项目，它利用ChatGPT[23]将LLMs与预定的工具（如Web和本地文件浏览）集成。与此同时，以智能体为中心的LLMs的发展也获得了显著的势头[10、26、33、40]。然而，大多数现有的Web智能体在实际应用中受到严重限制，主要是由于以下挑战：• 缺乏一个涵盖各种网站所有必要任务执行的通用动作空间。• 网页的多样性和复杂性，以及它们的倾向性冗余，对LLMs理解内容和准确执行正确操作提出了重大挑战。• 现有智能体明显缺乏对Web任务的正确推理和自我检查能力。一旦陷入错误的循环，它们很难及时纠正问题。在这项工作中，我们介绍了AutoWebGLM，以构建网页导航智能体。它建立在开放的ChatGLM3-6B模型[42]之上。首先，我们提出了各种高效的数据策略，以支持快速构建一个庞大、可靠的训练数据集，而最先进的模型无法可靠地完成数据注释任务[45]。此外，通过利用监督[24]和强化学习方法[27]，我们在收集的Web智能体数据集上训练AutoWebGLM，以实现在一般网页浏览任务中的性能优越。更进一步，我们采用拒绝采样微调（RFT）[31]进行终身学习，以在特定Web环境中出类拔萃。我们开发并部署了一个基于AutoWebGLM的Chrome扩展（见图2中的示例）。在我们的实验中，它可以在各种网站上推理和执行操作以完成用户任务，使其适用于现实世界的服务。此外，我们构建了第一个双语（英文和中文）网页浏览评估数据集，以构建AutoWebBench，因为不同地区的网站在风格上有很大的变化。总之，我们在本文中做出了以下贡献：• 我们设计并开发了AutoWebGLM智能体，通过课程学习、自采样强化学习和网络浏览环境中的RFT，有效地完成Web浏览任务。• 我们使用模型辅助和手动方法构建了一个大约10,000个跟踪的实时网页浏览操作数据集，包括双语（英文和中文）Web浏览基准AutoWebBench。• 我们进行实验，证明具有六十亿参数的AutoWebGLM在性能上可与最先进的基于LLM的智能体相媲美，更重要的是，它达到了实际可用的水平，适用于现实世界的Web任务。

2 相关工作

构建一个全面的Web浏览智能体是一个复杂的任务，涉及多个模块，例如用于决策的语言模型和用于环境观察的HTML解析器。此外，在创建有效的Web浏览智能体时，拥有适当的Web浏览评估标准至关重要。在本节中，我们将讨论与这些方面相关的工作。

语言模型（LMs）。大型语言模型（LLMs）[44]，如GPT-4[1]、Claude-2[2]、LLaMA-2[30]、ChatGLM[8、42]、OPT[43]和BLOOM[29]，在各种自然语言处理任务中积累了广泛的知识。然而，由于部署如此大型语言模型的成本很高，因此通常更倾向于使用成本较低且能力相当的较小模型。许多开源项目，如LLaMA-2-7B[30]和ChatGLM3-6B[42]，已经在某些领域展现出与大型语言模型的强大性能。

Web导航基准测试。主要的Web浏览评估数据集提供了多种评估指标。MiniWoB++[12]提供了几个模拟的Web环境，任务主要是评估模型与网页组件交互的能力。然而，随着对复杂Web操作能力的日益需求，Mind2Web[7]和WebArena[45]已经创建。Mind2Web是一个用于复杂Web浏览的离线评估集，提供了几个指标。评估方法简单，通常用于模型评估。相比之下，基于真实网站的WebArena基准测试，创建了多个虚拟环境，并使用各种评估方法来评估任务完成率，使其更适合于现实世界任务完成评估。

Web自动化智能体。以前的工作，如WebGPT[21]和WebGLM[16]，将LLMs与Web环境结合起来。然而，它们的主要用途是问答（QA）任务[4、15、22、28]，利用互联网资源回答用户查询。最近的工作[6、10、19、39]更注重执行复杂操作或交互任务。Web浏览任务的一个基本方面涉及对HTML的全面理解。StructGPT[13]探索了提高LLMs在处理结构化数据方面的零样本推理能力的方法。具体来说，MindAct[7]通过过滤网页元素并通过多轮多项选择问题选择元素来工作。它通常需要超过十个模型调用来完成单个Web操作，这可能更有效。另一方面，WebAgent[9]使用HTML-T5处理观察空间的内容，包括HTML、先前操作和用户指令。它使用Flan-U-Plam模型生成控制网页的代码，展现出卓越的Web浏览性能。然而，由于Flan-U-Plam模型的规模为540B，因此面临部署挑战。仅基于单个ChatGLM3-6B的AutoWebGLM，具有与WebAgent相当的稳健Web浏览能力，展示了实际部署的高价值。

基于提示的数据构建方法。最近通过提示构建数据的方法[5、11、20、25、35]获得了显著的关注。这种方法利用语言模型为训练生成合成数据。一个著名的例子是Evol-Instruct[17、38]，它受到进化理论的启发，展示了使用LLMs为各种任务生成多样化和复杂指令的有效性。此外，一些研究人员探索了在零样本设置中生成数据的潜力，其中模型为其尚未明确训练的任务生成数据[18]，突出了基于提示的数据构建方法的多功能性。这些方法快速发展，为各种领域的数据生成提供了一个有希望的途径，特别是在传统数据收集方法可能更加实用和充分的情况下。

拒绝采样微调。拒绝采样微调（RFT）[41]的方法是使用监督学习模型生成和收集准确的推理路径，然后用作增强的微调数据集。使用RFT通过多样化的推理路径扩展数据集可以提高LLMs的数学性能。我们的实验表明，RFT也可以有效地应用于Web页面浏览任务，显著提高特定环境中的专业能力。

3 AutoWebGLM作为一个Web智能体

3.1 问题设置

我们将Web浏览任务视为一个顺序决策过程。状态，表示为S，包括当前页面状态，如HTML、URL和窗口位置。动作集𝐴包含所有潜在的浏览操作，包括点击、滚动、输入等（见表1中的完整操作）。

S = {HTML、URL、窗口位置}，𝐴 = {点击、滚动、输入，...}

状态的转换由网页的当前状态和智能体的输出动作决定。在决策过程中，函数𝜙根据先前的历史𝐻𝑡−1, 最近的动作𝐴𝑡−1,和当前状态𝑆𝑡，更新历史信息。

𝐻𝑡 = 𝜙 (𝐻𝑡−1, 𝐴𝑡−1, 𝑆𝑡）

策略𝜋是智能体根据当前状态和历史选择动作的过程。一个完整的决策过程从初始状态𝑆0和历史𝐻0开始，通过策略𝜋和转换函数𝑇迭代。当动作𝐴𝑡完成或达到最大长度时，这个迭代停止。

(𝑆𝑡+1, 𝐻𝑡+1) = (𝑇 (𝑆𝑡, 𝐴𝑡), 𝜙 (𝐻𝑡, 𝐴𝑡, 𝑆𝑡+1)) 𝐴𝑡 = 𝜋 (𝑆𝑡|𝐻𝑡) 𝑆𝑡+1 = 𝑇 (𝑆𝑡, 𝐴𝑡)

3.2 AutoWebGLM框架

如图3所示，我们通过HTML简化和OCR（光学字符识别）模块处理信息，获取HTML和网页截图后，得到简化的HTML表示。通过使操作性判断变得容易的属性，我们为智能体交互标记可操作元素。OCR模块用于在图像解析过程中注释文本元素。智能体通过结合这种表示和其他观察数据来启动动作预测。输出动作后，使用自动化Web程序执行动作；这个迭代循环一直持续到任务终止。AutoWebGLM通过将这些组件融合到一个单一框架中，提高了交互能力和网页导航精度。全面、精确的观察和动作空间对于构建一个健壮的Web浏览框架至关重要。这些空间标准化了将各种数据源转换为统一格式的过程。我们在以下部分讨论我们的设计方案：

3.2.1 观察空间

我们建议使用统一的观察空间来提高模型对网页的理解和操作水平。观察空间应尽可能提供与浏览器图形界面所提供的信息一样接近的信息，从而最大化智能体的能力上限。我们确定了Web浏览任务的四个关键指标：任务描述、简化的HTML、当前位置和过去的操作记录。HTML为模型提供了页面的结构和内容信息，而当前位置信息有助于模型了解其在网页中的位置。过去的操作记录为模型提供了历史背景，有助于生成更一致的后续操作。通过将这些元素纳入观察空间，我们努力构建一个更具弹性和实用性的模型，能够处理Web浏览任务固有的复杂性和变异性。以下是观察空间组成部分的详细说明。

HTML。HTML网页非常庞大且复杂，因此在输入模型之前需要简化它们。简化过程旨在提取关键信息，同时消除可能阻碍模型理解的冗余或破坏性元素。在整个过程中，必须保留HTML的基本结构和重要的内容信息，以便模型能够理解并利用这些信息进行有效的Web浏览。HTML Pruner可以高效地将元素树转换为简洁的表示。我们可以使用处理技术将原始HTML格式简化为模型解释和管理的更易于理解的结构，提高模型在Web浏览任务中的有效性。

当前位置。基于我们对模型与环境交互的观察，当提供窗口位置和页面大小时，智能体可以更好地执行操作。智能体使用页面滚动位置来理解当前可见区域的内容，页面高度信息有助于理解整个页面的规模，为模型提供空间上下文。

先前的操作。通知智能体过去操作的最佳解决方案是明确地提供它。这种方法有助于智能体理解其过去的行为。它防止智能体因操作失败而陷入重复相同操作的无效循环中，通过防止重复不成功的操作，提高了智能体适应Web浏览任务的复杂性和动态性的能力。

3.2.2 动作空间

由于这项工作的方法是构建一个基于语言模型的Web浏览智能体，我们在构建动作空间时专注于操作可能性。在对真实任务执行过程中的经验进行广泛总结后，我们为语言模型在Web浏览世界中采取行动定义了一个完整且一致的动作空间（见表1）。我们在第B部分设计了我们的提示输入。

4 构建AutoWebGLM

在本节中，我们详细说明了Web浏览智能体的构建。鉴于手动数据构建的高成本以及当前LLMs在自动数据生成方面的不足，我们采用了人机AI混合数据构建方法，以较低的成本高效地产生大量训练数据。此外，我们实施了多阶段训练方法，而不是仅依赖于模仿学习，以增强我们的模型在一般和专业Web浏览方面的能力。

4.1 数据构建

考虑到由实际用户产生的高质量、复杂的Web浏览数据的稀缺性，我们的目标是创建一个训练数据集。然而，数据集构建面临几个挑战：

• 任务收集：获取跨不同网站的多样化、真实用户任务查询是一个重大障碍。• 隐私和安全：隐私和安全限制阻碍了直接获取用户浏览器操作序列。同样具有挑战性的是排除与任务完成无关的冗余或错误操作，并确认用户任务完成。

• 目标注释：为每个操作步骤收集用户目标的劳动密集性质使其在现实世界的数据收集场景中变得不切实际。

• 模型限制：当前模型无法处理跨不同网站的复杂用户查询，因此排除了使用纯自动化方法在真实和复杂的应用环境中准确收集浏览轨迹的可能性。如图4所示，我们提出了一种人机AI混合数据构建方法来应对这些挑战。经过仔细考虑，我们将数据分为两类进行构建：

4.1.1 Web识别和简单任务操作构建

对于Web浏览任务，高效且准确地理解和操纵网页成为模型发展中的关键挑战，因为用户行为的多样性和Web内容的复杂性。本节介绍了我们用于Web识别和简单任务操作的数据构建方法，以训练模型识别网页结构并准确执行基本操作。

Web识别。Web识别的主要目标包括理解特定的HTML格式，识别不同类型的Web元素（如文本框、按钮、图像等），并理解这些元素在用户交互中的作用。我们提出了以下基于实际挑战的数据构建方法。我们首先从Similarweb1列出的中英主流网站收集URL。在数据处理阶段，我们使用我们的HTML解析器识别每个网页中的可操作组件，并记录组件的位置和大小等关键信息。然后，我们通过重新排列和简化组件树（见第3.2节详细信息）来生成简化的HTML。我们设计了网站和组件功能描述等任务，以帮助模型识别网页结构和交互组件的功能。对于每个任务，我们开发了一系列自然语言问题作为我们数据的源字段。GPT3.5-Turbo用于为每个问题生成多种表述，从而多样化问题表述。对于目标，我们利用GPT-3.5-Turbo生成响应。我们在提示中提供简化的HTML和相关的问题，并限制响应长度，从而获得我们的目标。

简单任务操作。简单任务操作数据集的主要目标是训练模型执行单步Web操作。这涉及到在网页上执行基本功能，如点击链接、填写表单或导航到特定部分。为了构建我们的数据，我们以与Web识别相同的方式收集各种网站。然后，我们为每种操作类型构建一个拆分，以确保我们的数据集涵盖了简单任务操作的所有要求。我们根据实践中每种操作的频率调整每个拆分的数据大小。我们构建数据集的关键是规则而不是模型生成。我们尝试使用GPT-3.5-Turbo进行任务、意图和操作生成，并使用Selenium2来验证生成结果的可执行性。然而，它有明显的缺点：模型无法达到完成任务的可接受精度，并且很难判断模型生成的操作的正确性。为了解决上述问题，我们尝试从新的角度进行。我们识别网页中的各种可操作元素，将它们组装成Web操作。然后，我们使用GPT-3.5-Turbo为这些操作生成相应的任务和操作意图。对于行为相对固定的动作类型，如Scroll和Jump_to，我们直接使用模板生成其相应的任务；对于灵活且功能丰富的操作，如Click和Type，我们使用GPT-3.5-Turbo来帮助完成构建。这种方法确保了指令的可执行性，并提供了操作任务的丰富性。

4.1.2 复杂任务操作构建

我们开发了一个复杂Web任务的数据集，使模型能够在Web浏览场景中制定计划和推理。数据集中的每个样本包括一个现实世界的复杂Web浏览任务、完成任务的操作序列和每个步骤的意图。我们首先使用Evol-Instruct[38]中的提示技术为每个网站设计了50个复杂任务，手动选择了大约20个可行的任务并进行了标记。对于操作序列，由于任务的高度复杂性，即使是最先进的LLMs也无法以令人满意的精度完成任务。因此，我们利用手动注释通过浏览器插件记录网站任务期间的动作。链式思考[36]推理已被证明显著提高了任务理解和模型性能[14、35]。然而，利用人工注释者在Web浏览过程中记录他们的意图和推理是低效的。为了改进CoT构建过程，我们使用GPT-4作为操作意图预测器。我们首先尝试的逐步迭代创建方法产生了薄弱的操作链接，并由于数据构建而产生了高API成本。为了解决这个问题，我们采用了全局思维链提示方法，将所有操作和关键HTML片段输入到一个跟踪中。然后，我们提示GPT-4为每个步骤输出意图。这种方法提高了每个步骤的准确性和凝聚力，从而形成了高度相关和一致的思维链。构建完成后，我们将我们的数据与Mind2Web和MiniWob++的训练集合并，形成了我们的最终训练数据集。每个拆分的比例如图5所示。

图5：数据集比例。我们训练数据中拆分的分布饼图。

4.2 训练

我们通过图6所示的三个步骤来训练模型。

4.2.1 第1步：课程学习

首先是监督式微调（SFT）。我们使用第4.1节中的数据进行训练

LSFT (𝜋𝜃) = −E(𝑥,𝑦)∼D [log 𝜋𝜃(𝑦 | 𝑥)] (1)

这种方法增强了模型对网页的理解及其作为智能体在环境中执行操作的能力。重要的是，我们使用课程学习（CL），它模仿了人类学习过程，主张模型从简单的样本开始学习，并逐渐进阶到复杂的样本。它已被证明在先前的工作[3、34]中显著提高了模型的能力。

使LM能够在Web上阅读和操作。在初始阶段，我们将第4.1.1节中构建的数据混合，使模型具备（1）理解网页结构和各种Web组件的功能，以及（2）在当前网页上执行预定义操作的能力，从而实现简单的用户指令。

使LM能够在Web上进行计划和推理。在此阶段，我们继续使用第4.1.2节中构建的数据进行训练。我们使我们的模型能够将任务分解为子任务，并根据当前网页和先前操作的序列执行后续步骤。经过上述训练后，我们的模型𝐴?SFT获得了完成Web浏览任务的基本能力，并且能够根据用户指令独立执行操作。

4.2.2 第2步：强化学习

在之前的训练之后，𝑀SFT已经展示了一些操作浏览器和推断任务的能力。然而，由于SFT训练的独特性，𝑀SFT试图模仿推理过程和操作，但有时会忽视网页的状态和先前的操作序列，导致幻觉。因此，我们提出了自采样强化学习来减轻这些操作幻觉。

首先，我们使用𝑀SFT对训练集中的复杂任务操作样本进行𝑛-倍采样（𝑛=20）。我们将采样的输出和黄金答案结合起来构建具有正负对的对比数据。随后，我们根据以下标准保留样本：

• 从所有𝑛次采样中，我们选择模型完成了任务1到𝑛-1次的数据。如果𝑀SFT在所有迭代中都回答正确，我们认为它没有训练价值，无法提供实际的负面示例。相反，如果𝑀SFT在所有迭代中都回答错误，我们怀疑数据有问题，并将它们排除在外，因为模型无法在优化过程中充分适应这些异常值。

• 我们保留不同的错误操作并删除重复项，以保留不同的负面示例。

在构建对比数据𝐷Const之后，我们采用DPO[27]训练方法，使𝑀SFT从其错误中学习，并进一步提高其能力。在训练过程中，我们发现直接使用DPO损失会导致不稳定。为了缓解这个问题，我们提出了包括SFT损失以稳定强化学习过程，并增加训练步骤的数量，同时确保不丢失原始模型的自然语言和智能体能力，实现更强大的模型𝑀DPO:

4.2.3 第3步：拒绝采样微调

在RFT（拒绝采样微调）步骤中，我们的目标是通过大量采样来优化特定领域的网页环境，通过奖励信号选择缺乏实例中的准确轨迹。我们的奖励信号可以由环境本身提供，也可以通过预先设计好的奖励模型提供。由于实际网页环境中固有的网络策略限制，我们在MiniWob++和WebArena提供的沙箱环境中进行实验。

对于MiniWob++，我们利用MiniWob++中的查询生成器为每个任务自动生成多个用户查询。我们根据任务的难度确定每个任务生成查询的数量。然后，我们使用𝑀DPO尝试解决查询。如果一个跟踪完成了任务（由MiniWob++环境判断），我们认为这个跟踪是积极的跟踪。

在WebArena的情况下，为了防止与测试集重叠，我们根据WebArena的模板手动构建了多个独特的用户查询。对于每个样本，我们应用𝑀DPO进行64次采样。同样，如果我们的模型至少完成了一次任务（由人工编写的规则判断），我们将成功的跟踪视为积极的跟踪。通过上述方法，我们构建了两个不同的成功数据集，一个来自MiniWob++，另一个来自WebArena。这些数据集分别包含大约15k跟踪（66k步骤）和240跟踪（2k步骤），用于AutoWebGLM在这两个任务上的单独微调。

4.3 基准测试：AutoWebBench

我们将在第4.1.2节中收集的复杂任务操作数据集分割用于评估。AutoWebBench分为两个拆分：内部和外部领域，作为我们性能评估的基础。内部领域数据集代表从与训练数据相同的网站收集的训练数据，衡量模型在熟悉条件下的性能。相比之下，外部领域数据集包括从训练集中完全排除的网站收集的数据。它提供了一个独特的机会来衡量模型的泛化能力和适应不熟悉环境的能力。我们为每个拆分选择了50个浏览跟踪作为我们的测试数据。这些跟踪经过人工验证和过滤，以确保更可靠的评估基准。借鉴Mind2Web的方法，我们全面评估了操作中涉及的每个步骤。这使我们能够评估模型操作的步骤和整体准确性。这次评估的详细结果见表2。

5 实验

我们建立了一个双语（中英文）基准测试AutoWebBench，并评估了公开可用智能体的能力。我们还进行了广泛的实验，以评估AutoWebGLM在涉及浏览英文和中文网站的各种任务中的性能，与几个基线进行比较。

5.1 主要结果

AutoWebBench。如第4.3节所讨论的，我们将测试集分为四个拆分：中文、英文、内部领域和外部领域，以进行评估。我们使用步骤成功率（SSR）作为我们的评估指标。结果见表2。

Mind2Web。我们使用Mind2Web的设置，SSR作为我们的主要评估指标。为了公平比较模型，我们使用Mind2Web提供的MindAct框架来评估模型的性能。结果见表3。

MiniWoB++ & WebArena。对于MiniWob++，我们遵循WebAgent [9]的实验设置，通过运行每个任务的100个评估周期来测试MiniWoB++的56个任务，以评估模型能力。对于WebArena，我们将我们的HTML解析器模块和动作执行模块集成到WebArena环境中，使其与我们的系统兼容。结果见表4。

5.2 系统执行效率

此外，由于执行速度对用户体验至关重要，我们进行了一系列性能实验，以评估每个系统组件的执行效率，并确定可以进一步优化的领域。这些实验的结果在表5中展示。

表3：Mind2Web上的性能。†表示仅对这次测试使用了前10名候选，否则使用了前50名。*表示模型在训练集上进行了微调。

表4：MiniWoB++和WebArena上的性能。*表示模型在训练集上进行了微调。

表5：系统执行效率

5.3 消融研究

为了评估不同阶段的数据和训练策略对模型性能提升的影响，我们在表6中进行了全面的消融研究。

训练数据消融。我们仅训练和测试包含原始训练集的模型，并结合简单和复杂任务数据（见第4.1节）进行训练。这种方法有助于定性地测量不同数据集对模型的影响。复杂任务数据集显著提高了模型性能。我们假设这是因为复杂数据更接近现实世界场景，从而根本上改变了模型性能。简单任务数据集在单独训练时只显示了轻微的改进。然而，当与复杂任务数据集一起训练时，有显著的改进。我们发现，仅使用复杂任务数据集进行训练会导致基本操作错误，这表明使用简单任务数据集进行训练可以有效缓解这个问题。

训练策略消融。我们比较了SFT、DPO和RFT增强模型的结果，并发现：（1）与SFT相比，DPO训练使模型能够从错误中学习，进一步提高了模型性能。（2）RFT使我们的模型能够在不同领域进行自举增强。熟能生巧，导致每个领域内的改进。5.4 案例研究和错误分析为了评估我们模型的有效性，我们进行了一系列案例研究，涵盖了日常使用、休闲放松和学术研究等Web任务，涵盖了典型的Web需求范围。我们的系统在大多数场景中都取得了令人满意的结果。虽然我们的系统在各种Web任务上表现良好，但它也有局限性。我们识别了在任务执行过程中偶尔发生的错误，这些错误可以大致归类为四种类型：幻觉、图形识别差、任务上下文误解和弹出式中断。表7概述了错误分析中观察到的这些错误的比例。尽管相对不频繁，但这些错误对我们不断完善和增强系统能力的持续努力至关重要。

6 未来方向

6.1 多模态输入

虽然HTML输入在许多场景中都取得了令人满意的结果，但当我们的系统面对地图、动画和视频浏览等高级Web应用程序时，它就会遇到困难。在我们的分析中，图像输入的优势在于它在解释图像、图标和特殊效果中不可或缺的作用。然而，与文本输入相比，图像输入在理解数字和广泛的Web文本方面提出了额外的挑战。因此，我们认为一个集成了HTML和网页截图的多模态系统，结合了两种模态的优势，显著增强了模型在Web浏览任务中的能力。

6.2 推理和自我检查技术

当处理不熟悉的网站或具有独特操作逻辑的网站时，系统的效率和Web浏览成功率可能会降低。为了缓解这个问题，一个令人兴奋的探索途径是开发与链式思考方法不同的新型推理策略，使模型能够根据以前的浏览经验做出更好的决策，从而提高Web浏览的成功率和效率。此外，由于不稳定的互联网连接和其他因素，实际Web环境的稳定性不能得到保证。因此，Web浏览智能体系统中的自我检查机制，包括确认当前状态和验证预期操作的效果，可以显著提高系统的鲁棒性和有效性。

6.3 移动应用

移动平台是另一个具有巨大潜力的有前景的应用场景。与Web平台相比，它带来了挑战和机遇。例如，由于屏幕尺寸的原因，移动设备在视口中显示的元素较少，简化了页面XML。此外，移动平台上的操作逻辑通常比Web平台上的更直接。然而，移动操作空间包括更复杂的动作，如手势，移动平台面临更多的系统安全限制，为软件开发带来了额外的约束。

7 结论

在这项工作中，我们展示了AutoWebGLM，这是一个在各种自动化Web导航基准测试中表现出强大性能的先进语言模型智能体。我们的模型解决了现有的LLM限制，通过有效控制HTML文本长度和处理Web的开放领域特性来简化网页。我们策略性地采用了课程学习、强化学习和拒绝采样微调，以增强网页理解和浏览器操作学习。我们还介绍了一个独特的双语Web浏览基准测试—为未来研究奠定了坚实的基础。我们的发现代表了在利用LLMs进行智能体任务方面取得的重大进展。

作者：张长旺，图源：旺知识

参考资料

标题：AutoWebGLM: A Large Language Model-based Web Navigating Agent

作者：Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

单位：Tsinghua University, Beijing University of Posts and Telecoms, Zhipu AI, University of Chinese Academy of Sciences

标签：人工智能、自然语言处理、Web智能体、强化学习、数据集构建

概述：AutoWebGLM是一个基于大型语言模型的Web导航智能体，通过创新的数据构建和训练策略，在Web浏览任务中表现出色。

链接：https://arxiv.org/abs/2404.03648v2

旺知识

AI技术最新进展、发展趋势、研发经验、从业经验