随着数字产品的不断发展,我们获取信息的方式也在不断进化。传统的信息检索系统,如搜索引擎和推荐系统,虽然在技术上取得了巨大成功,但它们的架构和信息流在本质上并未发生太大变化。然而,随着大型语言模型的出现,我们有机会重新思考信息检索的方式,使其更加智能和个性化。智能体信息检索(Agentic IR)就是这样一种创新,它通过智能体与环境的互动,自动达到用户的目标信息状态,为未来数字生态系统中的信息入口提供了新的可能性。
我们最新论文:智能体信息检索,文末有论文信息。
论文链接:https://arxiv.org/abs/2410.09713作者:张长旺,图源:旺知识
下一代数字产品中的信息入口将是什么样子?自20世纪70年代以来,信息检索(IR)系统在用户获取相关信息中发挥了重要作用,尤其是领域特定的架构。在过去二十年中,现代信息检索系统的出现,包括网络搜索引擎和个性化推荐系统,极大地提高了从庞大语料库中检索相关信息的效率。然而,尽管技术发展迅速,这些信息检索系统仍主要依赖过滤预定义候选项的核心范式,其基本架构未发生显著变化。自2022年以来,大型语言模型(LLMs)的突破正在重新定义信息访问的方式,开创了全新的技术范式。在这篇立场论文中,我们介绍了智能体信息检索(Agentic IR),这是一种由LLM智能体的能力塑造的新型信息检索范式。智能体信息检索不仅显著扩展了信息检索的应用任务范围,还通过一系列新兴技术彻底革新了信息检索的方式。我们讨论了智能体信息检索的三种尖端应用及其面临的挑战。我们认为,智能体信息检索的出现不仅推动了技术的发展,还可能彻底改变人们的工作与生活方式,成为数字生态中的核心支柱。
1. 信息检索技术趋势
信息检索(IR)指的是从大型语料库中找到符合用户需求的信息项的任务或技术。广义上讲,现实世界中存在广泛的IR应用,包括网络搜索、商品推荐、在线广告、在线旅行社、在线购物、在线食品配送等[Singhal等人,2001年,Wang等人,2017年]。
作为自动信息过滤系统,传统信息检索通常采用专门的架构来根据查询检索、排名和选择信息项。网络搜索引擎是IR的一个显著例子,它采用倒排索引系统来维护每个术语(或单词)的文档列表。给定一个查询,使用倒排索引检索包含查询术语的候选文档,然后使用精细的或学习到的评分函数进行排名。最后,排名最高的文档显示在搜索引擎结果页面(SERP)上[Baeza-Yates等人,1999年]。个性化推荐系统是另一个主要的IR例子,通常涉及检索、预排名(可选)、排名和重新排名阶段,以执行类似漏斗的项目过滤,并最终向用户展示重新排名的顶部项目[Qin等人,2022年]。
尽管它们在技术和商业上取得了成功,但上述IR架构需要在应用的开始就预定义,并且一旦建成,就在IR系统的整个生命周期中保持不变,因此在每个IR过程中的信息流也是如此。基于预定义架构的固定信息流,很难执行交互式或复杂的IR任务(具有多步骤推理和行动)。例如,在搜索引擎上,用户需要仔细细化搜索关键词以迭代获取更新的SERP以找到他正在寻找的网页;在电子商务推荐系统上,用户没有办法快速更改为他推荐的项目列表。此外,返回的项目就是它们本身——没有办法在IR过程中操作信息项目——这使得IR场景简单且有限。
图1:传统信息检索与智能体信息检索的范式。
自2023年初以来,随着ChatGPT、Claude和GPT4等大型语言模型(LLMs)的成功,生成式问答应用变得非常流行。此外,通过将LLM封装为AI智能体与环境互动,使智能体能够执行多个(或/和多轮)推理-行动步骤以完成完整任务成为可能。此外,包括搜索引擎、计算器、天气预报器、数据库在内的各种工具,都可以通过API被智能体访问,这大大增强了AI智能体的任务解决能力。在这样的背景下,考虑LLM驱动的AI智能体时代的下一代信息检索架构的时机已经成熟。在这篇立场论文中,我们介绍了智能体信息检索(Agentic IR)的概念,这是一种可能成为下一代信息检索关键架构形式的新型信息检索技术范式。一般来说,智能体信息检索与传统信息检索的不同之处在于以下方面。
任务范围。智能体信息检索处理的任务范围更广。对于智能体信息检索,用户展示了一个预期的信息状态,而智能体采取行动使用户达到该信息状态。因此,传统信息检索是智能体信息检索的一个特例,即向用户展示相关信息项目。
架构。与传统信息检索为服务场景提供的固定特定领域架构不同,智能体信息检索通常采用统一架构,即AI智能体,用于不同场景,如图1所示。智能体信息检索和传统信息检索架构之间的关键区别在于,智能体通过观察、推理和行动的递归架构在多个步骤中解决问题,而传统信息检索试图在一次交互步骤中用一个大的架构解决问题。
关键方法。智能体信息检索的关键方法包括提示工程、增强检索生成、使用监督和强化学习进行微调、多智能体系统,这些与传统信息检索的关键方法(如索引、检索方法、评分函数、学习排名和伪相关性反馈)本质上是不同的。
本文的其余部分组织如下。在第2节中,我们正式介绍了智能体信息检索,包括任务公式化、架构形式和一些关键方法。然后,在第3节中,我们描述了智能体信息检索的几个新兴代表性应用,即生活助理、商务助理和编程助理。之后我们在第4节讨论智能体信息检索当前面临的挑战。最后我们在第5节总结本文。
2. 智能体信息检索
2.1 任务公式化
设s∗表示用户的目标信息状态,这可以是文档检索任务中的期望文档、QA任务中的满意答案,或者是在线购物任务中完成的准确订单等。设x(s∗)表示用户提供的描述其目标信息状态s∗的指令文本。
设表示智能体的策略,其中St表示步骤t的信息状态,表示相应的转换文本输入到策略中,表示智能体在该步骤采取的相应行动。然后将行动传递给环境,环境相应地根据当前状态St和基于其动态采取的行动转换到下一个状态St+1。当环境在某个步骤T达到结果信息状态ST时,智能体信息检索过程终止。然后,可以根据预定义规则(或验证器)计算相应的成功或失败结果。
在这样的框架中,智能体信息检索算法的目标是获得一个最优智能体策略,以最大化成功的期望
2.2 架构
智能体策略,如图1中智能体信息检索子图的中心模块所示,以用户的语言指令为输入,然后与环境进行单次或多次交互,最终达到结果信息状态。智能体的内部架构模块通常包括记忆和思考。一般来说,记忆意味着可以存储在磁盘上的日志历史记录、经验,而思考是存储在LLM上下文窗口中的信息。此外,还有一个外部工具池供智能体调用[Patil等人,2023年,Lin等人,2024年]。工具可以被视为一个函数(带有输入参数),不能被神经网络模型替代,例如网络搜索引擎、关系数据库、实时天气应用、计算器等。因此,智能体在步骤t的信息状态的文本描述可以写成:
其中MEM、THT和TOOL分别表示更新记忆、操纵思考和调用工具的三个函数。g表示基于上述三个函数的复合函数,以当前状态st和记忆ht为原始输入,并输出状态st的中间表示,这通常是语言提示x(st),进一步输入到LLM智能体中。注意,g的具体设计直接决定了智能体,连同使用的LLM,这仍然是一个未被充分探索的领域。通过这样的框架,可以通过在三个函数上创建有向无环图来具体实例化智能体的具体架构,这可以通过改变LLMs的提示来实现。Christianos等人提供了类似架构的先前研究[2023年]。因此,智能体信息检索的架构可以以统一的方式构建。
2.3 关键方法
鉴于上述任务公式化和智能体架构,提高智能体信息检索性能的关键方法,即方程(1),包括但不限于提示工程、增强检索生成、反思、监督微调、偏好学习、强化(学习)微调、复杂推理、奖励建模、多智能体系统等。
提示工程。提示是基于任务的语言标记输入到LLM中,以启用其任务能力[Liu等人,2023年]。对于LLM,提示是与模型参数相比,设置其隐藏状态的人类可控方式,包括思维链提示。
增强检索生成(RAG)。在基于LLM的应用中,特定任务检索的示例起着至关重要的作用。在智能体信息检索中,检索到的示例可以在行动级别或思考级别[Zhou等人,2024年]。
反思。智能体可能使用其与环境互动的失败或次优结果来更新其思考,以便进一步尝试细化其行动,从而细化结果信息状态[Shinn等人,2024年]。
监督微调(SFT)。作为微调LLMs的基本方法,SFT可以无缝适应智能体信息检索任务,其中成功的历叐轨迹用作训练数据,每个行动步骤或每个内部函数的输出作为标签来拟合。SFT对应于强化学习中的行为克隆模仿学习方法。尽管简单,SFT并不直接优化目标(1)。
偏好学习。在SFT的基础上更进一步,基于偏好目标对LLMs进行微调可能会提高智能体信息检索模型的性能[Rafailov等人,2024年]。注意,这些方法在某种程度上类似于传统信息检索中的成对学习排名技术[Burges等人,2005年]。
强化微调(RFT)。将环境视为马尔可夫决策过程,强化学习方法,包括PPO[Schulman等人,2017年]和AlphaZero[Silver等人,2018年],直接优化目标(1),鉴于环境或人类反馈(RLHF)[Ouyang等人,2022年]的奖励信号。与SFT和偏好调整相比,RFT通常需要更大的计算资源来探索环境、积累经验数据和更新模型参数[Christianos等人,2023年]。
复杂推理。对于非平凡任务,智能体需要在采取行动之前执行任务规划和复杂推理。OpenAI o1[OpenAI,2014年]的最近成功表明了强大的推理者对于提高智能体的任务解决性能的巨大潜力。相比之下,RAG可以被视为基于案例的推理[Guo等人,2024年]。
奖励建模。作为结果信息状态或过程中的中间状态的判断,奖励函数建模对于启用RFT或基于搜索的解码技术在复杂的智能体信息检索任务中至关重要。参考最近在解决数学推理问题方面的进展,结果奖励模型和过程奖励模型是产生高性能数学智能体的关键模块[Uesato等人,2022年,Luo等人,2024年]。
多智能体系统(MAS)。MAS包含多个同质或异质智能体,每个智能体都可以配备特殊角色或资源。通过适当的机制,智能体团队设法协调以实现显著的集体智能[Chen等人,2023年,Li等人,2024a年]。
3. 应用场景和案例研究
在本节中,我们简要讨论了智能体信息检索的三种应用及其案例研究,即生活助理、商务助理和编程助理。正如它们的名字一样,智能体信息检索将更多地像用户具有一定程度自主性的助理。相比之下,传统信息检索更像是在智能体信息检索中调用的非自主工具。
3.1 生活助理
近年来,生活助理从简单的语音激活工具发展为能够支持用户完成广泛日常任务的复杂系统,而这一转型的核心驱动力是信息检索(IR)技术的显著进步。
智能体信息检索(Agentic IR)赋予这些助理全新能力,使其不仅能收集和传递信息,还能主动协助规划和决策,深入理解用户的需求、情境和偏好。这种转变使生活助理能够以积极、自主的智能体角色无缝融入用户生活方式,提供指导并实时采取行动。智能体信息检索的能力已经体现在诸如苹果生态系统等主流产品中,苹果智能为iPhone、iPad和Mac等设备提供了先进的助理功能【苹果,2024年】。通过与应用程序、服务和智能设备的无缝集成,苹果智能增强了用户体验,充分体现了智能体信息检索的主动性和上下文敏感特性。除了苹果之外,Google Assistant、OPPO小布和华为小艺等其他生活助理也运行于包括智能手机、智能家居设备和可穿戴设备在内的多种平台上,为用户提供便利的数字和物理环境控制,帮助他们随时随地制定计划并进行调整【Li等人,2024b年】。
以下场景可以很好地说明智能体信息检索的优势:Jane是一位忙碌的职场人士,她使用集成到智能手机及其他设备中的生活助理。智能体信息检索使她的助理能够预见她的需求,并主动收集信息和完成状态转换。图 2 展示了智能体信息检索的各种功能如何在Jane的日常生活中发挥作用。
图2:生活助理场景中智能体信息检索的插图。
智能体信息检索允许她的助理预见她的需求,收集主动信息收集和状态转换。助理每次采取的行动(at)都是从一个中间信息状态到另一个的过渡,这些行动依据简的请求和周围环境动态生成。例如,当简需要在交通高峰时段前往跨城的会议地点时,助理能够识别当前的信息状态st,包括交通状况,并建议提前出发时间。这个建议成为那次交互中的下一个中间状态,充分体现助理对简即时需求的主动适应能力。每一次交互细化了助理的理解,逐步接近目标信息状态s∗。
智能体信息检索的模块化设计通过记忆(MEM)、思考(THT)和工具(TOOL)的协同作用来支持任务完成。在完成每个中间信息状态的过程中,助理利用记忆模块记录上下文信息,运用思考模块处理用户偏好,并通过工具模块调用外部数据源(如实时交通或天气数据)。例如,在Jane准备她的商务旅行时,助理能够结合她的日历数据(通过MEM)与旅行条件(通过TOOL获取),每一轮行动推动信息状态st接近目标状态,最终帮助简实现“所有旅行准备已确认”的目标。
智能体信息检索能够通过上下文理解和交互式调整实现动态适应性。助理既能基于用户明确的查询优化行动,也能从上下文线索中获取信息,无需用户反复输入。例如,当简到达杂货店时,助理会基于位置自动引用她的购物清单;如果发现遗漏的物品,它会主动建议添加,而无需简额外询问。同样,在简提出餐厅推荐需求时,助理能够与她交互,询问她想要的美食类型或者就餐位置等,从而更准确地满足需求。通过适应明确需求和上下文信息,助理有效推动目标信息状态的达成,展现了智能体信息检索在最小用户输入下实现灵活精准协助的能力。
智能体信息检索还赋予了助理自主完成任务的能力,例如预订晚餐或设置提醒。当助理为简成功预订餐厅时,这一交互过程便完成,其最终信息状态会显示预订已完成并在简的日历中确认。这种自主性使简能够减轻认知负担,专注于更高优先级的任务,而助理则能高效地从一个目标状态切换到另一个。
跨设备和服务的无缝集成是智能体信息检索的另一大特点。助理能够整合智能家居设备和日历应用的记忆及实时输入,从而确保简的到达时间和恒温器设置完美匹配。这种同步功能使助理能提供一致的结果信息状态,帮助简的物理环境与个人日程协调一致,简化日常事务。
智能体信息检索代表了生活助理与用户交互方式的根本变革。通过预见需求、理解上下文和自主完成任务,智能体信息检索不仅使生活助理更加实用,更使其成为不可或缺的工具。这些系统的主动特性,以及整合多源信息、从交互中学习并独立执行任务的能力,为用户提供独特且高效的定制化体验。
3.2 商务助理
商务助理旨在通过提供各种文档和数据来源的相关商业知识和见解来支持企业用户。借助智能体信息检索功能,商务助理超越了被动信息检索,积极参与意图识别和响应生成。利用强大的信息检索和生成能力,商务助理可以解决广泛的与业务相关的查询,从财务分析到营销策略,帮助用户做出更好的决策。
目前,已经有一些由智能体信息检索驱动的商务助理在使用,如微软365 Copilot、Notion AI 和IBM watsonx。通常,商务助理的工作流程包括四个阶段:查询理解、文档检索、信息整合和响应生成,如图3所示。每个阶段详细描述如下。
图3:商务助理场景中智能体信息检索的插图。
查询理解。给定一个与业务相关的查询,智能体,商务助理的核心,首先尝试理解和分析用户的意图。对于复杂的查询,智能体可以生成思考(THT)与CoT一起将问题分解为更小、可管理的步骤,允许进行多步骤推理。在商务助理中,对话是连续的,允许历史对话作为记忆(MEM),帮助智能体更好地理解上下文和用户意图。
文档检索。根据查询,智能体检索外部和内部文档中的相关信息,以提取最相关数据。鉴于文档的多样化格式(例如,PDF、图形、表格),智能体可能利用工具(TOOL)如OCR用于扫描文本或SQL用于结构化数据。此外,智能体可以利用语义搜索能力超越简单的关键词匹配,确保检索到的信息更密切地符合查询的意图。
信息整合。在许多情况下,检索到的信息分散在多个部分甚至不同的文档中。为了构建全面的响应,智能体必须结合和提炼信息,这通常需要THT和TOOL等功能。通过生成内部思考(THT),智能体可以在不同的信息片段之间建立逻辑联系并执行复杂推理,逐步朝着结果信息状态工作。此外,专门的工具(TOOL)通过提供执行数学计算和过滤冗余信息的能力来协助此过程。
响应生成。最后,智能体生成响应,达到结果信息状态。根据查询和检索到的数据,结果信息状态可以采取多种形式。响应可能以多种格式呈现,包括纯文本、表格、可视化图表等。此外,助理可以完成任务并返回一个行动状态。为了透明度,响应也可以链接回其原始来源文档,允许用户追踪信息是如何得出的。
商务助理的应用随着智能体信息检索的进步和市场需求的增长而不断发展。关键趋势包括增强的上下文理解和多步骤推理,使商务助理能够理解和执行更复杂的指令。此外,在数据不断生成的商业场景中,商务助理将需要从不断更新的来源检索和整合信息。安全也是一个关键问题,包括保护内部企业数据和确保智能体生成的响应的安全。
3.3 编程助理
交互式编程辅助和自动化程序合成在提升生产力和开发效率中扮演着至关重要的角色。随着像Copilot这样的工业级编程辅助工具的出现,开发者得以置身于一个交互式的环境中,从广阔的信息源中提取所需数据,以满足他们的编程需求。在编程助理的场景下,智能体信息检索(Intelligent Agent Information Retrieval, IA-IR)根据开发者的查询和上下文需求,自主检索并提供相关信息。这种方法不仅强调了助理对请求的响应能力,更突出了其主动理解开发者意图、代码上下文以及用户可能面临的潜在挑战的能力。
开发者与编程助理之间的互动过程可以概括为三个主要阶段:信息需求诊断、知识内容生成和信息状态更新。图4为此提供了直观的说明。
图4:编程助理场景中智能体信息检索的插图。
信息需求诊断:在状态st下,开发者的信息需求可能是有意识或无意识的。一方面,开发者可能明确地表达他们的需求,例如输入“生成文档”或调用`/doc`命令,以从编程助理中检索文档知识,满足其需求。另一方面,信息需求也可能是无意识的。例如,在编程过程中,开发者可能仅编写了一个函数声明,而编程助理能够自动识别该声明所对应的功能,并据此查询自身数据库,以提供相应的协助。这种对无意识信息需求的诊断,使得智能体信息检索与传统信息检索相比具有独特优势,能够提供及时且定制化的知识支持。智能体信息检索的另一个显著特点是其记忆模块(Memory Module, MEM),它使得编程助理能够记住之前的互动历史,包括开发者的偏好、过往查询、调试历史和特定编程项目的细节。这不仅有助于助理保持上下文的连贯性,还能提供更加个性化的信息需求诊断。
知识内容生成:在准确识别出开发者的信息需求之后,这些需求被用来向编程助理发起查询,以获取相应的知识内容。代码生成和调试作为一项对推理有高度需求的任务,通常需要一个中间思考过程(Thinking-Hard Threshold, THT)[Li等人,2024c],以寻求最优的知识内容。此外,通过与各种编程工具(如调试器、编译器和代码格式化工具)的集成,编程助理能够提供可靠、非参数化的知识,以满足开发者的信息需求。例如,编程助理可以续写待完成的代码、通过THT增强以生成测试用例供测试、提供编译器反馈以辅助调试、检索并补充代码文档以细化代码等。生成的知识内容随后被呈现给开发者,以便他们能够进一步利用这些信息。
信息状态更新:在知识内容生成之后,开发者能够感知并吸收这些知识,进而完善他们的工作,达到下一个信息状态st+1,从而激活新一轮的互动。在这一互动过程中,开发者从编程助理那里获取及时、定制化且不断发展的信息,逐步达到最终的信息状态sT,完成一个合格的代码或项目。
4. 挑战
作为IR的一个全新范式,智能体信息检索的大部分技术和工程模块仍处于起步阶段,并在不同方面面临挑战。
数据获取。作为决策任务,智能体信息检索的日志数据主要来自智能体与环境的互动,这由用户指令、智能体策略和环境动态决定。探索-利用权衡对于收集高质量和广泛覆盖的数据至关重要。直接标记实现目标状态的正确轨迹仍然是可能的,但成本很高。
模型训练。由于智能体策略将由一系列函数组成,即记忆更新、思考操作和工具使用,因此有效更新这些函数的参数和总复合策略函数非常具有挑战性。最近的一些尝试通过RFT[Christianos等人,2023年]和行动分解[Wen等人,2024年]来解决这一挑战。
推理成本。由于大型参数尺寸和自回归特性,LLMs的推理既消耗GPU资源又耗时。因此,智能体信息检索的系统优化对于实际服务部署至关重要。
安全性。由于智能体直接与真实环境互动,其行动决策将改变环境并将用户带到不同的结果信息状态。因此,与聊天应用相比,确保用户旅程的安全更为重要。对齐技术[Ji等人,2023年]可能有帮助,但安全性无法保证。“世界模型+验证器”框架[Dalrymple等人,2024年]可能是探索智能体信息检索安全性的方法。
与用户互动。最后,鉴于与传统信息检索在几乎所有方面的差异,包括推理延迟、数据操作、信息状态表示等,智能体信息检索的产品形式仍在探索中。智能体信息检索要找到产品市场契合点还有很长的路要走。
5. 结论
在这篇立场论文中,我们概念化了一个新时代的信息检索技术范式,名为智能体信息检索。与传统信息检索过滤项目语料库并向用户返回相关项目不同,在智能体信息检索中,智能体自动与环境互动以达到用户的目标信息状态。因此,智能体信息检索服务于广泛的任务范围,采用统一的智能体架构,并涉及与传统信息检索不同的关键方法。尽管在多个方面面临挑战,但可以预期智能体信息检索将在未来几年得到高度发展和推广。
作者:张长旺,图源:旺知识
参考资料
标题:Agentic Information Retrieval
作者:Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du
单位:Shanghai Jiao Tong University
标签:信息检索、人工智能、大型语言模型、智能体技术
概述:本文提出了一种新型的信息检索范式——智能体信息检索(Agentic IR),它利用大型语言模型(LLMs)的能力,扩展了可访问任务的范围,并重新定义了信息检索。
链接:https://arxiv.org/abs/2410.09713