AGENTiGraph:一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

文摘   2024-11-05 18:50   山西  

AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data

Abstract 摘要
大型语言模型 (LLM) 已在各种应用程序中展示了功能,但面临幻觉、推理能力受限和事实不一致等挑战,尤其是在处理问答 (QA) 等复杂的特定领域任务时。虽然知识图谱 (KG) 已被证明有助于缓解这些问题,但关于 LLM 与背景 KG 整合的研究仍然有限。特别是,用户可访问性和底层 KG 的灵活性尚未得到彻底探索。我们介绍了 AGENTiGraph(用于基于任务的交互和图形表示的自适应生成 引擎),这是一个通过自然语言交互进行知识管理的平台。它集成了知识提取、集成和实时可视化。AGENTiGraph 采用多智能体架构来动态解释用户意图、管理任务和集成新知识,确保能够适应不断变化的用户需求和数据上下文。我们的方法在知识图谱交互中表现出卓越的性能,特别是对于复杂的特定领域的任务。在 3,500 个测试用例的数据集上的实验结果表明,AGENTiGraph 的性能明显优于最先进的零镜头基线,任务分类准确率达到 95.12%,任务执行成功率达到 90.45%。用户研究证实了它在实际场景中的有效性。为了展示多功能性,我们将 AGENTiGraph 扩展到立法和医疗保健领域,构建了能够回答法律和医学环境中复杂问题的专业 KG。
论文地址: https://arxiv.org/abs/2410.11531
系统demo: https://shorturl.at/qMSzM
1 Introduction介绍

大型语言模型 (LLM) 最近在问答 (QA) 任务中表现出卓越的能力,展示了它们在文本理解、语义理解和逻辑推理方面的实力。这些模型可以处理和响应各种查询,具有令人印象深刻的准确性和上下文感知能力。然而,LLM 有时会在事实一致性和最新信息方面遇到困难。这就是知识图谱 (KG) 发挥作用的地方。通过将 KG 与 LLM 集成,我们可以显著提高 QA 性能。KG 提供结构化的事实信息,补充 LLM 的广泛知识,提高答案的准确性,减少幻觉,并实现更复杂的推理任务。LLM 和 KG 之间的这种协同作用为先进、可靠和上下文感知的 QA 系统开辟了新的可能性。
尽管 KG 增强型 QA 系统具有潜力,但当前的 KG 工具和查询语言面临重大挑战。像 SPARQL 和 Cypher 这样的传统系统虽然在数据检索和分析方面功能强大,但通常缺乏用户友好的界面,并且需要 专业的技术专长 ,这限制了它们对一小部分专家的访问。此外,这些系统经常难以理解上下文和灵活性,因此难以处理细微或复杂的查询。KG 和自然语言界面之间缺乏无缝集成,使它们与 LLM 结合使用进一步复杂化。此外,现有工具之间缺乏统一的系统架构,这给旨在在这些平台上进行创新或构建的开发人员带来了障碍。这些挑战凸显了需要一种更具适应性、用户友好性和集成性的方法,以便在 QA 系统中利用 KG。

图 1:AGENTiGraph 框架:用于智能 KG 交互和管理的多智能体系统。

为了应对这些挑战,我们提出了 AGENTi Graph ( A daptive G eneral-purpose E ntities N avigated T hrough I nteraction),这是一个使用基于智能体的方法彻底改变 LLM 和 KG 之间交互的新型平台。AGENTiGraph 引入了创新模块,可通过自然语言界面实现与知识图谱的无缝、智能交互。我们系统的主要特点包括:
语义解析。该界面通过将自然语言查询(包括自由格式的查询)转换为结构化图形操作来优化用户交互,使 AGENTiGraph 能够以更高的准确性和速度处理用户请求。它降低了与知识图谱交互的复杂性,自动识别和实现用户意图任务的准确率高达 90%,确保所有技术水平的用户都能高效操作。
自适应多智能体系统。AGENTiGraph 集成了 LLM 代理的多模态输入,例如用户意图、查询历史记录和图形结构,以创建符合用户意图的连贯行动计划。用户可以随时修改、暂停或重置任务,提供灵活性和易用性。模块化设计还允许开发人员轻松集成模型、更换模块和为特定任务设计自定义代理。
动态知识集成。该系统支持持续的知识提取和集成,确保知识图谱保持最新。它还提供动态可视化功能,使用户能够探索和理解数据中的复杂关系。
这些创新使 AGENTiGraph 处于知识图谱技术的前沿。AGENTiGraph 不仅仅是一个工具,而且是人类如何与知识图谱交互并利用知识图谱的力量来完成复杂数据管理和分析任务的范式转变。
主要贡献。(1) 我们实现了一个强大的自然语言驱动界面,将复杂的知识图谱操作简化为用户友好的交互;(2) 我们设计了一个自适应多智能体系统驱动的多功能知识图谱管理框架,使用户能够自由地对知识图谱执行操作,同时允许开发人员轻松集成 LLM 或多模态模型,以创建健壮的、面向任务的智能体;(3) 实验证明了 AGENTiGraph 的有效性,在用户意图识别方面实现了 95.12% 的准确率,在执行方面取得了 90.45% 的成功率,优于最先进的零镜头基线。用户研究进一步验证了该系统的效率,参与者强调了它在不同领域的复杂知识管理任务中提供简洁、集中的答案和有效性的能力。

2 AGENTiGraph框架设计

AGENTiGraph 旨在提供用户与知识图谱 (G) 之间直观无缝的交互,其核心是一种以人为本的方法,允许用户使用自然语言输入( q )与系统交互。我们采用多智能体系统,利用先进的 LLM 技术,在用户和知识图谱之间提供直观的交互。每个代理都专注于特定任务,协作解释用户输入,将其分解为可操作的任务,与知识图谱交互,并生成响应 ( a )。
用户意图解释
用户意图识别智能体负责解释自然语言输入以确定基础意图 ( i )。利用 Few-Shot Learning 和 Chain-of-Thought (CoT) 推理,它指导 LLM 在没有大量训练数据的情况下准确解释不同的查询类型,确保能够适应不断变化的用户需求。
关键概念提取
关键概念提取智能体对输入 ( q ) 执行命名实体识别 (NER) 和关系提取 (RE) 。通过提供目标示例来指导精确提取,然后通过与 BERT 派生的向量表示的语义相似性,将提取的实体 ( E ) 和关系 ( R ) 映射到知识图谱。这个两步过程可确保准确的概念链接,同时保持计算效率。
任务规划
任务规划智能体通过将已识别的意图分解为一系列可执行任务( T = { t , t , ... , t n } )来提升进程。利用 CoT 推理,该代理对任务依赖关系进行建模,优化执行顺序,然后生成逻辑结构的任务序列,这对于需要多步骤推理的复杂查询特别有效。
知识图交互
知识图谱交互智能体充当桥梁,将高级任务转换为可执行的图形查询。对于每个任务 ( t k ) ,它都会生成一个正式的查询 ( c k ),将 Few-Shot Learning 与 ReAct 框架相结合,该框架允许基于中间结果进行动态查询细化,无需进行广泛的预训练即可适应各种图形结构和查询语言。
推理
增强原始查询结果(R k ) ,推理代理应用逻辑推理,它利用了 LLM 固有的上下文理解和推理能力。通过将推理构建为一系列逻辑步骤,它可以跨各种推理任务进行灵活和自适应的推理,从而弥合结构化知识和自然语言理解之间的差距。
响应生成
响应生成代理将处理后的信息合成为连贯的响应,它采用 CoT、ReAct 和 Few-Shot Learning 来编排结构化和上下文相关的响应,确保响应不仅信息丰富,而且与用户的原始查询上下文保持一致。
动态知识集成
更新代理支持动态知识集成,将新实体 ( E new ) 和关系 ( R new ) 合并到现有图形中:G ← G ∪ { E new , R new } 。此代理直接与 Neo4j 数据库连接,使用 LLM 生成的 Cypher 查询无缝更新图形结构。
通过这种精心编排的多智能体架构,AGENTiGraph 实现了结构化知识表示和灵活交互之间的协同平衡。每个代理在利用类似的底层 LLM 技术的同时,都经过独特设计,以解决知识图谱交互管道中的特定挑战。App. A 中提供了每个代理的具体提示设计。

图 2:AGENTiGraph 的双模式界面:具有交互式知识探索的对话式 AI

系统演示

3.1 用户界面

AGENTiGraph 界面专为直观使用和高效的知识探索而设计,如图 所示。它具有双模式交互范式,将对话式 AI 功能与交互式知识探索相结合。该界面由三个主要组件组成:
Chatbot Mode 使用 LLM 通过知识图谱遍历进行意图解释和动态响应构建。此模式有助于进行细微的查询处理,将自然语言输入与复杂的知识结构联系起来。
探索模式提供具有实体识别能力的交互式知识图谱可视化界面,支持概念层次结构导航和语义关系探索。
知识图谱管理层是多智能体系统和底层 Neo4j 图数据库之间的接口,利用 Neo4j Bolt 协议与数据库进行高性能通信,并专注于高效的图操作和检索机制,以增强用户交互。

3.2 任务设计

为了支持用户与知识图谱的交互及其在知识探索中的多样化需求,AGENTiGraph 提供了一套预先设计的功能,其灵感来自 TutorQA,这是一个经过专家验证的 TutorQA 基准测试,专为 NLP 领域的图推理和问答而设计。.具体来说,AGENTiGraph 目前支持以下任务:
关系判断:用户可以探索和验证知识图谱中概念之间的语义关系,系统会提供这些联系的详细解释,用上下文信息丰富图谱,这有助于更深入地理解复杂的知识结构及其相互依赖关系。
先决条件预测:在处理复杂的主题时,AGENTiGraph 通过分析知识图谱结构来推荐先决条件知识,帮助用户识别和建议基础概念,促进更有效的学习路径,并确保用户在推进更复杂的想法之前建立坚实的基础。
路径搜索:此功能使用户能够发现概念之间的个性化学习序列。通过生成知识图谱的最佳路径,AGENTiGraph 可帮助用户从熟悉的概念导航到新的相关想法,从而根据个人需求和兴趣定制学习之旅。
概念聚类:用户可以探索宏层面的知识结构,这些知识结构对给定领域内的相关概念进行分组。通过揭示主题领域及其相互关系,它提供了复杂领域的高级概述,有助于全面理解和有效的知识导航。
子图完成:此功能通过识别子图中概念之间的隐藏关联来帮助用户扩展知识图谱的特定区域,从而支持发现新的联系和丰富现有知识结构,促进对主题的更全面理解。
Idea Hamster:通过综合知识图谱中的信息,此功能可帮助用户将理论知识转化为实际应用,从而支持项目提案和实施策略的生成,促进创新并弥合抽象概念与现实世界问题解决之间的差距。
AGENTiGraph 的灵活性超出了这些预定义的功能。用户可以向系统提出任何问题或要求,不限于上述六类。系统会自动确定用户的输入是否属于这些预定义的类别。否则,它会将输入视为 free-form query ,采用更灵活的方法来满足用户的特定需求。此外,具有特定要求的用户可以设计自定义代理或重新配置现有代理以创建定制功能,确保 AGENTiGraph 能够不断发展以满足多样化和不断变化的用户需求,为引导式和开放式知识发现提供多功能平台。在后续的章节 (§ ) 中,我们还说明了该系统在其他域上的可扩展性和扩展能力。

4 Evaluation评估

为了评估 AGENTiGraph 的性能,我们进行了全面评估,重点关注两个关键方面:(1) 系统准确识别用户意图并执行相应任务的能力,以及 (2) 系统在真实场景中的有效性和用户满意度。

4.1 数据集和实验设置

为了全面评估 AGENTiGraph 的性能,我们开发了一个扩展的测试集,解决了原始 TutorQA 数据集的局限性,该数据集包括 3,500 个案例,六种预定义任务类型中的每一种有 500 个查询,另外还有 500 个自由格式的查询 (§ 3.2 )。数据集生成过程涉及使用 LLM 来模拟学生问题,然后进行人工验证以确保质量和相关性,从而使我们能够创建一组与真实场景非常相似的多样化查询。此过程中使用的详细提示和示例案例可在 App. B 中找到。我们对 AGENTiGraph 的评估侧重于两个关键方面:查询分类:我们评估系统将用户输入正确分类为七种任务类型(六种预定义加自由格式)的能力,通过准确性和 F1 分数来衡量。任务执行 :我们还通过测试它是否可以为每个查询生成有效的输出来评估其实际效用,这通过执行成功率来量化。

4.2 用户意图识别和任务执行

表 1:任务分类准确性和执行成功的评估。
表1显示了我们的实验结果。我们使用几种最先进的语言模型评估了 AGENTiGraph 在零镜头基线下的性能,这些模型证明了 AGENTiGraph 在所有评估模型和指标中的显着性能改进。GPT-4o 在与 AGENTiGraph 框架集成时,实现了最高的性能,任务分类准确率为 95.12%,F1 分数为 94.67%,任务执行成功率为 90.45%,与零镜头相比有了很大的进步。这些改进在所有模型大小中都是一致的,即使是像 LLaMa 3.1-8b 这样的更小的模型也显示出明显的增强,这表明 AGENTiGraph 基于代理的架构有效地增强了底层语言模型的能力,有可能为复杂的知识图谱交互提供更有效的解决方案。
随着模型大小的增加,零样本和 AGENTiGraph 实现之间的性能差距会缩小,这表明较大的模型从 AGENTiGraph 框架中受益较少。然而,所有模型的持续改进凸显了 AGENTiGraph 方法在增强知识图谱交互方面的稳健性。值得注意的是,所有模型的分类准确性和执行成功率之间存在一致的差距,这表明虽然 AGENTiGraph 框架擅长识别正确的任务类型,但在任务执行方面仍有改进的空间。对于最先进的模型(GPT-4o 和 Gemini-1.5 pro),差距最小,表明这些模型更有能力弥合理解-执行鸿沟。
4.3 用户反馈和系统可用性
为了评估 AGENTiGraph 的实际有效性和用户满意度,我们进行了一项全面的用
户研究,涉及知识图谱系统专业知识水平不同的参与者。参与者在自然语言处理 (NLP) 领域内与系统进行交互,并就他们的体验提供反馈。与 ChatGPT-4o 相比,我们从 50 次用户与 AGENTiGraph 的互动中收集了定性反馈。
用户普遍认为 AGENTiGraph 的回答更简洁。具体来说,32 个查询突出了它提供更短、更集中的答案的能力。然而,在 5 次查询中,用户注意到 AGENTiGraph 的回答不完整或缺少关键细节,尤其是对于更复杂的任务,ChatGPT 更详细的答案是首选。此外,4 个查询表明 AGENTiGraph 误解了问题或提供了错误的答案。尽管存在这些限制,但用户对 AGENTiGraph 的满意度仍然很高,尤其是在知识图谱交互的自由发挥效率方面。对于熟悉核心概念的用户,简洁的回答有助于避免信息过载,这在学习或复习场景中非常有用。
我们还分析了计算机视觉领域的 34 个查询,其中 14 个被标记为满意,而 20 个包含改进建议,需要更详细的解释。用户通常要求对卷积层、光流和特征提取等概念进行更清晰的描述。例如,一项建议强调了解释卷积滤波器如何在图像上滑动以生成特征图的重要性。App. C 中的详细案例研究。

自定义知识图谱扩展

我们的系统还可以扩展到私人或个性化数据。该代码可以在 https://shorturl.at/axsPd 中找到。在本节中,我们展示了它在两个复杂领域(法律和医疗)中以zero-shot零样本方式创建知识图谱的能力。
英国立法数据。第一个使用案例演示了系统生成有关英国法规的 KG 的能力。作为知识来源,我们使用 发布的数据集 UK Legislation。我们在图 1 中说明了我们的系统生成的子图在 App. D .回答这个问题可能会有所帮助:“哪些立法为与生物柴油相关的'消费税'提供了定义,哪些法案引用了这项义务?该系统将允许用户识别法律规定、定义和受影响的法规之间的关系。
日本医疗保健数据。第二个用例是基于 MMedC(日语)语料库的日本医疗领域,包括用日语编写的有关医疗和医疗保健技术的研究和产品信息。图 1 所示的小子图在附录 D 中揭示了化疗、造血干细胞移植和 CAR-T 细胞疗法是治疗血液肿瘤的方法。此外,CAR-T 细胞疗法还用于治疗非霍奇金淋巴瘤和血液系统恶性肿瘤。例如,这样的子图有助于回答这个问题 “什么治疗方法用于解决血液肿瘤和相关血液病症?”
有关数据集、应用程序和可视化的更多详细信息,请参阅 App. D。

结论和未来工作

AGENTiGraph 提供了一种新颖的知识图谱交互方法,利用自适应多智能体系统来弥合 LMM 和结构化知识表示之间的差距。我们的平台在任务分类和执行方面明显优于现有解决方案,展示了它在不同领域彻底改变复杂知识管理任务的潜力。未来的工作将增强多跳推理,优化响应的简洁性和完整性,并从用户交互中开发持续学习。

想要了解更多资讯,请扫描下方二维码,关注机器学习研究会

                                          


转自:数据派THU


机器学习研究组订阅
机器学习研究会由百度七剑客雷鸣先生创办,旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课,广泛的和高校、企业、创业、VC开展合作,自身也参与优秀AI项目的投资和孵化。
 最新文章