Tell Me More! Towards Implicit User Intention
Understanding of Language Model Driven Agents
arXiv2024
文章指出,尽管目前Agent在执行任务和策略规划方面表现出色,但在澄清问题和把握精确用户意图方面存在不足。为此,文章提出了一个新的基准测试Intention-in-Interaction (IN3),旨在通过显式查询来检查用户的隐含意图。研究团队还提出了在代理设计中加入模型专家作为上游模块,以增强用户-代理交互。通过实证训练和评估,他们展示了Mistral-Interact模型在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的代理执行目标以及最小化冗余工具使用方面的能力,从而提高了整体效率。
论文链接
https://arxiv.org/abs/2402.09205v2
Overview
如图所示,通过人工编写的种子任务,该模型以迭代方式生成新任务来扩充数据集,同时从数据集中抽取演示作为新示例,以便自己执行下一轮生成。在 GPT-4 的帮助下对每个任务的模糊性、缺失细节以及每个细节的重要性级别和潜在选项进行人工注释。GPT-4 将首先指出任务的模糊性和潜在的缺失细节以及选项和重要性级别,而人类注释者则以这些为参考,并根据自己的观点和意图对其进行调整。
Experiments
实验总结了Mistral-Interact 的优点。1.更好地了解用户判断。2.用户意图的全面总结。3.增强的模型-用户交互体验。
CHESS: Contextual Harnessing for Efficient SQL Synthesi
arXiv2024
文章主要提出了一种新颖的文本到SQL生成方法,称为CHESS。该方法针对复杂、真实世界的数据库,尤其是如何有效集成数据目录和数据库值以生成准确的SQL查询。三阶段设计:将文本到SQL任务分为实体与上下文检索、架构选择和SQL生成三部分,确保每个阶段都有高效的检索和架构选择策略,从而提高SQL查询的准确性。层次化检索方法:通过关键字提取、局部敏感哈希(LSH)索引和向量数据库,提出了分层检索机制,能够从大规模数据库中快速找到相关的数据库值和上下文信息。
论文链接
https://arxiv.org/abs/2405.16755
Framework
通过为 LLM 提供每项任务所需的最少但足够的信息,保持最低充足性。这是pipeline所有模块的关键功能。最关键的是,在 SQL 生成阶段,尝试识别并仅将生成 SQL 查询所需的列传递给模型。
Experiment
在BIRD上结果显示,模型使用论文方法能够实现最佳的执行准确性。并且开源 LLM 获得了最高的性能。论文方法在Spider测试集中的 2,147 个样本上实现了 87.2% 的执行准确率排名第二,这强调了方法在不同数据库中的稳健性。
CogAgent: A Visual Language Model for GUI Agents
CVPR2024
论文介绍了一种名为CogAgent的新模型,它是一个拥有180亿参数的视觉语言模型,专注于GUI的理解与导航。该模型通过利用低分辨率和高分辨率的图像编码器,能够处理分辨率为1120x1120的输入,这使得它能够识别出页面上的细小元素和文本。作为一款多功能的视觉语言模型,CogAgent在五个文本丰富的和四个通用的视觉问答基准测试中达到了最先进水平。仅仅依靠屏幕截图作为输入,CogAgent就在PC和Android的GUI导航任务上超越了那些依赖于提取的HTML文本的LLM方法,比如Mind2Web和AITW,从而推动了这一领域的发展。
论文链接
https://arxiv.org/pdf/2312.08914v2
Framework
如图所示,高分辨率的跨模块充当了更高分辨率输入的新分支,它接受 1120 x1120 像素的图像。与原来的低分辨率输入分支不同,高分辨率跨模块采用了更小的预训练视觉编码器,并使用小隐藏尺寸的交叉注意力将高分辨率图像特征与 VLLM 解码器的每一层融合在一起,从而降低了计算成本。
Experiment
对于通用 VQA评估,CogAgent 在两个数据集上都获得了最先进SOTA结果。对于文本丰富的VQA,CogAgent 在 6 个基准测试中的 5 个上取得了最先进的结果,显著超越了一些通用模型。
写作总结
论文1先介绍了目前Text-to-SQL的现状,然后说明了目前Text-to-SQL的困难以及相关工作的缺陷,以“Efficient”为中心,引出新构建的pipeline,围绕“Efficient”,介绍自身做了哪些改进,虽然最后没有达到SOTA的效果,但是提供了一种新的Text-to-SQL的思路 。
论文2通过三阶段设计和层次化检索方法,有效集成数据目录和数据库值以生成准确的SQL查询。并且根据实验结果总结出方法的3个优点,层次分明。
论文3探讨了一个智能体中细小图标和文字识别的技术问题,不过,并没有谈到细小图标的识别方案;并且,对于更深入的用户端应用,应当考虑到耗能问题;最后,论文并没有提到其层层结合的思路是如何得来的。在我今后的写作中,可以更加注意解决问题的延展性、耗能研究和研究方法的推导过程。
The End
VLRLab
分享者:魏莱 郑元雷 赵京伟
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场