今天分享的论文来自ECCV2024 best paper,ACL2024等。
CHASE-SQL: Multi-Path Reasoning and Preference
Optimized Candidate Selection in Text-to-SQL
arXiv2024
为了应对文本到 SQL 任务的大语言模型 (LLM) 性能挑战,我们引入了 CHASE-SQL,这是一种采用创新策略的新框架,在多代理建模中使用测试时计算来改进候选生成和选择。CHASE-SQL 利用 LLM 的内在知识,使用不同的 LLM 生成器生成多样化且高质量的 SQL 候选对象,其中:(1) 分而治之的方法,在单个 LLM 调用中将复杂查询分解为可管理的子查询;(2)基于查询执行计划的思想链推理,反映数据库引擎在执行过程中采取的步骤;(3) 独特的实例感知合成示例生成技术,该技术提供针对测试问题量身定制的特定few-shot examples。为了确定最佳candidate sql,采用选择代理通过与微调的LLM进行成对比较来对candidate sql进行排名。事实证明,这种选择方法比其他方法更稳健。所提出的生成器-选择器框架不仅提高了 SQL 查询的质量和多样性,而且优于以前的方法。总体而言,我们提出的 CHASE-SQL 在著名的 BIRD Text-to-SQL 数据集基准的测试集和开发集上实现了 73.0% 和 73.01% 的最先进执行精度,使 CHASE-SQL 成为顶级提交排行榜(在提交论文时)。
论文链接
https://arxiv.org/abs/2410.01943v1
Overview
CHASE-SQL 框架具有值检索和使用选择代理来改进在生成候选中对答案的选取,并通过修复程序来提供反馈以优化输出。
Experiments
使用 Gemini1.5pro 的 CHASE-SQL 在 BIRD 开发集上实现了 73.01% 的准确率,在 BIRD holdout测试集上实现了 73.0% 的准确率,实现新的最佳性能。CHASE-SQL 在 Spider 测试集上实现了 87.6% 的执行精度,将其置于 Spiderdataset 的第二种方法中,这突出了 CHASE-SQL 的强泛化性。
Minimalist Vision with Freeform Pixels
ECCV2024
本文介绍了一种极简主义视觉系统,可以使用最少数量的像素来完成视觉任务。不同于传统相机使用的方形像素,极简主义相机采用可以是任意形状的自由形式像素,来增加其信息内容。该系统的硬件可以被建模为神经网络的第一层,后续层用于推理。通过训练来确定自由形式像素的形状,这些像素由光电探测器和光学掩模实现。另外,设计了几个应用案例,如监测室内空间(8个像素)、测量房间照明(8个像素)和估计交通流量(8个像素),性能与使用数量级更多像素的传统相机相当。极简主义视觉的两个主要优势:保护场景中个体的隐私,因为所捕获的信息不足以提取视觉细节。由于测量次数很少,系统可以完全自供电,无需外部电源或电池。
论文链接
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08113.pdf
Framework
作为网络一部分的极简相机结构:(a) 自由曲面像素内的光学效应包括由于掩模引起的衰减、探测器的方向响应及其有效区域。(b) 探测器输出被增益放大,被读出和量化噪声衰减,并被探测器的有限动态范围削波。(c) 自由曲面像素的输出 pf 被馈送到推理网络,该网络使用相机所有像素的输出来生成任务输出
Experiment
与baseline相比,实验结果证明了方法的有效性。
EWEK-QA:Enhanced Web and Efficient Knowledge
Graph Retrieval for Citation-based Question Answering Systems
ACL2024
新兴的基于引文的QA系统越来越受到关注,特别是在生成式人工智能搜索应用中。从准确性(信息的完整性)和效率(及时提取信息)两方面来看,提供给这些系统的提取知识的重要性至关重要。在这方面,基于引文的QA系统有两个缺点。首先,他们通常只依赖网络作为提取知识的来源,增加其他外部知识来源会影响系统的效率。其次,web检索到的内容通常是通过一些简单的启发式方法获得的,比如固定长度或断点,这可能会导致信息分裂成碎片。为了缓解这些问题,本文提出了增强的web和高效的知识图谱(KG)检索解决方案,以丰富提取的知识馈送到系统的内容。这是通过设计一个自适应的网页检索器,并以有效的方式合并KGs三元组来完成的。本文使用一套全面的定量和人类评估实验,证明了ewek - qa在开源的最先进(SoTA)基于网络和KG基线模型上的有效性。
论文链接
https://arxiv.org/pdf/2406.10393
Framework
EWEK-QA,ToG和 WebGLM的pipeline的比较。EWEK-QA 利用两种知识模态,能够使用一次 LLM 调用正确回答两种问题类型。ToG 需要昂贵的调用,WebGLM 完全依赖于 Web,这使得它不适合多跳推理问题。
Experiment
EWEK-QA在使用增强的web和高效的知识图谱(KG)检索解决方案能够有效提升Hits@1 accuracy,以及人工评估正确率。
写作总结
论文1在以往的Text-to-SQL任务中,大多数论文通过提高temperature来生成多种SQL,以增加SQL生成的多样性,但这种方法无法保证生成SQL的质量。而该论文提供了三种高质量的prompt来实现多路径SQL生成,为构建候选池提供了新思路,并提出了一种从候选池中挑选最佳SQL的方法,在BIRD榜单上达到了SOTA水平。
论文2在第一部分 Why Minimalist Vision? 中清晰地介绍了研究动机——找到给定视觉任务所需的最少数量的自由形态像素,第三部分通过图示形象地介绍了传统像素和自由形式像素的区别,实验部分通过折线图展示了使用自由形态像素的极简相机相对使用方形像素的传统相机的优势
论文3引言部分详细描述了研究背景,包括大型语言模型在问答任务中的应用及其局限性。并且清晰地定义了研究旨在解决的问题,即如何提高问答系统的准确性和效率。结果讨论部分不仅呈现了数据,还对结果进行了深入分析,解释了EWEK-QA系统性能提升的可能原因。
The End
VLRLab
分享者:曹振彪 王心瀚 王资洋
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场